了解生物信息学分析?
生物信息学分析大致可以分为三个境界:
1、只会机械的套用已有的方法,对算法和原理一无所知,无法运用结果解释分 析生物学问题;
2、了解生信检验的基本原理(作者在发明它时,最初的构想、原型、启发), 可以根据实际情况选择不同的分析算法,采用最优解,能够解释生物学问题;
3、能够自由的组合、拼接已有的算法,必要时创造想要的算法。 回到芯片测序结果分析这个问题,去除芯片数据质量控制(这部分其实相当复杂), 接下来就是差异基因筛选和基因功能注释分析了。基因功能注释属于芯片分析流 程中最末端的生物学解读部分,相当于是临门一脚吧。这部分也是整个分析流程 中最为灵活的部分,虽然它也有自身的一些套路。
生物功能富集检验的方法(分三代):
这三种方法本质上的区别在于输入数据的形式
1、ORA:这是我们最常用的一种方法,这类方法以 Fisher's exact test 为代表。 这类方法最为简单, 它只需要输入一个由差异基因构成的列表,这个列表中所 有的基因都是平等的,没有权重或者顺序。
2、FCS:这类方法以 GSEA 为代表,它不光需要输入给定基因列表,而且需要赋予每个基因 一个感兴趣的统计量,一般来讲,那就是 t 统计量或者 Fold Change 之类,整个输入,是个排序列表。
3、PT:这类方法以 SPIA 为代表。它的输入需要在第一代或第二代方法的基础 上,结合实际的生物信号通路的拓扑结构,就是需要提供例如,C 基因在 A 和 B 基因上游,激活 A,且抑制 B,这类信息。这类方法非常理想,但是存在很多问 题,比如 pathway 的数据库尚未完善,生物系统的 pathway 是在不同条件下是不断变化的。
赞 (0)
