并不是所有的批次效应都可以被矫正

最近接到粉丝求助,他最近在跟着我B站课程和GitHub代码处理GEO 芯片:

GSE113486 GEO平台 已经进行了log2 转换和 Normalized signal intensity by internal control miRNAs. 我画了他们的箱式图是这样的。不太整齐。我不确定是不是还要进行normalizeBetweenArrays处理。我看你的视频课程是说要样本间要整齐,但是课题组师兄师姐说他们没看这个,直接做差异分析的,所以比较困惑后续处理的细节把握。

箱线图如下:

表达量的整体差异

可以看到,肿瘤样品的表达量整体就比正常对照样品的表达量高出一大截,这样的数据进行后续分析,就会出现大量的上调基因。

因为我一直强调,做表达矩阵分析一定要有三张图,见:你确定你的差异基因找对了吗? ,所以就让粉丝继续摸索,其中PCA如下:

做表达矩阵分析一定要有三张图

可以看到,两个分组是泾渭分明的,这可能是生物学差异,因为肿瘤样品就肯定跟正常组织不一样的啊,也有可能是批次效应。所以我给粉丝的建议是两个策略

  • 第一个策略是直接normalizeBetweenArrays处理,然后走差异分析。

  • 第二是先去除批次效应,然后走差异分析。

建议你比较一下,这两个差异分析的区别。

然后粉丝的行动也很迅速,两三天就回复了邮件,给出了两个摸索结果:

方法一:limma 包的normalizeBetweenArrays

可以看到,直接normalizeBetweenArrays处理其实就是一个quantile的normalization而已,大家可以去看quantile normalization到底对数据做了什么 - 简书,了解一下。

从韦恩图可以看到,没有进行normalizeBetweenArrays处理之前呢,上调基因真的是超级多啊!经过了normalizeBetweenArrays处理之后呢,其中616个上调基因变成了没有显著性改变的基因,然后637个居然由上调基因变成了下调基因,当然了,也有341个基因维持原来的上调属性。

是不是很可怕!!!

方法二:limma 包的removeBatchEffect

粉丝下的这个结论很正确,这个时候使用 limma 的 removeBatchEffect 函数来矫正批次效应,肯定是错的,因为完全没有搞清楚矫正批次效应的统计学原理。

其实几年前我在《单细胞天地》公众号发起过一个谈论,见:到底是批次效应还是真实生物学差异,如果你仅仅是做了两个单细胞转录组样品,想合并这两个数据再后续分析,就面临着两个样品(处理前后的生物学差异)本身的批次效应(不同时间点取样,不同10x上机时间等等)。因为是单细胞,一个样品里面本身就有这成千上万个细胞,可以针对两个样品内部的某些具有不变属性的单细胞来作为锚定,从而比较好的合并两个样品的单细胞转录组数据。

但是,如果是bulk转录组测序,或者表达量芯片,就基本上不可能做到区分具有生物学差异的两个样品的批次效应了。虽然说我在《生信技能树》写过不少相关教程,比如:多种批次效应去除的方法比较,但那样的去除是针对生物学差异与批次效应交叉的情况来去除。比如:

  • 第一个批次:2个处理,2个对照样品
  • 第二个批次:3个处理,3个对照样品

这个时候,就可以使用 limma 的 removeBatchEffect 函数或者 sva 的 ComBat 函数,把批次效应去除掉,然后保留生物学差异供后续的差异分析。

但是如果你的实验设计是:

  • 第一个批次:3个处理样品
  • 第二个批次:3个对照样品

那我就只能奉劝你,对这个数据集说拜拜了!

(0)

相关推荐

  • 差异分析|DESeq2完成配对样本的差异分析

    本文为群中小伙伴进行的一次差异分析探索的记录. 前段时间拿到一个RNA-seq测序数据(病人的癌和癌旁样本,共5对)及公司做的差异分析结果(1200+差异基因),公司告知用的是配对样本的DESeq分析 ...

  • 可能是最出名的TCGA表达相关数据库介绍(一)

    有小伙伴后台留言说想知道 GEPIA 数据库的用法,正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能.所以就趁着这个机会给大家介绍一下GEPIA2吧. 有小伙伴后台留言说想知道 GEPIA ...

  • RNA-seq数据分析最佳策略

    转录组测序技术 (RNA-seq) 具有广泛的应用,RNA-seq数据分析主要步骤包括实验设计,质量控制,reads比对,基因和转录水平的定量,差异基因表达,可变剪接,功能分析,基因融合检测和eQTL ...

  • Microbiome | 批次效应对大鼠尿代谢组和肠道微生物群的影响比尿毒症更大

    推荐:江舜尧 编译:卓求 编辑:十九 伦敦玛丽女王大学威廉·哈维研究中心David William Randall教授等人于2019年9月2日在Microbiome发表题目为<Batch eff ...

  • 校正批次效应

    一般情况下我们最好是在实验设计上就考虑到这一点. 但很多时候,数据分析者往往身不由己. Stanford 大学 在MOOC上面的公开课:PH525x series - Biomedical Data ...

  • 多种批次效应去除的方法比较

    前面我在生信技能树推文:你确定你的差异基因找对了吗? 提出了文章的转录组数据的60个样品并没有按照毒品上瘾与否这个表型来区分,而是不同人之间的异质性非常高,这个时候我提出来了一个解决方案,就是理论上就 ...

  • 关于批次效应矫正后出现负值

    学徒已经陆续出师,是时候把生信技能树的舞台交给后辈了! 下面是YuanSH的分享 首先要了解一下什么叫批次效应 那么如何解决批次效应呢? limma 包中 removeBatchEffect 函数中出 ...

  • 单细胞转录组测序中的批次效应知多少? (上)

    写教程的话,我的优点仅仅是量大,坚持了七年多写了超1万篇教程.但实际上绝大部分都浮于表面,深度不够. 恰好最近看到了一个超级优秀的博客,安排了其中几篇给学徒们翻译和理解,超级值得读! 阅读前面的翻译稿 ...

  • 单细胞转录组测序中的批次效应知多少? (下)

    写教程的话,我的优点仅仅是量大,坚持了七年多写了超1万篇教程.但实际上绝大部分都浮于表面,深度不够. 恰好最近看到了一个超级优秀的博客,安排了其中几篇给学徒们翻译和理解,超级值得读! 阅读前面的翻译稿 ...

  • 多个gsea数据集整合为什么一定要纠结批次效应

    最近有粉丝咨询我多个gsea数据集整合时候的批次效应的处理,我看了看,有affymetrix,agilent,illumina的芯片数据,还有测序的转录组,我勒个去,感觉是在集邮一样,然后邮件附上了一 ...

  • 去除批次效应好,还是RobustRankAggreg优?

    最近参加了生信技能树曾老师的GEO数据挖掘月学徒培养,对一些文章中的GSE数据集走标准化分析流程. 小洁老师在去除批次效应的探索文件里给出了两种方法,一个是用R包limma中的函数removeBatc ...

  • 使用scran包的MNN算法来去除多个单细胞转录组数据批次效应

    多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个 ...