科研 | Nature Communications:t-SNE在单细胞转录组学上的应用

编译:夕夕,编辑:十九、江舜尧。

原创微文,欢迎转发转载。

导读

单细胞转录组学产生了越来越多的数据,其中包含多达数百万个细胞中数千个基因的RNA表达水平。常见的数据分析管道包括降维步骤,用于以二维方式可视化数据,最常使用的方法是t分布随机邻居嵌入(t-SNE)。单细胞转录组学产生的数据集越来越多,其中包含多达数百万个细胞中数千个基因的RNA表达水平。常见的数据分析管道包括降维步骤,用于以二维方式可视化数据,最常使用t分布随机邻居嵌入(t-SNE)执行。它擅长揭示高维数据中的局部结构,但仍然存在一些缺点。本文,作者描述了如何规避t-SNE的缺点,并开发了一套更精确的t-SNE可视化流程。 它包括PCA初始化,高学习率和多尺度相似性内核;对于非常大的数据集,研究人员还使用了基于夸张和下采样的初始化。作者使用已发布的单细胞转录组数据来证明,与一般的t-SNE应用相比,该流程可产生更好的结果。

论文ID

原名:The art of using t-SNE for single-cell transcriptomics

译名:t-SNE在单细胞转录组学上的应用

期刊:Nature Communications

IF: 11.878

发表时间:2019.11

通讯作者:Dmitry Kobak

通讯作者单位德国图宾根大学(Institute for Ophthalmic Research, University of Tübingen, Tübingen, Germany )

DOI号:10.1038/s41467-019-13056-x

实验设计

结果

1. t-SNE保留全局流形
为了阐明t-SNE分析会产生一些误导的分类结果,作者首先使用一个合成数据集进行分析并阐述。该数据集是从15个50维的数据中进行抽样,组成3个明显且不重叠的类(图1)。该数据集表现出典型的单细胞转录组数据的层次结构。两个可视化高维数据的典型方法是MDS和PCA。MDS在计算大量数据的时候存在一些困难,但是他可以很清晰的将数据分为3大类(图1a)。PCA可以应用于整体数据集(图1b)。t-SNE可以清晰的展示全部的15个类,其中10类明显的分离,其他5类有一部分重叠(图1c)。
图 1 合成数据集的分析结果
作者使用KNN、KNC和CPD这3个参数来评价以上各个方法的真实性。结果表明,在保留局部结构方面t-SNE比PCA效果好,但是在保留全局结构方面效果较差。作者的想法是使用三个方法来增加t-SNE的可靠性:多维度相似,PCA初始化和增加学习率。
图1c使用t-SNE困惑度的默认值30进行分析,更大的值会产生不同的结果。t-SNE优化的过程中,增加困惑度的值可能会在可视化时丢失掉一些细节。遵循一个简单的经验,对于任何给定的数据集,作者取1%的样本作为一个大的困惑。作者的度量标准证明与默认的困惑度值相比,KNN减少但是KNC和CPD提高了。已有前人研究结果表明,同时是由多个困惑度值会同时保留局部和全局结构。因此,作者在最终的流程中采用了这种方法。
另一种保留全局结构的方法是使用信息初始化。这种方法是将全局结构嵌入到t-SNE中,在t-SNE优化过程中保留全局结构。结果表明,PCS初始化后虽然KNN结果没有提高,但是KNC和CPD的结果得到的明显提高
作者t-SNE流程的第三个部分是提高学习速率。t-SNE默认的学习速率是η=200。最近有一个用于单细胞分析的python模块,scanpy,将学习速率的值提高到1000。然而,前人研究建议将η设置为η=n/12。因此,作者采用后一条建议,η=n/12。优化后的结果如图1f,结果表明,优化后的结果明显优于默认的t-SNE分析结果。

2. t-SNE分析转录组数据的可靠性
作者使用已发表的数据集(Tasic et al)验证优化后流程的准确性。该数据集是来自成年小鼠大脑皮层的23822个细胞,共分成了133类。作者首先使用了标准的预处理流程。该数据集使用MDS(图2a)和PCA(图2b)可以明显的分为3类,分别为兴奋神经元,抑制性神经元和非神经细胞。这种全局结构在标准的t-SNE分析中是缺失的(图2c),兴奋神经元,抑制性神经元和非神经细胞都被分成了多个相互重叠的类。困惑度的值设置为20,50和80时,生成的结果类似,表明t-SNE对准确结果不是很敏感。相反的,当作者选择困惑度为样本数量的1%时,提高了全局结构(图2d)。PCA初始化也可以提高全局结构(图2e)。最终,作者建议使用多维度相似性(设置困惑度为30),PCA初始化和学习速率为n/12≈2000,会产生一个相对准确的结果。
图 2 已发表的数据集分析结果
3. 在已有的t-SNE上标记新点
一个常规的单细胞转录组任务是将给定的细胞与已有的参考数据集匹配。例如,使用Patch-seq流程对小鼠视觉皮层的抑制细胞进行了patch-clamp电生理记录,随后进行了RNA测序。考虑到上述Tasic et al的数据集更大,很自然的要问,这些Patch-seq细胞应该标记到图2f的什么位置上。
经常有人声明,t-SNE方法不允许样本外映射,即在t-SNE图谱构建完成后不允许在其上添加新的点。然而,有一种简单的方法在已有的t-SNE图谱上定位新的x。对于每一个Cadwell et al. 的细胞作者从Tasic et al.的结果中选择最邻近的10个细胞。接着,作者将这些细胞定位到其最邻近的10个细胞的中位上(图3a)。该结果与已有研究结果一致。需要注意的一点是,新的细胞类型要和参考细胞类型一致。
图 3 样本匹配
作者使用留一法证明以上结果的一致性。作者重复的随机去除了Tasic et al结果中Vip/Lamp5这类细胞中的一个并将其定位会t-SNE图谱。通过100次重复,原始点和定位后的点之间的误差距离为3.2±2.4(图3b),大多数的点都可以定位回原始的类中。可以使用自举发来评估定位的误差。对于每个Patch-seq细胞,作者重复从这些高度变化的基因中选择一个并重复定位100次。这样会产生一系列的定位位点,这些位点的变异越大,这种方法的不确定度越大(图3c)。
4. t-SNE应用于大规模数据集
对于细胞数量远大于100000的数据及,使用t-SNE分析还存在一些挑战。首先,当细胞数量大于1000时t-SNE的分析时间较慢,细胞数量大于10000时,从计算性能上讲并不可行。已有人开发了一种新的t-SNE算法—Fit-SNE来解决这个问题。使用Fit-SNE,作者可以在29分钟内处理有一百万个点的数据量。其次,当细胞数量远大于100000时,使用t-SNE默认的优化参数会得到较差的收敛方案并且嵌入式的连续簇会被分成几部分。已有研究表明,增加学习速率从默认的η=200增加到η=n/12,会阻止簇的分裂并在迭代1000次内会产生一个较好的收敛方案。再次,作者使用将困惑度设置为n/100来保留全局结构。当细胞数量远大于100000时,从计算上来讲不可行。为了克服这个困难,作者假设即使在进行下采样后,全局结构仍然可被检测到。使用方法如下:(ⅰ)对大数据集下采样到可分析的数据量(ⅱ)对采样后的数据进行t-SNE分析(ⅲ)使用最近邻方法将剩余样本点定位到t-SNE图谱上(ⅳ)使用这个结果作为初始化,在整个数据集上运行t-SNE。
作者使用当前两个最大的单细胞转录组数据集来验证这一分析方法。其中一个数据集是来自小鼠胚胎脑组织的1306127个细胞。作者首先选择了25000个细胞(图4a),使用PCA初始化、困惑度设置为n/100=250、学习速率设置为n/12。接着作者使用最近邻方法将剩余样本点定位到t-SNE图谱上。最后,作者使用该结果作为初始化结果,随后将困惑度设置为30,放大系数设置为4,学习速率设置为n/12对所有细胞进行t-SNE分析(图4b)。
图 4 小鼠胚胎脑组织数据
作者通过控制变量法阐明了该流程中每个部分的重要性。省略放大系数会导致簇的极度扩张和全局结构辨识度降低(图4c)。缺少下采样会导致全局结构效果变差(图4d)。默认的t-SNE分析方法随机初始化和放大系数会产生一个交叉的簇分类和存在误差的全局结构(图4e)。
此外,作者还分析了来自小鼠胚胎发育不同阶段的2058652个细胞,如图5。
图 5 小鼠胚胎发育不同阶段数据
5. 与UMAP的比较
最近一种降维的新方法UMAP引起了广泛关注。UMAP声称速度比t-SNE快且能保留更好的全局结构。作者通过使用双核服务器分析10X和Gao et al.的数据发现Fit-SNE1.1是UMAP0.3分析速度的四倍。结果表明,准确的运行时间依靠于分析中各种细节的处理。
为了比较UMAP和作者搭建的t-SNE流程在保留全局结构方面的情况。作者首先使用UMAP分析Tasic et al的数据。作者使用UMAP的默认参数并调整两个关键参数生成一幅类似t-SNE分析结果的图。其KNN、KNC和CPD的值都比作者搭建的t-SNE的值要低。接着作者使用UMAP分析10X和Cao et al的数据发现其结果与t-SNE结果类似,但是UMAP的结果在一些方面存在错误

讨论

实际上,t-SNE并不能总是保持全局性,这是众所周知的局限性之一。的确,这种算法只关心保留局部结构,但通过作者的优化可以最终优化保留全局结构方面的结果。重要的是,与默认情况下使用随机初始化相比,自定义初始化不会干扰t-SNE优化,也不会产生更差的解决方案。
作者表明,可使用较大的困惑度值用于scRNA-seq分析中。实验结果表明,虽然PCA初始化有助于保留宏观结构,较大困惑度有助于保留细观结构。
通常认为t-SNE只有一个参数可以自由调整。其实后台还有很多优化参数(例如学习速率,迭代次数等),并且上文描述了它们对可视化质量产生的巨大影响。作者认为,嵌入大数据集时,可以使用夸张作为一个有用的参数。
作者通过PCA初始化和较大困惑度值来保留数据的全局几何结构。如果全局结构的某一方面在前两个PCs中没有准确捕获到,那可能会失败。的确,在前两个PCs中,可能不会发现一个小的簇。同时,巨大的困惑度会使簇中的点都聚集在一些任意无关的簇中。结果,一些小的簇即使他们初始化的时候在边缘位置也会会被吸入到中间。作者创建的方法并不是保留全局结构的最终解决方案。其中一个原则方法是将一些规则合并,以确保球体集合直接接入这些损失函数,同时确保所生成的算法可能扩展。作者认为这是未来工作的重要方向。同时,作者相信他们的建议将大大改善当前单细胞转录组学研究中使用t-SNE的可视化效果,并在其他领域也可能有所应用。

更多推荐

科研 | PNAS:转录组学揭示急性和慢性饮酒对肝脏昼夜新陈代谢有不同的影响

重磅综述 | Cell:非编码RNAs在肿瘤学中的作用(IF=36.216)

(0)

相关推荐