NBT | CopyKAT : 自动化识别肿瘤细胞，加速肿瘤领域单细胞研究 / 开普饭

背景介绍

目前，单细胞转录组技术已成功应用于解析肿瘤微环境（TME）中正常细胞和肿瘤细胞的亚群和基因表达。同时，随着高通量测序技术的发展，使并行检测数以万计的单细胞转录组信息也成为可能。

然而，大规模肿瘤相关的单细胞转录组数据分析的一个主要挑战是在如何有效地从TME的基质细胞和免疫细胞中区分出肿瘤细胞，使得能更深入的研究肿瘤细胞。前期研究表明，鉴别肿瘤细胞和正常细胞的有效方法为鉴别非整倍体拷贝数（Aneuploid copy number profiles），这是因为非整倍体拷贝数在大多数人类肿瘤中很常见（88%），而在具有二倍体基因组的基质细胞类型中则不存在。

前人在该领域也进行了探索，比如inferCNV和HoneyBadger方法的建立，这些方法可以从足够大的基因组区域的转录组数据中估算基因组拷贝数。然而，这些方法是为分析来自第一代单细胞转录组技术数据而设计的，第一代单细胞转录组技术具有较高的测序深度。但是，这些方法并不适用于新开发的高通量单细胞转录组技术平台的数据分析（如10X Genomics），因为高通量单细胞转录组技术仅对mRNA的3 '或5 '端进行较低深度的测序。此外，以前的方法不能准确地预测染色体断点的基因组位置，也不能根据肿瘤细胞和正常细胞的非整倍体拷贝数对细胞进行分类。

为了应对这些挑战，来自休斯顿卫理公会研究所、德克萨斯大学安德森癌症中心等单位的研究人员开发了CopyKAT，并以长文的形式发表在Nature Biotechnology，题目为 “Delineating copy number and clonal substructure in human tumors from single-cell transcriptomes”。该研究表明，CopyKAT可以应用于人类多种肿瘤的研究，以识别非整倍体肿瘤细胞，并描绘肿瘤细胞中共存的不同亚群的克隆亚结构。

文章发表在Nature Biotechnology

CopyKAT算法概述

在统计学上，CopyKAT将贝叶斯方法与层次聚类相结合，计算单个细胞的基因组拷贝数分布，并从高通量单细胞转录组数据中定义克隆子结构。

首先，单细胞转录组数据的Unique Molecular Identifier（UMI）的基因表达矩阵作为CopyKAT的输入，通过它们的基因组坐标对它们进行排序，并对基因的排列进行注释。之后，用Freeman-Tukey变换来稳定方差，然后采用多项式动态线性建模矫正单细胞UMI计数矩阵中的异常值。

下一步是建立一个高可信度的正常二倍体细胞子集，用来推测正常二倍体细胞的拷贝数基线值。为此，研究人员将所有单细胞集中到几个小的亚群分类中，并使用高斯混合模型估算每个分类的方差。通过严格的分类标准，具有最小估计方差的聚类被定义为“标准的二倍体细胞”。

为了检测染色体断点，他们整合泊松-伽玛模型和马尔可夫链蒙特卡罗迭代生成每个基因窗口的后验均值，然后应用Kolmogorov-Smirnov检验对均值无显著差异的相邻窗口进行合并，然后计算每个窗口的最终拷贝数值，以此作为跨越每个细胞中相邻染色体断点的所有基因的后验平均值。

然后对单细胞拷贝数数据进行分层聚类，以确定非整倍体肿瘤细胞和二倍体基质细胞之间的最大距离。最后，根据聚类信息识别克隆亚群，并计算代表亚克隆基因型的共表达谱，进一步分析其基因表达的差异。

图1. CopyKAT工作流程示意图，来源：Nature Biotechnology

CopyKAT性能的评估

为了评估CopyKAT的性能，研究人员对来自未发生转移的乳腺癌患者的1,480个细胞进行高通量3’单细胞转录组测序（10X Genomics）。然后使用CopyKAT根据单细胞转录组数据计算全基因组拷贝数分布，并将结果与之前发表的一种名为inferCNV的方法进行比较。

研究结果表明，在220 kb的基因组分辨率下，CopyKAT的预测结果与标准参考DNA拷贝数信息具有很高的一致性（皮尔森相关系数为0.82）。inferCNV的预测结果也具有较高的一致性（皮尔森相关系数为0.79）。然而，inferCNV的主要局限性是不能检测染色体断点的具体坐标或拷贝数片段，而CopyKAT则可以实现这些。

图2. CopyKAT与inferCNV性能的比较（一），来源：Nature Biotechnology

接下来，通过在不同基因大小区间的相邻局部区域重复采样，他们进一步计算了从两种方法推断的拷贝数状态与参考DNA拷贝数信息的相对差距。分析结果表明与inferCNV相比，CopyKAT更接近参考DNA拷贝数状态（P < 0.001, t检验）。此外，数据还表明，在5 ~ 500个基因区间内，CopyKAT具有更稳定的表现。

图3. CopyKAT与inferCNV性能的比较（二），来源：Nature Biotechnology

CopyKAT性能的检测：实体瘤中肿瘤与正常细胞的分类

接下来，研究人员将CopyKAT应用于三组之前已经发表的肿瘤研究相关的单细胞转录组数据：5例胰腺癌患者、5例三阴性乳腺癌患者以及5例间变性甲状腺癌患者的3’单细胞转录组测序数据，期待根据CopyKAT预测的拷贝数差异来区分肿瘤细胞和正常细胞。

结果表明，CopyKAT具有很好的区分能力，比如根据5例胰腺癌患者的9,717个单细胞转录组，CopyKAT成功地在所有个体中鉴定出非整倍体肿瘤细胞亚群。预测的肿瘤细胞具有全基因组拷贝数异常，包括频繁扩增的1q、3q、7p、8q、17、19和20以及缺失的3p、6和8p，这与之前的研究报道是一致的。同时，预测得到的非整倍体肿瘤细胞的UMAP投射与表现出高上皮基因得分的细胞亚群共定位，这也体现了这些细胞的肿瘤特性。

图4. CopyKAT可将人类肿瘤中癌细胞和正常细胞分类，来源：Nature Biotechnology

CopyKAT可应用于其他单细胞转录组测序数据

上述数据表明，CopyKAT可以从3’单细胞转录组数据中准确估算拷贝数，那么这种方法是否可以广泛应用于其他测序技术产生的数据呢？比如第一代单细胞转录组测序技术SMART-seq2以及5’单细胞转录组测序技术（10X Genomics）产生的数据。分析结果表明CopyKAT能够成功从这两种测序技术产生的数据中预测出肿瘤细胞，表明了该算法的普遍应用性。

图5. CopyKAT应用于不同单细胞转录组测序技术来源数据，来源：Nature Biotechnology

推测乳腺肿瘤的克隆亚结构

为了描绘肿瘤细胞的克隆亚结构，并将癌症基因型与表型联系起来，他们将CopyKAT应用于三阴性乳腺癌患者来源的单细胞转录组数据。然后根据拷贝数差异对推断的拷贝数分布进行聚类，以识别克隆亚结构，并依据亚克隆的共表达图谱进行差异分析，以确定亚克隆之间的表型差异。

结果表明，CopyKAT能够区分出肿瘤细胞的亚克隆结构，比如克隆A的亚克隆扩增（4p, 7q, 9p13.2-q22.2和17q）；克隆B的亚克隆扩增（3p26.3-p25.1, 6q, 7p, 11q，Xp11.23和Xq）。

差异分析在两个亚克隆中共鉴定出329个差异表达基因，在亚克隆A中，包括雄激素反应和上皮-间质转化等特征显著富集；并且这两个预测出的非整倍体亚克隆在降维图上也对应不同的细胞亚群。因此，这些结果表明，CopyKAT可以从单细胞转录组数据中解析肿瘤的克隆拷贝数亚结构，并识别出亚克隆的差异。

图6. 三阴性乳腺癌单细胞转录组数据的克隆亚结构预测，来源：Nature Biotechnology

NBT | CopyKAT : 自动化识别肿瘤细胞，加速肿瘤领域单细胞研究

相关推荐