科研| Cancers:结直肠癌粪便宏基因组学与代谢组学的综合分析
编译:阿温,编辑:谢衣、江舜尧。
原创微文,欢迎转发转载。
虽然结直肠癌(CRC)是发达国家的第二大死亡原因,但目前对疾病早期阶段的诊断测试并不理想。我们对224个粪便样本进行了UHPLC-MS代谢组学和16S微生物群分析,以确定晚期腺瘤(AD)和CRC的早期生物标志物。我们展示了CRC粪便中胆固醇酯和鞘脂的水平差异。我们发现在CRC患者中梭菌属、微单胞菌属、葡萄球菌属增加,而毛螺菌属减少。最后我们发现安德克氏菌属在AD患者粪便中更丰富。代谢组学和微生物组数据的整合揭示了细菌与宿主之间的紧密相互作用,并且优于FOB试验对CRC的诊断。本研究确定了潜在的早期生物标志物,其性能优于目前的诊断工具,并认为在CRC发病机制中肠道微生物发挥稳定作用。
论文ID
原名:Integrative Analysis of Fecal Metagenomics and Metabolomics in Colorectal Cancer
译名:结直肠癌粪便宏基因组学与代谢组学的综合分析
期刊:Cancers (Basel)
IF:6.162
发表时间:2020.5.2
通讯作者:Juan Manuel Falcón-Pérez
通讯作者单位:CIC bioGUNE研究中心
实验设计

实验结果
1. 临床样本
本研究采用三个批次的临床样本,来自于结肠预测研究和加利西亚南部健康研究所的生物库。这项研究是一项多中心且具有代表性的研究,旨在根据可用的生物标志物、临床和人口学数据,在症状性患者中进行新的CRC诊断测试,该研究得到了加利西亚临床研究伦理委员会的批准。图1总结了每个收集的批次中和临床状态中样本的分布情况。
与健康组相比,男性个体占据AD和CRC的主要患病率(62.23%, 59.60% vs. 44.74%),并且与对照组相比男性个体年龄较大(67.99, 70.16 vs. 64.62岁)。这两组患者与对照组相比也表现出FOB较高,且CEA和结肠预测风险评分也较高。
我们总共获得了245个代谢组学样本和224个微生物组分析样本。我们首先对粪便样品进行了UPLC-MS分析,同时应用了多变量和单变量分析。然后,我们分析了相同样本的微生物群,之后我们将这两个数据集结合起来以描述每个组学所识别的变化,并且将这两种数据类型结合起来可以提供一个潜在的诊断模型。

2. 代谢组学分析
考虑到所有样本均在一起,我们进行了几个比较:对照与病例样本(AD和CRC合并),对照组(C) vs. AD,C vs. CRC,AD vs. CRC。主成分分析(PCA) (图2A)没有识别到任何样本的特定聚类。然而,偏最小二乘判别分析(PLS-DA)能够从其他两组中区分CRC样本,但并没有显示出它们之间的显著差异(图2B)。通过对模型准确性的分析而证实了这种判别能力,表明只有C vs. CRC的PLS-DA模型能够显著区分(ANOVA, p值0.013),而其他模型没有此能力(C vs. AD p值1, AD vs. CRC p值0.2)。这三组PLS-DA模型都没有显示出任何判别能力(p=1)。PLS-DA负荷图表明,这种分离的代谢物主要是胆固醇酯(ChoE)和鞘磷脂,且对甘油磷脂酰胆碱(PC)有一定的影响。以成对的方式进行PLS-DA分析,发现与C组和AD组相比,CRC明显不同(图2C)。C和AD之间的比较表明C和AD之间的区分不太清楚(图2C)。
在单变量分析方面,我们发现CRC样本与C或AD样本相比,呈现出相同的差异代谢物(图2D)。相反,C组和AD组的比较表明,这两组没有显著的代谢差异,尽管AD组呈现出较高水平的三酰甘油代谢物。
与C和AD样品相比,CRC样品中ChoE和鞘磷脂类代谢物普遍呈较高水平。在AD和CRC之间,我们还发现了CRC样品中PC代谢物呈较高水平,并且在二酰甘油代谢物中也存在差异。这些结果与我们CRC粪便代谢组学的研究结果一致,展示出类似的变化。
然后,我们分析了代谢组学结果如何与临床数据相关联,发现三酰甘油与年龄呈负相关、ChoE和鞘磷脂与FOB和钙卫蛋白相关。将代谢物映射到不同的数据库,显示CRC和其他样本组之间的代谢途径发生了大量变化。其中,一些与脂质代谢有关的途径,以及与免疫系统激活和致病性大肠杆菌感染有关的途径,这或许与CRC患者的微生物改变有关。将已鉴定的代谢物映射到大肠杆菌KEGG数据库中,发现它们主要与3条途径有关,其中两条与脂质(鞘脂和甘油磷脂)代谢和阳离子抗菌肽(cAMP)抗性途径有关,所以表明与细菌膜成分存在潜在的关联。

3. 微生物组分析
从231个粪便样本(77个C、65个AD和89个CRC)中获得DNA。虽然每个组样本使用冻干粪便样品量的平均值不同,但这个因素没有造成差异(ANOVA,p值0.087)。从表面上看,获得的DNA浓度在样品组之间没有差异。最初使用的样品量与获得的DNA浓度之间没有相关性。对224个样本进行测序,共产生了7,762,116个读数,平均分布在34,652.30个序列/样本中。在解复用和质量控制的步骤之后,6,221,946个序列仍在研究中(80.37%)。这些序列分布于17,641个特征中(操作分类单元,OTUs)。
我们用不同的指标分析了α和β的多样性。通过诊断在未注释的OTUs组成中测量Bray-Curtis距离指数上进行PCoA,没有显示任何特定的样本聚类(图3A)。对Bray-Curtis距离矩阵的PERMANOVA分析表明,样本组之间的粪便微生物群的组成不同。具体来说,配对PERMANOVA分析显示,粪便微生物群能区分CRC样本组和其他两样本组,而C和AD粪便微生物组成没有差异。对已有命名的微生物进行Bray-Curtis分析,显示了同样的结果。值得注意的是,有监督的PLS-DA分析能够完全区分每个样本组,这与PCoA的PERMANOVA结果一致(图3B)。
测量α多样性揭示了与上述相同的模式。与其他两组样品相比,CRC表现出差异,C和AD在微生物组成丰富度上没有差异。有趣的是,与其他C组和AD组相比,CRC组微生物组成更丰富,鉴定的OTUs差异性更高。无论哪种方法,一个更平衡的多样性指数作为Shannon对任何一个样本组都不重要。因此,虽然在CRC样本中发现了更多不同的菌属,但细菌没有能高于其他组样本的。
然后,我们对17,641个OTUs进行了分类分析,只有645个未被分类,至少在门水平(3.66%)。在我们的分析中没有发现古细菌。因此,在OTUs分类中,我们鉴定了15个门,27个等级,45个阶,77个科,172个属和166个物种。我们决定研究三个样本组之间不同门属的丰度差异。首先,我们通过ANOVA试验研究了三个样本组之间哪些门是有丰富差异的,发现了符合此标准的三个门:拟杆菌门、硬壁菌门和梭杆菌门。为了更好地阐明这些丰度差异的来源,我们使用了Tukey’s HSD检验,确定了大多数差异是源于CRC样本组(表1)。因此,与C相比,这三个门在CRC中均有差异,而只有两个门(拟杆菌门和硬壁菌门)在C组和AD组之间有统计学差异,梭杆菌门在C组和AD组之间没有差异。在AD和CRC微生物组成之间没有发现不同的门。

三个样本组均表现出相似的门丰度模式。拟杆菌门是第二个最丰富的门,与C组相比,在AD和CRC患者中均增加,蛋白菌门和其他门紧随其后(图3D)。有趣的是,梭杆菌门主要存在于CRC群体中,在C组和AD组中几乎没有丰度(图3E)。最后,我们研究了硬壁菌门:拟杆菌门比率的变化,这在AD和CRC患者中减少(图3E),并已报道在代谢性疾病中被改变。

为了鉴定菌属的差异,我们使用SIAMCAT工具来检测我们是否能识别细菌属与混杂因素性别、样品批次及FOB之间的任何关联。使用0.05显著性阈值,我们无法识别任何与样本性别相关的属。在分析与FOB的潜在关联时,我们发现两个属可能与FOB浓度有关,即微单胞菌属和消化链球菌属。在样品批次之间的差异中,我们发现在样品批次3中,有几个属明显有差异:葡萄球菌属、双歧杆菌属、梭菌属02d06、巨球型菌属、蕨类植物梭菌属、臭气杆菌属和互养菌属,但对葡萄球菌属最明显。然后,我们试图确定临床样本组之间属丰度的潜在差异。为了达到这一目的,我们进行了三组比较:C vs. CRC, C vs. AD and AD vs. CRC。健康对照组和腺瘤组粪便微生物的属丰度无显著性差异。
最后,我们还利用ALDEx2 R语言包,通过成分数据分析,研究了三个样本组在属水平上的差异。C与AD患者没有任何显著性差异。与先前使用SIAMCAT工具的方法一致,C与CRC的比较表明,在CRC患者中,三个属显著性过高,即梭菌属、葡萄球菌属和微单胞菌属。同时发现4个属在同一病人中减少,三种毛螺菌属(粪球菌属、布劳特氏菌属和梭菌属)和链球菌属(图4B)。在AD与CRC比较中发现葡萄球菌属和微单胞菌属的丰度都有所增加,而梭菌属没有显著差异,但在CRC中仍有较高的趋势。在CRC中,我们再次发现了三种毛螺菌属,与之前相同的粪球菌属和布劳特氏菌属,还有Dorea属,它们在C和CRC比较中没有发现明显的差异。我们还发现,与AD个体相比,CRC患者中科里氏杆菌科安德克氏菌属的代表性不足,它不能作为C和CRC患者之间的差异(图4C)。图4D概述了使用ALDEx2技术识别的不同丰度。

总之,结合ALDEX2方法和SIAMCAT方法的数据,发现三个样本组中有16个属存在差异。我们研究了这16个细菌属的丰度是如何随着疾病发展而变化的,从健康对照到CRC阶段。我们将CRC样品分为五组,这取决于样品采集时刻的CRC所处阶段。根据现有的临床数据,每组进行比较分析的样本数是74 C、62 AD、3 CRC-0、22 CRC-I、22 CRC-II、30 CRC-III和6 CRC-IV。这一分析证实,与C和CRC样本组相比,AD样本组的安德克氏菌属相对丰度较高(图5)。对于CRC患者的大多数属(布雷德菌属、梭菌属、丁酸弧菌属、消化链球菌属、葡萄球菌属、微单胞菌属和月形单胞菌属),我们发现了一种趋势,即所有这些属随着疾病的恶化而增加,因此在CRC晚期阶段比早期阶段更为丰富。CRC患者中属减少呈相反趋势,大部分来自毛螺菌科,其中相对丰度从健康对照到疾病的每一步都逐渐下降,包括AD组。最后,与C和AD样本相比,CRC中的链球菌减少(图5)。

4. 微生物组和代谢组学数据的结合
4.1 多组学
我们使用CLR归一化属数据和使用log对数归一化代谢组学数据,将其用于多组学分析。利用该工具,我们将两个组学数据集结合起来进行PLS-DA分析,以分析组合数据的鉴别能力(图6A)和两者各自单独的鉴别能力(图6B)。
在这两种情况下,我们看到所有样本组都呈现出高度多样化的群体,但CRC样本与其他两个样本组分离开并自我聚集在一起。结合两个组学数据进行sPLS-DA分析,显示C和AD样本占据了相同的空间,从而反映了这些样本之间的差异较小,而CRC样本在第一成分的正区域占据了更多样化的空间范围(图6A)。单独PLS-DA分析表明,不同样本组分布相对不同,这取决于所分析的数据集。这两种技术都能够很好地区分CRC样本与C和AD样本(图6B)。
然后,我们决定使用HAIIA来研究代谢组学和宏基因组学数据之间的相互联系,HAIIA是一个专门用来识别两个不同数据集之间的线性和非线性关联的工具。与混合组学分析一致,HAIIA确定了几个与不同代谢物相关的属(图6C)。值得注意的是,通过几种方法发现那些细菌在C、AD和CRC组之间存在差异,并且与代谢物类别相关,还发现这些代谢物主要源于样本组之间的差异和判别。所以说明梭菌属与任何细菌的相关性都强,特别是与胆固醇酯和鞘磷脂代谢物的相关性。该属与其他报道的发生变化的属聚集在一起,这些属也与代谢物类别呈正相关。对于这些代谢物,我们还发现它们也与CRC患者中减少的属呈负相关。除上述代谢物外,CRC中减少的属与二酰基磷脂酰胆碱(DAPC)也呈负相关。有趣的是,我们还观察到三酰甘油与脱硫弧菌属和互养菌属也呈负相关,表明这些细菌对三酰甘油代谢的调节作用。最后,锥形杆菌属和罗斯氏菌属的趋势也相反,对于那些与罗斯氏菌属呈正相关的代谢物而与锥形杆菌属呈负相关,主要是三酰甘油和DAPCs。
4.2 微生物群:代谢组学预测模型
最后,我们决定将微生物群和代谢组学数据结合起来,生成LASSO逻辑模型,以测试这种组合的潜在预测能力。为了使模型尽可能简单,并看到代谢组学分析显示出与我们小组先前发表的结果相似,于是我们在模型中使用了鉴别的16个属和6个代谢物。
微生物组指纹模型还对C vs. CRC和AD vs. CRC判别模型的两个数据集的组合发挥作用,但当比较C与AD样本组时,预测能力就丧失了。如之前所述,当在模型中加入FOB测量时,性能略有下降(图6D)。C vs. CRC模型的微生物组模型的中位数AUC为0.887,当与代谢物指纹图谱结合后,略微提高至0.928。AD vs. CRC模型中位数AUC为0.870,当添加代谢物后,AUC提高到0.923。
我们发现在模型中FOB测量并没有提高它们的性能,所以我们决定分析FOB在不同组样本中的分布。我们观察到CRC与C和AD都有很大的不同,但AD样品中FOB测量的分布更广泛,因此与C组之间没有显著性差异(图6E)。这种FOB水平在AD患者中的分布可能解释了当FOB作为协变量时模型预测能力的降低。

讨论
原文网址:https://doi.org/10.3390/cancers12051142

