科研 | Nature Communications:利用RNA测序分析多个人体组织的免疫球蛋白谱

编译:怀瑾,编辑:夏甘草、江舜尧。

原创微文,欢迎转发转载。

导读

既往针对特定免疫球蛋白(Ig)受体谱的分析方法成本低且耗时长,本研究提出一种可快速、准确地分析免疫球蛋白谱(包含互补决定区3,CDR3)的计算方法ImReP,利用常规RNA测序数据即可实现。基于ImReP和基因型-组织表达(GTEx v6)数据,本研究收集了360万个免疫球蛋白序列,即称为免疫球蛋白全谱(TAIR),广泛涵盖未曾报道过免疫球蛋白谱的组织类型。同时评估免疫相关组织间的相似性和免疫球蛋白克隆型在组织间的流动性。简言之,本研究获得的TAIR是涵括CDR3序列和组织类型的最大集合之一,将成为免疫疾病研究的重要资源

论文ID

原名:Profiling immunoglobulin repertoires across multiple human tissues using RNA sequencing

译名利用RNA测序分析多个人体组织的免疫球蛋白谱

期刊:Nature Communications

IF:11.878

发表时间:2020.6

通讯作者:Serghei Mangul

通讯作者单位:加州大学定量和计算生物学研究所

DOI号:10.1038/s41467-020-16857-7

背景

适应性免疫的一个重要功能是对特定抗原产生保护性记忆反应。B细胞通过免疫球蛋白(Ig)识别其特异性抗原,免疫球蛋白谱多样性是个体免疫系统抵御多种潜在病原的关键。典型的免疫球蛋白谱由一个免疫球蛋白重链(IGH)和两个轻链κ(IGK)和λ(IGL)组成。Igs通过体细胞重组实现多样化,涉及可变区(V)、多样性区(D)和连接区(J)基因片段的随机组合,并在重组连接处插入或删除未经模板化的碱基(图1a),由此产生的DNA序列被翻译成抗原受体蛋白。上述过程使任何特定个体的免疫球蛋白库都能发展出惊人的多样性。此外,B细胞活化后,体细胞高频突变以及重链和轻链的配对进一步促进免疫球蛋白多样化。同型转换导致B细胞功能多样性。
迄今已经开发出多种用于重建免疫球蛋白受体的工具。基于RNA-Seq数据的蛋白谱分析通常起始于将读取的数据映射到国际免疫遗传学(IMGT)数据库的种系V、D和J基因,且利用不同的算法(如MiXCR, IMSEQ和IgBlast)进行映射。所有方法都根据CDR3的定义来确定每次读取中CDR3序列的边界。序列分析的最后一步是纠正已组合的PCR克隆和测序错误。为此MiXCR和IMSEQ对组合的克隆进行聚类,并为每簇报告一个一致的序列。IgBlast跳过纠错步骤,直接输出推断的CDR3序列。大多数方法使用比对或组合推断CDR3s,并将读取的数据与V和J基因比对。相比之下,ImReP程序提供J基因前缀和V基因后缀的读取前缀和读取后缀之间的匹配,而不需要校准。为此,ImReP能够显著地减少运行时间并简化所需的计算资源。

结果

1.ImREP是分析免疫球蛋白(Ig)谱的方法
将ImReP应用于8555个样本的0.6万亿RNA-Seq读数(92Tbp),以组合成Ig受体的CDR3序列库,RNA-Seq数据由基因型组织表达项目(GTEx v6)产生。首先研究者利用短读数比对器(GTEx执行)将RNASeq读数映射到人类参考基因组中(图1),然后鉴别跨越免疫球蛋白受体V(D)J连接区和组合的克隆型(一组CDR3氨基酸序列相同的克隆)的读数。将CDR3定义为一串始于连接点左侧的半胱氨酸,并止于连接点右侧的苯丙氨酸或色氨酸的氨基酸序列。此时,ImReP可利用0.02万亿个高质量读数(图1a)。ImReP是一种组合CDR3序列并检测相应V(D)J重组的两步无校准方法(图1b)。第一步从已/未映射的RNA-Seq读数中准备候选受体读数,然后将Ig基因座的部分映射和未映射读数合并到一组候选受体读数中,这些作为ImReP的输入。扫描读数中的氨基酸序列,并确定一个公认的CDR3作为数据库读数的一个子串,起始于半胱氨酸(C)并止于苯丙氨酸(F)(IGK和IGL),但IGH止于色氨酸(W)。每个读数分为三个部分:前缀、CDR3和后缀。用公认的CDR3进一步检查读数,评估V和J基因的重叠情况。Ig受体可变基因从IMGT(版本3.1.17)导入,研究者利用读数起始部位的C(半胱氨酸)和V基因的C为基点,以此与读数前缀和V基因匹配。类似地,利用读数结尾的F(或W)和J基因的F(或W)为基点来匹配后缀和J基因。第二步,ImReP利用包含部分CDR3序列和单个基因片段(V或J)重叠区的读数,然后用免比对的程序分别确定V或J基因与读取前缀或后缀之间的匹配情况。ImReP使用后缀树技术进行匹配,具有至少15个核苷酸重叠的匹配读数才用于组合成全长CDR3。研究者进一步纠正了组合的CDR3中PCR和测序错误,ImReP集群使用CAST算法将CDR3组成一簇,反复重复集群过程直到每个集群内的平均反向编辑距离小于用户定义的阈值。每簇一致的序列报告作为正确的CDR3序列。
本文方法部分提供了使用ImReP实现方法的详细描述。ImReP可在https://github.com/Mangul-Lab-USC/imrep免费获取。目前,ImReP支持人类和小鼠Ig受体谱分析。
图1.ImReP概览
2.利用RNA-Seq进行免疫球蛋白谱研究的可行性
为了验证其可行性,研究者假定RNA-Seq数据为转录组读数和免疫球蛋白转录产物读数的混合。Ig转录本基于V、D和J基因片段的随机重组(从IMGT数据库获得),在重组连接处插入非模板片段。通过将ImReP应用于上述混合数据来评估ImReP从RNA-Seq混合物中提取CDR3相关读数的能力。ImReP能够从RNA-Seq混合物中识别出99%的CDR3源代码,这表明它是一个分析免疫相关组织RNA-Seq样本的有效工具。接下来,研究者将ImReP与其他用于组合Ig受体的方法进行比较,同时研究从RNA-Seq数据中组合Ig序列所需的测序深度和读取长度。结果表明,读取长度和测序深度对CDR3序列组合的精确召回率有重大影响。ImReP在大多数情况下的准确率保持80%,高于八的平均CDR3覆盖率允许ImReP对超过75个bp读取长度的归档召回率接近90%(图2a)。覆盖率的增加对经ImReP获得的组合克隆型的数量有积极的影响。此外,研究者将ImReP与MiXCR,IgBlast和IMSEQ进行比较,ImReP在查全率和查准率方面一直优于现有方法。为了进一步证明应用非特异性RNA-Seq技术分析Ig受体谱的可行性,研究者利用BCR-Seq和RNA-Seq测序的18个肿瘤活检标本,首先将这些读数映射到人类基因组和转录组上,然后提取未映射的读数,并提供给ImReP用于组合IGH克隆型。BCR-Seq数据由系统生成(https://www.adaptivebiotech.com/)并经其配套的分析包进行分析。将BCR-Seq作为评估RNA-Seq方法效率的金标准的一个困难是BCR-Seq捕获DNA克隆型,而RNA-Seq只捕获表达的克隆型。为了解释可能的差异,研究者首先将RNA-Seq读数匹配到主要克隆型上(BCR-Seq检测到的相对频率至少为90%),在18个BCR-Seq样本中,有5个样本没有得到匹配,因而将其排除在外。研究者认为剩余样本中,由BCR-Seq获得的CDR3s集是全部的IGH谱。进一步研究RNA-Seq能够捕获整体免疫谱的哪一部分。基于RNA-Seq,ImReP平均能够捕获53.3%的IGH谱,估计为检测到的经BCR-Seq证实的克隆型总和;而MiXCR能够捕获40.1%。在所有情况下,ImRep都能检测到经BCR-seq证实的克隆型,其相对频率超过90%。相比之下,MiXCR只在83.3%的病例中检测到这些克隆型。当主要克隆型的频率下降到10%以下时,ImReP在60%的病例中能够检测到主要的克隆型,而MiXCR只在20%的病例中检测到一个克隆型。研究者还比较了每种方法检测到经BCRseq证实的小克隆型的能力。所有样本中微小克隆型的平均频率为0.37%。ImReP能够在38%的样本中检测到轻微的克隆型(图2e)。这两种方法都能够准确地估计组合克隆型的相对频率(图2c,d)。
用于处理数据和运行本研究中使用的所有工具的脚本和命令可在https://github.com/Mangul-Lab-USC/ImReP_publication获取。
此外,还研究了基于部分CDR3重叠(实际上并非来自同一读数)的V和J基因融合读数的可能性。研究者获得了3129个基于BCR-Seq的IGH转录本(来自一个健康的初始B细胞测序谱),以此为参考模拟高达16倍覆盖率的BCR-Seq的IGH转录本。在ImReP的第二步,50bp读数的灵敏度提高了16%以及75bp读数的灵敏度提高了4%,而100 bp读数未观察到任何改善。在75bp情况下,精确度的降低会导致F分数的整体下降。基于上述模拟读数,研究者建议对50bp的读取应利用ImRep的第二步(在ImReP中以默认设置实现)。更进一步,研究者验证了ImReP精确推断样本组织中免疫细胞比例的能力。假设样本中B细胞的比例与RNA-Seq数据中受体读数的比例成正比,使用基于转录组的计算方法SaVant,该方法使用细胞特异性基因特征(独立于Ig转录本)来推断每个组织样本中B细胞的相对丰度。SaVant使用的B细胞信号源于CD19+细胞,代表了最大数量的B细胞亚群,并且许多CD19阴性的B细胞亚群可能携带与CD19相似的基因特征。结果发现经SaVant得到的B细胞特征与IGH谱的大小呈正相关(图2f)。这些含有高密度B细胞的组织(脾脏、全血、小肠(回肠末端)、肺和EB病毒(EBV)转化的淋巴细胞(LCLs))是例外。
图2. ImReP可行性评估
3.表征53个GTEx组织的免疫球蛋白谱
ImReP能识别超过88.26亿个读数,重叠了不同人类组织的360万个不同的CDR3序列。组合的CDR3序列大部分来自IGH链(170万个),90万个来自IGK链,100万个来自IGL链。98%的CDR3序列的读取次数少于10次,CDR3序列的中位数为1.4。来源于IGK的CDR3序列在所有组织中最为丰富,平均占整个B细胞群的54%。研究者比较Ig受体链的组合CDR3序列的长度和氨基酸组成。与先前研究一致,与重链相比,Ig轻链的CDR3长度显著缩短且变化较少。组织类型似乎不影响CDR3序列的长度分布。为了解释不同的测序深度,研究者进一步用RNA-Seq读数的总数对检测到的克隆型数量进行标准化,称之为每一百万个原始RNA-Seq读数的克隆型(CPM)。CPM目的是作为克隆多样性的有效测量方法,并根据测序深度进行调整。研究者利用每个样本的α-多样性将不同克隆类型的总数及其相对频率合并到单个多样性度量中。在所有组织中,脾脏拥有最多的B细胞群,平均每一百万个RNA-Seq读数中有1301个免疫球蛋白衍生的读数。脾脏的B细胞群也最具多样性,每个样本的平均α-多样性率为7.6,相当于1025 CPM(图3)。具有粘膜、外分泌和内分泌功能的器官拥有丰富的克隆型,每个样本的中位数为87 CPM。小唾液腺的免疫球蛋白多样性率在该组中最高,超过含有派尔氏结的回肠末端。与免疫系统无关的组织,如脂肪、肌肉和中枢神经系统的器官,每个样本平均含有6 CPM。在非淋巴器官中,CDR3序列最多的是大网膜(含有脂肪相关淋巴群的膜性双层脂肪组织)。如预期那样,EBV转化的淋巴细胞(LCLs)拥有大量Ig克隆型的同质群体。
图3.人类组织中的免疫球蛋白谱
4.个体或组织类型特异的Ig克隆型
克隆型的氨基酸序列具有个体差异性,88%的克隆型是单个个体特有的(图4a)。剩下的约400000个克隆型至少由两个个体共享(公共)。在许多组织中存在的小部分B细胞限制了在这些组织中捕捉整个Ig谱的能力,并导致一些公共克隆型被误分类为私有克隆型。在不同的免疫球链中共享克隆型的个体数量各不相同,其中Ig轻链最多。25%的IGK克隆型是公共的,共享IGK克隆型序列的个体数量可以高达471个(图4b)。RNA-Seq覆盖低丰度克隆型的能力有限,可能会将公共克隆型误分为私有克隆型。与先前的研究一致,本研究观察到公共克隆型的长度明显短于私有克隆型。同时探究公共克隆型在组织间是否比个体间更常见,发现对于IGK和IGL链,在个体间和同一个体的组织间共享受体序列的次数之间具有相关性;而IGH链的公共受体不太可能在组织间共享。总之,来自不同组织的轻链和重链的240000个克隆型中14%是共享的(图4c)。
免疫球蛋白谱和共享克隆型均可在https://github.com/Mangul-Lab-USC/TAIR获取。
图4.免疫球蛋白克隆型的共享和私有性
5. Ig克隆型在人GTEx组织间的流动性
此研究获得的大量样本能够建立组织间的配对关系,并跟踪Ig克隆型在不同人类组织间的流动。观察到从同一个体获得的成对组织中共享的CDR3序列数量显著增加,而且在所有Ig受体链均能观察到此模式(图5a)。不同类型的Ig链上共享CDR3序列的数量不同,与Ig重链相比,Ig轻链明显增加。最大的差异发生在相同个体的组织和不同个体之间的共享Ig重链(图5a)。
为了确定Ig克隆型在不同组织间的流动,研究者比较了个体之间和同一个体内的克隆型,将这一分析限定于至少有10个个体的成对组织。使用β-多样性来衡量组织间在CDR3序列获得或丢失方面的组成相似性(图5b)。在870个有效的组织对中,观察到大多数配对组织中IGH序列之间没有共性(对应β-多样性得分为0.0)。研究者进一步检查IGH克隆型在组织中的流动并以网络形式呈现(图5b),确定了56个β-多样性得分高于0.001的组织对。脾组织的连接最紧密(17个连接点),其次是肺(16个连接点)。克隆类型代表一个相互连接的组件,即每两个节点都直接或通过其他节点连接。脾脏和肺的克隆型群体最相似,其他高度相似的是小唾液腺和食道黏膜,以及回肠末端(小肠)和横结肠。同时观察到超过200对组织的免疫球蛋白轻链β多样性得分高于0.001。IGK链最相似的组织对是脾和横结肠。
图5.免疫球蛋白克隆型在组织间的流动性
6.ImReP鉴别组织样本的淋巴细胞浸润情况
组织横截面的组织学图像和病理特征用于验证ImReP鉴别高淋巴细胞含量样本(通常与疾病状态相关)的能力。检查了不同个体甲状腺组织中的IGH克隆型群体。推断每个样本的不同CDR3序列的中位数是20,尽管14.5%的样本有超过500个不同的CDR3序列。桥本氏甲状腺炎患者的甲状腺样本中CDR3序列的数量最高,对生物样本的病理特征分析表明,在检查的甲状腺样本中12.6%的严重程度不同。首先,研究者基于病理特征来注释样本(来自未进行/执行桥本氏病诊断的个体),然后比较两组之间适应性应答库的多样性。观察到桥本甲状腺炎患者样本中不同IGH克隆型的数量显著增加,同时与桥本甲状腺炎的严重程度呈正相关(图6a)。此外,肾脏样本中大量的克隆型与肾小球硬化症相关;肺样本中大量的克隆型与炎症性疾病(如结节病和支气管肺炎)相关。还观察到除乳腺组织外,不同组织类型的雄性和雌性克隆多样性没有差异。男性乳腺组织克隆型多样性得分较高与男子女性型乳房症(以男性乳腺组织非癌性增大为特征的疾病)相关。
图6. ImReP识别具有高淋巴细胞活性的组织

讨论

本研究开发了ImReP,一种能够使用RNA-Seq数据精确重建免疫球蛋白谱的计算方法。初步研究证明了ImReP能够有效地从RNA-Seq数据中提取Ig衍生的读数并精确地组合为相应的高频突变区序列。基于不同读取长度和覆盖深度生成的模拟结果表明,ImReP在精确度和召回率方面始终优于现有方法。证明了应用RNA-Seq研究适应性免疫系统的可行性。
研究利用ImReP创建了第一个横跨不同组织的免疫球蛋白谱,是CDR3序列和组织类型的最大集合之一。进一步推动免疫学等领域的未来研究,并有助于人类疾病诊断工具和治疗方法的开发。

更多推荐

高分综述 | Trends in Biotechnology: 单细胞分辨率下利用空间转录组揭示器官分子结构(国人佳作)

重磅综述 | Cell:非编码RNAs在肿瘤学中的作用(IF=36.216)

(0)

相关推荐