科研 | SCI. ADV.: 除质谱之外,蛋白组学的下一步发展(下)

编译:晨晨,编辑:小白、江舜尧。

原创微文,欢迎转发转载。

导读

早在1951年,Sanger意识到蛋白可能是致病的根源,同时也可能是治疗疾病的关键,因此需要不断鉴定这些蛋白的关键作用。随着测序技术的发展,单分子DNA测序,基因组学和转录组学提高了药物敏感性、降低了药物价格并促进了药物的发展,但是蛋白组学技术滞后。目前,蛋白组学的研究主要依赖于质谱(MS)技术而非真正的测序技术,MS技术能将蛋白进行分类,而该技术需要约十亿个拷贝的蛋白分子。本文阐述了一些可替代MS蛋白鉴定的测序方法。这些方法的敏感性较高,并且具有一定的可扩展性,同时适用于蛋白氨基酸序列的生信分析工具。

论文ID

原名:Beyond mass spectrometry, the next stepin proteomics
译名:除质谱之外,蛋白组学的下一步发展
期刊:Science Advances
IF:13.116
发表时间:2020.01
通讯作者:GregoryTimp
通讯作者单位:美国圣母大学电子工程和生物科学系

内容

3. 在MS之外的第一步试探

本研究中,我们进行了一个综合性调查,提供了5种前景光明用于整个蛋白鉴定和测序的MS可替代性方法。本综述首先展示了以最先进的、高通量、转录组长读长DNA测序技术进行翻译前mRNA及其可能的异构体转录组测序。这些接近与测序相结合的转录组和抗原表位细胞索引(CITE-seq)技术,该技术采用寡核苷酸标记的抗体靶向细胞表面蛋白,并与转录组测序结合,得到高效读数。利用DNA/RNA测序,两种技术经荧光蛋白“印记”标记,当蛋白经过连续降解之后,使用特异的荧光标记残基和荧光显微镜来确定肽段。通过与参考数据库比对这种方法得到的荧光序列,归类为特异的蛋白,这一点与BU-MS的工作流程相似。

MS的敏感性问题可以使用不同的方法解决:纳米直径孔或穿过薄膜的纳米孔。纳米孔有极小的体积和单分子敏感性。当分子穿过浸有电解液的开孔,能产生阻挡信号流。如果孔足够小且膜比较薄,浓度低的单分子能够用这种方法检测到。商业平台使用纳米孔进行DNA/RNA测序,因此,我们提出这种方法也适于蛋白鉴定。

蛋白指纹概念可以分为5个维度,一个天然蛋白“5D蛋白图谱”包括预测其体积、形状、电荷、旋转扩散系数和和偶极矩。这些可以从蛋白穿过孔时的阻塞电流中推断出。然而,为了测序,蛋白必须展开。蛋白纳米孔已被用于区分变性(未折叠)肽,甚至识别单个氨基酸差异和PTMs,但不能直接用于蛋白测序,很可能是因为传感体积太大了。这一结论由分子动力学(MD)模拟证实,该模拟追踪了未折叠多肽通过2.2 nm直径孔时,2D材料揭示了阻塞电流如何与孔中特异的氨基酸相吻合。另一方面,当一个处于伸张状态的变性蛋白强制通过亚纳米孔时,能直接通过测定阻塞电流能读取单个氨基酸残基的体积。

3.1 转录组测序

第二代DNA测序技术使基因组学显著提高通量同时降低了测序成本,但它只使用短读(<300碱基),限制了信息的收集。从基因组中转录成RNA并拼接形成编码序列,被用于推断蛋白的一级结构。转录后,RNA被剪接以去除不编码蛋白的内含子序列,并在剪接连接处(通常在GU-AG位点)连接编码蛋白的外显子。剪接不仅使得蛋白的不同部分存在或缺失,还会产生不同的翻译框架,从同一位点编码完全不同的氨基酸序列。当从翻译起始位点(通常为AUG)到达ORF时,每3个RNA碱基组成的密码子被翻译成AA。由于拼接,读取框从一个不同的地方开始而发生位移,那么即使是相同的外显子也可能被翻译成不同的形式。基因的选择性剪接是一个研究较多领域。特别是神经组织的研究表明,受神经特异性RNA结合蛋白和microRNAs调控的亚型的增多。

虽然短读测序提高了我们对转录子多样性的理解,但它只能提供50-300碱基对之间的cDNA短片段。通常在测序前依赖于cDNA的逆转录和RCR扩增,引入了偏倚和错误倾向。因此,对于短读转录子测序来说,最希望的是通过比对这些边界和独特起始及终止位点的位置来检测新的外显子边界。为了重建原始序列,通过比对算法,用HISAT2和cufflinks2等工具将短读序列重组成完整的转录本,用leafcutter、MAJIQ、whippet或SUPPA2等工具评估拼接模式。尽管这些研究表明了选择性剪接和聚腺苷酸化位点的潜在相关性,但它们受到短序列读取的限制,不能一直重建真实的原始序列,并如实地解析多种异构体的转录本的完整序列。此外,尽管已经开发了间接获取这些信息的方法,RNA修饰的直接测序也被排除。

另一方面,下一代长读长(10kb)测序提供了更多的阐明异构体组合的直接关系。PacBio是第一个长读长技术,展示了转录组的应用(异构体测序),基本上是对整个cDNAs进行测序,从而产生所有异构体。在GM12878细胞系中,该方法已鉴定出12000多种新型异构体,随后使用短读测序进行了验证。这种分析有利于共有序列的读取,可达99%的读取精度。强大的软件包,如Cogent,允许集群和消除冗余转录,在无参考下产生一套独特的基因亚型。在单细胞、不同组织(如大脑)的研究中,也应用了长读长的转录组测序。然而,直到最近,长读长测序的深度有限、不能用于对低丰度或者稀有组织样本。例如,红喉蜂鸟(Archilochus colubris)转录组由40个长读长的单分子实时流细胞组成,花费了大量的时间和金钱。这在很大程度上被PacBio和Oxford Nanopore(ONT)技术在长读长测序产量上的显著提高所弥补。另外一个缺点是需要DNA逆转录酶。大多数商业逆转录酶的加工能力有限,这就阻止了特别长或具有复杂结构mRNA的合成。然而,最近纳米孔测序的发展已经使RNA直接测序成为可能。尤其是纳米孔长读测序不需要重建就能很容易地分析转录本。我们的工作和其他研究表明,即使在研究透彻的生物体中,也有许多没有标注的异构体。

例如,我们使用长读长纳米孔测序数据检查了INF4a/ARF基因座(图 2)。选择该位点是因为它具有移码和生物相关性。这个位置转录成两个主要的亚型:p16INK4a和p14ARF。首先,有明显的插入缺失和阅读错误,但比对后形成一个共有序列,阅读准确率提高约99%。尽管从相同位点转录,但这三个外显子中的两个产生了不同的蛋白,它们对不同的途径起抑癌作用:RB和p53。从GM12878细胞系获得RNA测序数据中,我们发现有93个reads定位到p14ARF亚型(图 2A, 红色标注),有33个reads定位到p16INK4a亚型(图 2A, 蓝色标注)。第二个外显子处翻译成不同的氨基酸序列,产生非同源蛋白异构体(图 2,B、C;外显子2,黑盒)。外显子2的p14ARF翻译以甘氨酸(G)开始,以GGT→G横跨外显子-外显子边界,而p16INK4a以缬氨酸(V)在外显子边缘开始(GTC→V)。框架3和框架2之间的移码在整个外显子和蛋白中持续。p14ARF甚至不能通过第二个外显子因为其三分之二的终止。

因此,为了在不需要复杂计算推断的情况下,正确地从转录产物中鉴定蛋白,需要使用PacBio/ONT进行全长转录产物测序,或者直接对蛋白进行测序。此外,相比之下,如果只覆盖第二或第三个外显子,短读测序无法识别表达的亚型。为确保准确性,短读应定位到外显子1a和b到外显子2边界。然而,这比仅检查剪接更具挑战性,因为核糖体从转录本中可能的阅读框中“挑选”阅读框。典型起始位点可能并不总能被识别出来,在翻译一个短的ORF后,核糖体可以在下游起始位点重新启动翻译。最近的研究表明,可以从相同的转录本中产生移码多肽,这说明了除RNA测序外,蛋白测序的重要性。

图2 长读长转录组测序

(A)GM12878细胞系CDKN2B基因位点直接RNA测序读数。p14ARF异构体形式以红色标注,p16INK4a异构体形式以蓝色标注。二者之间有共同的外显子2和外显子3,而外显子1α对应于p16,外显子1β对应于p14。(B和C)放大区域表示预测的外显子2的5′端。比对的碱基之间是翻译密码子,尽管外显子2具有相同的序列,由于剪接变异导致的阅读框移码使得产生的蛋白完全不同 。

3.2 与测序相结合的转录组和抗原表位细胞索引(CITE-seq)技术

因为需要准备大量的材料,单细胞表面蛋白难以用MS测定。检测异源组织,稀有细胞状态,追踪发育,鉴定表型也是急需解决的问题。单细胞RNA测序可以填补这些空缺,可以对细胞分离并对RNA提取和标记条形码。单细胞RNA测序能产生大量数据,据估计,人类细胞中的mRNA约600百万碱基对。这些数据的计算分析仍在初期阶段,细胞的数据不完整增加了这一问题的复杂性。这些问题尤其与单细胞蛋白水平和RNA水平的数据相关性差有关。

流式细胞仪和荧光显微技术常用于单细胞蛋白鉴定,这两种技术都依赖于免疫反应来确保特异性。在流式细胞术中,用荧光抗体标记的细胞穿过激光束,产生散射光和荧光。荧光显微镜能捕捉穿过玻片的图像,提高了细胞间的分辨率。流式细胞仪具有较高的通量。

CITE-seq结合了基于液滴的单细胞RNA测序方法和抗体标记蛋白技术(图 3)。首先,将细胞用DNA条形码抗体进行处理。然后,这些细胞穿过微流控装置以分离包含单细胞裂解缓冲液和带有条形码引物的微珠。细胞发生裂解,RNA和核酸抗体标记产生含有细胞特异条形码的测序文库。样品测序时,每个细胞的RNA和蛋白含量同时进行测序。每个细胞可用多个抗体进行测定。目前,这一技术主要局限于单细胞表面蛋白,主要应用于连接单细胞转录组和细胞表型。未来,该技术除了用于细胞表面蛋白外,可能有更广泛的应用,如应用于细胞间蛋白。

对于显微镜技术,快速发展的转录组学使得RNA和蛋白研究同时进行。一些技术,如MERFISH,STARmap,seqFISH+,使用荧光探针进行杂交或者原位测序来鉴定单个细胞的RNA。然而,这些技术具有通量低、光谱分解的特点,使其难以与免疫荧光蛋白染色技术结合。

与ELISA和免疫印迹方法相同,这些方法也需要依赖于特异的抗体,但是抗体的价格高且它们检测到的抗原有限。特异性低导致敏感性低。检测线约100-1000个拷贝,非特异性结合导致的假阳性和弱结合产生的假阴性导致分析有误。目前,存在的问题有:获取抗体结合的适合条件,避免抗体交联,确保抗原能发生结合。由于蛋白位阻,使用多个抗体分析不同翻译后修饰的蛋白较为困难。例如,检测组氨酸尾上同一个组氨酸位点是否有多个标记(H3K4me3和H3K27me3),需要连续的免疫沉淀或者其它的复杂方法。因此,尽管该方法具有敏感性高的优点,但该方法中抗体的使用带来了局限,使得我们需要开发其它方法来对蛋白进行定量研究。

图3 CITE-seq同时检测单细胞转录组和生物标记

(A)DNA条形码抗体(B)与液滴测序相结合的CITE-seq流程图。细胞与抗体孵育,清洗,然后通过微流控芯片,单细胞与珠子包含在同一个液滴中。细胞裂解后,mRNA和抗体寡核苷酸与珠子上的寡核苷酸退火,将细胞条形码和细胞转录本和抗体寡核苷酸联系一起。

3.3 荧光“蛋白指纹图谱”

蛋白指纹谱为使用荧光报告基团标记特异氨基酸从而鉴定单分子蛋白提供了发展前景,该方法与采用MALDI-TOF-MS测得肽质量指纹谱(PMF)在数据库中查询识别的方式鉴定蛋白相类似。通过与基于大规模空间平行的荧光成像的Edman降解法DNA测序原理相结合,Swaminathan展示了荧光蛋白指纹谱的方法能大规模的鉴定蛋白片段。根据这个方法,蛋白片段化并在特异的氨基酸上进行荧光标记。每一个片段的C端都与流动单元相连,使用TIRF显微镜成像。不同的荧光标记强度反应特定标记的氨基酸数目。使用Edman降解法,每个循环去除掉一个N端的氨基酸。通过测定荧光和降解循环数来确定氨基酸位置。该方法也能应用于确定荧光标记的翻译后修饰蛋白的存在与位置。

基于单分子荧光共振能量转移(FRET)-肽段指纹谱技术:ClpXP蛋白复合物是一个酶马达,能利用ATP水解释放的能量将蛋白去折叠并降解,使其逐步穿过中央孔。ClpXP对底物的修饰复杂,荧光供体基团标记的ClpP与肽段中荧光受体基团标记的氨基酸持续产生可读出的FRET信号。当二者相互接近时,由FRET信号能判断出氨基酸类型和肽段指纹谱。通过数据库搜索,从而确定肽段。

对于蛋白测序,这两种方法都具有吸引力和扩展性,使用了Edman化学法或者研究透彻的蛋白酶,以及熟悉的数据库搜索流程。此外,使用数据库查找和两种标签相结合,即使存在误差,也可以用于推断人类蛋白组的大多数据。

该技术存在的问题有:1.存在插入缺失和点替换。2.利用Edman化学降解法降解慢,且得到的肽段序列小于30个氨基酸长度。尽管能检测到磷酸丝氨酸翻译后修饰,Edman降解法不适用于N端无游离α氨基的氨基酸。3.翻译后修饰的蛋白需要特殊的荧光标记,但是可以进行标记的这类蛋白有限。4.尽管这些方法可以扩展到上百万个分子,荧光读出时仍需避免光漂白和黑暗读取。Collins和Aebersold的研究表明,人类基因组的动态范围约107,酶解产生的肽段数量约102个,每个细胞的ORF数目约104个,仍是一个分析上的很大的挑战。

图4 荧光测序蛋白指纹技术

(A)上百万个肽段的每一个肽段上的两个不同的氨基酸都进行荧光标记,C端连接在TIRF显微镜盖玻片上。使用TIRF显微镜观察,Edman降解法每轮反应去除掉N端的一个氨基酸,化学反应和荧光成像显示了每个分子的荧光染料的位置。结合荧光强度和蛋白数据库预测肽段序列。(B)使用ClpXP移位的单分子肽段指纹。荧光供体基团标记的ClpXP固定在聚乙烯甘油覆盖的玻片上,能识别荧光受体标记的蛋白底物,发生FRET。下面是每个时间周期的典型的荧光值。高的FRET值表示ClpP14中有底物存在,荧光信号的丢失表示底物不存在。

3.4 使用纳米孔的折叠蛋白的5D指纹

与蛋白指纹图谱一样,荧光标记的蛋白穿过直径3-5纳米具有等离子体结构的孔所获得的光学痕迹可用于识别人类蛋白组中的单个蛋白。但该方法在动态范围和翻译后蛋白修饰化学上存在相同的问题。一个完整、单一的天然蛋白穿过一个浸在电解质膜的纳米孔并测量电流看似简单。当一个分子扩散到一个小孔并被其中的电场捕获,穿过小孔的离子流随着分子排阻体积的改变而变化,从而产生广范围内可以被测量的电流。对于纯蛋白溶液,纳米孔可以用于检测100 nM到1 pM的浓度,这取决于信噪比。阻挡电流能辨别出结构相似的分析物:单细胞分泌物中的低分子量蛋白和微生物菌群宏基因组中的DNA,取决于采集时间、移位持续时间、放大器带宽和信噪比。

孔电流的变化与分子体积和孔体积的比率相关:即DI / I0 = f⋅DVmol / Vpore⋅S, f代表分子形状和取向,S代表体积因子。蛋白体积(V)约与MW成比例,Vmol(nm3)= 1.21×10−3×MW (Da)。因此,分子量< 500 kDa的(球形)蛋白的大小约为600 nm3,半径约为5 nm,与孔的半径相匹配。孔中的纳米颗粒直径为50 nm时,敏感性为DVmol / Vpore= 1.2 × 10−9,该敏感性通常与噪声、生物污损和孔直径有关。为增加敏感性,采取了一些方法,如调控阻塞电流和将蛋白粘附在孔上来减少生物污损。

比蛋白大的纳米孔曾使用阻塞电流检测和分析天然或折叠的蛋白。有趣的是,最近的测量使用通过脂质层且直径为1到1.7 nm的溶氧素纳米孔,能区分一些短的、折叠的、均匀带电的的多肽甚至单个氨基酸。通过脂质层的直径为1.5 nm的FraC孔,曾被应用于区分多肽和单个氨基酸的差异。然而,由于放大器和信噪比的影响,仅通过阻塞电流来识别蛋白并不简单。毫无疑问,除了体积以外,阻塞电流还受到蛋白等其他参数如电荷、亲水性和移动性的影响。

Yusko等人使用纳米孔扩展蛋白指纹识别的概念,通过测量体积以及形状、电荷、旋转扩散系数和偶极矩来鉴别整个蛋白(图 5, A-D)。研究人员利用直径约30纳米的孔,穿过一层涂有脂质层的275nm膜,通过追踪脂质层缓慢移动时的阻塞电流,分析了拴在脂质层上的蛋白。通过这种方法对到蛋白体积进行了粗略估计(图5A中的扁球体)。这一想法的创新性是,在通过圆柱形孔的易位过程中,单个非球面物体的旋转调节了阻塞电流(图 5B)。当球粒状粒子处于其极端的横向方向时阻滞最大,而在极端的纵向结构时阻滞最小(图 5,C和D)。此外,蛋白的体积和形状也会影响电场线变形程度,与完美球体(即扁圆球体)的偏差使电场线扭曲得更加明显。由此可见,阻塞程度取决于分子的体积和电荷,而最小和最大的阻塞电流比率取决于它的形状。最后,最大阻塞电流分布受偶极矩运动和依赖于调控测量旋转扩散系数时间的影响。因此,阻塞电流提供了蛋白的特征,这些特征与分子在孔中的取向及其形状、体积、电荷、(旋转)扩散系数和偶极矩有关。Yusko等人表明,在单个蛋白上同时测量这五个参数可以对蛋白分析产生深远的影响。

原则上,可以通过这种方式收集蛋白的 “指纹”,但是时间决定一切。为了解决阻塞电流的调控和获得蛋白结构信息,采样速率必须比孔中分子的动力学更快。快速采样率能对信号进行平均,从而提高信噪比。然而,由于噪声与带宽成比例,为了减少噪声,Yusko等人被迫缩小了测量的带宽。由于带宽窄,采样频率低,为恢复结构信息,蛋白的移位速度通过将其固定在液体脂质双分子层包覆的纳米孔和膜上得到相应的减缓(图 5A)。这样,蛋白通过孔的速度由高100倍的脂质涂层粘度决定,而不是由孔中水溶液电解质的流动性决定。如果没有脂质层使分子速度减慢,这种方法将由于噪声和带宽而失败。更宽的带宽通常意味着更多的噪音。另一方面,如果能将嵌入纳米孔周围电子网络中的一些元素排出,噪声就能得到缓解,带宽也能得到改善。

即使这些问题都解决了,其通量也太低了:每2秒只能检测到一个分子。借用DNA/RNA测序的解决方案,使用纳米孔阵列提高通量。具体地说,通过硅膜的纳米孔的数量和密度与目前的半导体纳米制造有关。这似乎是可行的,因为半导体制造业的纳米级器件的发展趋势是不可阻挡的。2017年,IBM与三星、GlobalFoundries合作,宣布有可能通过在一个指甲大小的芯片中整合300亿个5 nm长的晶体管成来扩展摩尔定律。用更熟悉的术语来说,A12 iPhone目前在83.3 mm2芯片上集成了69亿个7 nm长的晶体管。

因此,为了解决通量低的技术瓶颈,创建一个密集的纳米孔阵列并同时测量纳米孔的阻塞电流似乎是可行的。利用电子束光刻技术结合反应离子蚀刻技术,在200纳米长的硅芯片上刻出了直径为30纳米的孔阵列(图 5E)。考虑到直径太小,使用扫描透射电镜(STEM)的高能电子束在氮化硅薄膜上进行刻画。然而,微米直径的孔阵列在同一节距上也可以创建(图 5F),然而,这两种电子束光刻方案都不经济。

图5 来自单个蛋白通过直径30 nm的孔的移位产生的阻塞电流的蛋白形状、偶极矩和旋转扩散系数
(A)抗体免疫球蛋白(IgG1)的大致形状(蓝色球体表示分析蛋白的平均质量和体积)。(B)球形蛋白锚定在流脂覆盖的直径30 nm的纳米孔时的正视图和侧视图。(C)单个IgG1分子移位时产生的阻塞电流。红点表示电阻脉冲的的起点和终点。(D)一个阻塞产生的电流分布图。蓝线表示p(ΔI)在非线性最小二乘法的模拟值,红线表示阻塞电流的预测值。ΔI,形状因子的分布。(E和F)用于提高通量的纳米孔阵列。E表示由电子束和离子蚀刻制造的SiN膜的透射电镜图。
3.5 变性未折叠蛋白的纳米孔和亚纳米孔测序

直接读取初级结构消除了蛋白鉴定的不确定性,但要获得序列,蛋白必须展开。5年前,Rosen和Nivala等人证明使用蛋白纳米孔α-溶血素可能有效。Rosen等人能检测到未折叠硫氧还蛋白的磷酸化,Nivala等人使用ClpXP去折叠蛋白后能区分不同的结构域。然而,MD模拟证明可以读取未折叠蛋白的序列。

通过追踪变性多肽穿过直径为2.2 nm的2D石墨烯或MoS2的薄膜时的移位和阻塞电流,可以发现MD的测序与纳米孔有关。首先,电场集中于2D材料孔周围的1 nm区域,这一点非常重要,因为会对读取分辨率有影响,例如,氨基酸数目影响阻挡电流,从而影响计算机推断序列。其次,肽首先坍塌在膜上,然后被一个单向和逐步的电力推动通过孔隙,其速度依赖于电场和/或静水压力梯度和水流。蛋白在孔中移动的动力学实际上有种:它可以滑动并粘住,松开然后再次与膜结合,或者它可以几乎无摩擦地滑过孔。根据MD,逐步运动导致的阻塞电流的变化,提供了孔中的肽段信息。

因为整个过程可以用MD进行原子精度可视化,所以有可能看清楚每个残基对阻塞电流的影响。在图 6B中,第三次(黄色,FDF,离子流=5.04 nA)和第四次(橘色,DFD,离子流=4.29 nA)暂停之间的变化非常明显。纳米孔中相同的物质通常会产生相似的电流,但也有例外,这是由于离子电流依赖于孔隙中肽片段的构象。纳米孔中氨基酸无控制的干扰破坏了测定氨基酸位置的可能性,因此指出使用更小的孔径来拉伸蛋白。尽管MD为离子穿过纳米孔提供了穿透性的原子水平的方法,但它需要大量计算,与实际测量有限的频带宽度、低电场和窄电场分布的特性是不匹配的。

目前,由于一些技术难题,仍没有使用蛋白纳米孔测序技术。首先,纳米孔容易太大,敏感性低,无法识别全部氨基酸。如果孔流的变化与分子体积和孔体积的比例有关,那么直径为3 nm的双锥形孔在10 nm厚的膜中具有有效体积< 40 nm3,而最小氨基酸(Gly)体积约为0.067 nm3。另一方面,锥角为20度、直径为0.4 nm的双锥形孔的有效体积小于0.6 nm3。因此,除了薄膜外,用于蛋白测序的孔体积要小得多。

孔径较小的另一个优点是减缓了转移。Muthukumar指出,蛋白在孔中的流动性受到排斥体积、离子、水动力学以及与孔隙表面的相互作用的影响。当孔直径接近蛋白的水动力直径时,流动性崩溃,阻塞时间增加1000-10000倍,最终使得分子无法穿过膜。因此,与蛋白大小相同的孔可以通过增加在孔中测得的阻塞信号和减慢移位速度而获得优势。

第二,为了便于测得单个氨基酸的阻塞电流,蛋白应该变性以消除三级和二级结构,只保留一级结构。然而,用于解开二级结构并保持变性的变性剂对嵌入在脂膜中的蛋白孔是有害的,脂膜是核酸序列的主要平台。因此,(孔和)膜必须坚固且具有化学弹性,以承受变性剂、高温或用于解开蛋白和修复孔的高电场。

第三,蛋白电荷分布不均匀,孔中的电场不能系统的控制移位速度。速度的波动可能导致读错。也许有一些方法可以解决这个问题,例如利用解开酶将蛋白解开到一个小孔中,但由此产生的通过小孔的运动可能不是均匀的,甚至不是单向的。

现在,通过在一层薄的无定形无机膜上制造亚纳米孔来解决这些问题,在技术上已经触手可及。一个亚纳米孔可以由STEM的紧密聚焦高能电子束穿过一种厚度为10 nm的非晶氮化硅薄膜制备而成。通过这种方式制成的孔表面通常是带负电荷的,而且很小,只有一种脱水阳离子才能通过(图 7A, i-iv)。通过STEM异常校正而获得高角度环形暗场(HAADF)图像(图 7A)暴露了这些孔的主要结构特征。在相对电子束轴的不同倾斜条件下获得的HAADF-STEM图像显示了孔具有双锥形和直径中腰>0.25 nm的特征。双锥形亚纳米孔特征很重要,因为它将电场聚焦在腰部附近的纳米尺度范围内,那里的电流密度与电场成正比(图 7B)。这意味着薄膜不必是2D或亚纳米分辨率的原子单层,就能看到间隔0.38 nm空间中氨基酸残基之间的差异。然而,制造亚纳米孔的需求超过了传统的半导体制造技术。即使无害的处理步骤如使用旋转的光敏聚合物或远程等离子体源清洁超薄薄膜,在STEM中,紧密聚焦于60 pm的直径电子束可用于制备亚纳米孔。

如果薄膜面积足够小,它可以是坚韧且有化学弹性的,以抵抗变性剂如SDS、b-巯基乙醇(BME)、酸(盐酸)、高电场和高温。因此,可以用亚纳米孔分析经过热、SDS和BME变性的蛋白。氮化硅膜亚纳米孔可能在盐酸中有一点腐蚀,但被污染的孔可以用变性剂修复。另外一个优点是,用来维持蛋白变性的SDS沿着蛋白主链形成一个均匀的带负电荷的外壳,棒状分子构型(图7C)使系统电力控制移位成为可能。

当使用SDS变性的蛋白被引入到直径约0.5 nm的亚纳米孔的顺侧,电压 < 1 V,由于单个蛋白分子的易位,能检测到短期阻塞电流(图 7D)。这些阻塞可以分为在短时间和持续时间(Dt)电流的变化。图7 (D和E)显示了变性趋化因子的单个分子引起的阻塞,CCL5由67个氨基酸组成。这种波动归因于严格的编排,氨基酸穿过亚纳米孔时,其中一个氨基酸在孔中停滞,然后由于施加在分子上的电场力最终通过孔前进。

波动幅度与蛋白一级结构中的氨基酸体积相关(图7E)。由于双圆锥形貌,电场聚焦在小孔腰部1.5 nm范围内。由于电流密度与电场成正比,阻塞区的每个涨落实际上测量了一个移动平均AA体积的窗口大小(k),k = 3到5个氨基酸,与电场的范围相对应。这个体积模型与平均阻塞的经验值有很好的相关性,通过对400个阻塞进行平均发现,在k = 3体积模型下,皮尔逊相关系数(PCC)=0.75。在20%阈值范围内,酸调整的准确率为65.2%。此外,随着阻塞数量的增加,对该模式的认可度也提高。图7E说明,通过划分400个CCL5阻塞分为17个共识产生了错误,每一个都与k=3模型进行比较。该图谱表明,酸引起的错误一致地发生在氨基酸体积较小的特定序列位置。

然而,如果阻塞电流受到除了体积之外其他参数的影响,则需要一个解码读取的算法进行识别这些差异以确保准确性。在最近的一项研究中,使用了机器学习算法来测试其应用前景。以随机森林(RF)模型为基准,与体积模型进行比较,假定每一个波动与四聚体的阅读相关。最初,每一个来自训练集的四聚体qi都被转换为特征向量fi,其中矢量的每个元素为体积和亲水性。通过改变每个fi中的氨基酸顺序来扩大训练集。与体积模型相比,RF模型对异常值有鲁棒性。

RF模型在训练集上表现良好,与体积模型相比有显著的改进(图7G、H)。此外,一个误差分析表明信号估计与氨基酸体积的偏差和亲水性相关。偏差是由平均值差异计算而来,反应实际值和理论值的差异。而体积模型表明偏差与较大体积/疏水性对阻塞的影响不成比例。因此,为提高统计显著性,在模型中应该加入其它氨基酸特征。

亚纳米孔RF模型阻塞的分析表明,有可能在涵盖一个小蛋白组数据库中鉴别一种蛋白,即人类蛋白组的20%,集群只有5到10个阻塞, P值在10−4和10−6之间(图 7H)。同样,使用TD-MS数据库搜索小蛋白组表明P值为10−4时,蛋白鉴定可靠。然而,蛋白水平的P值次于与用TD-MS完成的肽段分析值,这可能会影响灵敏度。

作为灵敏度的测量,使用MALDI-TOF/TOF进行蛋白鉴定时通常设定1 fmol的灵敏度标准,大约测定6亿个分子。使用微流控装置的亚纳米孔进行分析时,数量相似的分子(6亿)可能存在于100 mL浓度为10 pM的纯蛋白溶液中。这并非真的测量亚纳米孔灵敏度;相反,它测量的是捕获单分子所需时间。将分子源放在小孔附近时消除了扩散能力,亚纳米孔的超灵敏度变得明显。例如,为了降低扩散能力将样品放置在距离孔10 mm处,它可以区分样品中一个阻塞或癌细胞分泌蛋白混合物中的一个分子。

最后,对从21种不同蛋白获得的阻塞波动的详细研究表明,亚纳米孔足够敏感,可以读取单个氨基酸残基翻译后修饰或氨基酸替换后的阻塞体积,能检测出两个分子之间约0.07 nm3的差异。但是,亚纳米孔技术仍然没有足够的灵敏度根据体积来区分所有的氨基酸。

为了提高灵敏度,采样必须扩展到高频率,以促进信号的平均值与通过亚纳米孔的氨基酸残留的速度相称,并且相应的电流噪声必须减弱。信号平均可以通过两种方式来完成:(i)信号过度采样,然后过滤和/或(ii)用完全相同的刺激获得多个表面上相同的拷贝并取平均。两种方案都得益于噪音的废除。然而,目前孔隙中的噪音是不可避免的。噪声谱的分析表明噪声含有四个组成部分:(i) 与电解液和孔的电阻相关的热噪声,(ii) 1/f噪声,(iii)与薄膜有关的电介质噪声,(iv)放大器噪声。1/f噪声实际上已经引起了人们的过度关注,因为谱显示出了噪声大于1kHz范围的以介电噪声占主导,这与放大器的电压噪声相关。因此,减轻与膜相关的电介质噪声一直是研究的焦点。包括使用具有较小介电常数的叠层聚酰亚胺来降低电容和低电介质的夹层膜。另外一个焦点是使用低噪声芯片放大器。

还有另外一个问题:系统控制移位速度。通过亚纳米孔的氨基酸移动可能受其大小、疏水性和电荷的影响。在电场中速度会有波动,可能会扰乱读数。ClpXP被成功应用到蛋白去折叠从而进入a-溶血素孔,但该去折叠酶还需要通过无机膜与孔结合。但这可能不是必须的。我们推测空间位阻与附着的SDS有关。平均来说,蛋白骨架上大约每两个氨基酸能有效检测SDS-蛋白凝聚体通过亚纳米孔的进展,在其脱落之前迫使移动停止。

图6(FDFD)12多肽在横跨2D MoS2膜纳米孔移位的产生的离子电流阻塞
(A)i–iv:(FDFD)12多肽横跨2.2 nm直径孔,电压为600 mV,分别在26、80、45、 200 ns时的构象,分别在蓝绿色、绿色、黄色和橘色框中显示。苯丙氨酸以品红色表示,天冬氨酸以红色表示。(B)上图:(FDFD)12多肽穿过纳米孔的氨基酸残基数。下图:与上图一致时的孔的离子流。黑线表示实际值,彩色表示平均值。

图7横跨氮化硅亚纳米孔的蛋白序列分析

(A)(i)亚纳米孔HAADF-STEM图像的显微观察。(ii)与(i)中白线相对应的亚纳米孔线型图,表明光束下的质量密度。红线之间表示亚纳米孔直径。(iii)展示孔腰部原子分布的二维图。原子以空间填充模型展示。硅以蓝色球体表示,直径为0.235 nm;氮以粉色球体表示,直径为0.13 nm。(iv)孔附近分子分布的空间填充模型的三维图。为了图形清晰,只展示了孔表面的分子。(B)沿孔的垂直z轴分布的电场。该孔的圆锥角为10°/20°,该孔直径为0.4 nm,穿过0.13 nm厚度的氮化硅薄膜,并浸在250 mM NaCl溶液中。(C)蛋白穿过亚纳米孔图,变性蛋白为棒状。(D)单分子移位连续电流追踪展示了部分阻塞电流的持续分布,单分子CCL5穿过 0.5× 0.6 nm2 孔,电压1V。图中较高的值表示阻塞电流较大。(E)CCL5 穿过0.5 × 0.6–nm2的交界面时,400的阻塞(红色),氨基酸体积模型(假设k = 3;黑色),单个高度相关的阻塞(PCC=0.67,蓝色)。(F)400个阻塞展示了正确读取和错误读取。(G)H3.2蛋白的组成氨基酸的错误比较,体积模型(上图)和CCL5的随机森林(RF)模型(下图)。体积模型低估了小体积分子的信号,而RF模型正确。(H)P值的平均值,表征H4和H3.3簇的阻塞数量,实线表示指数符合。共有数目>10时,P值接近为零(Kolmogorov etal.)。

4. 蛋白组学研究的下一步是什么?

以上阐明了除MS以外一些最具有光明前景的蛋白测序技术的显著特征。与MS相比,他们都拥有较高的灵敏度,使用了荧光报告、免疫反应、或微体积检测氨基酸。同样,通过将数百万分子捆绑在玻璃上,或者通过半导体纳米制造技术,成倍增加用于检测的设备的数量,也有可能实现规模化。使用生物信息学工具对DNA序列比对或在MS工作流程中分析蛋白的氨基酸序列,似乎也可以用计算方法分析蛋白的氨基酸序列。想象一下细胞和组织的蛋白组量化像目前正在测量基因组或转录组一样简单。从人类基因组草图获得的数据和分析应该扩展到蛋白组,从而全面理解细胞过程及其调控。此外,扩大“分子诊断”的概念超越基于抗体的检测将有利于临床医学的发展。

然而,仍有一些挑战有待克服。转录组的长读长容易出错,难以准确的分辨异构体。它检测的是RNA,而不是蛋白,这就不能进行精确定量,更不用说翻译后修饰蛋白的测定。在单细胞的基础上将蛋白组学与DNA/RNA测序联系起来(例如,CITE-seq)技术仍然具有挑战性。目前的方法仅描述细胞表面蛋白,可能存在与抗体干扰相关的问题。利用荧光指纹技术推断蛋白序列的方法是可扩展的,但可能会受到与单分子荧光检测相同的困扰,如:黑暗读取。荧光指纹图谱只能检测特异的可标记侧链,无法对翻译后修饰蛋白进行全面分析。纳米孔5D指纹识别也需要化学反应,但如果孔径减小,孔隙中的蛋白流动性减弱,则不需要化学反应。然而,随着孔径的减小,动态范围也随之减小。另一方面,大规模的平行化测序,如CITE-seq和Edman降解荧光测序技术,还没有使用纳米孔,尽管半导体提供了这样的应用前景。

讨论

目前,MS技术的敏感性不高,不能涵盖整个蛋白的序列,很可能会被长读长的转录组和同时分析特异性蛋白和核酸的CITE-seq/空间转录组技术所加强。近期,荧光指纹识别方法可能在一两年内占有一席之地,使用Edman降解法的荧光测序产生数百万个单一蛋白读长。但该技术仍然速度慢,每个循环需要一个小时。在更长的(5年)期限内,一旦解决了吞吐量和噪音的问题,考虑到其极高的灵敏度和扩展前景,用于分析蛋白的亚纳米孔阵列似乎将占据核心位置。

原文链接:https://doi.org/10.1126/sciadv.aax8978
(0)

相关推荐