传统的方法是实用X光和低温电子显微镜,这些方法费时费力,而且在已知的2亿种蛋白质中,只有17万种有详细的分子图谱。今年,由英国 DeepMind 研究人员开发的人工智能AlphaFold实现了这个目标,可以精确地预测出大多数蛋白质的结构。这个新项目可以帮助研究人员发现疾病的发病机制,研发新药,甚至改造出更耐旱的植物。在过去的几十年中,人类已经能够利用冷冻电子显微镜、核磁共振或 X 射线晶体学等实验技术确定蛋白质的基本结构,但这些技术基于大量试错,往往需要花费数年时间,成本也非常高。而此前的AI算法,在CASP14(蛋白质结构预测比赛)中,准确性也只达到40分左右(满分100)。
David BakerDavid Baker 表示,2020年 DeepMind 在CASP14大会上的表现,给业界带来极大震撼,AlphaFold系统对蛋白结构的预测如此精准,让学术界产生了许多悲观情绪,他自己甚至一度觉得要失业了。但他很快调整心态,决定挑战AlphaFold系统。Baker带领的团队开发出的RoseTTAFold,初衷就是因为DeepMind没有开源AlphaFold的代码,最后他们联合哈佛大学、剑桥大学等机构研发出了这个基于深度学习的RoseTTAFold,准确率上媲美AlphaFold2,而且所需算力仅为其零头,团队也已经在github上开源了代码,这让很多条件落后的单位也有机会使用这些AI工具。RoseTTAFold 是一个三轨道神经网络,输入兼顾了蛋白质序列、氨基酸如何相互作用以及蛋白质可能的三维结构,然后采用类似RNN的循环结构,让三个维度的信息可以来回交流,所以预测会天然考虑物理和化学作用。
从Github目前的Star数量来看,DeepMind的AlphaFold更胜一筹,有两千多个,RoseTTAFold只有三百多。但是从可行性上来讲,RoseTTAFold要好一些,毕竟比起有谷歌支持的Deepmind,动辄上T的内存需求和超贵的显卡,不是哪个实验室都能拥有。那看看Deepmind这次开源发表的文章有无更好看的点。Deepmind的首席执行官哈赛比斯等人在 Nature 的文章名为《Highly accurate protein structure prediction with AlphaFold》,首次透露了AlphaFold的完整方法论,包括设计原理和细节,并开源了代码,它可以在原子水平上预测蛋白质结构。AlphaFold 所使用的深度学习算法,利用的是多序列对齐,还结合了蛋白质结构的物理和生物学知识来提升效果。AlphaFlod 首次参加 CASP 就准确地预测出了 43种蛋白质中的25 种,它专注于从头开始建模目标蛋白质的形状,且并不使用先前已经解析的蛋白质作为模板,也就是说,它并不会参考之前已知的蛋白结构。
AlphaFold 网络直接预测给定蛋白质的所有原子的三维坐标,使用基本氨基酸序列和同源序列的对齐序列作为输入。同为一作的John Jumper开篇讲了一下核心观点,将物理直觉融入到了网络结构中,端对端直接生成结构取代了残基的距离矩阵,从图的角度出发预测蛋白质的物理和几何结构。有意思的是,Nature 特意在论文标题前开头备注:“这是一份未经编辑的手稿,但是已允许出版。Nature Research 乐意为作者和读者提供这份手稿的早期版本。”