2018 年以来,图表示学习和图神经网络成为火爆全球的深度学习方向。鉴于药物分子多为图结构数据,越来越多的计算机科学家开始尝试将图表示学习以及图神经网络引入药物研发领域。近日,加拿大蒙特利尔学习算法研究所(MILA)唐建教授团队开源了一个通用型药物发现和设计的机器学习平台 ——TorchDrug,涵盖了图机器学习(包括图神经网络、几何深度学习和知识图谱)、深度生成模型以及强化学习等技术。TorchDrug 是一个建立在开源机器学习库上的深度图表示学习工具箱,整合了分子性质预测、分子从头设计和优化、反应预测、逆合成以及分子重定向等多个任务集。“该平台在通用性、应用性以及可扩展性等方面具有明显的优势。” 唐建告诉生辉。此项工作还得到了 “原创 AI 教父”、“深度学习三巨头” 之一的 Yoshua Bengio 的指导。Yoshua Bengio 于 1993 年创办了 MILA,这是目前全球学术界从事深度学习和强化学习最大的研究中心。2017 年,唐建加入 MILA 并担任助理教授,他的主要研发方向是图表示学习、图神经网络、深度生成模型、知识图谱和新药研发,尤其是图表示学习在新药研发中的应用。
图 | MILA 助理教授唐建(来源:受访者提供)“ 2017 年以来,我一直在思考图表示学习未来的发展方向,最终发现图表示学习'杀手级’的应用方向在生物医药领域,尤其是药物研发。生物医药领域绝大部分的数据是图结构数据,包括分子结构数据、蛋白质结构数据、知识图谱等,图表示学习在该领域有巨大的应用价值。通过开源 TorchDrug,我们计划建立一个开源 AI 药物发现社区,科研人员和制药公司都可以共享这个成果。” 唐建说。
多个模块已开源读博最后一年,唐建开始尝试将深度学习应用于图结构数据分析中。自 2017 年入职 MILA 以来,他一直聚焦图表示学习在新药研发的研究和应用。今年是他任教 MILA 研究中心的第四个年头,上文提到的开源平台 TorchDrug 则是唐建团队过去近 4 年来在图表示学习和图神经网络领域研究成果的积累。据唐建介绍,TorchDrug 主要解决两大类的问题,一是从头设计和优化分子,二是药物重定向,也就是常说的老药新用。具体来讲,如果要从头发现和设计分子,发现新分子结构,需要完成多个模块任务。首先需要预测分子性质,分子活性、毒性、水溶性等 ADMET 参数;紧接着需要进行分子优化、搜索、设计,在这一过程中通过深度学习模型或者是强化学习模型设计和优化分子,寻找到性质最佳的分子;然后需要考虑如何合成分子,需要找到分子的逆合成路径,合成自然界不存在的新分子。要发现一种疗效更佳的全新药物分子并非易事,所以老药新用也是一种常见的一种药物分子筛选思路。以 COVID-19 为例,老药新用就是当下寻找潜在治疗药物的主流思路,比如吉利德通过老药新用的方式发现广谱抗病毒药瑞德西韦对 COVID-19 具有一定的治疗效果。从机器学习和数据建模角度讲,老药新用的核心在于图结构数据,也就是知识图谱的构建,在知识图谱中挖掘药、疾病、蛋白质之间的相互关系。唐建告诉生辉,评估药物发现平台的关键点包括通用性、应用性和可扩展性,他还从这几个方面讲解了 TorchDrug 的特点。