本文来自微信公众号:深究科学 (ID:deepscience),作者:周晨,题图来自:NobelPrize
本文来自微信公众号:深究科学 (ID:deepscience),作者:周晨,题图来自:NobelPrize
北京时间10月9日17:45,2024年诺贝尔化学奖揭晓。
DeepMind创始人戴米斯·哈萨比斯(Demis Hassabis)和资深成员约翰·贾伯(John Jumper),以及华盛顿大学教授戴维·贝克(David Baker),三位学者凭借蛋白预测系统AlphaFold以及蛋白结构预测斩获今年的化学奖。
凭什么一个AI能屡屡斩获国际性的医学大奖?很多生物学家有些不屑,认为这里没有高深的科学,有的只是工程。
实际上,AlphaFold的研发之路也并不顺畅,从积累已经确认的蛋白质结构数据到预测几乎所有人类蛋白质的结构,AlphaFold为蛋白质结构研究赋予了一个全新的视角。
获奖者介绍:DeepMind创始人戴米斯·哈萨比斯(Demis Hassabis)和资深成员约翰·贾伯(John Jumper),华盛顿大学教授David Baker。
获奖理由:表彰他们在蛋白结构设计和预测方面的贡献。
一、一个艰巨的问题
众所周知,蛋白质在细胞内扮演着众多重要角色,其功能与其三维结构形态密切相关,对蛋白质结构的洞察可以揭示功能并解开生物学的谜团。
Christian Anfinsen
60多年前,已故美国国立卫生研究院(NIH)的科学家克里斯蒂安·安芬森(Christian Anfinsen)发现了一个很有意思的现象:蛋白质可以在没有外力帮助的情况下自己恢复成特定的形状。
据此,他得出结论,蛋白质的形状是由它的组成成分——氨基酸的排列顺序所决定的。
实际上,即使是结构很小的蛋白质,要尝试所有可能的形状,需要花费的时间可能比宇宙存在的时间还长。但在生物体细胞内,蛋白质却可以在毫秒内迅速地找到最适合的形状。
这不禁让我们感到困惑,自然界是如何解决这个难题的呢?
为了理解蛋白质的构建原理并探索其结构,科研人员采用了多种方法。他们试图用能量方程表达物理间的相互作用,同时运用X射线晶体学和其他技术来制作可作为蛋白质结构蓝图的模板。此外,他们还结合了关于特定氨基酸的知识(比如说是否带电荷)以及它们在链上的位置,以获得关于蛋白质结构特征的线索。
1994年,马里兰大学的约翰·穆特(John Moult)及其团队启动了“结构预测临床评估”(CASP)项目来追踪蛋白质结构预测领域的发展。该项目每两年组织一次,参与者会收到在实验室中已经解决但尚未发布的蛋白质的氨基酸序列,然而应用自己开发的系统生成预测模型,这些模型最后又与实验结果进行比较并打分。
在过去的几十年里,模型的性能以小增量缓慢上升,有时会停滞甚至倒退。
早期,华盛顿大学教授戴维·贝克(David Baker)曾开发了一种方法,他从一个全球共享的蛋白质数据库(PDB)中提取了短片段,来预测蛋白质内的局部结构。尽管确实有所收获,但这种基于片段的策略对绝大多数蛋白质来说不仅很耗时,而且应用有限。
与此同时,科学家一直在不断积累已经确认的蛋白质结构数据。截至2014年,PDB中已有超过10万种蛋白质结构的记录,但这么多蛋白质结构记录也仅仅是当时已知数千万蛋白质序列的一小部分。
二、引入人工智能进入折叠过程
在2018年第13届CASP比赛中,DeepMind团队采用了机器学习技术改进了预测方案。与传统AI方法依赖预设逻辑不同,机器学习能自我发现数据中的模式。在将机器学习作为蛋白质预测网络的核心组件后,哈萨比斯和贾伯的队伍以高准确度遥遥领先,甚至相较于去年最佳水平提升了近50%。
Science对DeepMind在CASP13表现中的报道
尽管取得了成功,DeepMind的研究人员并未止步:他们希望开发出误差不超过一个原子大小的实用工具。哈萨比斯、贾伯等人进行了头脑风暴,将几何和遗传学概念融入了已知的蛋白质知识,如原子具有特定半径、键具有特定角度。他们旨在将这些因素纳入考虑,同时不干扰系统的自主学习能力。
研究人员设计出从有限实验证据中提取最多信息的方法,并采取策略使AlphaFold2能够高效学习。他们允许AlphaFold2在任何阶段进行调整避免早期错误。整个过程中,它可以逐步完善结构模型。
哈萨比斯、贾伯及其同事还放弃了指导传统算法的原则,如线性接近性原则,而是更注重三维关系,因为相距数百个亚单位的氨基酸可以在折叠的蛋白质中共存。此外,他们还开发了一种算法,特别关注不同氨基酸的物理距离。
AlphaFold2取得的突破并非单一元素的贡献,而是众多创新想法共同作用的结果。
三、严格的训练
为了训练该系统,哈萨比斯和贾伯的团队使用了PDB(Protein Data Bank)对确定的结构进行实验。AlphaFold2反复将其模拟出的答案与真实答案进行比较,并最终变成现实。在训练集的每个成员重复这个过程后,该算法吸收了蛋白质结构的原理。
在过去的几年里,机器学习将蛋白质结构领域推向了一个新领域
研究人员利用了一些技巧来提高网络的学习能力,如他们在MSA中隐藏了氨基酸并要求其填补空白。通过这种方式,他们要求AI系统掌握进化关系规则。他们还递归地提供任何给定步骤的输出,这为AlphaFold2提供了许多重新考虑和改进的机会。
AlphaFold2还计算了对其预测的可信度,这些可信度评分使研究人员能从可用数据中获取更多信息,从而提高其性能。
研究人员向AI系统提供大约14万PDB序列后,再让它运行了另一组尚未解决结构的序列。此外,他们挑选了最可靠的35万个序列/结构对,并用这些数据训练了该系统,从而提高其准确度。
四、重塑蛋白质科学
2020年,AlphaFold2在CASP14竞赛中脱颖而出。它的预测达到了原子精度,并可以在几分钟内为没有模板的蛋白质生成出色的结果,这是第一种在已知没有相似结构的情况下构建高分辨率预测的方法。
2021年7月,哈萨比斯和贾伯发表了他们的模型以及对几乎所有人类蛋白质的结构预测。在短短两年内,他们论文的影响力已经超过了自1900年以来在《自然》杂志上发表的近10万篇研究论文中的几乎所有文章,这篇论文排名第50,被顶级期刊上发表的7000多篇论文引用。
之后,哈萨比斯和贾伯与欧洲分子生物学实验室欧洲生物信息学研究所合作,向科学界分享了该程序和数据库,超过一百万的研究人员使用了这些资源。
DeepMind团队此后将其目录扩展到已测序基因组的生物中的几乎所有已知蛋白质。这些目录包括了病毒的蛋白质组,这些病毒是流行病威胁和世界卫生组织高优先级病原体。
目前,AlphaFold2系统在许多生物医学领域及相关领域产生了巨大的影响,通过应用AlphaFold2,研究人员重新设计了针对人类细胞的蛋白质,开辟了药物输送和基因治疗的新途径,学术实验室和公司正在利用AlphaFold2开发疫苗、设计药物、制造分解污染物的酶等,前景一片光明。
参考资料:
AlphaFold—for predicting protein structures.Lasker Foundation.
本文来自微信公众号:深究科学 (ID:deepscience),作者:周晨