AI“入侵”生物医药史:从暴力破解到Transformer模型三部曲
2024-12-17 11:59

AI“入侵”生物医药史:从暴力破解到Transformer模型三部曲

本文来自微信公众号:硅谷101,监制:泓君、陈茜,撰稿:Vicky Xiao,采访:陈茜,编辑:陈茜,主持:陈茜,题图来自:

文章摘要
AI在生物医药中展现惊人潜力,推动技术革新。

• 🚀 AI在诺贝尔奖中获认可,影响生物医药领域。

• 🧬 AlphaFold突破蛋白质折叠难题,大幅提高预测精度。

• 🤖 AI加速药物研发,降低成本,推动行业创新。

AI正在入侵科学界,特别是生物科技方向。


瑞典皇家科学院在2024年10月宣布了当年诺贝尔化学奖的获奖者,出乎意料的是——AI又是大赢家。


2024年的诺贝尔化学奖被授予了Google旗下DeepMind人工智能实验室的首席执行官Demis Hassabis和总监John Jumper ,以及华盛顿大学蛋白质设计研究所所长David Baker。



其中,Hassabis和Jumper因“蛋白质结构预测”研究获奖,而Baker则因“计算蛋白质设计”研究获奖。而此前一天,人工智能先驱Geoffrey Hinton和John Hopfield刚刚荣获诺贝尔物理学奖。


如果说诺贝尔物理学奖授予人工智能领域的两位先驱是众望所归,那么诺贝尔化学奖也花落AI及生物医疗的跨界领域则有些出人意料。因为即便对AI而言,该领域也是最难啃的骨头之一。



然而,随着人工智能技术的迅速发展,生物科技行业迎来了新的希望。


这篇文章我们将讲述:AlphaFold究竟是何方神圣?AI和生物医疗行业擦出了什么火花?人类如何靠AI推动生物医药技术更快地向前更迭?


一、AlphaFold与新纪元


2020年末,一场看似平常的线上会议,悄然揭开了人工智能与生物学深度融合的新时代。



当时,全世界正在经历疫情挑战,但没有人预料到,一个困扰科学界数十年的难题,会在这样一个特殊的时刻被攻克。就在那个冬日,人工智能向我们展示了AI与生物学深度融合时代的开端。


1.1. 线上会议的意外之喜


CASP大会是生物学界备受瞩目的盛会,每两年举办一次,被称为“蛋白质折叠界的奥运会”。



会议聚集了世界各地的顶尖科学家,共同探讨一个看似简单却极其复杂的问题:如何仅凭一维的分子代码,准确预测蛋白质的三维结构?


多年来,科学家们在这个问题上进展缓慢,有些研究者甚至将近几十年的职业生涯都奉献给了这项事业,然而距离真正的突破依旧遥不可及。


直到2020年11月底12月初,这个局面被彻底改变。受全球疫情影响,这次CASP大会首次以线上形式举行,与会者们聚集在屏幕前,原本期待着又一次渐进式的进步,然而,一场意想不到的惊喜正在等着他们。



在这次线上会议上,一位名叫John Jumper的新面孔引起了所有人的注意。他来自谷歌旗下的人工智能部门DeepMind,他们带来了一款革命性的工具——AlphaFold2。


1.2. AlphaFold2的惊人表现


2020年11月30日,当Jumper通过Zoom展示AlphaFold2的成果时,整个会议室陷入了震惊后的沉默。


AlphaFold2在3D蛋白质结构预测方面展现出了前所未有的准确性,其精确度超过90%,远远甩开了其他竞争对手,领先优势高达五倍之多。



具体来说,AlphaFold2预测了数十种蛋白质的结构,误差幅度仅为1.6埃(0.16 纳米),差不多原子大小。这远远超过了所有其他计算方法,并首次与实验室中使用的技术(如低温电子显微镜、核磁共振和X射线晶体学)精度相匹配。


此前,这些技术昂贵且缓慢:每种蛋白质可能需要数十万美元和数年的反复试验;而AlphaFold却可以在几天内找到蛋白质的形状。


这个突破性的成果在整个科学界引起了巨大的轰动,并立即成为各大媒体的头条新闻,因为它几乎一举解决了困扰科学界近50年来的蛋白质折叠问题。《自然》杂志在标题里引用科学家的话说,“它会改变一切”。



AlphaFold2的成功不仅标志着人工智能在生物学领域的重大突破,更预示着跨学科研究的无限可能。我们邀请到的采访嘉宾也同样用“震惊”表达了她和同行们看到AlphaFold2时的感受。


Janice(N-1 Life创始人)


AlphaFold2一出现就一骑绝尘,把其他对手都甩在了后面。我觉得对大家而言是一种彻底震惊的感觉,完全没有想到AlphaFold2已经可以达到这样一个高度。



这是生物技术界第一次如此直观地感受到人工智能带来的颠覆进步。我们先来解释一下蛋白质折叠问题为什么如此重要。


1.3. 蛋白质折叠


蛋白质是生命的基石,维持着生命活动的正常运转。


蛋白质的功能与它的三维结构密切相关:就像一把钥匙必须有正确的形状才能打开特定的锁,蛋白质也必须折叠成正确的形状才能执行其特定的功能。



因此,准确预测蛋白质的三维结构,对于我们理解疾病机理、开发新药物,以及深入洞察生命运作的奥秘都具有深远的影响。


长期以来,科学家们一直试图通过蛋白质的一维氨基酸序列(可以看作蛋白质的“源代码”)推断出最终的三维结构。但这个过程就像要从一串字母中预测出一个复杂折纸的最终形状,难度可想而知。



正是因为这个问题的重要性和复杂性,CASP大会才会每两年举办一次,吸引众多科学家前来展示他们最新的蛋白质折叠预测工具。AlphaFold2的突破,在这个背景下显得尤为重要和令人振奋。


1.4. 科学界的失落与肯定


AlphaFold2的惊人成果在科学界引起了巨大的反响,人们的反应可谓是喜忧参半。许多科学家对这一突破感到兴奋和鼓舞,但也有一些人表现出谨慎和怀疑的态度。


这并不是AlphaFold的第一次亮相,在2018年12月举行的第13届CASP大会上,DeepMind就首次推出了AlphaFold。



它在98个参赛队伍中名列前茅,从43种蛋白质中预测了25种的最准确结构,而同一类别中排名第二的团队,仅预测出43种蛋白质中的3种最准确结构。


尽管AlphaFold1表现出色,但它的准确性并未达到足以彻底改变整个领域的水平,在某些情况下仍然无法很好地预测复杂蛋白质的三维结构,因此其影响力相对有限。


然而,两年后问世的AlphaFold2出现了巨大的飞跃:其预测准确性在大多数测试蛋白上达到了接近实验结构的水平,相较于实验方法和其他计算方法,它大大缩短了预测时间,使得大规模应用成为可能。



这让一些研究者拒绝相信,一个AI系统能够在短时间内解决困扰人类数十年的难题。毕竟有些科学家已经将近三十年的职业生涯都奉献给了这个问题,突然间看到一个“外来者”取得如此巨大的成功,难免会感到些许失落和不安。


然而在会议的总结发言中,CASP大会的组织者John Moult却表现出坚定的信心,他毫不犹豫地宣布:AlphaFold2“在很大程度上解决了”蛋白质折叠问题。这个声明无疑给这次突破盖上了权威的印章。



John Jumper(DeepMind人工智能实验室总监)


十年后,AlphaFold将被视为打开机器学习洪流的时刻,它将真正改变我们对结构生物学和更广泛的生物学问题的思考方式。



如今,距离AlphaFold2给业界带来震撼已过去了4年,在此期间,DeepMind也在不断发展。


2021年,DeepMind与欧洲生物信息学研究所(EMBL-EBI)合作启动AlphaFold数据库,纳入35万个蛋白质预测结构,涵盖了人类、小鼠和其他19种被广泛研究的生物体产生的几乎每种蛋白质。



2023年,DeepMind更是公布了从细菌到人类的几乎所有已知2亿多个蛋白质的可能结构,并将其纳入相关数据库。研究人员说,“可以像在谷歌通过关键词搜索信息一样轻松地查找蛋白质的三维结构”。


AlphaFold 2的代码也已开源,Hassabis非常骄傲地称,“我们发布了整个蛋白质宇宙的结构。”



据欧洲生物信息学研究所(EMBL-EBI)估计,在现有的超过2.14亿个预测的蛋白质结构中,大约有35%是高度准确的(高度准确意味着它们与实验确定的结构质量一样高);有45%的结构足以在许多应用程序中使用。



2024年5月,谷歌进一步在 《自然》杂志上发表了关于AlphaFold 3的突破性研究,这一最新版本的AI模型在生物分子结构预测领域掀起了一场新的风暴。


1.5. AlphaFold3


AlphaFold 3由DeepMind和一家名为Isomorphic Labs的初创公司开发。Isomorphic Labs公司其实是从DeepMind分拆出来的团队,甚至还是由Hassabis亲自领导。


AlphaFold 3厉害的地方在于它是一个生成式神经网络模型,可以生成蛋白质、核酸(DNA/RNA)和更小分子的3D结构,并揭示它们会如何组合在一起,即史上最强的AI组合架构:Transformer+Diffusion。



这两个模型我们之前介绍过,而Transformer+Diffusion这个架构也让它成为了一个单一AI模型。基于这种组合架构,AlphaFold 3的核心突破主要体现在以下几个方面:


1. 全面预测能力:它不仅能生成蛋白质的3D结构,还能预测DNA、RNA和小分子的结构,更重要的是,它能揭示这些分子之间是如何相互作用的。


2. 细胞过程模拟:AlphaFold 3可以模拟控制细胞正常运转的化学变化,为我们理解和预防疾病提供了新的视角。


3. 惊人的精度提升:在预测分子的相互作用方面,即使在没有任何结构信息输入的情况下,它的准确性也比传统的最先进方法提高了50%。


这使得AlphaFold 3成为生物分子结构预测领域中首个超越物理基础工具的AI系统。



Demis Hassabis将AlphaFold 3的发布称为一个重要的里程碑,其标志着AI在理解和建模生物学领域又迈出了关键性的一步。


AlphaFold 3超越蛋白质,进入广泛的生物分子领域,这一飞跃可以开启更多变革性科学,从开发生物可再生材料和更具弹性的作物,到加速药物设计和基因组学研究。


而在药物研发领域,AlphaFold 3的潜力尤为突出:它不仅能提高药物设计的成功率,还为探索新的疾病靶点提供了可能。



Hassabis甚至预测,这可能会发展成一个价值千亿美元的产业。


此外,谷歌推出了免费研究平台“AlphaFold Server”,供全球科学家开展非商业化研究,可以利用AlphaFold 3在10分钟内预测分子,并测试假设。


当然,并不是用了Transformer+Diffusion架构,所有问题就都能迎刃而解。在专业人士看来,即使是Transformer+Diffusion这对强力组合,应用在制药领域,也还是有一些挑战。



车兴(YDS Pharmatech创始人兼CEO)


所有AI在制药领域应用的最大障碍,还是对实验需求和对科学问题的理解。


因为我们领域没有开发自己新的架构,这些LM、Transformer、 Diffusion 其实都是NLP、 CV等领域开发出来的,最终应用取决于我们要在实验上达到的目标,再去配合合适的技术来实现。


值得一提的好消息是:谷歌把AlphaFold 3开源了。



此前,AlphaFold3在使用上有不少限制:比如研究者无法运行自己的AlphaFold3版本或访问其底层代码、每日的预测次数也有限制,这也令部分科学家认为AlphaFold3的影响力反而会不如AlphaFold2。


或许是受到了诺贝尔化学奖的“刺激”,谷歌在11月11日悄悄地把它给开源了!“悄悄”是因为,谷歌甚至都没有发布一篇新闻,只是在原来的博客文章上进行了一段很小的文字更新:


“2024年11月11日更新,我们已发布了AlphaFold3的模型代码和权重作为学术用途,以帮助前沿研究。”



也就是说,现在任何人都可以下载AlphaFold3软件代码并将其用于非商业用途。虽然目前只有具有学术背景的科学家才能访问训练权重,而且只有在提出请求后才能访问,但对于学术界,这仍然是个巨大的进步。



Demis Hassabis(谷歌DeepMind首席执行官)


我认为AlphaFold是我们迄今为止构建的最复杂且可能最有意义的系统,我们建立AlphaGo和Alpha Zero的初衷,就是为通用学习系统奠定基础,并将其应用于解决现实世界的挑战,我热衷于面对科学挑战,比如蛋白质折叠,而AlphaFold当然是我们在这方面的第一个重要成果。


在硅谷的华源2024年会上,我们采访到了诺贝尔生理学或医学奖得主Randy Schekman,他认为AlphaFold会持续颠覆传统科研的范式。



Randy Schekman(2013年诺贝尔生理学或医学奖得主)


它会对传统研究产生颠覆性的影响,进步的本质就是颠覆,所以这并不可怕。相反,我们需要拥抱这种创新。


AlphaFold的影响是巨大的,唯一的限制就在于人的想象力——如何实现它、如何部署它。


但我并不认为从此我们就不需要做实验,实验仍然是推动科学进步的基础,但AlphaFold肯定会帮助我们更好地所有生成的数据。


二、AI结合生物领域的其他玩家


2.1. ESMFold


2022年,Meta AI研究团队推出了ESMFold,这是一个强大的蛋白质结构预测模型,并且还公布了6亿多种蛋白结构的预测结果。



这个庞大的数据库涵盖了地球环境样本中鲜为人知的蛋白质,包括土壤、海洋和人体中的微生物。


Meta表示,在ESMFold预测的蛋白质中,约有三分之一可以以高置信度完成预测。也就是说,当时ESMFold预测出来的蛋白结构数量,相当于AlphaFold2的3倍左右。


ESMFold还在计算效率方面取得了显著进展。Meta AI研究科学家表示,ESMFold能够在几秒钟内完成单个蛋白质结构的预测。这比之前的方法快了几个数量级:用ESMFold预测超过6.17亿个蛋白质的结构,只花了2周时间。



另外,在单个英伟达V100 GPU上,ESMFold可以在14.2秒内对含有384个残基的蛋白质进行预测,比AlphaFold2快6倍,而对于较短的序列,它甚至比AlphaFold2快了60倍。


Janice(N-1 Life创始人)


ESMFold在早期有非常多的优点,比如计算速度比较快。另外,它的数据库在早期非常开源。


ESMFold的核心是一个创新的AI模型,由大约十几名科学家共同打造,它借鉴了类似于ChatGPT的语言预测技术。


Meta的科学家们为ESMFold提供了代表蛋白质遗传密码的氨基酸序列,让AI模型学习如何填补序列中的空白部分。



通过学习已知蛋白质序列与结构之间的关系,ESMFold能够预测新蛋白质的三维结构。


这项技术的一个显著优势是其惊人的速度。


此外,尽管功能强大,ESMFold的设计却相对轻量,这意味着它可以在普通的GPU上运行,这使得更多研究者能够使用这个工具。


不过,它的缺点也很明显:准确度较低。不少生物技术业内人士表示,他们更喜欢 AlphaFold,而不是ESMFold,因为前者更准确。



由于AI赋能生物医药的瓶颈不是计算,所以更快并不意味着更好,准确才更重要。


然而,ESMFold项目却没有得到扎克伯格的支持:2023年春季,作为Meta公司大范围裁员的一部分,ESMFold部门被解散。这一举措使学术界担忧Meta是否能长期维持数据库的运行和相关服务,尽管如此,ESMFold的影响力依然显著。



自2022年发布以来,ESMFold模型每月的下载量约为25万次,每小时可预测1000种蛋白质结构,多个学术研究团体和生物科技公司已经开始使用这一工具。


相比之下,DeepMind的AlphaFold自2021年首次发布以来,已有来自190多个国家的100多万研究人员和生物学家使用,查看了300万种蛋白质结构。



虽然AlphaFold在准确性上仍占优势,但ESMFold的速度优势和更大的数据库为科研人员提供了另一种选择。只是不知道,遭遇了裁员危机的ESMFold未来命运如何。


2.2. RoseTTAFold


这次诺奖的另外一名获奖者David Baker带领团队开发的蛋白质分析工具系列Rosetta,是生物医药界人士的最爱。 


2021年,看到AlphaFold2大杀四方,David Baker教授和他的研究团队也着手开发出一种名为RoseTTAFold的新型蛋白质结构预测工具,这一突破性成果为解决长期以来困扰科学界的蛋白质折叠问题提供了新的思路和方法。



车兴(YDS Pharmatech创始人兼CEO)


David Baker组之前出过很多Diffusion做蛋白设计的,对于计算领域来说属于特别ground breaking(开创性的)


因为以前的计算领域没有这些工具,现在不但有了,还能有一定的成功率,所以我们都认为非常好。



Randy Schekman(2013年诺贝尔生理学或医学奖得主)


这尤其体现在David Baker取得进展的领域:他正在使用人工智能设计自然界中从未存在过的蛋白质,通过设计它们来催化制药行业。


之前这些反应通常效率低下且涉及有毒物质,而通过设计蛋白质来催化这些反应,或设计用于疫苗研发的新分子,或应用于药物开发的新药分子。


这种基于人工智能算法的设计原则在生产蛋白质或其他分子中的应用,无疑是未来的发展方向,其重要性将不断提高。


RoseTTAFold的核心是一种创新的深度学习算法。它采用了三轨神经网络架构,可以同时处理蛋白质的一维序列信息、二维距离信息和三维结构信息。



这种多维度的信息整合使得RoseTTAFold能够更准确地模拟蛋白质的折叠过程,从而实现高精度的结构预测。与传统的实验方法相比,RoseTTAFold具有几个显著的优势:


1. 速度快:通常只需几个小时就能完成一个蛋白质的结构预测,大大缩短了研究周期。


2. 成本低:不需要昂贵的实验设备和试剂,降低了研究门槛。


3. 适用范围广:可以预测各种类型的蛋白质结构,包括一些难以通过实验方法解析的蛋白质。



然而RoseTTAFold也存在一些局限性,比如对于一些特殊的蛋白质结构,其预测准确度还有待提高。此外,如何将预测结果与实验数据有机结合,也是未来需要解决的问题。


不过,在生物医药业内人士眼中,RoseTTAFold比起Google的AlphaFold和ESMFold,最大的优势是对生物学的理解。


Janice(N-1 Life创始人)


因为David Baker团队是科学家而非工程师出身,所以模型里面融入的生物学的理解和对于结构的理解是更深入的。


这是独一无二的,而且可能是全世界最好的。



也就是说,RoseTTAFold模型提出了一种全新的思路和底层架构。


我们提到的AlphaFold和OpenAI的GPT-4等语言模型,其实都是从AI技术出发,然后将其应用到生物医药等领域。而RoseTTAFold则从根本上突破了这一传统路径,提供了与以往AI驱动模型截然不同的创新方向。



正是这种对生物学多维度、多尺度的理解,使得RoseTTAFold具备天然优势——它对生物学的理解和输出更为准确。


在与AlphaFold 2的对比中可以发现,RoseTTAFold计算速度更快,且所需算力更少。这可能是因为它融入了更深入的生物学理解,从而减少了计算时间和资源消耗。


Janice(N-1 Life创始人)


RoseTTAFold甚至可以在普通的GPU上进行计算,但是AlphaFold必须用最好的A100来做。


接下来我们总结一下AI入侵生物医药行业的三个阶段。


三、AI+生物医药进化的三阶段


3.1. 早期阶段


第一阶段:机器学习的简单应用。


制药公司在早期尝试使用机器学习建模来预测药物效果和生物学反应,但成效甚微,主要因为数据量不足和模型的局限性。


AI技术的起源可以追溯到20世纪60年代,尽管在当时还不叫“AI”。



早期的研究主要是尝试用计算机和定量数学方法,解读化学结构及其与药效之间的关系。当时的著名术语叫“定量构效关系”(Quantitative Structure-Activity Relationship,QSAR)


代表人物Corwin Hansch创立了一个方程,用于定量分析化学分子的结构与其药效之间的联系,然而这些研究在当时仍然较为基础。



上世纪70年代和80年代,化学结构数据库的建立逐渐成为研究的重点。


上世纪80年代和90年代,随着计算机技术的兴起,全球的化学家和药物学家开始将化学结构及其生物活性的信息汇总到数据库中,通过数据库学习结构特征成为主流。


上世纪90年代见证了与Docking相关模型的建立,其中加利福尼亚大学旧金山分校UCSF和牛津大学的研究尤为突出。



Docking又叫分子对接,是一种计算生物学技术,它模拟了小分子(如药物候选物)与大分子(如蛋白质受体)之间的相互作用,以预测它们会如何结合在一起。这项技术在当时是非常先进的,尽管只能在实验室的大型本地计算机上进行,使用起来也十分受限。


Janice(N-1 Life创始人)


现在在斯坦福的一些实验室里还保留着当时的计算机——特别大,而且都是本地的计算机,实验室里有谁需要用这个工具,都只能去那个特定的计算机上尝试。所以是当时那个时代非常先进的成果。


进入21世纪后,机器学习和深度学习技术逐步应用于药物发现领域。第一代AI药物发现公司出现,通过机器学习分析药物分子的结构和药效,尝试设计新的药物分子。


同时,高通量筛选技术的普及使得数据产生的速度和量大幅提升,为机器学习提供了大量的数据点,推动了AI在药物研发中的应用。



3.2. 深度学习


第二个阶段的技术突破是:深度学习算法的出现。它极大地提升了生物医药领域的数据处理和分析能力,为复杂的生物学问题提供了新的解决方案。


21世纪初期,生物医药领域主要依赖大量数据的积累,通过机器学习方法从中提取规律。


真正的转折点出现在2010年代初期,深度学习的兴起为生物医药领域带来了前所未有的变革。



再往后就是人工智能时代了。尽管“人工智能”(AI)这一术语早在计算机领域广泛应用,但直到2020年前后,它才在生物医药领域真正得到重视,这一变革的关键推动力是AlphaFold等突破性模型的问世。


AlphaFold的成功不仅标志着AI技术在生物医药领域的成熟应用,更是一次划时代的分水岭。这些先进的AI工具超越了传统的数据堆积分析,具备了强大的预测能力,从而加速了生命科学和药物发现的进程。



Janice(N-1 Life创始人)


AlphaFold出现是一个很重要、划时代的分水岭,从这个时候起,大家就开始把所有相对成熟很多的AI的工具用到生物医药领域中。


它不仅是堆叠各种数据,尝试在数据里面找到规律,更多的是有预测功能,所以从2020年开始一直到现在,虽然时间并不长,但模型迭代非常快,进入了AI助力生命医学和药物发现的新时代。


3.3. 真正的AI时代


第三阶段:生物医药领域进入了端到端学习的新时代。



早期的机器学习工具在生物医药领域的应用主要依赖于庞大的数据库,通过分析已知结构来寻找规律,然而这种方法在预测新结构和功能方面存在局限性。而且传统的结构-活性关系(SAR)研究需要逐步解析化学分子从化学式到三维构象,再到与蛋白质或药物靶点的相互作用,每一步都需要明确的关系。


随着人工智能技术的发展,特别是深度学习的引入,生物医药领域进入了端到端学习的新时代:这种方法允许从化学式直接预测分子的功能,中间过程由模型自动处理,减少了人为干预。



这得益于强大的计算资源和先进的模型,使得科学家不再需要关注每个环节的细节,而是直接获得高准确率的预测结果。


Janice(N-1 Life创始人)


这时候人就已经跟不上机器的速度了。对于科学家来讲,现在我们要尝试去理解并不是每个环节都要有结论,因为就算有结论也不一定是正确的,在化学生物界很难得到证实,大家都是在不断证伪,产生很多假设。


这些假设将引导我们走向不同的研究方向,但有时设计的药物、采取的途径可能并不正确,这也是生物医药领域进展困难的原因之一。


在这种情况下,AI可以不用管中间的过程,直接为我们提供一个结果,而且准确率正在不断提升,所以我觉得这完全是一个新时代。



至于AI技术的演进,从前面提到的Alpha Fold1、2、3代,我们可以看出:


为了构建AlphaFold1,DeepMind用数千种已知蛋白质训练了一个神经网络,直到它能够仅凭氨基酸预测出蛋白质的3D结构。


当给定一种新蛋白质时,AlphaFold使用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。



在第二步中,AlphaFold调整了草图结构以找到最节能的排列,这个程序在一开始时会花两周时间预测第一个蛋白质的结构,但现在只需几个小时就能预测出来。


AlphaFold2则是运用了深度卷积神经网络来进行训练。到了AlphaFold3,就已经是Transformer加Difusion模型了。


Janice(N-1 Life创始人)


Alphafold 1用的还是传统的解题思路,但是AlphaFold 2就跳过了这一块,直接用深度神经网络预测了蛋白质的结构。


在蛋白质预测领域,除谷歌外,还有其他公司也在构建类似的大型模型。例如Meta的ESM Fold、David Baker团队的Rosetta Fold都是竞争对手。


然而到AlphaFold 3的时代,其准确度已经远远超过了其他模型,所以谷歌给到的那么多资源支持,确实让他们在领域内领先了。


了解了计算机技术改造生物医药行业的三个阶段,下一个问题是:AI技术会带来什么样的革新?



首先,人工智能(AI)技术的应用显著加速了药物研发进程,进而降低了成本。


传统药物开发通常需要5到10年才能筛选出一个先导化合物(lead candidate),然后再进入临床试验阶段。AI的引入使这一过程大幅缩短,例如Iambic Therapeutics公司可以在9个月内开发出一个新分子,并在24个月内进入临床试验。



其次,AI的优势在于减少了对大量化合物合成和实验室实验的依赖,更多地利用计算机模拟进行预测和验证。这使得资源分配从传统的实验室实验转向计算能力的投入,随着计算技术的不断革新,成本预计将持续下降。


此外,AI在自然语言处理(NLP)领域的成功,如ChatGPT的出现,进一步提升了人们对AI在药物研发中潜力的认识。这促使研究人员探索将大型语言模型(LLM)等先进AI技术应用于药物开发,以提高效率和成功率。



车兴(YDS Pharmatech创始人兼CEO)


在ChatGPT出来前,我们探索了纯用RL和基于图的方法,发现成功率较低,且计算成本比较高。


后来ChatGPT太成功了,吸引了大家的注意。加上我们之前尝试的其他技术路径都存在一些不尽如人意的地方。


我们的AI案例主要关注自然语言处理(NLP),在了解ChatGPT的方法后,我们就能够更好地应用它,这也是我们技术传承和积累的结果。



四、未来,刚刚开始


毫无疑问的是,AI正在影响生物行业的方方面面。当谈到生物科技时,不仅仅是制药公司,从药物发现到开发,再到药物制造、监管、临床试验和诊断的各类公司,他们都在受到AI的影响。



例如,药企想要进行临床试验,需要向FDA提交数百页的文件来证明他们的数据有效,以此申请批准药物试验。过去,这些工作完全由人完成,光是准备这些文件可能就需要花费100万美元。


但现在有了AI工具,比如大语言模型和其他用于数据总结和分析的工具,这些时间和费用都可以节省。但这并不意外,因为文本、数值数据、图像处理正好是AI擅长处理的。



Randy Schekman(2013年诺贝尔生理学或医学奖得主)


AI正被用于评估当前生成的大量数据,这还只是开始,因此其中蕴藏着许多机会。


在硅谷101的线下AI论坛上,Fusion Fund的联合创始人张璐也提到:现在到了AI在医疗健康领域大显身手的黄金时期。


AI不仅在医疗健康行业中得到了各种应用,包括数字诊断、治疗,再到数字生命科学和数字生物学等。更重要的是,AI也需要医疗健康行业,这个行业有大量高质量的数据,能够展现AI的能力。



张璐(Fusion Fund创始合伙人)


人类社会产生的数据大约有30%是与医疗保健相关的,在这30%的数据中,目前只有5%得到了有价值的分析。


这就像一个尚未开发的金矿,我们还没挖掘出它的真正价值。现在,人们终于开始尝试学习并应用新技术,吸引最优秀的人才和资源,推动不同的创新,这些创新会涉及计算生物学、数字生物学和合成生物学。


对于AI在生命科学领域的最具潜力的投资方向,张璐甚至还提到了一点,随着Space X Starship的成功发射,这意味着未来人类探索宇宙的时间表可能会在五到十年内出现。


太空环境会为数字治疗、数字生物学提供哪些新的解决方案、新的结果呢?这也是一个非常有趣的脑洞。



目前AI的应用主要集中在研发阶段,虽然在如何把AI整合进生物医药的整个链条,尤其是在商业运营上还在摸索,但已经可以看到不少科技公司的频繁动作:


英伟达开始频繁在AI制药领域投资出手,2023年的5月至11月,半年间,英伟达陆续投资了9家AI制药公司,其中有2013年成立的上市公司,也有刚成立、募集种子轮融资的新公司。


亚马逊云科技宣布与生命科学行业商业服务提供商EVERSANA合作,共同推广AI驱动制药等应用。



谷歌云宣布与生物制药上市公司Insmed合作,利用AI技术提高效率,减少新药开发和交付的时间


在AI技术飞速发展的新周期中,我们迫切地希望看到科技公司和生物医药公司能强强联手,加速人类的健康医疗水平的进步。


而未来,才刚刚开始。


本文来自微信公众号:硅谷101,监制:泓君、陈茜,撰稿:Vicky Xiao,采访:陈茜,编辑:陈茜,主持:陈茜

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定