当地时间11月30日,谷歌旗下的人工智能公司DeepMind宣布,其研发的AI系统AlphaFold成功解开了一个困扰人类长达50年之久的生物学难题——“蛋白质折叠问题”。
这一惊人的成果立刻引发了关注。科学家们表示,这个突破性的成就不仅将帮助科研人员弄清引发某些疾病的机制,为更快研发药物、农作物增产,以及可降解塑料的超级酶研发铺平道路,还可能对大部分人类产生革命般的影响。
“这是该研究领域激动人心的一刻,”DeepMind联合创始人兼CEO哈萨比斯说:“这些算法今天已经足够成熟强大,足以被应用于真正具有挑战性的科学问题上。”
为何“蛋白质折叠问题”如此重要?
蛋白质被称为地球生命的“基石”,它几乎支持着地球上每一种生物的生命功能。而这些由氨基酸链组成的复杂大分子,其功能很大程度上取决于自身独特的3D结构。
↑蛋白质的功能是由其三维形状决定 图据DeepMind官网
1972年,诺贝尔化学奖得主、美国科学家克安芬森提出了一个著名的假设:从理论上来说,蛋白质的氨基酸序列应该可以完全决定其结构。自此,人类科学开始了一场半个世纪的新探索。
自安芬森提出假设后,科学家们一直在寻找一种快速预测蛋白质结构的方法,一旦能掌握这样的方法,就能更好地理解蛋白质在人体内的作用以及其工作原理,但他们却迟迟未能得以突破。
弄清蛋白质的氨基酸序列如何决定其折叠成何种形状,即“蛋白质折叠问题”,被称为过去的50年里生物学领域最棘手、最持久的谜团之一。
蛋白质的形状由氨基酸之间数以百万计的微小相互作用决定的,而“一旦这些氨基酸发生一次微小的重组,就会对人体的健康造成灾难性的影响,因此,研究相关蛋白质是了解人类疾病和找到新治疗方法最有效的方法之一。”致力于研究蛋白质结构预测问题的CASP14小组主席约翰·莫尔特博士解释道。
不仅如此,世界上许多重要的科研挑战,如开发治疗疾病的方法或找到分解工业废料的超级酶,基本上都与蛋白质及其所扮演的角色有关。
然而,人体内有成千上万种蛋白质,细菌、病毒等其他物种则有多达上亿种蛋白质。目前已知的蛋白质有两亿种,但只有一小部分已被破解,因为按照传统研究方式,仅仅破译一种蛋白质的结构就需要耗费大量时间和金钱。
↑DeepMind研究团队正展示其AI系统预测的蛋白质3D结构 图据DeepMind官网
据《财富》杂志介绍,迄今为止,唯一破译蛋白质结构的方法是通过X射线晶体学。这涉及到将数以百万计的蛋白质溶液转变成晶体,这是一个十分棘手的化学过程。然后,X射线被射向这些晶体,科学家根据它们产生的衍射图案逆向工作,从而建立蛋白质本身的图像。而对许多蛋白质来说,不是任何X射线都可以“胜任”,它们需要由一个巨大的、视距大小的圆形粒子加速器——同步加速器产生。
这一整个过程既昂贵又耗时。根据多伦多大学研究人员的一项估计,用X射线晶体学方法确定单个蛋白质的结构大约需要12个月和12万美元。目前全球每年新增发现大约3千万种蛋白质,但其中只有不到20万种能通过用X射线晶体学绘制出结构图。DeepMind高级研究员、蛋白质折叠问题团队负责人约翰·江珀曾表示:“我们的无知程度正在迅速增长。”
可有助理解生命形成,研究治疗癌症、新冠的救命药
解决蛋白质折叠问题意味着什么?答案是:可能会对大部分人类产生革命般的影响。
如今,科学家们通过Alphafold 2已经拥有了预测蛋白质3D折叠形状的能力,对于人们理解生命形成的机制至关重要。
《自然》杂志指出,准确预测蛋白质结构的能力将是生命科学和医学领域的巨大福音。因为几乎所有的疾病,包括癌症、新冠病毒等,都与蛋白质3D结构有关,而通过确定以前不为人知的蛋白质结构,可以更快地开发更有针对性的治疗方法和药物。这可能会加快新药上市的时间,可能会减少新药开发的几年时间和数亿美元的成本,可能因此拯救数亿人的生命。
不仅如此,该领域科学家们指出,这一突破将彻底改变生物学。
英国皇家学会主席拉马克里希南指出,在AlphaFold的帮助下,人类攻克“蛋白质折叠问题”比此前的预期提前了好几十年。“它将从根本上改变生物学众多领域的研究,这将是令人兴奋的。”他说道。
“它改变了游戏规则,”德国进化生物学家安德烈·卢普斯说道。AlphaFold已经帮助他找到了一种困扰了团队长达10年的蛋白质结构,他预计,这将改变团队的工作方式和他的科研任务。“这将改变医学,改变大家的研究方向,改变生物工程,改变一切,”他补充道。
哥伦比亚大学计算生物学家 Mohammed AlQuraishi 在《自然》杂志上的撰文指出,“可以说这将对蛋白质结构预测领域造成极大影响。我怀疑许多人会离开这个领域,因为核心问题已经解决。这是一流的科学突破,是我一生中最重要的科学成果之一。”
但卢普斯认为,这将允许新一代的分子生物学家提出更高级的问题。
毫无疑问,AlphaFold 也是 DeepMind 迄今为止取得的最重要进展之一,也是人工智能领域最重要的成就之一。但对于DeepMind的研究人员而言,还有很多后续问题有待解决,包括弄清楚多种蛋白质如何形成复合物以及它们如何与DNA相互作用。江珀表示,DeepMind下一步计划将应对这些挑战。
问题的开始:打破人类智商“天花板” 解决“根节点问题”
作为全球领先的人工智能研究中心之一,DeepMind研发的AI系统已经让世人惊叹。此前,该公司最为人所知的成就当属击败了围棋世界冠军李世石的AlphaGo。
↑2016年3月15日,李世石(左)与哈萨比斯握手 图据《财富》杂志
然而这并不是DeepMind的目标,利用人工智能解决一些最紧迫的科学难题,才是其联合创始人兼CEO杰米斯·哈萨比斯成立这家企业的初衷。
而DeepMind之所以要瞄准了蛋白质折叠问题,一切要从一个游戏开始说起。
哈萨比斯曾是一名国际象棋神童,13岁时就成为象棋大师,曾一度在同龄人中排名世界第二。他对国际象棋的热爱让他痴迷于两件事:游戏设计和自己内心的思维机制。
在进入剑桥大学学习计算机科学后,他于1998年创立了自己的电脑游戏公司Elixir Studios。在制作出两款获奖游戏后,他卖掉了知识产权并关闭了公司。随后,哈萨比斯又在伦敦大学学院获得了认知神经科学博士学位。
2009年,哈萨比斯在美国麻省理工学院做博士后研究时,听说了一款名为Foldit的网络游戏。Foldit由华盛顿大学的研究人员设计的,是一个关于蛋白质折叠的“公民科学”项目。这款游戏引起了哈萨比斯浓厚的兴趣。
2010年,哈萨比斯创立了人工智能公司DeepMind,目标是“解决智力问题,然后用它来解决其他一切问题”。此时的哈萨比斯已经对蛋白质折叠有了初步的认识,使其成为了“其他一切问题”之一。
↑由人工智能预测的蛋白质结构(蓝色)和实验确定的蛋白质结构(绿色)几乎完全匹配 图据《科学》杂志
2016年3月15日,AlphaGo击败世界顶级棋手李世石当天,DeepMind一战成名。同样在当天,哈萨比斯在首尔街头对AlphaGo团队负责人大卫·西尔弗表示:“告诉你吧,我们可以解决蛋白质折叠问题。”
DeepMind人工智能科学应用的部门负责人普什米特·科利表示,DeepMind的目标是试图解决“根节点问题”,也就是说,解开通向众多不同科学途径的根本问题,而蛋白质折叠问题正是这些根节点之一。
Alphafold是如何突破这一难题的?短短4年:从诞生到成功
时间回到1994年,当许多科学家第一次开始使用复杂的计算机算法来尝试预测蛋白质折叠问题时,马里兰大学的生物学家莫尔特决定创建一个竞赛,以提供一个公正的方式来评估出最好的算法。他将这个比赛命名为“蛋白质结构预测的关键评估(CASP)”,每两年举行一次。此后,CASP被誉为蛋白质结构预测领域的奥林匹克竞赛。
2016年,在AlphaGo击败李世石后不久,DeepMind向争夺这块CASP金牌发起了进攻。
为了解决这个问题,DeepMind成立了一个由六名AI研究人员和工程师组成的尖兵队伍,随后蛋白质折叠问题专家约翰·江珀也加入了。经过一番摸索,通过一种名为“监督式深度学习”的简单训练方法,并使用来自蛋白质数据库(一个大型生物分子的3D结构数据在线数据库)的17万份公开数据作为训练数据,AlphaFold很快有了雏形。
↑杰米斯·哈萨比斯 图据《财富》杂志
所谓“监督式深度学习”,就是大多数商业应用中使用的人工智能:从一组已建立的数据输入和相应输出,神经网络学习如何匹配给定的输入和给定的输出。
此前,一些生物学家也尝试使用“监督式深度学习”来预测蛋白质如何折叠,但正确率只有50%。随后,有科学家根据蛋白质的进化史将其分门别类并发现,在各类别中,DNA序列中可能存在着“协同进化”的氨基酸对,在蛋白质的折叠结构中相互接触。
2018年第13届CASP比赛,DeepMind在“协同进化”和接触预测的基本观点上增加了两个重要的转折因素——距离和角度。首先,让算法预测蛋白质中所有氨基酸对之间的距离,而不是试图确定两个氨基酸是否会接触。其次,研发了第二个神经网络,以预测氨基酸对之间的角度。
至此,DeepMind的算法已经能够计算出蛋白质可能结构的粗略轮廓。然后又使用了一种非人工智能的算法对结构进行优化。将以上所有元素合并后,“AlphaFold”AI系统正式诞生。
↑DeepMind高级研究员、蛋白质折叠问题团队负责人约翰·江珀 图据《财富》杂志
在2018年第13届CASP比赛中,AlphaFold击败了所有对手。在最难的43种蛋白质预测中,AlphaFold获得了25种蛋白质的最高分,而紧随其后的第二名仅得到了3个最高分。
比赛结果一出便震惊了整个领域。尽管如此,此时的AlphaFold距离哈萨比斯的目标——解决蛋白质折叠问题,还差得很远。AlphaFold几乎有一半的结果相当不准确,且在104个蛋白质靶点中,仅有三种情况的结果与X射线晶体学得出的结果一样好。“我们不仅仅想成为这方面的佼佼者,我们还想做到最好。我们实际上想要一个对生物学家有意义的系统,”江珀说道。
2018年比赛结束后,DeepMind开始更加努力。但研究团队并不是仅在AlphaFold的基础上改进,而是重新回到白板前,开始提出完全不同的想法,希望让系统更接近于X射线晶体学达到的精确度。
然而接下来,据江珀回忆,是整个项目中最可怕、最令人沮丧的一段时期:一切尝试都是无用功。他说道:“我们花了三个月的时间,都没有比CASP13更好的结果,这让我们开始感到恐慌。”但后来,研究人员尝试进行了一些轻微的改动,六个月后,该系统明显优于最初的AlphaFold。
在接下来的两年里,江珀和整个团队都陷入了一种循环:三个月没有任何进展,接着是三个月的快速发展,接着是另一个停滞期。
2019年11月21日,新系统AlphaFold 2终于在性能上有了巨大的飞跃。2020年5月至8月,第14届CASP比赛开始,11月30日公布排名中,AlphaFold 2打破了精确度的纪录,以平均预测准确度为92.4分(满分100分),最具挑战性的蛋白质分类平均得分87分的成绩,获得了比赛冠军,同时也撼动了全球生物学领域。
红星新闻记者 徐缓
编辑 张寻