生物史最全“证件照”:DeepMind 开放 35 万种蛋白质结构,超人类知识 2 倍

今天将成为人类生物学历史上具有重大意义的一天!

智东西 7 月 23 日消息,今日,人工智能研究实验室 DeepMind 与欧洲生物信息学研究所 EMBL-EBI(European Bioinformatics Institute)合作,推出了 AlphaFold 蛋白质结构数据库,该数据库提供了迄今为止人类蛋白质组最完整、最准确的图像,是人类积累的高精度人类蛋白质结构知识的两倍多。

除了人类蛋白质组(人类基因组表达的所有蛋白质约 2 万种)之外,他们还将提供其他 20 种具有生物学意义的生物蛋白质组的开放访问,总计超过 35 万种蛋白质结构,包括从果蝇到小鼠等动物,以及从大肠杆菌到酵母等细菌

发布第一批数据后,DeepMind 计划继续增加蛋白质库,几乎覆盖所有科学已知的已测序蛋白质,共超过 1 亿种结构,该库将由 EMBL 维护。在 EMBL 总干事 Edith Heard 看来:“这些数据集将改变我们对生命运作方式的理解。”

“我认为这是 DeepMind 整个 10 年多生命周期的顶峰。”DeepMind 联合创始人兼 CEO Demis Hassabis 谈道,从成立之初,DeepMind 就打算将 AI 方面取得的突破在围棋、雅达利等游戏上进行测试,并将其应用于现实世界的问题,以加速科学突破并造福人类。

Demis Hassabis 称,这些数据对科学和商业研究人员来说都将永久免费开放。“任何人都可以将它用于任何事情,他们只需要归功于参与引用的人。”他说。

▲ 长期以来,人源中介体复合物(Mediator Complex)一直是结构生物学家最具挑战性的多蛋白系统之一。(图源:Nature)

01.AlphaFold 预测蛋白质结构、缓解多领域生物研究瓶颈

21 世纪是生物的世纪,更是计算机的世纪。

早在去年 12 月,DeepMind 就推出了 AlphaFold 2 系统,可通过 AI 软件对蛋白质结构进行准确预测,该解决方案被认为能解决困扰科学家们 50 年的蛋白质折叠(protein folding)问题。

直到上周,DeepMind 还发表了相关科学论文和源代码,以解释如何创建这个高度创新的系统,允许其他人通过 AlphaFold 来完成相关研究工作。

AlphaFold 系统的诞生,证明了 AI 可以在几分钟内准确预测蛋白质的 3D 结构,精确到原子精度。而 AlphaFold 蛋白质结构数据库的开放,也将促进世界各地的科学家们加速对人类蛋白质的研究。

那么,何为蛋白质折叠问题?

简单来说,许多生物过程都是围绕蛋白质来进行的,而蛋白质是由氨基酸序列组成的大型复杂分子,其真正的作用取决于自身独特的 3D 结构,也就是蛋白质中氨基酸序列的折叠方式。

了解蛋白质结构能增进人类对生命组成部分的理解,从而推动科学家们在各个领域的研究。

例如,英国朴茨茅斯大学(CEI)正在利用 AlphaFold 来设计一种新型酶,以快速分解污染严重的一次性塑料等废物;美国科罗拉多大学博尔德分校通过 AlphaFold 预测,来研究抗生素耐药性的前景;美国加利福尼亚大学旧金山分校则使用 AlphaFold 来研究新型冠状病毒的工作原理……

▲ AlphaFold 预测的蛋白质结构的两个例子(蓝色)与实验结果(绿色)的比较(图源:DeepMind)

这些都是科学家们利用科技带来的大量生物数据信息,一步步转换为未来人类的进步。

但科学家们指出,这些信息转换到现实世界并产生结果的过程,仍需要大量时间。“我认为这不会在一年内改变患者的治疗方式,但它肯定会对科学界产生巨大影响。”科罗拉多大学生物化学系教授 Marcelo C. Sousa 说。

需要注意的是,AlphaFold 软件生成的是蛋白质结构的预测,而不是实验确定的模型,这意味着在某些情况下,科学家还需要进一步的工作来验证结构。

DeepMind 对此表示,他们花了许多时间在 AlphaFold 软件中构建准确度指标,让它能对每个预测的可信度进行排名。

不过,蛋白质结构的预测仍对科学研究带来了巨大帮助。以往科学家们确定蛋白质结构的实验过程既耗时又昂贵,还要依赖大量反复试验,而蛋白质结构预测即便置信度低,也可以为科学家指明正确的研究方向,为他们节省多年的工作。

英国格拉斯哥大学(University of Glasgow)结构生物学教授 Helen Walden 认为,DeepMind 的数据将“显著缓解研究瓶颈”,但“进行生物化学和生物学评估的费力、耗费资源的工作”将继续存在,例如药物功能研究。

Sousa 也提到,他曾在工作中使用过 AlphaFold 的数据,“科学家们能快速地感受到它带来的影响。”他说,在他们与 DeepMind 的合作中,他们有一个包含蛋白质样本的数据集,但 10 年来都还没开发出一个合适的模型,直到 DeepMind 同意为他们提供一个结构,在 15 分钟内就解决了这个问题。

02. 蛋白质折叠难题背后、AlphaFold 分析速度已提升 16 倍

AlphaFold 只需 15 分钟就能解决的问题,为何困扰了这些科学家 10 年?蛋白质折叠问题究竟难在哪?

如我们前面所说,蛋白质由氨基酸链构成,人体中共含有 20 种不同的氨基酸,任何一个蛋白质都可以由数百个氨基酸组成,且每个氨基酸都有不同的折叠和扭曲结构。

这些都意味着,哪怕是一个常见的蛋白质分子,它的最终结构都有许多种可能构型。一个估计是,典型的蛋白质可以以 10^300 种方式折叠。不用数了,就是“1”后面跟着 300 个“0”的可能性。

不过由于蛋白质的样本太小,科学家们难以用显微镜检查,不得不使用成本昂贵且复杂的方法来间接确定蛋白质结构,比如核磁共振和 X 射线晶体学(X-ray crystallography)。

但实际上,简单地通过氨基酸序列来确定蛋白质结构的构想,在理论上一直是难以实现的。因此,分析蛋白质结构也成为了人们攻克生物学领域的一大难关。

直到近年来,人们发现可以利用 AI 的方法来分析蛋白质结构。借助这些技术,AI 系统可以通过在已知蛋白质结构的数据集上进行训练,并最终利用这些信息来预测蛋白质结构。

多年来,很多团队都参与到这项 AI 研究中,其中 DeepMind 基于深厚的 AI 人才库和大量计算资源基础,一直走在该领域的前沿。

去年,DeepMind 在一项名为 CASP 的国际蛋白质折叠比赛中脱颖而出,其 AlphaFold 软件对蛋白质结构的预测结果非常准确。对此,CASP 联合创始人之一的计算生物学家 John Moult 说:“在某种意义上,蛋白质折叠的难题已经有了解决方案。”

▲ DeepMind 的 AlphaFold 软件显着提高了计算蛋白质折叠的准确性(图源:DeepMind)

自去年 CASP 竞赛以来,AlphaFold 系统也实现了升级,现在它分析蛋白质结构的速度已提高了 16 倍。“我们可以在几分钟内折叠一个普通蛋白质,多数情况下只要几秒钟。”Hassabis 谈道。

英国雷丁大学教授 Liam McGuffin 曾开发出一些蛋白质折叠软件,他肯定了 AlphaFold 的技术,但也指出,AlphaFold 的成功主要归功于科学家们数十年的先前研究和公开数据。

“DeepMind 拥有大量研究资源来保持数据库的更新,他们比任何一个学术团体都更有能力做到这一点。”McGuffin 认为,尽管科学家们最终也会走到这一步,但速度会更慢,因为他们没有足够的资源。

03. 持续推进 AI 发展,年底数据库结构将增至 1.3 亿个

尽管 DeepMind 每年都处于大量亏损的状态,但这次开放蛋白质结构数据库是免费的。

实际上,DeepMind 归属于 Google 母公司 Alphabet,该公司一直在商业医疗保健领域投入大量资源。还有许多报道称,DeepMind 与 Alphabet 在研究自主性和商业可行性等问题上存在分歧。

不过 Hassabis 谈道,公司一直在计划免费提供这些信息,这样做是对 DeepMind 创始精神的体现。“我们在被收购时与 Alphabet 达成的协议是,DeepMind 主要的研究目的是推进 AGI(通用人工智能)和 AI 技术的发展,然后利用它们来攻克科学领域的难题。”他说。

他认为,Alphabet 有许多部门都专注于盈利,但 DeepMind 对研究的关注能够“为科学界带来各种各样的好处,包括声望和信誉,从而通过多种方法实现价值。”

Hassabis 还强调,虽然 DeepMind 的主要研究目标是一些基础领域,但其技术已广泛应用于谷歌的其他业务中。“几乎你使用的任何谷歌产品,其中一部分技术都有我们的参与。”他透露。

与此同时,Hassabis 预测 AlphaFold 将成为未来的标志,因为它展示了 AI 在处理人类生物学等复杂问题上的巨大潜力。

“我认为我们正处于一个非常激动人心的时刻。”Hassabis 提到:“在接下来的十年中,我们和 AI 领域的其他人都希望能取得突破性进展,真正加速解决我们在地球上面临的真正重大问题。”

对于接下来的计划,EMBL-EBI 的结构生物信息学 Sameer Velankar 谈道,到今年年底,本周提交的大约 36.5 万个蛋白质结构预测将增加至 1.3 亿个,几乎是所有已知蛋白质的一半。

此外,随着 DeepMind 的继续投资,以及未来对 AlphaFold 的改进,系统和数据库也将定期更新。

04. 结语:站在巨人肩膀上看未来,以 AI 实现多领域多点开花

对 DeepMind 而言,从 AlphaFold 系统的更新迭代到蛋白质结构数据库的开放,研究团队在五年里不仅必须要创造性地克服许多技术难题,还要面临许多复杂算法的创新挑战,这些都是推动人工智能和生物学领域发展的必经之路。

不能忽视的是,DeepMind 乃至未来研究团队的创新,都是建立在先前几代科学家的研究发现上。从蛋白质成像和晶体学的早起先驱,到数以千计的预测专家和结构生物学家,他们一路披荆斩棘,花了多年时间对蛋白质展开深入研究。

我们也期待,站在巨人的肩膀上的他们,未来能开辟更多创新的科学研究途径,推动更多领域的发展和进步。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注