人工智能再次发力解决一个困扰生物学家近50年的基本问题
玩围棋和电竞不算什么。现在,人工智能开始抢生物学家的工作。
蛋白质折叠就像折纸,不同的结构决定不同的功能。而AI似乎也赢得了这个秘密。|DeepMind
作者|卢
我们不能没有蛋白质。蛋白质是所有生命活动的基本物质。它是运输氧气的载体,帮助抵抗病毒的抗体,以及消化食物的酶。蛋白质可以承担各种功能,很大程度上是因为它们具有丰富而复杂的空间结构。
然而,蛋白质是如何折叠成这些独特的形状的呢?这是生物学领域的一个巨大挑战,困扰了科学家近50年。就在最近,谷歌开发的人工智能系统 AlphaFold 将蛋白质结构预测的准确度提高到了原子水平基本解决了这个“蛋白质折叠问题”。这比许多科学家预期的要早几十年,显示了人工智能解决重大科学问题的潜力。
01.
困扰科学家近50年的难题
蛋白质约占我们每个人体重的20%,是除水之外第二多的物质(60%)。其他脂类、碳水化合物、核酸和各种无机物加在一起只占20%。人体内蛋白质含量如此之高并不奇怪,因为蛋白质是生命活动的主要承担者,,没有蛋白质就没有生命。
人类的生命活动离不开蛋白质的参与。无论是身体收缩肌肉、眼睛感知光线,还是消化系统将食物转化为能量,我们身体的每一项功能都可以正常进行,几乎都依赖于蛋白质。
生命的每一个活动都依赖于蛋白质。左下角是红细胞,右下角是抗体蛋白。|卡通创意
目前地球上已知的蛋白质约有2亿种,每种蛋白质都有独特的空间结构。蛋白质在生物体中能够发挥多种多样的功能,很大程度上取决于它们的三维结构.
比如我们免疫系统中的抗体蛋白是“Y型”的,会形成一个独特的钩子,使其能够附着在病毒和细菌上,检测和标记病原微生物,彻底消灭它们。胶原蛋白的形状像一根扭曲的绳子,因此它可以在软骨、韧带、骨骼和皮肤之间传递张力。另外,在名为“基因魔法剪刀”的CRISPR-Cas9基因编辑技术中,Cas9蛋白使用CRISPR基因序列作为指导,像剪刀一样剪切粘贴DNA片段。
但在1972年的确定蛋白质的空间结构一直是生物学中的巨大挑战。,也就是近50年前,诺贝尔化学奖得主克里斯蒂安安芬森(Christian Anfinsen)推测,蛋白质的氨基酸序列应该完全决定其空间结构。但是如何根据蛋白质的氨基酸序列确定其空间结构呢?这就是困扰科学家近50年的“蛋白质折叠问题”。
02.
蛋白质如何将自己折叠起来?
蛋白质就像一台精心组装的机器,它的零件是我们身体里的20种和氨基酸。在通过基因编码合成氨基酸序列的过程中,氨基酸分子遵循基因序列中包含的遗传信息的指示,像珠子一样有序地连接,形成多肽链,构成蛋白质的一级结构.
但是,通常的机器只要按照设计图纸装配零件就可以工作。氨基酸分子连接成多肽链后,蛋白质分子的构建还没有完成,还需要进一步折叠出空间结构才能发挥作用。而基因序列只决定氨基酸序列的合成,并不包含更多的信息引导其折叠成独特的三维结构。
事实上,氨基酸序列的折叠方式蕴含在自身之中,他们设计了自己的折叠。一维多肽链中的氨基酸分子似乎知道如何相互交流。它们有的相互排斥,有的相互吸引,形成螺旋和褶皱,构成蛋白质的二级结构。然后,会进一步折叠成独特的空间结构,形成像毛线缠绕成球一样的蛋白质三级结构。
氨基酸连接形成一维多肽链,再进一步折叠形成具有独特三维结构的蛋白质。有时候会形成更复杂的四级结构。|DeepMind
蛋白质折叠的整个过程似乎是随机的,但它似乎遵循一个设计蓝图,一旦组成蛋白质的氨基酸序列确定下来,它的折叠方式也就完全确定了.事实上,这是非常直观的。我们可以想象,如果同一个氨基酸序列可以折叠成不同结构的蛋白质,发挥不同的功能,我们的身体就会陷入混沌状态。
经过自然界漫长的生命进化过程,蛋白质分子可以在一瞬间自发完成整个折叠过程。然而,科学家们发现,如果我们想通过计算氨基酸的相互作用来预测它们是如何折叠的,那么耗尽所有可能的蛋白质构型将需要比整个宇宙的年龄更长的时间。
这个问题困扰科学家很久了。然而,人工智能进入这一领域后,预测蛋白质折叠的准确性迅速提高。
03.
AI出手!精确预测蛋白质结构
实现人工智能(AI)的一种方法是流行的机器学习. alpha Go,他在2016年击败了人类Go冠军,以及AlphaFold,他这次预测了蛋白质结构,都使用了机器学习算法。其总体思路是输入大量已有数据——包括结果(如棋谱、猫狗图片等。)输入计算机,然后计算机分析这些数据,并使用其惊人的计算能力从这些数据中找到特征或规则。这样,对于未来输入的新数据,就可以做出“有经验”的辉煌回应。
2016年,人工智能AlphaGo在Go中击败李世石。2017年,进化出的阿尔法狗让天才围棋少年柯洁再次碰壁。图为李世石。|来自网络
更先进的人工智能算法甚至允许输入少量学习样本来掌握相关技能。比如升级版的AlphaGo根本不需要输入棋谱。只要你知道围棋的规则,你就可以按照算法去探索和训练自己,最终通过和自己对战获得超越人类顶尖围棋高手的能力。
AlphaFold解决蛋白质折叠问题的过程与AlphaGo学习下围棋的过程类似,只是输入了大量的蛋白质序列和结构数据——。这些数据来自实验室实际测量的数据。AlphaFold搜索氨基酸之间的相互作用和蛋白质片段之间的进化关系,从而获得预测蛋白质结构的强大能力。最后,只要知道蛋白质的氨基酸序列,就可以快速准确地预测其结构,相当于通过精细的算法准确地连接蛋白质的一级结构和三级结构。
AI可以通过细微的算法从氨基酸序列(最左边)预测蛋白质结构(最右边)。|新标签
在2018年CASP竞赛中,AlphaFold在所有参赛队伍中排名第一,从43种蛋白质中准确预测出24种蛋白质的结构,取得了前所未有的进步。
到2020年,升级版AlphaFold从生物学、物理学和机器学习的最新发展中汲取灵感,升级其算法,以压倒性的优异成绩再次夺冠。这一次,AlphaFold预测的蛋白质结构和实验结果是仅仅存在原子尺度的细微差异,与传统的实验方法相当。可以说AlphaFold已经基本解决了蛋白质折叠的问题。
04.
生物学家要失业了吗?并未!
AlphaFold取得了里程碑式的进展,让人类期望在很多领域得到AI的实际帮助。比如在医学上,阿尔茨海默病、帕金森综合征、亨廷顿综合征等神经系统疾病都与蛋白质错折叠有关,直接导致蛋白质结构和功能异常。AI的介入将使人类更有效地理解这些假折叠背后的机制,从而提出更有效的治疗方案。
还有这次疫情。SARS-CoV-2由大约30种蛋白质组成。在CASP14竞争中,AlphaFold准确预测了一个蛋白质(ORF8)的结构。|融合医学动画
工业部门也将受到这一成就的积极影响。以酶化学工程为例,各种蛋白酶已被广泛用作反应催化剂。其中许多是近年来人类发现的新蛋白质。他们都有特殊技能,有的能分解原油,有的能降解塑料。目前我们对这些蛋白质的结构和催化机制只有非常初步的了解,AI无疑会大大加快相关研究的进展。
有趣的是,在听说AlphaFold解决了蛋白质折叠的问题后,很多人嘲讽结构生物学家以后会失业。但事实上,AlphaFold只是结构生物学家获取蛋白质结构的一种手段,就像核磁共振、X射线衍射、冷冻电镜等传统方法一样。这些特定的结构在生活中是如何发挥作用的,这是结构生物学家需要回答的问题。
正如著名结构生物学家颜宁所说,结构只是进行生物学发现的一种手段。比如搞清楚巨型剪刀的结构后,就揭示出“数百个蛋白质像星星一样围绕着RNA,DNA序列中的内含子和外显子是用剪刀和钩针拼接而成的”,这才是真正的神奇。
除了预测蛋白质结构,AlphaFold还将推动蛋白质设计的发展。未来,AI可能会根据人类独特的需求,帮助人类创造出自然界不存在的蛋白质。到那时,这将是生命科学的一次飞跃。
作者|卢,大阪大学免疫前沿中心
大阪大学李健楠蛋白质研究所
编辑|陈天珍
编辑|高培文
参考链接:
https://www . deep mind.com/blog/article/alpha fold-a-solution-to-a-50岁-grand-challenge-in-biology
https://www . deep mind.com/blog/article/alpha fold-use-AI-for-scientific-discovery
[ AlphaFold 视频简介 ]