DeepMind的AlphaFold被刷屏后,圈内科学家是如何“吃瓜”的? | 深度解析

李雨晨 AI科技评论 今天

AlphaFold是不是一条“真大腿”?

来源 | 医健AI掘金志

作者 | 李雨晨
这周,让生物科学圈和人工智能圈为之沸腾的,必然是DeepMind宣布蛋白质折叠预测问题已被其攻破的消息。
此消息一出,立刻登上了Nature杂志封面,标题直接评论为:“它将改变一切!”李飞飞、马斯克等众多大佬纷纷点赞、转发。
这个场景是不是和当初AlphaGo战胜了李世石和柯洁有点似曾相识?
对于AI界、围棋界来说,AlphaGo是一个划时代的产物,极大程度改变了人们对AI的认知,直接引领了随后的创业热潮。
而四年来,以深度学习为特征的AI技术,在各个垂直行业里的落地并没有形成“摧枯拉朽之态”,一些“先天性”的技术性难题仍然待解。
也就在今天,美国普林斯顿大学教授、结构生物学家颜宁,就AlphaGo的成果发表了一条微博,表明了自己的观点:
“蛋白结构预测不是一个新鲜学科,(AlphaFold)确实是突破,但是有了两年前的新闻做铺垫,现在这次委实是意料之中。”
狂欢之余,一名“合格”的旁观者应该发出这样一个疑问:AlphaFold会不会是下一个AlphaGo,仅仅是一个“暴力计算”下的产物?

1

AlphaFold动了真格?

先说结论:AlphaFold是动了真格。
与AlphaGo在围棋界纵横驰骋不同的是,AlphaFold是真的有望在一个人类学科中、人类对生命演进的研究中产生颠覆性的影响。
许东教授向雷锋网《医健AI掘金志》表示,蛋白结构预测这一重大科学问题,在三十多年前就有多人宣布已经解决,但极其不靠谱,后来才有两年一次的双盲预测大赛CASP,用事实说话。
许东是美国密苏里大学哥伦比亚分校Shumaker讲座教授,AAAS和AIMBE会士,曾因为蛋白结构预测的工作获得2001年美国“最杰出研究与开发100人奖励(国际2001R&D 100 Award)”。
从1997年开始,许东教授就开始了蛋白质结构预测这方面的研究。他表示,从防病、治病的角度来看,蛋白质结构变化预测,绝对是非常重要。
“很多疾病都是在蛋白层面出现了问题,例如基因突变造成氨基酸的突变,使得蛋白结构发生变化,不能行使功能。”
现在,许东教授团队现在和范德堡大学Jing-Qiong Kang教授的合作,就在用结构预测来研究癫痫,特别是为什么一些基因突变可以使得几个重要的蛋白结构造成变化,造成其部分功能丧失,致使癫痫发作。
Jing-Qiong Kang教授把预测的结果与实验进行对比,进而理解疾病。
从制药层面来看,更是如此。
现代药物大多的靶点是蛋白,药物的设计几乎都是基于蛋白的结构来进行合理的设计。现在,机器学习能够取得非常好的预测结果,是否会取代实验的蛋白结构发现方法?
许东教授表示,“会取代很大一部分”,尤其是在低分辨率下,特别是用冷冻电子显微镜进行的结构发现可能不如机器学习做的准确。
AI药物研发公司晶泰科技CEO马健博士也向雷锋网《医健AI掘金志》表示,结构决定性质。在AlphaFold准确的预测的蛋白结构之上,我们可以更准确地预测药物分子和蛋白的相互作用,从源头上提高计算辅助药物发现与设计的准确度。
同时,现在能解出的蛋白质很少,很多关键的蛋白质十几、二十年都难以用实验解析出结构。有了这项技术,研究人员就可以用这些传统上难解出结构的蛋白作为药物靶点、设计新药。

2

AlphaFold是否被过誉了?

1994年,马里兰大学公园分校的计算生物学家约翰·莫尔特(John Moult)与其它人共同创立了CASP。
AlphaFold在CASP14中的表现,被誉为是结构生物学领域的地震,让无数该行业的学者为止兴奋。
然而,也有网友提出了一些不同的声音:利用计算机预测蛋白质结构很早就在做,只不过准确度一直是一个问题。
目前,计算机辅助药物设计,在有蛋白真实单晶体机构的基础上尚且不能做到准确预测,更何况是“接近于实验取得结构”。
从这个观点出发,DeepMind的这一成果是否被媒体过誉了?
泰科技CEO马健博士表示,现在AlphaFold的结果已经非常领先。
更让人感到振奋的是这背后AI演化发展的速度——从16年的AlphaGo,17年的AlphaZero,18年首次崭露头角的AlphaFold,到如今的AlphaFold2,这样的发展和迭代速度让我们看到,人工智能的时代正在加速到来。
同时,马健认为,AlphaFold在解决蛋白质折叠预测问题过程中所积累的经验和Know-how,会产生技术溢出的效果,其中先进的思想和理念将进一步在AI药物发现的其他环节和领域带来启发和促进作用。
严谨一点看,任何一项科学成果,都有进一步提升的空间,AlphaFold也不例外。
马健表示,下一步,在蛋白-蛋白相互作用结构、C端N端结构等领域,AlphaFold需要算得更准。
另外,目前AlphaFold预测的是最接近实验的静态结构,未来在药物研发的应用中,如果能将蛋白和药物结合位置预测的更准,需要把蛋白结构的动态变化考虑进来。
许东教授认为,这件事情需要从两方面来看:
一方面,这确实是非常大的成就。不光是蛋白结构或者生物信息学的重大突破,也是科学史上的重大突破。五十年来,蛋白质折叠一直是生物学的巨大挑战。
另外一方面,总归会有一些“泡沫”,存在一定的局限性。AlphaFold不是把所有问题全部解决。不是光有结构,就能够设计药物。
许东教授认为,AlphaFold可以满足95%以上的理解功能、实验设计等需求,达到了应用的标准。
然而,它并不能总是达到一定的标准。现在,人、植物的蛋白被研究得非常广谱,但是在微生物、病毒的蛋白里还有很多新的fold。
和已知序列和结构相差非常大的情况下,AlphaFold做的不是特别好。
“最新的AlphaFold系统在所有目标中总体得分中位数为92.4 GDT,强调的是中位数,甚至都不是平均数。这就表明,有些蛋白的预测还是做的不太好。”
当然,他也补充到,这些预测不好的情况属于个例,大多数情况基本上是够用的。

3

传统实验方法是否会被取代?

目前,冷冻电子显微镜(CryoEM)、核磁共振或X射线晶体学等实验技术,是蛋白质3D结构发现的常规武器。
现在,AI机器滚滚向前,传统的实验室方法是否已经难以与之抗衡?
这个问题的答案也很明确:不会。这点,正如放射科医生不会被阅片AI所取代一样。
传统方法的弊端在哪里?
一位行业专业人士表示,实验解析存在一定的局限性(例如X-射线晶体学需要首先对蛋白质进行结晶操作,而结晶后的蛋白质结构,未必与在生物体内的实际结构一致;部分蛋白质的三维结构可能长期无法通过实验手段进行解析),同时实验误差也是需要考虑的。
实验手段的“弊端”,在AI时代有了更好的帮手。
马健也旗帜鲜明地表明了自己的观点:“显微镜不会被完全取代,但是可能很大一部分工作都可以用AlphaFold来完成,甚至用计算产生的模板去指导解析实验。”
马健说到,蛋白是个很复杂的东西,实验有非常多的限制。有些蛋白难结晶,不稳定,太小了的话又不适用于冷冻电镜。如今有了AlphaFold提供结构,就可以指导实验将蛋白质结构解出来。
“比如分享会上提到的Af1503蛋白质,德国的Max Planck Institute获得蛋白的实验数据已有近10年,始终无法解析出结构,用AlphaFold很快就获得了结果。”
但是,低温电子显微镜仍具备一定的优势,比如在蛋白-蛋白相互作用研究上,但未来,AlphaFold很可能也可以实现准确预测蛋白-蛋白结构预测。
许东教授也认为,机器学习的方法不会完全取代实验。
他表示,现在计算预测的准确度并不能保证每一个结构都预测的非常准,特别是在已知的结构库中完全没有相似结构的,预测的结果不是很准。
“在一些很关键的蛋白,特别是要大规模设计药物的蛋白上,我认为还是需要做实验,因为对结构预测的精度更高。”
而且,在一些特殊的实验结构解析中,传统方法仍然受用。
许东教授认为,施一公、颜宁这些生物学学者所做的一些更为细致的研究,不是仅靠蛋白结构预测就能取代。
这其中包括蛋白质的功能、机理、修饰、相互作用、动力学属性等等,还是需要大量实验工作。但是很多一般的实验结构解析,确实没有必要存在了。

4

AlphaFold的两个过人之处

从昨天开始,AlphaFold已经成为圈内圈外,生物学、非生物学人士的“现象级话题”。
尽管很多人发出惊呼之声,但是,如果高度概括一下,AlphaFold的创新之处,你会提炼出哪几个关键词?
根据目前DeepMind在CASP14会议上公布的技术方案,应该有两点。
首先,是注意力机制的引入。
注意力机制的引入,解决了如何更好地从多序列对齐(multiple sequence alignment)数据中提取特征以指导结构预测的问题。
在此之前,较为主流的方案是从多序列对齐数据中提取共进化信息,但DeepMind通过对比发现这种人工设计的特征提取会丢失部分关键信息,而通过引入注意力机制可以较好地解决这一问题。
同时,注意力机制也应用在了迭代更新序列-残基和残基-残基相互作用的过程中,从而以迭代的方式得到更为准确的距离预测与三维结构。
许东教授表示,注意力机制确实在蛋白结构预测方面上了一个台阶。
“AlphaFold可以把氨基酸之间的距离整合成三维结构。因为他们的算力很多,两年前他们虽然方法和别人几乎是一样的,预测的距离却准的多,在CASP里做得很好。”
但是,许教授认为,AlphaFold今年真正的创新之处在于利用了注意力机制,可以把氨基酸之间的距离预测问题更为全局、整体的解决,同时对每一对距离的预测可靠性有更好的评价,从而看出什么预测距离更靠谱,让其在蛋白三维结构重建中发挥更大作用。
这么做,就真正把蛋白已知结构进行最大化的应用。
许东教授坦言,此前,自己的团队也思考过,但是那时候采用的是“土一点”的统计方法。
“AlphaFold确实是非常大的创新,这种创新对研究其他问题也有帮助。比如,我们现在就想用类似的思想去做单细胞数据建模的一些研究。
其次,端到端学习的引入。
端到端学习的引入,使得从输入氨基酸序列到输出蛋白质三维结构的过程,可以完全在深度学习的框架内实现,从而使得优化过程可以得到更为直接的误差信号。
而之前的方法往往基于深度学习+传统结构建模工具(例如Rosetta、I-TASSER等)的组合,这样结构建模的误差信号不能直接用于对深度学习模型本身进行更新。

5

AlphaFold的商业前景如何?

虽然,在许东教授、马健博士看来,传统实验室技术仍然具备生命力。
但是有一点值得肯定,AlphaFold的爆炸性成果,会对其他入局蛋白质结构预测的厂商产生非常大的冲击——犹如一条“鲶鱼”一样,搅动整个行业的现有技术和商业格局。
这次成果发布之后,DeepMind联合创始人及CEO德米斯·哈萨比斯(Demis Hassabis)也第一时间向外界表示:
DeepMind背后的终极愿景一直是构建通用人工智能,利用通用人工智能来极大地加速科学发现的步伐,帮助我们更好地了解周围世界。”
但值得注意的是,在AI领域,研究成果与商业化之间仍然存在一条鸿沟,即便是有领先算法DeepMind也不例外。
去年,据外媒报道,谷歌母公司Alphabet旗下的人工智能子公司DeepMind2018年的营收几乎翻了一倍,但净亏损仍高达5.72亿美元。
从这项成果来看,AlphaFold本质还是基于深度学习技术,需要算力的支持(使用了大约128个 TPU v3——大致相当于100-200个 GPU)),这些都是需要真金白银的支持。
但是,行业专业人士向雷锋网表示,从计算资源需求上来看,128个TPU v3基本还在可接受的范围内,同时学术界和工业界后续也势必会从算法和工程实现的角度,对计算效率继续进行优化,来降低实际计算开销。
因此,尽管拥有着非常前沿的AI技术,如何将所耗费的成本转化为实实在在的商业收益,也是DeepMind需要考虑的现实问题。
AlphaFold的出现,似乎为DeepMind在医药领域的生意带来了新的突破口。
印第安纳大学医学院主管数据科学的副院长黄昆教授认为,对于药厂来说,100-200个GPU本身投资并不算太大,主要是怎么样建立或者维持一个这方面的团队。这就也诞生了一些新的外包机会。
“几年前,我就看到有初创公司用机器学习来做结构筛药,不知道这个进展是会引过来更多这方面的创业还是反过来让DeepMind独霸一方。”
许东教授也表示,这项技术的应用前景,很多程度上取决于DeepMind的商业模式,是不是能给学术界开放使用。从商业的角度来看,很多制药公司会为此付费。
此外,AlphaFold并不是一个开源软件,不是所有人都能拿到AlphaFold最好的版本。DeepMind也许会部分开放,但不一定开放最好的版本。
“如果是需要收费,很多研究组不见得有钱去做这个事情。像BLAST那样进行序列比对,我觉得还有一点距离。”
马健说到,算力现在已经不是问题。100-200个GPU是训练的使用量,真正使用中的算力可能只是这个数字的零头。而计算将节省大量的时间和实验成本。
“计算机辅助药物设计与发现以及AI的应用,经过了漫长的发展和近期的飞速发展,也已经有了质的飞跃,比如晶泰科技的智能药物研发平台,在大部分蛋白上都可以准确预测活性,选择性,耐药性等药物关键性质,可以在极少量的实验下获得理想的药物候选。”
正如马健所言,这项技术将开启一个药物研发和疾病研究的新时代,可以从原子分子层面上帮助理解疾病的作用机理。
同时,与疾病相关的蛋白结构越来越多地被计算解析出来,会提供大量的新靶点,如同给药物发现打开了一道源头的闸门,为药企开发first-in-class药物创造更多新机会。

6

站在最好的时代路口

其实,任何一项学术成果的爆发,都有前人不断耕耘的脚步。
昨天,Deepmind消息一出,许东教授就发了一条朋友圈。
他写道,我在这个领域做了十几年的工作,多次参加过CASP大赛。现在终于看到这个问题被靠谱地解决了,是一件科学领域的幸事,可喜可贺!虽然DeepMind是集大成者,但这个问题的解决是无数人几十年的结晶。
许东教授向雷锋网《医健AI掘金志》说到,自己在橡树岭国家实验室和徐鹰教授一起,做了一些蛋白结构预测的工作,当时受到不少关注,因此两人获得了2001 年美国“最杰出研究与开发100 人奖。
此外,周耀旗教授、李明教授、许锦波教授、张阳教授、卜东波教授和自己系里的程建林教授等在这个领域里都做了非常好的工作。
特别是许锦波教授课题组,是真正第一个用深度学习来进行氨基酸距离预测的人,对这个领域起了很大的作用;
密歇根大学张阳教授实验室的服务器很久在CASP自动预测大类里排名第一,得到了广泛使用。
“所以,大家可能看到是最闪亮的那颗星,但是背后有很多人默默为之奋斗。今天AlphaFold的成就绝对是太多人积淀的结果。”
同样集大成的,还有DeepMind本身的团队,他们站在了这个时代最聪明的人的肩膀上。
行业专业人士向雷锋网表示,AlphaFold的研究团队非常豪华,19位共同一作者里面有很多人是在语音、计算机视觉自然语言处理机器学习、医疗影像、分子动力学、高能物理、量子化学等领域的知名学者。
值得注意的是,排在榜单前几名的就有上文提到的密歇根大学张阳教授实验室。
有知乎网友表示,“能战胜AlphFold的只能是其他巨头公司,高校已经没有战胜的条件了。”
行业专业人士坦言,和工程型团队相比,学术型团队在计算资源上已经不再是短板。
而学术团队和工程团队的一个明显差别在于,学生很难做到工程人员能做的事情,公司在这一点上可以做到极致。
“真正要把一件事情做好,需要每个component都做到极致。因此,从这个角度来看,很细致才能做得很好,DeepMind是一个很优秀的集成者。”
每到AI战胜人类时,总有这种相似的论调:XX职业要被AI取代了。因此,当AlphaFold一出时,就有人预言到,结构生物学家都要失业。
颜宁在微博里也就明确表示,如果你对结构生物学的理解还停留在20年前,那这么说也不是不行。但是结构生物学自身一直在发展着,一场冷冻电镜的分辨率革命更是令结构生物学今时不同往日了。
AlphaFold注定会成为这个时代中浓墨重彩的一笔。
颜宁在微博中的一段话,特别适合概括这次AlphaFold的时代意义。
我在2015年主持一个seminar的时候曾经评论过:structural biology的本质是biology,是理解生命、是做出生物学发现。但是在X-射线晶体学为主要手段的时代,获得大多数研究对象的结构本身太难了,于是很多研究者把“获得结构”本身作为了目标,让外行误以为结构生物学就是解结构。
但是我从进入这个领域之初,就被教育的明明白白:结构本身只是手段,它们是为了回答问题、做出发现。
人类对未知世界的渴求,对真相的追求,才是AlphaFold在这个AI时代最好的注脚。向所有奉献在这个领域的学者,致敬!

直播预约:AlphaFold蛋白质结构预测是革命性成果吗?
圆桌讨论 · 嘉宾阵容
主持人:黄昆,印第安纳大学医学院副院长、AIMBE Fellow
许东,密苏里大学哥伦比亚分校Shumaker讲座教授,AAAS、AIMBE Fellow
张阳,密歇根大学教授,ITASSER创造者
许锦波,芝加哥丰田计算技术研究所教授,斯隆奖得主
此外,组委会还在邀请近代信息论奠基者等专家参会,敬请期待。
主办单位:图像计算与数字医学国际研讨会(ISICDM)
协办单位:雷锋网、医健AI掘金志
观看方式
扫码关注《医健AI掘金志》,回复关键词“蛋白质”,即可入群观看此次线上论坛。

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。