要是解析所有蛋白质的结构都像上网搜索一样简单,会是什么样的?John Jumper和他在伦敦DeepMind(Google母公司Alphabet的另一家子公司)的同事今年公开发布的AlphaFold尝试给出了答案。AlphaFold能利用人工智能(AI)以惊人的准确率预测蛋白质结构。
芝加哥大学伊利诺伊分校的生物物理学家、Jumper前博士生导师Tobin Sosnick说:“这会改变现代生物学的面貌。2021年会是一个分水岭,未来的人们会问,‘什么是结构生物学?’”
AlphaFold的开发是一次毁灭与重生的过程。2018年,开发团队找到了对预测蛋白质结构感兴趣的一小群科学家。在两年一度的CASP(蛋白质结构预测比赛)上,AlphaFold早期版本在根据蛋白质序列预测其结构的得分上超越了其他所有计算工具。
Jumper说,尽管获得了胜利,但是AlphaFold预测的结构缺乏细节,而对其进行改进的努力又碰了壁。于是,研究团队决定从零开始。Jumper在从零开始的决定上起到了关键作用并坚持了下来,即使“AlphaFold2”的早期版本比第一版的表现差得多。
第一版的AlphaFold基于一个能预测目标蛋白质各组分距离的神经网络。Jumper希望AlphaFold能预测出科学家能够信赖的结构,而这需要把底层的神经网络推翻重建。
第二版AlphaFold在2020年底又一次横扫了CASP,近三分之二的预测结果都与实验解析的结构一致(参见:颠覆生物学!AlphaFold成功预测蛋白质结构)。但对Jumper来说,AlphaFold故事里最有意义的一章发生在7月。当时,他和团队公开了网络的底层代码,以及人类和其他20种模式生物的几乎所有蛋白质的预测结构(共计25万个结构,参见:颠覆生命科学!AlphaFold预测完整人类蛋白质组结构)。这个项目是和欧洲分子生物实验室位于英国的欧洲生物信息学研究所合作完成的。他们计划在明年公布所有已知蛋白中近一半(总计1.3亿个)的结构。