蛋白质是由氨基酸链组成的,折叠成三维结构的氨基酸链决定了细胞内蛋白质的功能。数十年的时间里,研究人员一直在用X射线晶体学和冷冻电镜这类实验技术解析蛋白质结构。但是,这类方法存在费时耗钱的问题,对一些蛋白也不适用。
去年,DeepMind在科学界掀起了轩然大波,它的软件仅凭蛋白质的序列(由DNA决定)就能准确预测其结构。学界在这方面的攻关已经进行了几十年,看到AlphaFold 2在两年一度的“蛋白质结构预测比赛”(CASP)上表现如此优异,比赛的创始人之一直呼其“在某种程度上攻克了该问题”。
去年12月1日,对公司项目一向讳莫如深的DeepMind在CASP大赛上简要介绍了AlphaFold 2,并承诺将发表一篇论文详细描述这个网络,并向研究人员免费开放整个软件,但具体细节并未展开。
“当时的学术界一片哀嚎。”华盛顿大学生物化学家David Baker说。Baker带领团队开发出了RoseTTaFold。“如果有人解决了你正在研究的问题,但不肯告诉你解决方法,你还怎么研究下去呢?”
“我当时觉得自己失业了。”Baker团队的成员、计算化学家Minkyung Baek说。但DeepMind在介绍会上呈现的新想法让Baek迫不及待想要一探究竟。于是,她和Baker还有他们的同事开始想办法重复AlphaFold 2的成功。
他们确定了AlphaFold 2的几大关键性进展,包括如何利用与预测目标在演化上相关的蛋白的信息,以及预测出的一个蛋白的部分结构如何影响AlphaFold 2对该分子其他部位对应序列的处理。
RoseTTaFold的预测能力毫不逊于AlphaFold 2,而且还远超其他CASP参赛团队的预测结果(包括一些来自Baker实验室的预测结果)。现在还不清楚它比AlphaFold 2差在哪里,一个可能是DeepMind拥有的专业能力,Baek说,“我们实验室没有深度学习工程师。”Xu很佩服Baek、Baker和他们合作者的工作,并猜测DeepMind的厉害之处在于其工程方面的专业知识和独一无二的算力。