到今年年底,上周储存的约36.5万个预测结构将扩充至1.3亿个,这个数量接近人类已知蛋白总量的一半,EMBL-EBI的结构生物信息学家Sameer Velankar说。随着新蛋白的发现和预测能力的提高,这个数据库还会一直更新。Tunyasuvunakool说:“你本来不会相信有朝一日能获得这样的资源库。”她迫切想知道研究人员会带来哪些洞察。
研究人员已经在利用AlphaFold和相关工具理解来自X射线晶体学和冷冻电镜的实验数据。科罗拉多大学博尔德分校生物化学家Marcelo Sousa利用AlphaFold和细菌用来逃避抗生素黏菌素的蛋白质X射线数据来制作模型。实验模型中与AlphaFold预测结果不同的部分一般也是AlphaFold认为可信度不高的区域,Sousa认为这显示出AlphaFold能准确预测自己的极限。
不过,生物学家仍想将这些预测结果对照实验数据,从而对预测可靠性更有把握,英国MRC分子生物学实验室的结构生物学家Venki Ramakrishnan说。“我们需要能够信任这些数据。”Orengo解释道。
Jones对AlphaFold的能力印象深刻。但他认为AlphaFold预测的许多模型使用学界之前开发的软件也能计算出来。“之前软件给出的结果对于大部分蛋白质来说可能已经够好了,完全能够胜任一些研究工作。”那些下定决心一定要得到某些蛋白结构的研究人员利用实验方法或许也能成功。
不过,一下子多了这么多蛋白质结构,很可能会带来生物学的“范式转移”,美国哥伦比亚大学从事蛋白质结构预测的计算生物学家Mohammed AlQuraishi说。为了准确预测如此体量的蛋白质结构,他的领域付出了大量时间和精力,目前还没想好怎么利用这些资源。“之前用蛋白质序列做的研究,现在可以用蛋白质结构来做了。”
Orengo希望这个数据库能帮她更好地理解蛋白质结构约束。她将一个已知蛋白质的数据库绘制成了5000个“结构家族”,但数据库中约一半的蛋白质只能被排除在外,因为这些蛋白无法在已经确定的结构中找到类似物。AlphaFold的预测结果或能揭示一些新结构,她说,“我们这下可以看到折叠空间的真面目了。”
Jones预计AlphaFold会让许多生物学家思考要怎样利用这么多结构和可以轻松得到的更多结构。他说:“今后会有很多学术会议。我们现在有1.3亿个模型了,这会如何改变我们对生物学的认知?可能不会有改变,但我觉得会。”