2025-07-25 16:00:14
【导语】随着AI技术的飞速发展,蛋白质结构和功能的预测工具如雨后春笋般涌现。然而,这些工具的有效性高度依赖于高质量的数据集。本文将探讨当前AI在蛋白质预测领域面临的挑战,特别是数据可信度低和样本量不足的问题。上海交通大学开发的VenusMutHub评测平台,如同一场针对AI的大考,揭示了现有工具的局限性和“偏科”现象。文章最后将展望AI蛋白质预测的进阶之路,期待未来出现更精准、全面的预测工具,为蛋白质科学研究带来新突破。
随着AI模型不断进步,用于预测蛋白质结构和功能的计算机工具如雨后春笋版不断涌现。然而,这些工具通常依赖于一个极大的(高通量的)蛋白质数据集。简单来说,让AI预测蛋白质的结构和功能就像玩“找规律”游戏。下列数字,大家一定不陌生:
1,1,2,3,5,8,X,
X=?
你肯定认出来了,这是著名的斐波那契数列。通过观察能发现,数列中的每一项都等于前两项之和,因此X=5+8=13。

图库版权图片,转载使用可能引发版权纠纷
要想让AI预测出精准、符合事实的“X”,就得给它输入足量且正确的前置信息,就是数列中X之前的项。基于对这些前置项的学习,AI才能找到规律,给出有意义的预测结果。
但真实的情况是,数据库中经过生化性质检验的结果占比较低,来自临床样本的数据更是少之又少。库中大多数的蛋白质功能标签都来自先前的结构预测工具——也就是说,这些“功能”本身就是现有AI的前辈们推测出来的。这就好比将具有多个规则的数列都混合在一起,还随机插入一些出题人“灵光一现”的数字,再让AI找规律。可想而知,这样找出的“规律”必然与真实的自然规律相去甚远,也远不具备产业转化价值。
破局之策:AI大模型赋能蛋白质功能预测
面对上述难题,上海交通大学的学者们开发出了蛋白质预测AI评测平台VenusMutHub,它就像一场针对AI的“大考”,专门为这些预测工具“打分”,为研(yán)究(jiū)者(zhě)们提供更精准的AI工具使用思路。
既然有“考试”,那就要先命制“考卷”。由于数据库中的大多数蛋白质数据可信度较低,为了筛选出对产业进步有实际帮助的工具,这张“考卷”只能包含经过临床验证或生化实验确定功能的蛋白质结构数据。开发人(rén)员(yuán)从(cóng)多(duō)个(gè)数(shù)据(jù)库(kù)中(zhōng)层(céng)层(céng)筛(shāi)选(xuǎn),最(zuì)终(zhōng)构(gòu)建(jiàn)了(le)包(bāo)括(kuò)527种(zhǒng)不(bù)同(tóng)蛋(dàn)白(bái)共(gòng)计(jì)905个(gè)蛋(dàn)白(bái)质(zhì)突(tū)变(biàn)数(shù)据(jù)集。这(zhè)个(gè)集合(hé)包(bāo)括(kuò)了(le)蛋(dàn)白(bái)质(zhì)突(tū)变(biàn)后(hòu)稳(wěn)定(dìng)性(xìng)、活(huó)性(xìng)、与(yǔ)其(qí)他(tā)分(fēn)子(zi)结合的亲和力等多方面数据,且均经过实验验证。将这些数据集投喂给AI工具后,开发人员对AI工具给出的数据进行整理,然后分科目对它们的表现进行“打分”。

图片来源:上海交通大学教育部科学工程计算重点实验室官网
考试结果大揭秘:AI工具的“众生相”
这场考试的结果也相当有趣。开发人员将“赶考”的AI工具大致分为三个组别:结构预测型(主要关注蛋白质三维结构的预测)、进化信息型(主要关注同一蛋白在不同物种间的序列差异)和纯序列型(主要从氨基酸序列出发进行对比和预测)。
在样本量对预测结果的影响方面,当突变数量高于28个,结构预测型工具的可信度全面领先于其他模型,表现出相当高的可信度。然而,当突变数量小于8个时,所有的模型都无法给出有效结果——全在“胡说八道”。这就像是当数列中给出的已知项不到8个时,所有AI都无法预测出下一项“X”的真面目,但大多数AI会凭借算法“捏造”一个看似合理的答案。
这为AI工具的使用敲响了警钟:目前所有的蛋白质突变预测工具均无法在可靠样本值太小的前提下得出可靠结论,所谓“AI完全取代实验室”“仅凭计算机技术开发药物”是完全错误的,无论多厉害的算法工具都离不开实验室提供的数据支撑,AI技术预测到的结果在大规模投入临床和生产前也必须经(jīng)过(guò)严(yán)格(gé)的(de)细(xì)胞(bāo)或(huò)动(dòng)物(wù)实(shí)验(yàn)验证。
现有多数通用工具对协同效应捕捉有限,已出现少量专门模型尝试解决(jué),但(dàn)整体准确率仍不理想。开发(fā)人(rén)员(yuán)发(fā)现(xiàn),参(cān)与(yǔ)检(jiǎn)测(cè)的(de)AI工(gōng)具(jù)在(zài)预(yù)测(cè)单(dān)一(yī)位(wèi)点(diǎn)突(tū)变(biàn)时(shí)还(hái)比(bǐ)较(jiào)可(kě)靠(kào),但(dàn)涉(shè)及(jí)到(dào)同(tóng)时(shí)突(tū)变(biàn)两(liǎng)个(gè)位(wèi)点(diǎn)时(shí)就(jiù)再(zài)次(cì)集体(tǐ)“哑(yǎ)火(huǒ)”了(le)。它(tā)们(men)只(zhǐ)能(néng)识(shi)别(bié)出(chū)简(jiǎn)单(dān)的(de)叠(dié)加(jiā)作(zuò)用(yòng),即(jí)1+1=2。但(dàn)在(zài)自(zì)然(rán)界(jiè)中(zhōng),很(hěn)多(duō)突(tū)变(biàn)之(zhī)间(jiān)存(cún)在(zài)相(xiāng)互(hù)协(xié)作(zuò),会(huì)出(chū)现(xiàn)1+1>2(正(zhèng)协(xié)同(tóng))或(huò)1+1<2(负(fù)协(xié)同(tóng))的(de)情况,这被AI工具们集体忽略了。
除此以外,AI工具们也像赶考的学生们一样表现出了各种“偏科”现象。有的AI某一科目打分很高,却在另一科目几乎不及格;有的AI平均分看似很高,但却“深一脚浅一脚”,遇到某些蛋白预测精准,另一些却胡说八道;还有的AI看似平均分不太高,但输出均衡,是个成绩稳定的中等生。但不管是哪种AI工具,都不能做到“全才”,总有一个科目得分比较低。

图(tú)库版权图片,转载使用可能引发版权纠纷
AI蛋白质预测的进阶之路在何方?
总而言之,这次AI工具的集体“大考”撕下了“AI无所不能”的神话面具,为从业者们提供了明确的思路。对于产业从业者来说,根据研究目的选择适宜的AI工具非常重要,并且至少(shǎo)需(xū)要(yào)提(tí)供(gōng)8个(gè)可(kě)靠(kào)的(de)突(tū)变(biàn)数(shù)据(jù)。而(ér)对(duì)于(yú)开(kāi)发(fā)者(zhě),如(rú)何(hé)提(tí)升(shēng)工(gōng)具在小样本量条件下的预测精确度、教会AI预测多个突变位点对蛋白质结构和功能的影响更为重要。期待有一天,科科满分的“全能AI”能够横空出世,为蛋白质预测领域带来新的突破。
参考文献:
https://doi.org/10.1016/j.apsb.2025.03.028
《生物信息学(第四版)》 陈铭主编 科学出版社
作者:何一文 清华大学本硕,中学教师
审核:李旭 中国科协研究员,中国科学技术大学副教授
出品:
本文封面图片来自版权图库,转载使用可能引发版权纠纷
