AI黑盒预测的结果准确率不高且无法解释
生物实验的成本高昂且时间周期长

深圳光明区某生物医药实验室围绕癌症、代谢等重点领域开展多肽类新药研发。传统实验驱动的研发模式导致大量实验失败,使得整个药物研发过程耗时且昂贵。该实验室同时尝试使用AI模型在药物研发的前段先对PPI(蛋白互作)进行预测,希望能降低生物实验的成本和时长。但由于AI黑盒模型的结果无法解释,准确率不高导致依然无法降低实验的失败率和范围。
项目应用“去病”系统,对BioGRID全量蛋白互作网络进行了多模态图数据融合。具体来说,使用ClustalW引入了蛋白质同源性信息;通过DAVID获得了人类蛋白质相关的通路和结构域信息;而UniProt提供了蛋白质的亚细胞定位信息。在融合图数据上,应用图关联规则发现对STAT3的蛋白互作进行预测,最终识别出三组关键蛋白互作对:STAT3与CARM1、STAT3与PARP1、STAT3与CTNNB1。通过后续的共沉淀(Co-IP)和质谱实验,验证了其中两对存在显著的相互作用。
AI黑盒模型准确度低、结果多且不可解释,无从下手挑选进行实验
以月度为单位的实验周期,迭代实验,实验失败率高
高精准、可解释的预测,实验结果准确率高,专家可凭借经验进一步筛选
实验成功率提升,缩短了整体药物研发周期
基于开源数据进行多模态数据融合,构建更丰富的PPI网络图数据
在蛋白互作的初步召回中,相较黑盒模型(GNN,CNN)准确率提升了43%
预测3组蛋白存在相互作用,最终生物实验其中两对存在显著相互作用
预测人类蛋白质SYT2存在自相互作用,在后续的22年5月的Nature刊文《突触结合蛋白SYT2是阻断黏蛋白分泌的最佳靶点》中得到验证