首页 科技快讯 AI+多组学引爆医疗革命,这次是否真的不一样

AI+多组学引爆医疗革命,这次是否真的不一样

来源:晰数塔互联网快讯 时间:2025年07月14日 19:10

本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:郭瑞东

导语

1971年12月,时任美国总统理查德·尼克松签署《国家癌症法》,2016年,时任美国副总统拜登发起“攻克癌症登月计划”,再次向癌症宣战。可如今面对大多数癌症我们依然束手无策。近年来越来越多的AI+多组学的科研突破层出不穷,这次能不能攻克癌症,是否真的和之前不一样了?要回答这个问题,我们先回到30多年前的基因组,梳理清为何需要多组学才能进行精准医学。

AI+多组学融合议题正在DAMO开发者矩阵(由阿里巴巴达摩院和中国互联网协会联合发起)与集智俱乐部共同主办的“AI驱动的计算医学前沿:从科学发现到数字孪生”系列研讨会中探讨。研讨会邀请多位国内外前沿学者与业界专家分享交流。系列研讨会将系统梳理计算医学与AI交叉领域的最新进展,周期为2025年7月6日-8月初,共5大议题分享与讨论。研讨会未免费报名-专业审核制,欢迎相关研究、应用领域的朋友报名参加,共同探讨生命科学与医疗健康的智能未来!

7月15日(本周二)19:00,计算医学研讨会将举办第三期《AI for蛋白质科学:从结构预测到临床标志物》,邀请吴家睿老师分享《AI驱动的蛋白质科学》,常乘老师分享《蛋白质组大数据智能解析》,并组织圆桌探讨“从AlphaFold到虚拟细胞——AI多组学的融合之路”。欢迎感兴趣的朋友预约直播,报名加入研讨会交流!

郭瑞东丨作者

为什么需要多组学?

人类基因组计划无疑是生命科学史上的里程碑。它首次绘制了人类遗传密码的完整“蓝图”,让我们得以从分子层面认识生命的基础。在癌症领域,基因组测序揭示了驱动肿瘤发生发展的关键基因突变(如EGFR、KRAS、TP53等),催生了靶向治疗革命,显著改善了部分患者的生存期。这似乎让人们看到了“精准医学”的曙光——根据个体的基因变异定制治疗方案。

然而,基因组学的局限性在深入实践中逐渐显露,癌症的复杂性远超最初的想象,例如为何拥有相同驱动基因突变的患者(如同为EGFR突变的肺癌),对同一靶向药的反应和生存期可能存在巨大差异。基因组信息无法完全解释这种异质性。

这背后的原因是因为基因组提供了DNA序列信息,但基因何时、何地、以何种程度表达(转录组)、最终形成何种功能的蛋白质(蛋白质组)、细胞如何进行代谢活动(代谢组)、以及环境如何通过表观遗传标记(表观组)调控基因活性……这些动态的、多层次的信息才是生命活动的直接执行者和调控者。癌症的发生发展是这些层面共同失调的结果。

肿瘤并非孤立的癌细胞团块,它浸润在由免疫细胞、成纤维细胞、血管、信号分子等构成的复杂微环境中。这个微环境深刻影响肿瘤的侵袭、转移和耐药性。基因组测序主要聚焦癌细胞本身,难以全面捕捉微环境的动态相互作用。肿瘤在生长过程中会发生演化,不同区域的癌细胞可能具有不同的基因突变和特性(空间异质性),其特性也会随时间推移而改变(时间异质性)。单次或单点的基因组测序可能无法反映肿瘤全貌。

但使用了更多的方式收集数据,并用更高的频率采集数据后,问题就变成了如何从这些数据中获得有意义的洞察,进而实现个体化的精准预测、预防、诊断和治疗。不同组学产生的数据是海量、高维、异质且复杂的。传统分析方法难以有效整合它们并挖掘其中深层次的关联和模式。这正是人工智能(AI)大显身手的领域。

人工智能需要做的,是打破组学数据间的壁垒,整合基因组、转录组、蛋白组、代谢组、影像组、临床数据。从海量数据中发现人眼难以识别的疾病亚型、预后标志物、治疗靶点和耐药机制。有了标志物,就能够预测疾病风险、进展、分出了疾病亚型,就能让药物更为有效,减少副作用,辅助临床决策,而在计算机中模拟肿瘤演化、药物作用等复杂过程,可加速发现治疗靶点的发现。

回到最初的问题:这次AI+多组学的浪潮,能否带来真正的不同?答案的关键就在于它直面了基因组学时代的核心挑战——生命复杂性的多维度本质。它不再局限于单一的“蓝图”,而是试图构建一个动态的、多层次的“生命运行模拟器”。接下来,让我们看看最近有那些相关的研究,他们做了什么,和之前有何不同。

从DNA→RNA→蛋白质,多组学的研究进展

所谓多组学,从中心法则来看,是从DNA→RNA→蛋白质的信息流动过程,DNA上的突变,是基因检测的关注点,而对于基因突变的解读,已经从数据库的查询,走向了模型预测。例如Evo 2模型[2],这是一个跨生命领域的生物基础模型,训练于9.3万亿DNA碱基(涵盖细菌、古菌、真核生物、噬菌体),凭借100万token上下文窗口能有效捕捉长距离基因组模式,能够在单核苷酸分辨率下预测变异致病性、还可以生成给定功能的基因组序列,模型具备跨物种预测和设计能力,尤其适用于非编码变异致病性判读,为遗传病诊断和合成生物学带来全新工具。

DNA如同建筑蓝图,而RNA则如同建筑师,将蓝图实现为具体的一栋栋高楼大厦,这一过程被称为翻译,而在翻译过程中,建筑师会根据周围的环境修改蓝图,例如进行可变剪切(单个基因可被剪接成多种RNA变体,生成功能迥异的蛋白质),甲基化标签(在蓝图上DNA添加可擦写的环境注释贴,指示哪些区域该优先建造或暂时封存)对此的研究称之为表观基因组。如同建筑工地的智能总控中心,接收营养、压力、毒素等环境信号,通过化学标记(DNA甲基化、组蛋白修饰、非编码RNA)指挥基因的“开工”与“停工”,使同一份DNA蓝图在不同细胞中建出千差万别的“生命建筑”。

由于人类基因组中仅有不到2%的区域直接编码蛋白质,而大部分遗传变异位于非编码区,虽然它们不会改变蛋白序列,但其中一部分可以通过调控转录、剪接、mRNA稳定性或翻译等环节影响基因功能。浙江大学良渚实验室/附属第二医院熊旭深课题组24年在Nature Machine Intelligence发表的基于Transformer架构的多模态深度学习模型Translatomer[3],该模型整合mRNA表达、基因序列等信息,在33种人类组织和细胞系的RNA-seq与Ribo-seq数据上训练;在跨细胞类型预测核糖体占据图谱时可取得0.72–0.80的Pearson/Spearman相关系数。依托模型的解释能力,研究者鉴定出3041个与复杂疾病相关、位于非编码区的遗传变异,这些变异对翻译效率的影响呈组织特异性,为揭示阿尔茨海默病、自闭症等复杂疾病的分子机制提供了新的线索。

除了解释机制,表观基因组与AI的结合还可辅助诊断crossNN[4],一个跨平台的基于DNA甲基化数据,对178种肿瘤进行分类的可解释深度学习框架,适用于不明原发部位癌症的诊断工作,其诊断精度达到了97.8%,在脑肿瘤中甚至达到了99.1%。在手术中使用该技术将是一个有趣的方向。通过纳米孔测序可以在90分钟内得出结果,这使得手术中的应用成为可能。外科医生可以在手术过程中暂停手术,并根据表观遗传指纹的结果来决定后续的手术步骤。

而浙江大学郭国骥团队提出的计算模型神农[5],通过对多种癌细胞及临近的健康组织及免疫细胞进行单细胞转录组测序,构建数据集,之后通过根据变分自编码器的深度学习模型,计算每个细胞对特定药物处理的响应强度,评估不同药物对特定细胞类型的影响。该方法能筛选潜在的广谱抗癌药,还能预测药物的治疗效果和副作用,指导药物筛选,从而发现针对特定细胞类型的候选药物。

除了从DNA到RNA的过程复杂,每一个细胞也并非一座孤岛,而是受到周围细胞的影响,因而能够保留相对位置信息,并检测分子生物学特征(例如基因突变,转录表达谱,表观调节)的空间组学成为了破解生命复杂性的另一块关键拼图。2024年8月23日,Nature method刊发评论文章[6]:经由AI解锁空间组学数据的能力,指出人工智能有可能释放空间组学的全部潜力,促进复杂数据集的整合和新生物医学见解的发现。对此,浙江大学郭国骥团队2024发表的关于单细胞转录组的综述论文[7]中,讨论了从组织样本(bulk)到单细胞,再到结合空间组,表观组,从数个细胞到百万细胞的发展过程,对相关问题感兴趣的可阅读原文。

AI驱动的计算医学前沿研讨会第二期中,郭国骥老师分享报告《用AI解读基因组调控语法》讨论了神农模型等工作和2025年7月新工作女娲CE模型(Cell计算医学前沿:“女娲模型”解码基因调控“语法”),熊旭深分享报告《基于深度学习的RNA调控及疾病解析》具体介绍了Translatomer模型等工作。报名计算医学研讨会可查看讲座录播。

图4单细胞多组学的发展方向来自[7]

而在经历了从DNA到RNA再到蛋白的一系列过程,最终的结果是参与新陈代谢的一系列小分子,例如脂肪,碳水等,对此的研究被称为代谢组。2025年3月,美国佛罗里达大学发布了MetaVision3D——一种借助人工智能的高分辨率3D代谢组成像平台,可为正常小鼠和阿尔茨海默病模型小鼠构建可交互的大脑代谢图谱[8]。研究者和临床人员可以自由缩放并探查任意脑区,直观比较不同分子(尤其是与神经退行性疾病相关的代谢物)在空间上的分布差异。MetaVision3D为解析饮食、运动、遗传等因素对脑细胞代谢及疾病进程的影响提供了全新视角和工具。

AI+多组学推动走向精准医疗

精准医疗正在通过根据个体患者的独特特征量身定制治疗方案来重塑医疗保健格局。相比之前,生物医学的研究者能够使用更多样的工具,跟踪生物体从设计(DNA)到实现(代谢物)的这一动态过程中的每一步,并对可能的扰动所带来的影响进行预测。这就如同之前的研究者试图攻克癌症时是蒙着眼射箭,而AI的引入让这一过程带上了瞄准镜,同时还会根据风速预测最佳轨迹,从而做到辕门射戟级的精准打击癌细胞。

下图是一个完整的AI驱动的多组学整合临床决策系统,实现了从患者样本到用药建议的端到端闭环。通过多组学数据采集,电子病历,由AI模型进行数据整合,预测药物响应,支持临床决策,最终通过采集患者的实际情况,持续改进治疗方案。

图5预测药物反应的AI驱动多组学流程。源自患者的组学数据,包括基因组学(例如,WES/WGS)、表观基因组学(例如,BS-seq、ATAC-seq)、转录组学(RNA-seq)、蛋白质组学(质谱分析)和代谢组学(例如,LC-MS、NMR),被融合与协调以作为模型输入。深度学习模型(例如,VAEs、GANs、GNNs)预测药物疗效、不良药物反应(ADR)风险和剂量建议。可解释性模块增强模型透明度,而基于真实世界结果的验证则实现持续优化。最终输出通过集成到电子健康记录(EHR)的临床决策支持系统(CDSS)交付给临床医生。来自[9]

此外,对于复杂的复杂多基因性状(如糖尿病,阿兹海默等)机器学习模型通过改进变量选择和加权来增强多基因风险评分,提高预测效用。超越基因组学,转录组学、蛋白质组学和代谢组学的整合提供了对疾病表型的更精细的理解[10]。

尽管具有巨大潜力,但这种方法面临着数据有限、隐私问题和生物系统复杂性的挑战。整合基因组学、转录组学和蛋白质组学数据对于全面了解患者健康状况至关重要。omicsGAN[11]等模型通过结合多种数据类型来增强疾病表型预测和治疗计划。利用自编码器、图卷积网络,如MOGONET[12]、集成方法和对比学习等技术来可应对多组学异构数据集成带来的挑战。这些方法通过识别共同潜在因素和学习跨组学表示,能够学习不同组学层之间的复杂非线性相互作用,通常在药物反应和疾病预后方面实现卓越的预测性能,促进了稳健生物标志物的检测。

此外,人工智能不仅有助于数据集成,还通过可解释人工智能(XAI)技术提高可解释性,从而在依赖这些复杂、数据驱动方法的临床医生和研究人员中建立了信任。像MOVIS这样的平台提供动态、多模态时间序列聚类和嵌入任务的可视化工具。例如MOVIS[13]设计用于处理各种组学类型——基因组学、蛋白质组学、转录组学、代谢组学——以及物理化学数据。其基于网络的界面允许临床医生和研究人员以并排的方式探索和交互多组学数据,促进纵向研究中的假设检验和模式识别。

参考文献

[1]Yates,Josephine,and Eliezer M.Van Allen."New horizons at the interface of artificial intelligence and translational cancer research."Cancer Cell43.4(2025):708-727.

[2]Brixi G,Durrant MG,Ku J,et al.Genome modeling and design across all domains of life with Evo 2.bioRxiv.Preprint posted online February 21,2025.doi:10.1101/2025.02.18.638918.

[3]He,Jialin,et al."Deep learning prediction of ribosome profiling with Translatomer reveals translational regulation and interprets disease variants."Nature Machine Intelligence6.11(2024):1314-1329.

[4]Yuan,Dongsheng,et al."crossNN is an explainable framework for cross-platform DNA methylation-based classification of tumors."Nature Cancer(2025):1-12.

[5]Zhang,Peijing,et al."A deep learning framework for in silico screening of anticancer drugs at the single-cell level."National Science Review12.2(2025):nwae451.

[6]Coleman,Kyle,Amelia Schroeder,and Mingyao Li."Unlocking the power of spatial omics with AI."nature methods21.8(2024):1378-1381.

[7]Wang,Jingjing,et al."Advances and applications in single-cell and spatial genomics."Science China Life Sciences(2024):1-57.

[8]Ma,Xin,et al."AI-driven framework to map the brain metabolome in three dimensions."Nature metabolism(2025):1-12.

[9]Zack,Mike,et al."AI and Multi-Omics in Pharmacogenomics:A New Era of Precision Medicine."Mayo Clinic Proceedings:Digital Health(2025):100246.

[10]Ahmed Z,Thirunavukarasu R and Khan A(2025)Editorial:Computational genomic and precision medicine.Front.Genet.16:1631668.doi:10.3389/fgene.2025.1631668

[11]Ahmed,Khandakar Tanvir,et al."Multi-omics data integration by generative adversarial network."Bioinformatics38.1(2022):179-186.

[12]Wang,Tongxin,et al."MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification."Nature communications12.1(2021):3445.

[13]Anžel,Aleksandar,Dominik Heider,and Georges Hattab."MOVIS:a multi-omics software solution for multi-modal time-series clustering,embedding,and visualizing tasks."Computational and Structural Biotechnology Journal20(2022):1044-1055.

AI驱动的计算医学前沿研讨会

DAMO开发者矩阵(由阿里巴巴达摩院和中国互联网协会联合发起)与集智俱乐部共同主办“AI驱动的计算医学前沿:从科学发现到数字孪生”系列研讨会,邀请多位国内外前沿学者与业界专家分享交流。本活动免费报名,实行审核入群制,请填写信息后入群参与交流并获得每期活动信息。

7月15日(周二)将举办研讨会第三期,《AI for蛋白质科学:从结构预测到临床标志物》,欢迎预约直播和报名参与。邀请吴家睿老师分享《AI驱动的蛋白质科学》,常乘老师分享《蛋白质组大数据智能解析》,并组织圆桌探讨“从AlphaFold到虚拟细胞——AI多组学的融合之路”。欢迎感兴趣的朋友预约直播,报名加入研讨会交流!

详情请见:AI驱动的计算医学前沿研讨会开启报名:从科学发现到数字孪生

相关推荐

分子诊断进入多组学模式,「Complete Omics」在Science期刊发表两项研究成果
36氪首发 | 专注于多组学液体活检,「泰莱生物」获数千万元Pre-A轮融资
多组学数据挖掘,驱动新药差异化开发策略,普瑞基准如何成为药企的“新型研发伙伴”?
专注多组学+数据挖掘,普瑞基准完成新一轮融资
关于“AI+医疗”,英伟达这样看
36氪首发 | 基于多组学开展肿瘤早筛与诊断,「泰莱生物」获近亿元A轮融资
情人节,AI医疗掀起涨停潮
癌症早筛与科研两手抓,「依图医疗」医疗AI产业化现成果
36氪首发 | 纳米技术+AI赋能蛋白质组学,「珞米生命科技」完成近千万美元融资
木头姐年度报告精华版:AI Agent、机器人、太空经济与医药变革

网址: AI+多组学引爆医疗革命,这次是否真的不一样 http://www.xishuta.com/newsview138809.html

所属分类:行业热点

推荐科技快讯