EN
新闻动态

我院博士研究生以第一作者身份在《Nature Communications》发表重要研究成果

2026-04-21  点击:[]

近日,我院在计算生物学与人工智能交叉领域取得重要研究成果。研究团队使用Transformer模型构建了一种可以用于多种录调控解析的深度学习框架BioSeq2Seq,为基因组功能注释提供了高效、低成本的新方法,在国际上引起重要关注。相关研究成果以“一种用于全面分析转录调控的端到端通用深度学习框架”为题发表于《自然-通讯》(《Nature Communications》)。该期刊为《Nature》子刊,影响因子15.7。

论文第一作者为我院博士生张朝曦,通讯作者为北京雁栖湖应用数学研究院王忠教授、邬荣领教授,康奈尔大学Charles G Danko教授,我院教师范晓娅、何增有,博士生钟佳鑫、贾利娟、韩园园为共同作者。

图1. 论文期刊页

该论文聚焦于传统实验基因组功能注释方法成本高、周期长,难以大规模推广的问题,提出名为 BioSeq2Seq 的深度学习框架,通过融合 DNA 序列信息与转录活性数据,实现对多种关键生物学信号的统一预测,框架概述如图2所示。研究表明,该方法在组蛋白修饰预测、功能元件识别、基因表达预测以及转录因子结合位点预测等多个任务中均达到国际领先水平(如图3所示),相较现有方法在多项指标上实现显著提升,其中组蛋白修饰预测性能提升超过14%。相比传统依赖实验测序的方式,该研究通过计算模型实现了对多类基因组功能的高效推断,大幅降低数据获取成本并显著提升了分析效率,为在多细胞类型、多物种背景下开展大规模基因组研究提供了可行路径。同时,该框架具备良好的泛化能力,仅依赖单一细胞系数据训练,即可在不同生物条件下保持稳定预测性能,为解决生物数据稀缺问题提供了新的技术方案。

图2. 框架概述

图3. 部分评估结果

该成果不仅在方法学上具有重要创新意义,也在生物医学应用方面展现出广阔前景。例如,通过模型预测结果可以辅助解析疾病相关变异与调控元件之间的关系(如图4所示),为复杂疾病机制研究提供新的计算手段。后续,研究团队将进一步融合多组学数据与新型模型结构,推动高分辨率转录调控建模的发展。相关研究有望为精准医学与疾病机制研究提供重要支撑。

图4. BioSeq2Seq预测了与GWAS全基因组关联研究(GWAS)目录单核苷酸多态性(SNPs)的密集簇密切吻合的组蛋白修饰信号

此项重要成果的取得,是我院在“人工智能+生命科学”领域研究水平的重要体现,也是我院深耕“医工交叉”深度融合、推进拔尖创新人才培养的生动实践。未来,学院将继续坚持“交叉强身”理念,紧扣学校“数智驱动”战略部署,将人工智能技术、多学科知识与跨学科人才交叉融入学科主体、融入科研团队,加快构建多主体协同、多领域联动的科研创新生态,为自主培养拔尖创新人才、自主创新支撑高水平科技自立自强、推动教育科技人才一体发展贡献力量。

论文链接:https://www.nature.com/articles/s41467-026-70070-6。