EN
新闻动态

我院泛在网络与智能感知研究所在多模态感知方向取得新进展

2026-06-15  点击:[]

近日,2026年国际计算机视觉与模式识别会议(CVPR)于6月5日至7日在美国科罗拉多州丹佛市举行。软件学院、国际信息与软件学院泛在网络与智能感知研究所共有5篇论文被大会录用,其中1篇入选口头报告,相关成果在大会期间进行了展示与交流。此次入选的系列工作围绕红外视觉感知与多模态数据处理展开,重点研究复杂环境下的红外图像增强、任务导向成像、红外与可见光融合、人类反馈评价以及水下智能感知等问题,形成了从数据质量提升、多源信息融合到任务理解和效果评价的系统研究布局。

论文“Streaming Diffusion Model for Fast Infrared and Visible Video Fusion”主要研究动态场景下的红外与可见光视频融合技术。红外图像能够突出目标热特征,可见光图像能够提供纹理和结构信息,二者互补融合有助于提升复杂环境下的感知能力。然而,扩散模型通常依赖多步迭代采样,直接应用于视频融合时容易出现推理速度慢、帧间连续性不足和运动伪影等问题。针对这些挑战,团队提出流式扩散视频融合方法,将扩散生成先验压缩为高效的单步采样过程,并通过光流引导的记忆增强时序适配机制,在连续视频帧之间传递和更新融合信息,同时利用时序一致性约束保持帧间内容稳定。如图所示,该方法有效减少了运动伪影,在提升融合质量的同时兼顾处理速度和时序稳定性,使红外与可见光视频融合真正“流”起来。

在感知前端的数据质量与任务表达方面,团队也取得了多项进展。论文“HiDRA: Hierarchical Degradation Representation and Adaptation with Generative Priors for Enhancing Infrared Vision”面向复杂环境下红外图像质量提升问题,提出层次化退化表征与自适应增强方法,有效改善不同退化条件下的红外成像效果,为后续智能分析提供更加可靠的数据基础。论文“Taming Generative Diffusion Model for Task-Oriented Infrared Imaging”则进一步探索面向目标检测、语义分割和小目标识别等任务的红外生成式成像方法,使红外图像表达更加契合下游智能分析需求,推动红外视觉从图像优化向任务驱动感知发展。

在感知评价与场景拓展方面,团队的另外两项工作进一步完善了整体研究链条。论文“Bridging Human Evaluation to Infrared and Visible Image Fusion”关注红外与可见光图像融合结果的评价问题,通过引入人类反馈机制建立更加符合视觉认知规律的评价与优化框架,推动融合技术从“指标优化”向“用户体验优化”发展。论文“CTFS: Collaborative Teacher Framework for Forward-Looking Sonar Image Semantic Segmentation with Extremely Limited Labels”则将相关研究拓展至水下智能感知领域,在极少标注条件下提升前视声呐图像语义分割能力,为复杂环境下多模态感知技术应用提供了新的探索方向。

上述成果围绕复杂环境下智能感知系统面临的数据质量、模态协同、任务适应和评价优化等问题展开,形成了从红外图像增强、任务导向成像,到红外与可见光融合、人类反馈评价和水下声呐理解的研究链条。CVPR是计算机视觉与模式识别领域的国际顶级学术会议之一。本届会议共收到16092篇有效投稿,最终4089篇论文入选主会,录用率约为25.4%;其中141篇入选口头报告,占有效投稿总数约0.88%。学院5篇论文被大会录用、1篇入选口头报告,体现了学院在智能感知与多模态数据处理领域的科研积累。

未来,学院将继续发挥学科交叉优势,持续开展相关基础研究和关键技术攻关,推动人工智能技术在智慧城市、公共安全、智能交通和无人系统等领域的应用,为服务国家科技创新和数字化发展贡献力量。

文章来源:综合办公室

编辑排版:陆勇青

审核校对:刘晋源、徐子川、刘日升