EN
新闻动态

我院在水下前视声呐图像领域取得最新进展

2025-12-10  点击:[]

软件学院、国际信息与软件学院泛在网络与智能感知研究所罗钟铉教授团队在水下前视声呐图像处理领域的两项成果,分别被人工智能领域顶级国际会议 AAAI 和多媒体领域顶级会议 ACM MM 录用。在国家自然科学基金委重大项目“恶劣海洋环境下的具身智能系统精准感知与交互协同”的支持下,成果致力于解决水下声呐图像在标注极其匮乏情况下的识别及检测问题。

不同于可见光图像依托摄像头即可便捷采集且具备丰富纹理细节,声呐图像通过发射声波并接收目标反射回波信号成像的原理,决定了其必须依赖专业探测设备,而这类设备造价高昂、操作复杂且受水域环境等因素限制,直接导致声呐图像数据样本极为有限;同时,声呐图像以目标与探测设备的距离为核心信息,易受水体散射、环境噪声等干扰,存在对比度低、边缘模糊、伪影较多等问题,目标与背景区分性差,加之标注需专业知识支撑,使得声呐图像标注难度大、成本高。因此,研究少标注情况下的声呐图像目标检测技术,对突破数据稀缺与标注困难的双重瓶颈、支撑水下安防、海洋资源勘探等实际应用具有重要的理论与现实意义。

研究成果1:RSOD: Reliability-Guided Sonar Image Object Detection with Extremely Limited Labels

针对声呐图像标注困难与伪标签噪声大的问题,本文在基于教师学生网络的半监督框架下,提出“基于多视图一致性的可靠性评估”与“对象混合伪标签策略”相结合的核心思路。具体而言,该方法不再盲目信任教师模型,而是通过对比同一图像在原始与多种增强视图下的预测一致性来筛选高可靠性伪标签,有效抑制噪声伪标签;同时,针对小目标样本稀缺的问题,通过将高可靠目标剪裁并随机变换后“粘贴”至其他图像,让模型在复杂背景下更专注于目标本身。此外,为了验证方法有效性并促进领域发展,作者还专门构建并开源了包含十类目标的前视声呐目标检测数据集FSOD(开源地址:https://github.com/LICZ9/RSOD)。在水下声呐这种高噪声、低纹理的恶劣情况下,RSOD 能够在仅有 1% 标注数据的情况下让模型变得“可用”,并在 10% 数据下达到“好用”的水准,全面刷新了该领域的最佳成绩。

研究成果2:Physics-Guided Sonar Image Fine-grained Recognition under Scarce Annotations

为弥补声呐图像视觉信息的不足,本文充分挖掘声学信号本身的作用,提出了一套“物理感知 + 跨模态蒸馏”的创新方案。该方案首先设计了物理引导的特征生成模块,从声呐图像中逆向恢复含有物理信息的近似声学信号,打破了仅依赖灰度图像识别的弊端;其次,采用多模态教师指导单模态学生的架构,让输入“图像+声学信号”的教师模型引导仅输入“图像”的学生模型,在充分利用多维物理信息提升性能的同时,确保了实际部署的轻量化与通用性;最后,通过引入物理一致性约束确保生成的近似声呐信号符合成像规律,从而显著突破了学生模型在细粒度识别上的性能瓶颈。本文通过在训练阶段“由图推声”,成功地让学生模型具备了物理感知能力,在不增加实际使用成本的前提下,显著解决了声呐图像因纹理缺失导致的识别率低的问题,在标注比例仅为1%的极端条件下,本文方法的性能依然显著优于现有方法。

国际先进人工智能协会(Association for the Advancement of Artificial Intelligence, AAAI)是人工智能领域的主要国际学术组织之一。其主办的年会是人工智能领域的顶级国际会议,也是中国计算机学会(CCF)推荐的A类会议。大会共收到有效论文投稿23680篇,最终录用论文4167篇,整体录用率约为17.6%。ACM MM(ACM International Conference on Multimedia),既是多媒体领域的顶级国际会议,也是中国计算机协会(CCF)推荐A类会议。大会共收到有效论文投稿4711篇,其中1251篇论文被录用,录用率为26.6%。

近年来,软件学院、国际信息与软件学院在国家自然科学基金委重大仪器项目、重大项目的持续支持下,深耕软件工程领域,致力于突破恶劣海洋环境下的自主作业瓶颈。学院成功构建了集“数据适应-任务协同”于一体的智能感知理论方法框架,并在水下机器人自主抓取技术上取得实质性突破。相关成果已在IEEE TPAMI、TIP、NeurIPS、CVPR、ECCV、IJCAI、AAAI、ACM MM等顶级期刊及会议发表论文百余篇。未来,学院将持续推动我国海洋智能系统技术的跨越式发展,为提升海洋资源开发与保护能力提供坚实的理论支撑,助力我国抢占国际海洋科技竞争的制高点。