news 2026/5/9 12:04:31

ACM MM 2025 | 复旦 上财 TPP:文本提示 + 三重传播,革新医学影像序列分割 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ACM MM 2025 | 复旦 上财 TPP:文本提示 + 三重传播,革新医学影像序列分割 SOTA

点击下方名片,解锁医学前沿阵地。

在现代影像诊断中,医生常常需要在连续的CT、MRI或内窥镜图像序列中精准定位特定解剖结构或病变。传统分割模型要么忽视序列间的关联性,要么缺乏与医生的交互能力——直到Text-Promptable Propagation(TPP)模型的出现,这一局面被彻底改变。

论文信息

题目:Text-Promptable Propagation for Referring Medical Image Sequence Segmentation
基于文本提示传播的指称医学图像序列分割
作者:Runtian Yuan、Mohan Chen、Jilan Xu、Ling Zhou、Qingqiu Li、Yuejie Zhang、Rui Feng、Tao Zhang、Shang Gao
源码:https://github.com/yuanruntian/TPP

医学影像分割的三大痛点

现有技术在处理医学图像序列时面临难以逾越的障碍:

  • 孤立分析陷阱:2D模型将序列帧视为独立图像,丢失时间/空间关联性

  • 计算成本难题:3D模型虽能捕捉相关性,但卷积操作代价高昂

  • 交互缺失局限:无法通过自然语言指定目标,难以满足临床精准需求

如图1所示,这些局限导致传统模型在复杂临床场景中表现不佳。而TPP模型通过创新设计,完美解决了这三大痛点。

图1:传统分割模型在医学序列图像中的局限性(a-c)与TPP模型的交互优势(d-e)

重磅数据集:Ref-MISS-Bench横空出世

为推动这一领域发展,研究团队构建了目前规模最大的指称医学图像序列分割数据集——Ref-MISS-Bench。该数据集具有三大特点:

  • 多模态覆盖:包含MRI、CT、超声、内窥镜4种主流医学成像模态

  • 丰富解剖结构:涵盖20种器官和病变,从心脏、肺部到肝肿瘤、息肉

  • 海量数据支撑:3,644个训练序列(125,487张图像)+1,061个测试序列(41,078张图像)

图2:Ref-MISS-Bench数据集的模态分布与解剖结构覆盖

数据集的文本提示由大语言模型生成并经放射科医生验证,每个目标结构包含3个描述(轮廓、形状、颜色),例如"肝肿瘤在CT上呈现不规则低密度影,边界模糊"。

TPP模型:文本提示+三重传播的创新架构

TPP模型的核心优势在于将自然语言理解与序列传播机制深度融合,其总体架构如图3所示:

图3:TPP模型架构包含跨模态指称交互与三重传播两大核心模块

跨模态指称交互:让模型听懂医学术语

  1. 多模态特征提取

  • 视觉编码器提取图像序列的多尺度特征

  • 语言编码器将医学文本提示转换为语义向量

  • 视觉-语言对齐: 通过多头注意力机制建立图像区域与文本描述的关联,例如将"边界模糊的肿块"与图像中相应区域精准匹配

  • 动态提示融合: 自动筛选最相关的文本提示,聚焦模型注意力到目标结构

  • 基于Transformer的三重传播:让分割在序列中"流动"

    如图4所示,三重传播机制利用序列图像的连续性,实现目标的稳定追踪:

    图4:传播策略对分割结果的提升(蓝色为传统方法,红色为TPP)

    1. 框传播:前一帧的目标框作为当前帧的初始定位参考

    2. 掩码传播:通过内存读取机制传递前帧的语义信息

    3. 查询传播:将最优特征嵌入从历史帧传递到当前帧

    这种设计使模型在处理内窥镜视频或3D断层扫描时,能像医生阅片一样利用上下文信息,显著提升分割一致性。

    实验结果:全面超越现有方法

    在Ref-MISS-Bench上的测试显示,TPP模型表现出压倒性优势:

    医学领域对比

    方法

    心脏平均Dice

    腹部平均Dice

    总体提升

    UNetR

    72.3%

    68.5%

    -

    MedSAM

    76.1%

    71.2%

    -

    TPP85.6%82.3%+9.5%

    视频分割领域对比

    在病变分割任务中,TPP以显著优势超越ReferFormer等方法:

    • 肝肿瘤:65.27% vs 47.43%(+17.84%)

    • 肾肿瘤:77.73% vs 61.75%(+15.98%)

    图5:TPP模型在不同模态上的分割效果(从左到右:CT、MRI、内窥镜)

    零样本与泛化能力

    最令人惊叹的是TPP的泛化能力:

    • 零样本设置下,乳腺肿块分割性能仅下降4.78%

    • 单样本学习时,息肉分割效果与全数据训练相当

    这意味着模型可快速适应新的解剖结构,极大降低临床部署成本。

    消融实验:关键组件的贡献分析

    通过 ablation study 验证了各模块的必要性:

    图6:不同文本提示对分割性能的影响

    • 详细描述性提示比仅用类名的提示性能高5%以上

    • 掩码传播和查询传播对性能贡献最大(各+2.8%以上)

    • 三重传播组合使用时效果最佳

    临床价值与未来展望

    TPP模型为医学影像分析带来三大变革:

    1. 人机协作新模式:医生通过自然语言指令与AI交互

    2. 跨模态统一框架:同一模型处理2D视频与3D断层图像

    3. 低成本泛化能力:零样本/单样本学习降低标注需求

    未来,随着提示工程的优化和多模态融合的深入,这类模型有望成为临床影像诊断的标配工具,让精准分割不再受限于特定设备或解剖结构。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 10:16:21

.eslintrc.js这个文件作用

.eslintrc.js 是 ESLint 的核心配置文件之一,用于定义 JavaScript/TypeScript 等代码的代码检查规则、解析器、插件、环境等配置,是前端工程中实现代码规范化、统一编码风格的关键文件。一、ESLint 是什么?ESLint 是一个开源的静态代码分析工…

作者头像 李华
网站建设 2026/5/8 6:37:39

Langchain-Chatchat结合MinIO实现文档持久化存储

Langchain-Chatchat 结合 MinIO 实现文档持久化存储 在企业级 AI 应用日益普及的今天,越来越多组织开始构建基于大模型的本地知识库问答系统。然而一个现实问题始终困扰着开发者:当用户上传了上百份 PDF、Word 手册后,如何确保这些文档不会因…

作者头像 李华
网站建设 2026/5/6 3:05:03

Langchain-Chatchat如何处理模糊性问题的回答?

Langchain-Chatchat 如何应对模糊性问题:从语义理解到可控生成的实践路径 在企业级智能问答系统中,一个看似简单的问题往往暗藏玄机。比如用户问:“那个项目进展怎么样了?”——“那个”指的是哪个?是上周会议提到的新…

作者头像 李华
网站建设 2026/5/6 4:52:58

线下娱乐破局:透明化运营+双线引流

一、传统线下娱乐场所的普遍困局许多实体娱乐场所的经营者都面临相似的烦恼:客流量越来越不稳定,顾客消费频次明显下降。设备投入不断加大,但真正能持续产生收益的项目却寥寥无几。更棘手的是,收入来源过度依赖到店消费——天气不…

作者头像 李华
网站建设 2026/5/1 23:06:28

docker安装mongodb

一、前期准备 1.在服务器上面创建三个目录做为挂载到docker (/mongo/data,/mongo/logs,/mongo/conf ) 由于我们要把宿主的配置文件同步容器中,所以要在/mogo/conf创建mogodb的配置文件 mongod.conf ,内容如下: # 系统日志 systemLog:destination: fil…

作者头像 李华
网站建设 2026/5/9 4:59:09

我的网络安全实战学习笔记:记录从零到熟练的每个关键步骤与工具

01 什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域,都有攻与防两面…

作者头像 李华