news 2026/3/5 7:37:39

【中国科学技术大学-傅雪阳组-ICCV25】解耦重构:通过主动特征解纠缠与可逆融合实现高质量超高清图像修复

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【中国科学技术大学-傅雪阳组-ICCV25】解耦重构:通过主动特征解纠缠与可逆融合实现高质量超高清图像修复

文章:Decouple to Reconstruct: High Quality UHD Restoration via Active Feature Disentanglement and Reversible Fusion

代码:暂无

单位:中国科学技术大学


一、问题背景:超高清修复的“两难困境”

传统的超高清图像修复方法,要么直接处理像素级图像,导致计算量暴增,形成“算力瓶颈”;要么通过压缩图像尺寸来降低难度,但这会造成不可逆的信息丢失。

即使是近年来热门的VAE(变分自编码器)技术,虽然将修复过程转移到“潜在空间”以提升效率,却依然存在关键缺陷:图像的瑕疵部分和背景内容是紧密绑定的。压缩时会同时丢失有用的背景信息和需要修复的瑕疵信息,补偿时又会把新的瑕疵带入修复结果,最终导致画面细节缺失、瑕疵去除不彻底。

简单说,之前的技术就像“一锅乱炖”,没法精准区分“该保留的背景”和“该修复的瑕疵”,修复效果始终不尽如人意。

二、方法创新:“拆分修复”新思路,精准解决核心问题

针对这个痛点,研究团队提出了名为D²R-UHDNet的修复框架,核心思路是“先拆分、再修复”,就像医生治病先诊断病灶,再针对性治疗。

1. 核心模块:智能拆分的CD²-VAE

这个模块是整个框架的“大脑”,能主动区分图像中的“背景信息”和“瑕疵信息”:

  • 用分层对比学习(Hi-CDL),像“筛子”一样逐步筛选出与瑕疵相关的关键信息;

  • 用正交门控投影(OrthoGate),从数学上保证背景和瑕疵信息彻底分离,不互相干扰;

  • 最终实现“主动丢弃易恢复的背景,重点保留难修复的瑕疵”,让后续修复更有针对性。

2. 辅助模块:保障画质的“双保险”

  • CIMF-Net:专门处理背景信息,通过多尺度融合技术,确保背景画面的一致性和完整性,不会出现局部模糊;

  • LaReNet:专注修复瑕疵信息,把筛选出的瑕疵特征转化为干净的图像特征,精准去除模糊、噪点、雾感等问题。

整个过程就像“分工协作”:一个模块负责整理背景,一个模块负责修复瑕疵,最终结合出高质量的修复结果。

三、实验结果:1M参数实现“碾压级”表现

实验团队在低光增强、去雾、去模糊、去摩尔纹等6个超高清修复任务中,对新方法进行了全面测试,结果十分亮眼:

1. 性能领先

  • 低光增强任务:PSNR值达到27.94dB,比当前主流方法DreamUHD高出0.22dB,暗部文字细节清晰可辨;

  • 去雾任务:PSNR值25.37dB,较之前的最优结果提升0.68dB,画面无雾感残留;

  • 去模糊、去摩尔纹等任务均刷新当前最佳成绩,且所有任务都能支持4K图像全尺寸实时推理。

2. 极致轻量化

整个模型仅需1M参数,远低于同类方法(大多在10M以上)。在RTX 3090显卡上测试,4K图像修复速度极快,普通设备也能流畅运行,彻底打破“高清修复需高性能设备”的限制。

3. 多场景适配

无需额外调整,就能同时应对低光、雾天、模糊、噪点等多种场景,实现“一站式修复”,实用性拉满。

四、优势与局限

核心优势

  1. 效率与画质双优:既解决了传统方法的算力瓶颈,又避免了信息丢失,实现“快且好”的修复;

  2. 轻量化易部署:1M参数体量,适合嵌入手机、相机等终端设备,应用场景广泛;

  3. 泛化能力强:单一模型适配多种修复场景,无需针对不同任务单独训练。

现存局限

  1. 对极端复杂的混合瑕疵(如同时存在严重模糊+强噪点+低光),修复效果虽优于同类方法,但仍有优化空间;

  2. 目前仅针对静态图像修复,尚未扩展到超高清视频的实时修复场景。

五、一句话总结

通过“拆分修复”的创新思路,D²R-UHDNet用1M参数实现了超高清图像修复的“效率、画质、泛化性”三重突破,为4K图像修复的落地应用提供了全新方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/5 0:22:54

企业月结套餐即将上线:按Token消耗量阶梯计价

企业月结套餐即将上线:按Token消耗量阶梯计价 在虚拟主播24小时不间断带货、AI教师批量生成教学视频的今天,数字人早已不再是科技展台上的概念演示。越来越多的企业开始将“一张图一段音频会说话的数字人”作为内容生产的标准流程。然而,当使…

作者头像 李华
网站建设 2026/2/27 1:30:10

Sonic支持MP3和WAV格式音频输入,兼容性强

Sonic支持MP3和WAV格式音频输入,兼容性强 在数字人技术逐渐从实验室走向大众应用的今天,一个核心问题始终困扰着内容创作者:如何用最低的成本、最简单的流程,生成一段“会说话”的人物视频?传统方案依赖复杂的3D建模与…

作者头像 李华
网站建设 2026/3/4 3:41:03

冥想第一千七百五十二天(1752)

1.周五了,2026第二天带一家人去了奥体玩的很快心,中午吃的烩面。 2.感谢父母,感谢朋友,感谢家人,感谢不断进步的自己。

作者头像 李华
网站建设 2026/2/22 16:24:33

LUT调色包下载推荐:优化Sonic生成视频色彩表现

LUT调色包推荐:提升Sonic生成视频的视觉质感 在短视频内容爆炸式增长的今天,AI数字人已经不再是实验室里的概念,而是真实出现在直播间、网课讲台甚至政务播报中的“出镜嘉宾”。腾讯与浙江大学联合推出的 Sonic 模型,正凭借其轻量…

作者头像 李华
网站建设 2026/2/26 18:28:12

深度伪造检测技术能否识别Sonic生成视频?部分可检

Sonic生成视频的可检测性分析:轻量级数字人与深度伪造防御的博弈 在虚拟主播一夜爆红、AI带货席卷电商的今天,只需一张照片和一段语音就能“复活”一个数字人的技术早已不再是科幻。腾讯与浙江大学联合推出的 Sonic 模型正是这一浪潮中的代表性产物——它…

作者头像 李华
网站建设 2026/2/26 6:57:58

GPU加速Sonic推理效率,缩短数字人视频生成时间

GPU加速Sonic推理效率,缩短数字人视频生成时间 在短视频内容爆炸式增长的今天,创作者对“高效、低成本、高质量”数字人生成的需求愈发迫切。一条原本需要专业团队数小时制作的虚拟主播视频,现在能否在几十秒内由一台消费级显卡自动生成&…

作者头像 李华