news 2026/4/15 19:11:00

百度新作FVAR:通过下一焦点预测实现视觉自回归建模

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
百度新作FVAR:通过下一焦点预测实现视觉自回归建模

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

Visual Autoregressive Modeling via Next Focus Prediction

作者团队 | Baidu Inc.

论文:https://arxiv.org/abs/2511.18838

研究背景

近日,百度研究团队在视觉自回归生成领域取得重要突破,提出了一种全新的自回归图像生成框架 FVAR(Focus Visual AutoRegressive)。该工作将传统的「下一尺度预测」范式重新定义为「下一焦点预测」,模拟相机从模糊到清晰的自然对焦过程。

核心贡献:

1. 下一焦点预测范式:突破性地将多尺度自回归从简单下采样转变为渐进式光学重新聚焦,从根本上消除混叠伪影(锯齿、摩尔纹等)。

2. 渐进式重新聚焦金字塔:使用物理一致的散焦核(PSF)构建无混叠的多尺度表示,实现从模糊到清晰的平滑过渡。

3. 高频残差教师网络:通过专门的教师-学生蒸馏框架,在训练时利用高频信息增强细节生成,部署时零额外开销。

实验表明,FVAR 在 ImageNet 多个分辨率上显著超越 VAR 和 M-VAR,同时保持与现有 VAR 框架的完全兼容性。

图1. FVAR 生成的图像质量显著优于标准 VAR,有效减少锯齿和摩尔纹等混叠伪影,同时保留精细细节和文字可读性。

1. 简介

视觉自回归模型(VAR)通过多尺度 token 金字塔上的下一尺度预测,已经展现出卓越的图像生成质量和可扩展性。然而,传统方法使用均匀下采样来构建这些金字塔,不可避免地引入混叠伪影——锯齿边缘、阶梯效应和摩尔纹等问题。

这些伪影的产生源于高频内容超过奈奎斯特极限后被折叠到基带中,迫使自回归 Transformer 同时承担去混叠和生成细节的双重任务。

本文从物理光学的角度出发,受相机对焦过程的启发,提出将视觉自回归从「下一尺度预测」重新定义为「下一焦点预测」。核心洞见在于:图像形成过程本质上是从模糊到清晰的渐进聚焦,而非通过有损分辨率降低的下采样。

2. 相关工作

2.1 视觉自回归生成

自回归模型将图像离散化为 codebook 索引,以 GPT 风格预测 token 序列。最近的 VAR 模型将自回归重新定义为多尺度 token 金字塔上的下一尺度预测,展现出优于扩散模型的可扩展性。后续工作如 M-VAR 通过解耦尺度内/尺度间依赖进一步提升效率。然而,这些方法都依赖均匀下采样构建多尺度表示,忽视了光学成像的物理原理。

2.2 抗混叠与去摩尔纹

混叠伪影源于高频图像内容超出采样能力(违反奈奎斯特准则),导致信号折叠到低频。在图形渲染和图像处理中,经典抗混叠技术(超采样、形态学抗混叠)通过在下采样前进行预滤波来缓解锯齿边缘。然而,较少工作在生成流程中明确处理混叠问题,尤其是视觉自回归模型。这正是 FVAR 的创新点所在。

3. 方法

FVAR 包含三个核心创新:(1) 下一焦点预测范式、(2) 渐进式重新聚焦金字塔构建、(3) 高频残差学习。

图2. 渐进式重新聚焦 vs 均匀下采样。(左)标准 VAR 使用均匀下采样,引入混叠伪影。(右)FVAR 采用 PSF 半径递减的渐进式重新聚焦,模拟相机从模糊到清晰的对焦过程。

3.1 下一焦点预测范式

我们提出从基于尺度到基于焦点的自回归范式转变。这种形式具有以下理论优势:

1.频谱保持:每个焦点状态受 PSF 频率响应限制,防止混叠伪影

2.连续性:焦点序列在模糊核空间形成连续流形,实现状态间平滑插值

3.信息单调性:信息内容随 ρ_k → 0 单调增加,与自回归生成过程一致

3.2 渐进式重新聚焦金字塔

圆形光圈的散焦 PSF 近似为归一化圆盘核 k_ρ,半径遵循单调递减调度,确保从 ρ_1 > ρ_2 > ... > ρ_K = 0 的平滑模糊到清晰过渡。

为捕获整体结构和高频残差信息,我们构建互补视图的双路径策略:L_k 表示物理一致的聚焦视图,D_k 为传统下采样视图,A_k 为高频残差信息。

3.3 高频残差教师网络

图3. 高频残差教师训练架构。训练时采用双网络:高频残差教师(上)通过 Alias-Gate 交叉注意力处理结构 token 和混叠 token;部署网络(下)仅使用结构 token 以保持与原生 VAR 的兼容性。

我们引入高频残差教师网络,将训练时的混叠感知学习与推理解耦:

• 使用双路径策略对聚焦视图和高频残差进行分词

• 混叠 codebook 远小于结构 codebook,反映高频模式的稀疏特性

• 教师网络通过 Alias-Gate Cross-Attention (AG-XAttn) 融合两路信息

• 部署网络仅在结构 token 上操作标准自注意力,保持与 VAR 完全兼容

推理时仅使用部署网络,无任何额外开销。

4. 实验结果

4.1 主要结果

在 ImageNet 256×256 上,FVAR 在所有模型规模上均一致优于 VAR 和 M-VAR:

模型

FID↓

IS↑

Precision↑

Recall↑

参数量

VAR-d16

3.55

280.4

0.84

0.51

310M

M-VAR-d16

3.07

294.6

0.84

0.53

464M

FVAR-d16

2.89

298.1

0.85

0.54

310M

VAR-d24

2.33

312.9

0.82

0.59

1.0B

M-VAR-d24

1.93

320.7

0.83

0.59

1.5B

FVAR-d24

1.75

325.8

0.84

0.61

1.0B

4.2 可视化比较

图4. VAR 与 FVAR 的视觉质量对比。第一行为图像生成,第二行为 inpainting 和 outpainting。每组中左侧为 VAR,右侧为 FVAR。红色虚框标注关键区域。

FVAR 显著减少了混叠伪影,同时保留精细细节:

• 高亮区域处理更自然,无高频纹理伪影

• 消除明显的网格状锯齿

• inpainting 结果无混叠伪影

• outpainting 展现更好的空间层次

4.3 消融研究

变体

FID↓ (256)

FID↓ (1024)

VAR-d16 (Baseline)

3.55

8.25

FVAR-d16 (Full)

2.89

6.85

w/o Progressive Refocusing

3.51

8.15

w/ Gaussian blur

3.32

7.50

w/o High-Freq Teacher

3.06

7.20

w/o Dual tokenizers

3.14

7.40

关键发现:

1. 渐进式重新聚焦:在 1024×1024 分辨率下至关重要,移除后性能严重退化

2. 高频残差教师:有效增强细节生成质量,高分辨率贡献更显著

3. 双 Tokenizer:验证了不同信号类型需要专门的量化策略

5. 结论

FVAR 将传统的下一尺度预测范式转变为受物理启发的下一焦点预测,从根本上消除混叠伪影。结合双路径 tokenization 和高频残差教师网络,该模型在训练时学习利用干净结构线索和信息性混叠残差,最终蒸馏到完全兼容 VAR 的部署网络。

局限性:

• PSF 形状或半径不匹配可能降低高频残差的统计质量

• 双 codebook 训练可能需要仔细校准

• 极高频文字模式(小于 2 像素)仍具挑战

6. 论文与资源

论文 | Xiaofan Li*, Chenming Wu*, et al. "FVAR: Visual Autoregressive Modeling via Next Focus Prediction". Arxiv 2025.

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 18:23:19

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号:CVer2233,小助手拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶…

作者头像 李华
网站建设 2026/4/15 13:31:48

Quasar实战指南:Windows系统远程高效管理方案

Quasar实战指南:Windows系统远程高效管理方案 【免费下载链接】Quasar Remote Administration Tool for Windows 项目地址: https://gitcode.com/gh_mirrors/qua/Quasar 在日常的Windows系统管理中,IT管理员常常面临多设备维护、远程故障排查和批…

作者头像 李华
网站建设 2026/3/30 14:54:21

三大Rust UI框架终极选择指南:GPUI Component、Iced与egui深度评测

三大Rust UI框架终极选择指南:GPUI Component、Iced与egui深度评测 【免费下载链接】gpui-component UI components for building fantastic desktop application by using GPUI. 项目地址: https://gitcode.com/GitHub_Trending/gp/gpui-component 在Rust生…

作者头像 李华
网站建设 2026/4/9 21:50:04

InsightFace人脸分析工具箱:如何用3行代码实现精准人脸识别?

InsightFace人脸分析工具箱:如何用3行代码实现精准人脸识别? 【免费下载链接】insightface State-of-the-art 2D and 3D Face Analysis Project 项目地址: https://gitcode.com/GitHub_Trending/in/insightface 在当今AI技术飞速发展的时代&#…

作者头像 李华
网站建设 2026/4/13 13:42:06

Llama3数据冒险之旅:从文字输入到AI答案的完整揭秘

Llama3数据冒险之旅:从文字输入到AI答案的完整揭秘 【免费下载链接】llama3-from-scratch llama3 一次实现一个矩阵乘法。 项目地址: https://gitcode.com/GitHub_Trending/ll/llama3-from-scratch 你是否好奇AI大模型Llama3如何将"生命、宇宙与一切的答…

作者头像 李华
网站建设 2026/4/15 8:13:45

3大策略实现Apple芯片模型性能翻倍:从PyTorch到MLX的智能迁移指南

3大策略实现Apple芯片模型性能翻倍:从PyTorch到MLX的智能迁移指南 【免费下载链接】mlx-examples 在 MLX 框架中的示例。 项目地址: https://gitcode.com/GitHub_Trending/ml/mlx-examples 在M系列Mac上运行深度学习模型时,你是否经历过这样的困境…

作者头像 李华