中国科学院大学与上海人工智能实验室联手打造的“排版医生“-洪萨配资

这项由中国科学院大学、上海人工智能实验室及上海交通大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.10341，感兴趣的读者可通过该编号在arXiv平台查阅完整原文。

**研究概要：那个让所有人头疼的"最后一步"**

每个提交过学术论文的人，大概都经历过这样一种特殊的折磨：代码写完了，实验做完了，文章内容也写完了，结果在截止日期前几个小时，突然发现论文PDF里有一张图片不知道跑到了哪一页，一个公式溢出了文本框，参考文献页面底部有半页空白，或者整篇文章比规定页数多了一页半……于是开始疯狂地改LaTeX源代码，重新编译，再看PDF，再改代码，再编译——这个循环有时候会一直持续到凌晨，直到精疲力竭或截止时间到来。

LaTeX是学术界最广泛使用的论文排版系统，它让科研人员能够写出格式规范、公式美观的专业文档。然而，LaTeX有一个令人苦恼的特性：你写的源代码能成功"编译"（也就是说，计算机能根据你的代码生成PDF），并不意味着这个PDF看起来好看或者符合会议要求。图片可能飘到几页之后，表格可能宽得超出了页面边界，段落可能被在不恰当的位置断开，最后一页可能有大片令人尴尬的空白……

这些问题，目前没有任何工具能够自动帮你解决。已有的辅助工具要么只能看代码和编译日志（相当于只靠听声音来判断音乐好不好听），要么是文字版的AI助手，它修改代码但根本"看不到"最终排版效果是什么样子。这就是为什么那个痛苦的"改代码—编译—看PDF—再改—再编译"的循环依然是每个研究者的噩梦。

来自中国科学院大学、上海人工智能实验室和上海交通大学的研究团队决定彻底解决这个问题。他们开发了一个名为PaperFit的系统，让AI真正"看"着PDF来帮你修排版——就像雇了一个经验丰富的出版编辑，坐在旁边一边盯着屏幕上的PDF，一边帮你改LaTeX代码，改完再重新编译确认效果，直到一切看起来都符合规范。

**一、排版的"隐形门槛"：能编译≠能发表**

以快递打包来打比方：代码能成功编译，相当于你把东西装进了快递箱子，箱子没有破。但要让包裹真正能送出去，还需要检查：物品有没有放稳（图片有没有出界），箱子有没有超重（页数有没有超限），包装有没有破损（排版有没有出错），地址有没有写清楚（格式有没有符合要求）。光是"装进箱子"远远不够。

研究团队把目前所有工具都无法自动处理的这一环节，正式命名为"视觉排版优化"（Visual Typesetting Optimization，简称VTO）。这是一个新的任务定义：给定一篇LaTeX源代码能成功编译的学术论文，通过反复查看渲染出来的页面图像、修改源代码、再重新编译来检验效果，最终让这篇论文的PDF在视觉上干净、整洁，并且严格符合目标会议或期刊的页数要求。

为什么说这是一个被忽视的关键环节？研究团队做了一个清晰的梳理：在文档自动化的整条流水线上，已经有很多工具来帮助"生产可以编译的LaTeX源文件"——比如格式转换工具可以把Word文档变成LaTeX，文档理解模型可以从PDF中还原LaTeX代码，大语言模型可以从文字描述直接生成LaTeX框架。这些都属于"结构化排版"阶段，目标是让代码能编译。然而，从"能编译的代码"到"可以直接投稿的好看PDF"，中间还有一大段距离，目前完全依赖人工手动处理——而PaperFit要填补的，正是这段空白。

**二、现有方法为何束手无策：三个根本性缺陷**

现有的工具为什么解决不了这个问题？研究团队把根源归结为三个方面，每一个都像是侦探断案时缺少的关键环节。

第一个缺陷是"视觉盲区"。基于规则的排版工具和编译日志提供的信息，本质上都是一维的代码信号。编译日志可以告诉你有一个"overfull hbox"（内容宽度超出了文本框），但它说不清楚这个超出对读者视觉体验的实际影响有多大，也无法判断某个图片的位置是否影响了阅读流畅性，更无法感知整个页面的空白分布是否让人觉得别扭。排版质量本质上是二维的空间判断，而一维的代码和日志信息根本不足以支撑这种判断。

第二个缺陷是"修复空间无边界"。当系统发现了一个排版问题，它面对的修复方案多得让人头皮发麻，而且其中大多数都是"伪修复"——比如用`\vspace`强行加空白、用`\resizebox`暴力缩小表格、用`\newpage`强制换页，这些命令确实能让代码继续编译，但实际上是在掩盖问题或者把问题转移到别的地方，同时破坏了正常的排版规范。如何区分"真正修复了问题的方案"和"把问题藏起来的方案"，是一个需要专业知识约束的判断。

第三个缺陷是"级联效应无法验证"。LaTeX的排版修改有一个特别棘手的特性：局部的小改动往往会引发全局的连锁反应。调整了一张图片的宽度，可能会导致三页之后的分页位置发生变化，进而让某个本来好好的段落突然出现了"孤行"（一段话最后一行孤零零地出现在新的一页顶部）。纯文字AI助手在修改代码时根本不"看"修改后的PDF长什么样，所以完全无法预知或验证这些级联效应是否产生了新的问题。

**三、PaperFit的核心理念：让AI真正"看着"在修**

PaperFit的核心思路，可以用一个直观的类比来理解：它模拟的是一个有经验的出版编辑的工作方式。这位编辑不会只盯着LaTeX源代码来猜测最终效果，而是会先编译出PDF，翻看每一页，找出哪里有问题，然后去源代码里做针对性的修改，改完再重新编译看效果，确认修好了之后再继续处理下一个问题。这个"看—改—验证"的闭环，就是PaperFit系统的基本运作方式。

系统在每一轮工作中处理四类来自不同层面的信息。源代码层面提供文档结构、模板配置、浮动元素环境（图表在LaTeX中叫"浮动元素"，因为它们的最终位置由系统自动决定，可能"漂浮"到与代码位置不同的地方）、表格结构，以及所有被保护对象的数量和位置——包括图片、表格、标题、标签、引用和参考文献。编译日志层面提供确定性的执行信息，包括编译是否成功、有无未定义的命令、有无未解析的引用、是否有内容溢出警告等。PDF文档层面提供文档级别的输出结果，包括最终页数、页面顺序和浮动元素的实际落点。而渲染出来的页面图像层面，则能揭示那些源代码和日志完全看不出来的二维视觉缺陷——稀疏的最后一页、双栏格式中某一栏有大片空白、图表堆叠、表格超宽、跨页的视觉不均衡等等。

PaperFit把所有排版缺陷整理成一个五类分类体系。第一类是空间利用问题，包括孤行（段落第一行或最后一行孤立地出现在一页的顶部或底部）、尾部大片空白、双栏格式中两栏不均衡、正文栏内出现意外空洞等。第二类是浮动元素位置问题，包括图表飘离了它在正文中第一次被引用的位置太远、图片被缩得过小或放得过大超出可用宽度等。第三类是表格宽度问题，包括表格被过度缩小或宽度超出文本区域。第四类是溢出问题，包括长单词或URL因为无法断行而撑破了文本框、单行公式太宽超出了显示区域。第五类是模板迁移问题，包括把论文从一个会议模板换到另一个会议模板时，图片宽度设置与新模板不匹配、文本区高度改变导致页数超出预算等。

**四、修复的艺术：怎么改才是真的"改好了"**

发现问题只是第一步，怎么修才是真正的挑战。研究团队为PaperFit设计了一套严格的"修复偏好档案"，规定了什么可以做、什么受限制、什么绝对不能做。

修复动作被分成三个等级。第一级叫"排版原生修复"，也就是最推荐使用的方案：重新调整浮动元素的位置参数（LaTeX中`[htbp]`这样的参数决定了图表优先出现在哪里）、把太长的公式拆分成多行、用适应宽度的表格环境来处理过宽的表格、把图片宽度归一化到符合模板规范的数值。这些操作直接解决了问题根源，而且不会产生副作用。

第二级叫"间距调整"，属于有条件允许的操作：局部`\vspace`间距微调、`\setlength`参数修改、栏间分隔提示。这些操作只在有明确理由的情况下才被允许使用，而且必须通过再次验证。

第三级是"伪修复"，被明确列为主要修复方式的禁区：不能用`\resizebox`暴力缩放表格，不能用`\newpage`或`\pagebreak`强行控制页数，不能用`\scalebox`缩放图形，更不能删除内容。这些命令表面上能让问题"消失"，实际上是把问题藏起来，或者破坏了排版规范，或者把问题推到了别处。

当所有排版层面的修复都做完、但页数还是稍微超出预算或者还有少量空白行时，系统才允许启用一个"最后手段"：有限度的语义润色——轻微调整措辞（比如把一个冗长的句子说得更简洁），但绝对不能改变内容、数据、引用或学术结论的含义。这个操作只在排版手段穷尽后才能使用。

每一次修复之前，系统都会给所有被保护对象拍个"快照"——记录图片、表格、标题、标签、引用和参考文献的数量和位置。修复之后，系统立刻核查这些对象是否都还在、有没有跨章节移动、标题有没有被改动。如果有任何违规，系统会自动回滚到修复之前的状态。

**五、质量验收的关卡：改完不等于完事**

PaperFit最重要的设计之一，是每一次修改之后都必须经历一个严格的"验收关卡"，而不是修完就放行。

这个验收机制在每一轮修复后都会完整执行以下步骤：重新编译并收集日志，解析确定性信号（错误、引用、溢出警告），渲染全部页面，基于四层证据重新生成结构化缺陷记录，按缺陷类别和修复偏好档案执行修复，重新编译和渲染，然后由"看门人"做出裁决。

看门人会给出三种裁决之一。"完成"意味着所有约束都通过了、没有剩余的阻塞性缺陷——具体要求是：编译成功、渲染成功、通过逐页视觉检查、没有阻塞级别的缺陷、页数符合预算、所有被保护内容都完好无损。"继续"意味着当前状态是安全的，但仍有问题需要处理，系统记录下待处理的下一步行动后进入下一轮。"阻塞"意味着当前修复是不安全的或者不可行的，系统需要回滚并换一种方案。

这个闭环机制之所以必要，是因为LaTeX的排版修改极其"非局部"——一个微小的改动可能在文档很远的地方引发意想不到的连锁反应，如果不在每次修改后验证全局效果，很可能修好了一个问题却在三页之后创造了两个新问题。

**六、PaperFit-Bench：为这个问题专门造的考场**

为了严格评估PaperFit（以及所有其他可能的解决方案），研究团队专门构建了一个标准化测试集，命名为PaperFit-Bench。

测试集包含200篇论文，全部来自arXiv上已发表的学术论文，覆盖自然语言处理、计算机视觉、强化学习等人工智能子领域，跨越了10个不同的会议模板，包括AAAI、CVPR、ICCV、ECCV、ICLR、ICML、IEEE Transactions、IJCAI、IJCV和NeurIPS。这些模板同时包含单栏和双栏格式，页数限制从7页到14页不等。每篇论文平均包含6.3张图片和5.3张表格，保证了测试涵盖足够复杂的浮动元素场景。

测试集的构建方式很特别：每个测试案例都是把一篇原始论文经过有计划的"扰动"处理之后生成的，并且保留了原始版本作为参照。扰动分为13种具体操作，分属前面提到的五个缺陷类别。比如"孤行扰动"通过截断短段落来强制产生孤行，"图片超宽扰动"把图片宽度设置成超出可用列宽的值，"表格缩放扰动"用`\resizebox`把表格包裹起来使其过度缩小，"长公式扰动"插入超宽的公式触发显示溢出，"模板迁移扰动"把论文从一个会议模板换成另一个（比如从AAAI双栏换到ICLR单栏）同时保留不合适的图片宽度设置。

测试案例按难度分成三档：简单（包含1到2个同时发生的扰动，60篇）、中等（3到4个，80篇）、困难（5到8个，60篇），三档比例约为3:4:3。

研究团队特别强调，这个测试集的设计原则是"真实优先于简单"。每个案例都是从真实学术论文出发的，而不是人工构造的玩具例子。即使标注为"简单"的案例也可能包含相当棘手的局部排版问题；而"困难"案例通常是多种扰动交织在一起，模板迁移、表格溢出和页数超限同时出现。

**七、六种对比基线：从最简单到最接近的竞争者**

研究团队设计了六种对比方法，层层递进地添加能力，用来清晰地展示PaperFit每一个核心组件的贡献。

第一种叫"Perturbed"，就是直接把扰动后的输入原封不动提交，不做任何修复。这是基准线，用来衡量扰动本身有多严重。

第二种叫"RuleLog"，使用基于规则的确定性修复，只依赖源代码和编译日志信号，完全不使用任何AI模型或视觉反馈。这代表了目前工业界最常见的自动化排版辅助工具的能力上限。

第三种叫"TextST"，单轮纯文字大模型修复。把LaTeX源代码发给一个大语言模型，让它做一次性修改，但完全不给它看渲染后的PDF页面图像。这代表了文字AI助手在这个任务上能做到什么。

第四种叫"TextMR"，多轮文字+日志修复。相比TextST，它允许多轮对话并且能看到编译日志，但仍然没有视觉反馈——它能对编译错误做出反应，但看不到页面。

第五种叫"VisualST"，单轮视觉修复。给模型同时提供LaTeX源代码和渲染出来的页面图像，但只有一轮修复机会。这测试了"加上视觉输入但不迭代"能额外带来多少收益。

第六种叫"VisualMR"，多轮视觉智能体基线。这是最接近PaperFit的对比方法：它可以在固定轮数内反复查看源代码、日志和页面图像，并且能直接修复编译错误、渲染问题和排版问题。关键区别在于：VisualMR没有PaperFit的缺陷分类体系、没有结构化诊断记录、没有修复偏好档案、没有回滚机制，也没有带验收标准的质量门控。它代表的是"有多轮视觉反馈的通用AI智能体"能做到什么，而不需要任何PaperFit专门设计的结构化流程。

**八、实验结果：数字背后的真实差距**

评估采用了两套互补的指标体系。程序化指标考察技术层面的正确性，包括编译是否成功、渲染是否成功、页数是否恰好等于目标值（Page hit，精确命中率）、所有被保护的学术内容是否完整保留、引用是否都正确解析、源代码改动幅度是否合理，以及修改前后文本语义相似度。这些指标汇总为一个0到5分的"Program分数"。视觉质量指标则通过把渲染出来的页面图像交给视觉语言模型评估来得到分数，评估维度包括缺陷修复程度、约束符合度、视觉质量、有没有引入新的缺陷、专业观感、空间利用率、浮动元素位置合理性、排版一致性和视觉均衡性，汇总为0到5分的"VLM分数"。另外还有一个"Win率"，衡量有多少比例的案例，某方法的输出在视觉上比扰动输入更好。

最终数字清晰地展示了各方法的差距。直接提交扰动输入（Perturbed）的VLM分数是1.83，Win率为零，页数精确命中率37.5%。基于规则的工具（RuleLog）把VLM分数提到了2.18，Win率38%，但编译成功率反而从58%降到了52%——说明规则工具在某些情况下会帮倒忙。单轮文字模型（TextST）VLM分数1.85，胜率28%，编译成功率保持在58.5%，但Program分数只有2.57，说明它虽然没有严重破坏内容，但排版改善非常有限。多轮文字+日志（TextMR）在文字方法中表现最好，VLM分数2.16，胜率42.5%，Program分数2.74，页数命中率62.3%——但视觉质量依然停在2分多的水平。加入单轮视觉（VisualST）之后，VLM分数1.87，胜率29.5%——令人惊讶的是，单轮视觉修复的VLM分数并不比纯文字高多少，这说明"有视觉输入"本身不等于"能修好排版"，关键还在于是否有结构化的迭代流程。

最接近PaperFit的VisualMR是一个分水岭：编译和渲染成功率都达到了97.5%（说明多轮视觉反馈确实大幅提升了技术可用性），VLM分数2.80，胜率65%，Program分数4.58。然而，页数精确命中率只有54.9%——将近一半的案例没能控制在正确页数，而且胜率也只有65%，意味着有35%的案例它改出来的结果视觉上并不比原来的扰动版更好。

PaperFit的数字是：编译成功率和渲染成功率都是100%，VLM分数3.39，胜率89.5%，页数精确命中率80.5%，Program分数4.58（与VisualMR几乎相同）。VLM分数比VisualMR高出0.59分，胜率高出24.5个百分点，页数命中率高出26个百分点。两种方法共享同样的底层大语言模型能力，差距完全来自PaperFit的结构化诊断、约束修复和门控验证机制。

还有一个细节值得关注：所有方法的内容语义相似度都保持在0.97以上，这说明这些改善都来自排版层面的修复，而不是通过大量改写内容来"变相"缩短页数。

**九、换一个大脑：不同AI模型的表现对比**

研究团队还测试了PaperFit的工作流程在不同大语言模型底座上的表现，选取了GPT-5.4、Claude Opus 4.6、DeepSeek-V4 Pro和MiMo-v2.5-pro四个模型，在20个有代表性的案例上进行了对比。

结果显示出一个重要规律：所有四个模型的VLM分数都落在3.52到3.66之间，差距只有0.14分。相比之下，PaperFit与VisualMR之间的0.59分差距远大于不同模型之间的差距。换句话说，PaperFit系统结构设计带来的提升，远比你选择哪个大模型更重要。

不同模型之间有一些风格上的差异而非能力上的优劣：MiMo-v2.5在"修复导向"维度上领先——缺陷解决度（3.90分）、视觉质量（3.85分）和发表准备度（3.80分）都是最高的，说明它修缺陷的积极性最强；GPT-5.4则在"不引入新缺陷"这个维度上得分最高（4.30分），更谨慎保守；DeepSeek-V4在空间利用率（3.50分）和浮动元素位置（3.90分）上领先，在视觉均衡感上也最好（3.20分）。这种差异体现的是修复风格而非修复能力，都在可接受范围内。

按难度分层来看，VLM分数差距在每个难度等级内都不超过0.14分，而且没有任何一个模型在所有三个难度级别上都是最优——GPT-5.4在简单和中等难度上领先，DeepSeek-V4 Pro在困难难度上分数最高。这种交叉模式进一步说明差异来自随机波动而非系统性能力差别。

**十、人类评委的裁判：AI打分靠谱吗**

研究团队还请了真实的人类评估者对所有方法的输出进行了评分，然后把人类打分与VLM自动评分进行了相关性分析。结果显示斯皮尔曼相关系数为0.8571，相关性非常高。这意味着VLM打出来的分数和真实人类的感受高度吻合，用VLM自动评分来替代人工评分是可靠的。从散点图来看，PaperFit在人类评分和VLM评分上都是最高的，而Perturbed（未修复输入）在两者上都是最低的，其他方法的相对排序在人类和VLM的评分下也完全一致。

**十一、真实案例的展示：从"一团糟"到"可以投稿"**

研究团队展示了几个典型案例，直观地呈现了PaperFit到底做了什么。

在一个CVPR/ICCV格式的论文案例中（目标10页），扰动让多张图表和表格飘离了它们在正文中第一次被引用的位置很远。结果扰动版和VisualMR的输出里都有一页满是文字，提到了"表格3"、"表格4"和"图3"，但这些图表根本没有出现在附近——读者不知道要翻到哪里找。PaperFit把这三个浮动元素全部调整到了各自首次引用文字附近，而且整篇论文恰好是10页，而VisualMR产生了13页。

在一个IJCAI格式的案例中（目标8页），模板迁移带来了大片空白和页数超标。VisualMR能够编译渲染成功，但最后一页参考文献区域有大片空白，整篇论文停在了10页。PaperFit采用了更紧凑的排版策略，最终版本是8页，参考文献部分完整保留。

在一个IEEE格式的案例中（目标16页），扰动版本在文档尾部参考文献部分有页脚错位的问题。VisualMR虽然能够重新编译，但在修改过程中引入了严重的新排版错误，并且让文档膨胀到了20页。PaperFit修复了页脚错位，恢复了紧凑的参考文献布局，文档回到了16页。

在两个模板迁移案例中（AAAI双栏转ICLR单栏，ICLR单栏转CVPR双栏），直接切换模板会导致图片宽度严重失配，浮动元素位置混乱。PaperFit自动把图片宽度调整适配到了新模板的列宽，重新验证并优化了浮动元素位置，通过了所有验收检查：编译、渲染、模板匹配、栏格式、内容完整性。

**十二、还没搞定的失败案例：系统的边界在哪里**

研究团队也坦诚地展示了PaperFit失败的案例。

一类失败是全局页数控制不够准确。有一篇ACM Multimedia论文，目标是10页，但PaperFit的迭代修复在局部是有效的，却创造了多个稀疏的尾页，最终产生了16页——本地修复做到了，但全局页数控制没到位。另一篇ECCV论文，目标19页，最终产生了20页，最后一页只有一张大图和大片空白。即使只超出一页，也构成一次硬性失败。

另一类失败是视觉缺陷依然残留。一篇ACM Multimedia论文，编译成功、页数也恰好是10页，但那张原本超宽被裁剪的图片依然没有被修好——满足了"能通过的"约束条件，但实际视觉问题没有解决。还有一个更棘手的案例：一篇ICLR论文，编译成功，页数也正确是13页，但渲染出来的页面是灰色的、视觉上完全无效——这说明仅凭编译成功作为质量指标是完全不够的，但即使是PaperFit的视觉验证机制，在这种异常情况下也没有成功捕获问题。

这些失败模式指向了几个需要未来研究继续突破的方向：更精准的全局页数规划能力、处理超宽单图时的更鲁棒策略、以及对某些视觉渲染异常的更强检测能力。

---

说到底，PaperFit解决的不是一个新奇的科幻问题，而是一个每天都在折磨着数以万计研究者的非常真实的痛苦：LaTeX代码能跑通，不代表PDF好看；能提交，不代表符合格式。这中间的距离，现在可以让一个真正"看着"在修的AI助手来帮你走完。当然，它还不完美——特别复杂的多重问题组合依然会让它头疼，页数控制有时也不够精准——但从"你只能靠自己反复折腾"到"有一个AI出版编辑帮你盯着屏幕"，这本身已经是一大步。

下次论文提交截止时间前三小时，也许你不需要再自己熬夜盯着那个"改代码—编译—看PDF—再改"的循环了。或者，如果你对这项研究感兴趣，可以通过arXiv:2605.10341深入了解完整的技术细节。

---

Q&A

Q1：PaperFit能处理哪些类型的LaTeX排版问题？

A：PaperFit能处理五大类LaTeX排版问题：图表位置飘离引用处太远、图片超宽或过小、表格超宽或被过度缩小、公式或长单词撑破文本框，以及切换会议模板后图片宽度和页数不匹配的问题。它通过同时查看源代码、编译日志、PDF文档和渲染页面图像来发现这些问题，而不是只看代码或日志。

Q2：PaperFit和普通的LaTeX编辑AI有什么本质区别？

A：普通LaTeX编辑AI（比如文字版GPT或Claude）修改代码时根本不"看"最终渲染效果，改完就交差，无法预判改动引发的连锁排版变化。PaperFit的本质区别是：每次修改之后都会重新编译、重新渲染成页面图像、逐页检查是否有新问题产生，形成真正的"看—改—验证"闭环，而且有一套明确规定哪些修复操作是允许的、哪些是伪修复的约束体系。

Q3：PaperFit-Bench测试集是怎么构建的，为什么需要专门构建一个新的测试集？

A：PaperFit-Bench从arXiv上收集了200篇已发表的学术论文，覆盖10个会议模板，然后对每篇论文施加有计划的"扰动"操作（共13种），制造出各类排版缺陷，同时保留原始版本作为参照。之所以需要专门构建，是因为现有的排版相关测试集要么只测编译是否成功，要么只测局部元素（如单个公式或表格），没有任何测试集同时支持多类型扰动注入、基于渲染页面的视觉评估、多轮迭代修复，以及整篇文档级别的全局验证——而这些正是VTO任务的核心需求。

中国科学院大学与上海人工智能实验室联手打造的“排版医生“

2026年会议纪要工具谁处理最快：5款产品横向对比

使用HermesAgent框架时接入Taotoken多模型服务的配置指南

对比虚拟机内外通过Taotoken调用同一模型的响应速度差异

3分钟拯救你的B站视频：m4s-converter零转码转换完全指南

5分钟快速上手：Windows免费音频格式转换终极指南

Cursor Free VIP技术深度解析：机器标识管理与系统级权限绕过架构