腾讯POINTS-Reader:高效中英双语文档转换工具
【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader
导语
腾讯混元团队推出端到端文档转换视觉语言模型POINTS-Reader,以结构精简、无需后处理的特性,在中英文文档提取任务中展现优异性能,并通过轻量化设计实现高吞吐量部署。
行业现状
随着数字化转型加速,文档信息提取已成为企业和个人处理大量纸质或图片格式文档的核心需求。传统OCR工具往往面临多步骤处理复杂、多语言支持不足、特殊格式(如公式、表格)识别精度低等问题。近年来,基于视觉语言模型(VLM)的文档理解技术快速发展,逐步实现从图像到结构化文本的直接转换,但多数方案存在模型体积庞大、部署成本高或依赖复杂后处理流程等痛点。
在此背景下,高效、精准且易于部署的文档转换工具成为市场刚需。OmniDocBench等权威评测基准的出现,也为不同方案的性能对比提供了标准化参考,推动着技术方案的持续优化。
产品/模型亮点
1. 极简架构与端到端设计
POINTS-Reader采用高度精简的模型结构,基于POINTS1.5架构改进,仅将Qwen2.5-7B-Instruct替换为更轻量的3B版本,保持核心能力的同时大幅降低计算资源需求。模型输入为固定提示词与文档图片,输出直接为最终提取文本,彻底省去传统 pipeline 所需的布局分析、文本检测、后处理等中间步骤,显著提升处理效率。
2. 中英双语高性能表现
在OmniDocBench评测中,POINTS-Reader展现出卓越的文档提取能力:英文场景Overall Edit分数达0.133,中文场景达0.212(注:Edit分数越低表示性能越优)。尤其在表格提取任务中,英文Table TEDS指标达到83.7,中文达85.0,超越多数开源工具和通用视觉语言模型,显示出对复杂排版结构的精准理解。
3. 轻量化与高吞吐量优势
模型选用600M参数的NaViT视觉编码器,配合3B语言模型,在保证性能的同时实现轻量化部署。目前已支持SGLang推理框架,并计划推出vLLM支持,通过高效推理优化实现高吞吐量处理,满足企业级批量文档转换需求。
4. 创新数据增强策略开源
POINTS-Reader提出两阶段数据增强策略:第一阶段利用自动化数据赋予模型基础提取能力,第二阶段通过持续自进化提升生成数据质量。该方法具有高度扩展性,可应用于各类模型优化场景,相关技术细节已随模型开源,为行业提供有价值的参考。
行业影响
POINTS-Reader的推出将推动文档理解技术向更实用化方向发展。其端到端设计降低了开发者使用门槛,轻量化特性使中小企也能负担部署成本,而中英双语支持则特别契合中文信息处理需求。在金融、教育、法律等对文档处理需求强烈的领域,该模型有望显著提升工作流效率——例如自动提取财务报表数据、转换学术论文公式与表格、解析合同关键信息等。
此外,腾讯选择开源技术方案并支持主流推理框架,体现了技术普惠的行业责任感,将加速文档AI应用生态的构建。随着vLLM支持的上线,模型在实时性场景的应用潜力将进一步释放。
结论/前瞻
POINTS-Reader以"精简结构、高效性能、易部署"的特性,为文档转换领域提供了新的技术范式。其在OmniDocBench的优异表现证明,通过合理的模型设计与数据策略,轻量级模型也能实现媲美大型模型的文档理解能力。未来,随着多语言支持的扩展和复杂场景(如手写文档、多栏排版)处理能力的优化,POINTS-Reader有望成为文档数字化转型的关键基础设施,推动更多行业实现效率升级。
【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考