news 2026/6/9 21:17:17

腾讯POINTS-Reader:一键搞定中英双语文档转换

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯POINTS-Reader:一键搞定中英双语文档转换

腾讯POINTS-Reader:一键搞定中英双语文档转换

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

导语

腾讯混元实验室推出端到端文档转换视觉语言模型POINTS-Reader,以结构精简、无需后处理的特性,实现中英双语文档图片到文本的高效转换,在国际权威评测集OmniDocBench上取得中英双语高分表现。

行业现状

随着数字化办公的普及,文档格式转换已成为企业和个人的高频需求。传统OCR工具往往需要多步骤处理,在复杂排版、多语言混合、公式表格识别等场景下效果有限。近年来,基于视觉语言模型(VLM)的文档理解技术快速发展,逐渐解决了传统方法的痛点,但多数模型存在结构复杂、推理速度慢或对中文支持不足等问题。据行业调研显示,超过68%的企业在处理多语言文档时仍面临格式错乱、内容丢失等问题,亟需高效可靠的解决方案。

模型亮点

POINTS-Reader作为腾讯混元系列的新成员,展现出四大核心优势:

1. 极简架构设计
完全遵循POINTS1.5的精简结构,仅将语言模型部分替换为轻量级的Qwen2.5-3B-Instruct,实现端到端输出。输入仅需固定提示词和文档图片,输出直接为可使用的文本字符串,无需任何后处理步骤,极大降低了集成难度。

2. 中英双语卓越性能
在OmniDocBench评测中,英文文档转换综合得分为0.133,中文达0.212(注:Edit分数越低表示精度越高),尤其在表格识别任务中表现突出,英文Table TEDS指标达83.7,中文达85.0,超越多数专业OCR工具和通用视觉语言模型。

3. 高吞吐量部署支持
采用600M参数的NaViT视觉编码器,结合SGLang推理框架优化,实现了高效推理。官方数据显示,在主流GPU环境下可实现每秒多页文档的处理速度,且即将支持vLLM部署,进一步提升并发处理能力。

4. 开源创新技术方案
提出两阶段数据增强策略:第一阶段利用自动化数据构建基础提取能力,第二阶段通过模型自进化持续提升数据质量。该方法已被EMNLP 2025主会收录,其自进化机制具有高度扩展性,可应用于各类模型优化场景。

行业影响

POINTS-Reader的推出将在多方面推动文档智能处理领域发展:

提升多语言办公效率
针对中英文混合文档的精准识别能力,特别适合跨国企业、学术机构等场景,预计可将文档处理效率提升40%以上,显著降低人工校对成本。

降低技术应用门槛
开源特性和极简接口设计,使开发者无需深厚的OCR专业知识即可快速集成,推动中小微企业实现文档数字化转型。目前HuggingFace模型下载量已突破10万次,社区活跃讨论超过500条。

引领轻量化模型趋势
在保持高性能的同时,600M视觉编码器+3B语言模型的组合,相比同类模型参数规模减少60%以上,为边缘设备部署提供可能,未来有望应用于手机端实时文档扫描等场景。

结论/前瞻

POINTS-Reader通过结构创新和优化策略,在文档转换领域树立了新标杆。随着vLLM支持的上线和社区生态的完善,其应用场景将从静态文档处理扩展到实时协作、智能检索等更广阔领域。值得关注的是,腾讯混元团队开源的两阶段数据增强方法,为行业提供了低成本提升模型能力的新思路,预计将引发新一轮文档理解技术的创新热潮。对于企业用户而言,这款模型的落地不仅能解决实际业务痛点,更能为后续的智能文档分析、知识抽取等高级应用奠定基础。

【免费下载链接】POINTS-Reader腾讯混元POINTS-Reader:端到端文档转换视觉语言模型,结构精简无需后处理。支持中英双语提取,OmniDocBench英文0.133、中文0.212高分。采用600M NaViT实现高吞吐量,已支持SGLang部署,vLLM支持即将推出。EMNLP 2025主会收录,开源两阶段数据增强策略,轻松实现文档图片转文本项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-Reader

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 20:23:08

Qwen3-30B-FP8:256K上下文全能力新突破

Qwen3-30B-FP8:256K上下文全能力新突破 【免费下载链接】Qwen3-30B-A3B-Instruct-2507-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-30B-A3B-Instruct-2507-FP8 导语:阿里达摩院最新发布的Qwen3-30B-A3B-Instruct-2507-FP8模型…

作者头像 李华
网站建设 2026/5/29 20:04:46

ResNet18性能测试:CPU环境下毫秒级推理实现

ResNet18性能测试:CPU环境下毫秒级推理实现 1. 背景与应用场景 1.1 通用物体识别的工程需求 在边缘计算、嵌入式AI和本地化部署场景中,对轻量级、高稳定性图像分类模型的需求日益增长。尽管大型视觉模型(如ViT、ResNet-50及以上&#xff0…

作者头像 李华
网站建设 2026/6/7 1:47:53

GPT-OSS-20B:16GB内存轻松体验AI推理新工具

GPT-OSS-20B:16GB内存轻松体验AI推理新工具 【免费下载链接】gpt-oss-20b-BF16 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/gpt-oss-20b-BF16 导语:OpenAI推出的轻量级开源大模型GPT-OSS-20B,凭借16GB内存即可运行的低门槛…

作者头像 李华
网站建设 2026/6/8 22:14:51

Qwen3-VL-4B:4bit量化版视觉交互新升级

Qwen3-VL-4B:4bit量化版视觉交互新升级 【免费下载链接】Qwen3-VL-4B-Instruct-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Qwen3-VL-4B-Instruct-bnb-4bit 导语:Qwen3-VL-4B-Instruct-bnb-4bit模型正式发布,通过…

作者头像 李华
网站建设 2026/6/9 18:49:18

ResNet18应用开发:多模型集成识别方案

ResNet18应用开发:多模型集成识别方案 1. 引言:通用物体识别中的ResNet-18价值 在当前AI视觉应用快速落地的背景下,通用物体识别已成为智能监控、内容审核、辅助交互等场景的核心能力。尽管更复杂的模型(如EfficientNet、ViT&am…

作者头像 李华
网站建设 2026/6/8 21:30:22

M3-Agent-Control:AI智能体控制入门教程,简单易学!

M3-Agent-Control:AI智能体控制入门教程,简单易学! 【免费下载链接】M3-Agent-Control 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/M3-Agent-Control 导语:字节跳动开源M3-Agent-Control项目&#xff0…

作者头像 李华