上周是智谱的多模态开源周,从GLM 4.6v到Autoglm…
看到官方的博客,第一眼比较吸引我的,不是模型本身,是他们给的一个使用场景 -图文并排。
上传一份 PDF 论文,它能生成一篇图文混排的解读文章,而且效果非常好。图片位置精准,上下文衔接自然,完全不像是机械拼接的。
过去我们想做图文混排,都是预定义一些图片,让多模态大模型生成描述,再让LLM在写文章时结合图片描述,选择合适的图片url。
流程繁琐,效果一般(主要是模型看不到这些图)。
太久没用过多模态大模型了,感觉时代似乎变了~
Z.ai 已经上线了这个能力,所以我逆向了一下原理,复刻了一下,有不少收获,给家人们分享一下。
一、GLM 4.6V 是一个多模态原生智能体
我们可以看一下下边的视频。大概的步骤是,模型会先生成一个带工具槽位的初版,然后进行图片引用,调用裁剪工具,捞回来图片,最后完成终稿的撰写。
其实从Z.ai 服务请求日志,也可以看到具体的工具调用信息。
相当于类似一个ReAct Agent,调用工具截图相当于获取到observation,然后进行下一步的Action。
如果想做一个自由度没这么高的一个架构,类似下图:
基于这个模式,我复刻了一套代码。结果跟ZAI跑出来的结果基本一致。重点是复刻过程中,我发现了几个非常有意思的点,后文会详细介绍一下。
跑一篇20页的论文,大概消耗1毛5的样子。如果用量比较多,可以考虑智谱的GLM Coding Plan,20 元包月起,用量是同价位 Claude Code 的三倍。而且官方提供了一系列适配4.6v的MCP, 使用起来会更顺手。
二、三个有意思的能力
模型知道图片的精确位置
这是Glm4.6V 最让我惊讶的能力。模型不仅能理解图片内容,还能输出图片在页面上的坐标,比如前面调用图片裁剪工具,我让模型输出的格式如下:
[页码, [[x1, y1, x2, y2]], "图片标题"]需要注意的是:模型的输出坐标是千分位坐标(0-999 范围),需要按比例转换成像素坐标。 当然如果用官方mcp tools没这个烦恼。
def thousandth_to_pixel(coord, image_width, image_height): """千分位坐标转像素坐标""" x1 = int(coord[0] / 1000 * image_width) y1 = int(coord[1] / 1000 * image_height) x2 = int(coord[2] / 1000 * image_width) y2 = int(coord[3] / 1000 * image_height) return [x1, y1, x2, y2]为什么是千分位?因为不同分辨率的图片,像素坐标会变,但千分位坐标是相对的,更具通用性。
一次输入几十张图片
一篇 20 页的 PDF,转成图片后全部塞进去,模型能完整理解,128k确实不是吹的。
这让我想起不久前智谱的另一个工作Glyph:把文本渲染成图片,让视觉 token 承载更多信息。
传统的 token 扩展方式已经走到算力成本的天花板。与其硬扛百万级token的计算压力,不如让 AI看文字,而不是读文字。
所以过去我们头痛的解析、分块等操作,随着多模态模型的变强,似乎迎刃而解了。
可以基于裁剪结果持续迭代
获取到裁剪后的图片之后,如果只是简单的字符串替换,直接正则就够了。
但如果用VLM,在第二轮可以验证裁剪是不是正确,可以调整图片周围的文字,可以优化图文的排版位置。
GLM-4.6V 就是一个原生的 Agent。
三、最后
多模态时代的 Agent 和纯文本时代完全不一样。
模型不再只是读信息,而是看信息。它知道 Figure 2 在第 4 页的左上角,知道 Table 3 的边界在哪里,知道如何把这些视觉元素编排到文章中。
非常符合GLM4.6V的宣传语: 不止能看,更能执行。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。