AI 大模型中的多模态（Multimodal）是什么意思？-洪萨配资

AI 多模态学习笔记：多模态大模型排名、原理与应用

AI大模型中的多模态是什么意思，它又是如何工作的？从应用层程序员视角拆解多模态大模型的工作原理，涵盖主流模型排名、实际应用场景与行业思考，帮你真正理解 AI 多模态技术。

文章目录 **

先解决最基础的问题：多模态是什么意思
多模态大模型是怎么工作的
- 第一步：通过视觉编码器对图片或视频进行编码
- 第二步：通过投影层对齐
- 第三步：推理
关于「原生多模态」和「后期拼接」
现在有哪些主流的多模态大模型
多模态模型到底能干什么
五、关于多模态的一些思考
六、写在最后

搞应用开发的 CURD 程序员，该如何理解多模态 AI 大模型？

最近打算认真写一点关于 AI 方面的学习笔记。本文是我整理的多模态相关的内容，不是那种底层原理——太底层的我也看不懂——只是用自己的理解记录一下大概的实现原理。如果你也是写业务代码的，对 AI 有点兴趣但又不想啃论文，这篇文章应该适合你。

先解决最基础的问题：多模态是什么意思

多模态的英文是Multimodal，这个词拆开来看，multi 是「多」，modal 是「模态」。模态这个词听起来有点学术，其实就是「信息的载体形式」。

我们人类认识世界本来就不是只靠一种感官的。你看到一个苹果，是红色的、圆的，这是视觉信息；你咬一口，咔嚓一声，这是听觉信息；尝到甜味，这是味觉信息；摸起来光滑，这是触觉信息。你的大脑把这些不同渠道的信息整合在一起，才形成了对「苹果」这个概念的完整理解。

AI 里的多模态，就是让模型也能干同样的事——同时处理和理解多种不同类型的信息。这些信息类型主要包括：

文本（Text）：文章、对话、代码
图像（Image）：照片、图表、截图
音频（Audio）：语音、音乐、环境声
视频（Video）：动态画面，本质上是图像+音频+时间轴
其他：比如 3D 模型、传感器数据、甚至脑电波信号

所以多模态学习（Multimodal Learning）就是研究怎么让 AI 同时处理、关联、融合这些不同模态的数据。而多模态大模型（Multimodal Large Language Model，简称 MLLM），就是在大语言模型的基础上，给它装上了「眼睛」和「耳朵」，让它不再只能读文字，还能看图、听声音、看视频。

多模态大模型是怎么工作的

我一开始以为多模态模型就是分别训练一个视觉模型和一个语言模型，然后硬拼在一起。后来看了一些技术资料才知道，事情没那么简单，但也没那么复杂。

目前主流的多模态大模型架构，基本思路是这样的：

第一步：通过视觉编码器对图片或视频进行编码

视觉编码器（Vision Encoder）负责把图像或视频帧转换成模型能理解的向量表示。最常用的就是ViT（Vision Transformer），把图片切成一个个小 patch，每个 patch 变成一个 token。一张 224x224 的图片大概能拆成几百个 token。

大语言模型（比如 GPT、Claude、Llama）本质上是处理文本的。大家都知道，现在token中文命名叫做「词元」了，你输入一串 token（可以粗暴理解为「词」），它输出一串 token。它不认识图，不认识声音，只认识数字向量。

所以多模态要做的第一件事，就是把非文本的东西转换成文本模型能消化的形式。

用一个类比来理解这个过程。

假设你有一个只会说中文的翻译官（大语言模型），现在来了一个只会说法语的客户（一张图片）。你们之间需要一个翻译流程，向量编码就是将法语翻译成某种中间语言。

图片本身是一堆像素（RGB 值），模型看不懂像素。所以需要「视觉编码器」把图片转换成一组向量。

可以粗暴理解为：把图片「翻译」成了一组数字。这个过程类似你做图片压缩。一张 1024x1024 的图有几百万个像素，视觉编码器把它压缩成几百个「特征向量」。

每个向量代表图片里的某个局部信息，比如「左上角有个红色的圆形物体」「中间偏右有文字」。

第二步：通过投影层对齐

视觉编码器输出的向量维度和语言模型的 token 维度通常不一样，就像那个中间语言可能是某种方言，翻译官还是听不懂，需要一个中间层来做对齐。

「投影层 / 连接器（Projection Layer / Connector）」就是这个用来做中间转换的对齐层。这个对齐层的设计很关键，它决定了视觉信息能不能被语言模型「看懂」。常见的做法有简单的线性投影，也有更复杂的 Q-Former 结构（比如 BLIP-2 用的那种）。你可以把它想象成一个适配器（Adapter），把视觉向量映射到语言模型的 token 空间里。

这个对齐层是怎么训练出来的？简单说就是：给模型看大量的「图片+文字描述」对，让它学会「这张图」和「这段文字」在向量空间里应该离得近。

训练完成后，模型就建立了一种「跨模态的对应关系」—— 它知道一张猫的图片和「一只猫」这句话，在内部表示中是同一个东西。