news 2026/4/27 4:51:10

AI 大模型中的多模态(Multimodal)是什么意思?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 大模型中的多模态(Multimodal)是什么意思?

AI 多模态学习笔记:多模态大模型排名、原理与应用

AI大模型中的多模态是什么意思,它又是如何工作的?从应用层程序员视角拆解多模态大模型的工作原理,涵盖主流模型排名、实际应用场景与行业思考,帮你真正理解 AI 多模态技术。

文章目录 **

  • 先解决最基础的问题:多模态是什么意思
  • 多模态大模型是怎么工作的
    • 第一步:通过视觉编码器对图片或视频进行编码
    • 第二步:通过投影层对齐
    • 第三步:推理
  • 关于「原生多模态」和「后期拼接」
  • 现在有哪些主流的多模态大模型
  • 多模态模型到底能干什么
  • 五、关于多模态的一些思考
  • 六、写在最后

搞应用开发的 CURD 程序员,该如何理解多模态 AI 大模型?

最近打算认真写一点关于 AI 方面的学习笔记。本文是我整理的多模态相关的内容,不是那种底层原理——太底层的我也看不懂——只是用自己的理解记录一下大概的实现原理。如果你也是写业务代码的,对 AI 有点兴趣但又不想啃论文,这篇文章应该适合你。

先解决最基础的问题:多模态是什么意思

多模态的英文是Multimodal,这个词拆开来看,multi 是「多」,modal 是「模态」。模态这个词听起来有点学术,其实就是「信息的载体形式」。

我们人类认识世界本来就不是只靠一种感官的。你看到一个苹果,是红色的、圆的,这是视觉信息;你咬一口,咔嚓一声,这是听觉信息;尝到甜味,这是味觉信息;摸起来光滑,这是触觉信息。你的大脑把这些不同渠道的信息整合在一起,才形成了对「苹果」这个概念的完整理解。

AI 里的多模态,就是让模型也能干同样的事——同时处理和理解多种不同类型的信息。这些信息类型主要包括:

  • 文本(Text):文章、对话、代码
  • 图像(Image):照片、图表、截图
  • 音频(Audio):语音、音乐、环境声
  • 视频(Video):动态画面,本质上是图像+音频+时间轴
  • 其他:比如 3D 模型、传感器数据、甚至脑电波信号

所以多模态学习(Multimodal Learning)就是研究怎么让 AI 同时处理、关联、融合这些不同模态的数据。而多模态大模型(Multimodal Large Language Model,简称 MLLM),就是在大语言模型的基础上,给它装上了「眼睛」和「耳朵」,让它不再只能读文字,还能看图、听声音、看视频。

多模态大模型是怎么工作的

我一开始以为多模态模型就是分别训练一个视觉模型和一个语言模型,然后硬拼在一起。后来看了一些技术资料才知道,事情没那么简单,但也没那么复杂。

目前主流的多模态大模型架构,基本思路是这样的:

第一步:通过视觉编码器对图片或视频进行编码

视觉编码器(Vision Encoder)负责把图像或视频帧转换成模型能理解的向量表示。最常用的就是ViT(Vision Transformer),把图片切成一个个小 patch,每个 patch 变成一个 token。一张 224x224 的图片大概能拆成几百个 token。

大语言模型(比如 GPT、Claude、Llama)本质上是处理文本的。大家都知道,现在token中文命名叫做「词元」了,你输入一串 token(可以粗暴理解为「词」),它输出一串 token。它不认识图,不认识声音,只认识数字向量。

所以多模态要做的第一件事,就是把非文本的东西转换成文本模型能消化的形式。

用一个类比来理解这个过程。

假设你有一个只会说中文的翻译官(大语言模型),现在来了一个只会说法语的客户(一张图片)。你们之间需要一个翻译流程,向量编码就是将法语翻译成某种中间语言。

图片本身是一堆像素(RGB 值),模型看不懂像素。所以需要「视觉编码器」把图片转换成一组向量。

可以粗暴理解为:把图片「翻译」成了一组数字。这个过程类似你做图片压缩。一张 1024x1024 的图有几百万个像素,视觉编码器把它压缩成几百个「特征向量」。

每个向量代表图片里的某个局部信息,比如「左上角有个红色的圆形物体」「中间偏右有文字」。

第二步:通过投影层对齐

视觉编码器输出的向量维度和语言模型的 token 维度通常不一样,就像那个中间语言可能是某种方言,翻译官还是听不懂,需要一个中间层来做对齐。

「投影层 / 连接器(Projection Layer / Connector)」就是这个用来做中间转换的对齐层。这个对齐层的设计很关键,它决定了视觉信息能不能被语言模型「看懂」。常见的做法有简单的线性投影,也有更复杂的 Q-Former 结构(比如 BLIP-2 用的那种)。你可以把它想象成一个适配器(Adapter),把视觉向量映射到语言模型的 token 空间里。

这个对齐层是怎么训练出来的?简单说就是:给模型看大量的「图片+文字描述」对,让它学会「这张图」和「这段文字」在向量空间里应该离得近。

训练完成后,模型就建立了一种「跨模态的对应关系」—— 它知道一张猫的图片和「一只猫」这句话,在内部表示中是同一个东西。

第三步:推理

这就是模型的「大脑」了,负责接收对齐后的视觉 token 和文本 token,进行统一的推理和生成。可以是 GPT 系列、Llama 系列、Qwen 系列等等。

继续阅读全文:https://blog.axiaoxin.com/post/what-is-multimodal/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 4:47:20

Flutter 鸿蒙跨端开发实战:集成三方库实现鸿蒙设备 TODO 清单应用

欢迎加入开源鸿蒙跨平台社区: https://openharmonycrossplatform.csdn.net 本文专为鸿蒙入门开发者打造,以可直接运行的 TODO 清单项目为实战案例,手把手教你用 Flutter 跨端框架开发鸿蒙应用,全程包含Flutter 核心配置、三方库集…

作者头像 李华
网站建设 2026/4/27 4:45:37

Weaviate向量数据库实战:从部署到多模态搜索与生产优化

1. 从零开始:理解Weaviate与向量数据库的核心价值 如果你正在机器学习和AI应用领域摸索,尤其是在处理文本、图像、音频这类非结构化数据时,一定绕不开一个核心问题:如何快速、准确地找到“相似”的内容?传统的基于关键…

作者头像 李华
网站建设 2026/4/27 4:45:23

AI 编程神器:MonkeyCode 使用心得 —— 重塑开发效率,

我使用 MonkeyCode 的心得分享 大家好!作为一名热爱编程刚入门不久的新手,我想分享一下我最近使用 MonkeyCode 的心得。MonkeyCode 是一款基于人工智能的编程辅助工具,它彻底改变了我的编码体验。从安装到日常使用,整个过程流畅无…

作者头像 李华
网站建设 2026/4/27 4:34:58

SillyTavern本地AI聊天前端:从架构解析到高阶部署实战

1. 从零开始:SillyTavern 是什么,以及为什么你需要它 如果你对 AI 聊天机器人(LLM)的印象还停留在网页版 ChatGPT 那个一问一答的单调对话框,那么 SillyTavern 会彻底颠覆你的认知。简单来说,SillyTavern …

作者头像 李华
网站建设 2026/4/27 4:33:30

全新短剧影视云盘资源搜索引擎系统源码 亲测内含上万部短剧资源

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍 全新短剧影视云盘资源搜索引擎系统源码 亲测可用 搭建说明 1、运行环境:NginxPHP7.2MySQL5.6(注意必须得PHP7.2其他版本不兼容) 2、上传源码到服务…

作者头像 李华