到底什么是多模态模型
一句话定义
多模态模型,就是能同时理解和处理多种类型信息(文字、图片、声音、视频等)的 AI 模型。
什么是"模态"
模态(Modality)指信息的存在形式:
| 模态 | 例子 |
|---|---|
| 文本 | 文章、对话、代码 |
| 图像 | 照片、截图、图表 |
| 音频 | 语音、音乐、环境声 |
| 视频 | 短视频、监控画面 |
| 数据 | 表格、传感器数据 |
单模态与多模态的区别
单模态模型只处理一种信息形式,多模态模型则能同时处理多种。
单模态的典型代表:
- 只看文字的 GPT-3
- 只看图片的早期图像识别模型
多模态的典型代表:
- 图片 + 文字:GPT-4V、Claude 3
- 文字 + 语音:GPT-4o
- 图片 + 视频 + 文字 + 语音:Gemini Ultra
三种核心能力
跨模态理解
输入一张菜单图片,问"这顿饭大概花多少钱"——模型需要同时完成读图、理解文字、做计算三件事。
跨模态生成
输入一段文字描述,输出对应的图片。DALL-E 和 Stable Diffusion 属于这一类。
跨模态转换
不同模态之间的翻译:
- 语音 → 文字(语音识别)
- 文字 → 语音(TTS)
- 图片 → 文字描述(Image Captioning)
技术原理
传统做法
图片处理器、文字处理器、语音处理器各自独立,互不相通。
多模态做法
把不同模态的输入分别通过各自的编码器,转换到一个统一的表示空间,然后在这个空间里做推理并输出结果。
1 | |
关键思想:把所有模态都映射到同一个向量空间,让模型统一处理。
为什么"映射到同一空间"很难
直觉上可能觉得,各自编码然后对齐就行了。实际的困难远不止"字节编码不一样"这一层。
数据结构差异
| 模态 | 结构 | 特征 |
|---|---|---|
| 文本 | 一维线性序列 | 有顺序、有语法 |
| 图片 | 二维空间矩阵 (x, y, RGB) | 有局部相关性,无"顺序" |
| 视频 | 三维 + 时间轴 (x, y, RGB, t) | 极度冗余 |
| 音频 | 一维波形(高采样率) | 时间序列,物理本质是波 |
这些结构没法直接拼在一起处理。
抽象层次不同
这是更深层的矛盾。
文字"一只金色的狗在草地上跑",天生就是高层语义——人类已经替模型完成了抽象。
一张狗的照片,底层是几百万个 RGB 数值。模型要自己从像素走到边缘,从边缘走到轮廓,从轮廓走到"狗",从"狗"走到"金色的狗在跑"。需要经历多层抽象才能抵达语义层。
文字天生活在语义空间,图片天生活在像素空间。
统计规律来源不同
- 文字的规律来自语法、逻辑和人类概念系统——“苹果"附近常出现"吃”“水果”“甜”
- 图片的规律来自物理世界的光学规律——相邻像素颜色相近,同一物体在不同光线下像素值完全不同
- 音频的规律来自声学和发音生理结构——频率、共振峰、时序包络
三者背后的"世界模型"完全不一样,编码器学到的特征天然生活在不同的流形(manifold)上。
对齐本身的模糊性
即便知道要把向量拉近,具体该对齐什么也不清楚:
- "狗"这个词对应哪张狗的图?什么角度?什么品种?什么光线?一个词对应无数张图,一张图对应无数种描述。
- 粒度不匹配:一个词该对应整张图,还是图中某个区域?
- 缺失信息不对称:图片包含文字没有描述的信息(背景颜色),文字包含图片无法直接表达的信息(“昨天”)。
小结
1 | |
主流解决方案
CLIP:对比学习
用 400 万对(图片,对应描述文字)做训练。损失函数的逻辑很直接:
- 匹配对(狗的图片,“一只狗”)→ 向量距离要近
- 不匹配对(狗的图片,“一辆车”)→ 向量距离要远
这不是让像素等于词,而是强迫两个空间在语义层面对齐。
多模态大模型:投影层(Projector)
1 | |
投影层本质上是一个学出来的"翻译函数",把视觉向量翻译成 LLM 能读懂的格式。
典型代表
| 模型 | 支持的模态 | 特点 |
|---|---|---|
| GPT-4o | 文本 + 图片 + 语音 | OpenAI 旗舰 |
| Claude 3 | 文本 + 图片 | 强推理 |
| Gemini | 文本 + 图片 + 视频 + 音频 | Google 出品 |
| DALL-E 3 | 文本 → 图片 | 文生图 |
| Sora | 文本 → 视频 | 文生视频 |
| Whisper | 语音 → 文本 | 语音识别 |
为什么多模态重要
人类感知世界的方式本来就是多模态的——看到火、听到爆裂声、感受到热,综合判断出"危险"。任何单一通道都不足以完成这个判断。
AI 走向多模态,本质上是从处理单一信息形式走向接近真实世界的综合感知。打破信息孤岛,用多种"感官"理解世界。





