一句话定义

多模态模型,就是能同时理解和处理多种类型信息(文字、图片、声音、视频等)的 AI 模型。

什么是"模态"

模态(Modality)指信息的存在形式:

模态 例子
文本 文章、对话、代码
图像 照片、截图、图表
音频 语音、音乐、环境声
视频 短视频、监控画面
数据 表格、传感器数据

单模态与多模态的区别

单模态模型只处理一种信息形式,多模态模型则能同时处理多种。

单模态的典型代表:

  • 只看文字的 GPT-3
  • 只看图片的早期图像识别模型

多模态的典型代表:

  • 图片 + 文字:GPT-4V、Claude 3
  • 文字 + 语音:GPT-4o
  • 图片 + 视频 + 文字 + 语音:Gemini Ultra

三种核心能力

跨模态理解

输入一张菜单图片,问"这顿饭大概花多少钱"——模型需要同时完成读图、理解文字、做计算三件事。

跨模态生成

输入一段文字描述,输出对应的图片。DALL-E 和 Stable Diffusion 属于这一类。

跨模态转换

不同模态之间的翻译:

  • 语音 → 文字(语音识别)
  • 文字 → 语音(TTS)
  • 图片 → 文字描述(Image Captioning)

技术原理

传统做法

图片处理器、文字处理器、语音处理器各自独立,互不相通。

多模态做法

把不同模态的输入分别通过各自的编码器,转换到一个统一的表示空间,然后在这个空间里做推理并输出结果。

1
2
3
图片 ──→ [编码器] ──┐
文字 ──→ [编码器] ──┼──→ [统一表示空间] ──→ [推理] ──→ 输出
语音 ──→ [编码器] ──┘

关键思想:把所有模态都映射到同一个向量空间,让模型统一处理。

为什么"映射到同一空间"很难

直觉上可能觉得,各自编码然后对齐就行了。实际的困难远不止"字节编码不一样"这一层。

数据结构差异

模态 结构 特征
文本 一维线性序列 有顺序、有语法
图片 二维空间矩阵 (x, y, RGB) 有局部相关性,无"顺序"
视频 三维 + 时间轴 (x, y, RGB, t) 极度冗余
音频 一维波形(高采样率) 时间序列,物理本质是波

这些结构没法直接拼在一起处理。

抽象层次不同

这是更深层的矛盾。

文字"一只金色的狗在草地上跑",天生就是高层语义——人类已经替模型完成了抽象。

一张狗的照片,底层是几百万个 RGB 数值。模型要自己从像素走到边缘,从边缘走到轮廓,从轮廓走到"狗",从"狗"走到"金色的狗在跑"。需要经历多层抽象才能抵达语义层。

文字天生活在语义空间,图片天生活在像素空间。

统计规律来源不同

  • 文字的规律来自语法、逻辑和人类概念系统——“苹果"附近常出现"吃”“水果”“甜”
  • 图片的规律来自物理世界的光学规律——相邻像素颜色相近,同一物体在不同光线下像素值完全不同
  • 音频的规律来自声学和发音生理结构——频率、共振峰、时序包络

三者背后的"世界模型"完全不一样,编码器学到的特征天然生活在不同的流形(manifold)上。

对齐本身的模糊性

即便知道要把向量拉近,具体该对齐什么也不清楚:

  • "狗"这个词对应哪张狗的图?什么角度?什么品种?什么光线?一个词对应无数张图,一张图对应无数种描述。
  • 粒度不匹配:一个词该对应整张图,还是图中某个区域?
  • 缺失信息不对称:图片包含文字没有描述的信息(背景颜色),文字包含图片无法直接表达的信息(“昨天”)。

小结

1
2
3
4
5
6
7
8
9
10
数据结构不同(1D / 2D / 3D)

统计规律来源不同(语法 / 光学 / 声学)

抽象层次不同(天生语义 vs 需要层层抽象)

对齐粒度模糊(词 vs 图的哪个部分?)

没有一个"天然正确"的方式把它们放进同一空间
只能用大量配对数据 + 巧妙的损失函数去学出来

主流解决方案

CLIP:对比学习

用 400 万对(图片,对应描述文字)做训练。损失函数的逻辑很直接:

  • 匹配对(狗的图片,“一只狗”)→ 向量距离要近
  • 不匹配对(狗的图片,“一辆车”)→ 向量距离要远

这不是让像素等于词,而是强迫两个空间在语义层面对齐。

多模态大模型:投影层(Projector)

1
2
3
视觉编码器输出              LLM 词嵌入空间
[图片特征向量][投影层][伪词元 pseudo-tokens]
视觉空间 语言空间

投影层本质上是一个学出来的"翻译函数",把视觉向量翻译成 LLM 能读懂的格式。

典型代表

模型 支持的模态 特点
GPT-4o 文本 + 图片 + 语音 OpenAI 旗舰
Claude 3 文本 + 图片 强推理
Gemini 文本 + 图片 + 视频 + 音频 Google 出品
DALL-E 3 文本 → 图片 文生图
Sora 文本 → 视频 文生视频
Whisper 语音 → 文本 语音识别

为什么多模态重要

人类感知世界的方式本来就是多模态的——看到火、听到爆裂声、感受到热,综合判断出"危险"。任何单一通道都不足以完成这个判断。

AI 走向多模态,本质上是从处理单一信息形式走向接近真实世界的综合感知。打破信息孤岛,用多种"感官"理解世界。

参考资料