跳转至

2025 9

9.1

9.22

9.23

下面这段节选自苹果的一篇多模态大模型的论文,介绍了现阶段主流的MLLM的形式

  1. 纯理解型多模态LLM(MLLMs for Image Understanding)

    • 典型架构:冻结视觉编码器 + 轻量连接器 + 大语言模型
      • Flamingo(交叉注意力注入)
      • BLIP-2(Q-Former对齐)
      • LLaVA、MM1、InternVL、Qwen-VL 系列(MLP 投影,规模化数据与模型)
    • 共同局限:仅支持图像→文本理解,不具备原生图像生成能力。
    • 统一多模态模型(Unified Multimodal Models) 按架构范式细分三类:

    • 统一自回归(AR)将图像转为离散/连续 token 序列,与文本一起自回归建模。代表:Chameleon、Emu3、Janus、Bagel、X-Omni 等。

    • 冻结 LLM + 外接扩散解码器(Decoupled LLM-Diffusion)LLM 仅负责语义,生成交给独立扩散模型。代表:Qwen-Image、OmniGen2、MetaQuery 等。
    • 混合 AR-扩散(Hybrid AR-Diffusion)在同一 Transformer 内交替执行 next-token 预测与扩散去噪。代表:Transfusion、TRIM 等。

    Manzano 与第一类最相近,但关键区别是提出单一视觉编码器 + 双轻量适配器的混合 tokenizer,避免异构 token 同仓输入,缓解任务冲突。

  2. 扩散式图像生成模型(Diffusion Models for Image Generation)

    • 基础:DDPM、Score-SDE
    • 潜空间加速:LDM / Stable Diffusion 系列
    • 流匹配(Flow-Matching)与 DiT 架构:PixArt-α、SD3、Flux、DiT-Air 等Manzano 的图像解码器即采用潜空间 Flow-Matching + DiT-Air,并以 LLM 输出的离散视觉 token 作为条件,而非传统文本编码器。
  3. [2509.16127] BaseReward: A Strong Baseline for Multimodal Reward Model

    • 统一的较大的reward model
  4. [2509.16197] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
    • 苹果最新的MLLM,里面有一些较新的综述