Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MMaDA: Multimodal Large Diffusion Language Models

Avatar for ほき ほき
June 21, 2025
1

MMaDA: Multimodal Large Diffusion Language Models

Avatar for ほき

ほき

June 21, 2025
Tweet

Transcript

  1. 概要 • 背景 ◦ 既存の統合型マルチモーダル基盤モデル は モデル構造と事前学習 に焦点が偏在 ◦ 非

    AR 系モデルのポストトレーニング を 深く掘り下げた研究はほとんどない • 目的 ◦ 統合型マルチモーダル・拡散基盤モデル の設計空間 を体系的に再検討しアーキテ クチャと学習パラダイムの両面で前進 • 方法 ◦ 確率的定式化とモダリティ非依存設計を採用し た統一された拡散アーキテクチャを採用 ◦ モダリティ全体で統一されたCoT形式をキュレ ート ◦ 統一ポリシー勾配ベースRLアルゴリズムを活用 • 結果 ◦ テキスト推論:LLaMA-3-7BやQwen2-7Bを凌駕 ◦ マルチモーダル理解:Show-oやSEED-Xを上回 る ◦ 画像生成:SDXLやJanusを凌駕 3
  2. 書誌情報 • MMaDA: Multimodal Large Diffusion Language Models • Ling

    Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang • 2025/05/21公開 • https://doi.org/10.48550/arXiv.2505.15809 ※引用のない図表は本論文より引用 4
  3. MLMMの変遷 • 大規模言語モデル(LargeLanguageModel; LLM)は自然言語処理において 様々なタスクで最先端の性能を達成 • 研究コミュニティはLLMを マルチモーダルドメインに拡張 ◦ GPT-4

    ◦ Gemini • 初期のマルチモーダル研究は言語モデル+ディフュージョンモデルの組み合 わせ • その後自己回帰(Autoregressive; AR)型 が登場 • テキストは AR画像はディフュージョンで処理するハイブリッド方式も提案 5
  4. MMaDAの貢献 • 統一ディフュージョン基盤アーキテクチャ 離散・連続データをまたぐ単一の確率モデルとモダリティ非依存構造により モダリティ固有の部品を排除しつつ高性能を実現 • Mixed Long-CoT ポストトレーニング モダリティ横断で統一フォーマットの

    “長尺 Chain-of-Thought” データを整備 し推論過程を揃えてクロスモーダルな相乗効果を引き出す • 統一型強化学習(UniGRPO) ディフュージョンモデルに特化した政策勾配型 RL を導入し多様な報酬設計 で推論・生成タスクを一括ポストトレーニング 7
  5. 混合ロングCoTとは • 使用データセット ◦ テキスト数学・論理推論データセット(ReasonFlux・LIMO・s1k・OpenThoughts・ AceMath-Instructなど) ◦ マルチモーダル推論データセット( LMM-R1モデルがGeoQAおよびCLEVRで生成した応 答)

    • 統一CoT形式 ◦ タスクに依存しないCoT形式 |<special_token>| <reasoning_process> |<special_token>| <result> を提案 ▪ <reasoning_process>は、最終出力に先行するステップバイステップの推論軌跡をエン コード ▪ モダリティ固有の出力を橋渡ししタスク間の知識転送を促進 10
  6. UniGRPOで解決したい課題 • 局所マスキング依存性 トークンレベルの対数尤度は,拡散プロセス中にマスクされた領域内でのみ 有効 • マスク比率の感度 ポリシー分布を近似するためには,応答セグメントに対して均一なマスク比 率をサンプリングする必要 •

    非オートリグレッシブなシーケンスレベルの尤度 拡散モデルではオートリグレッシブな連鎖律が存在しないためシーケンスレ ベルの対数尤度をトークンレベルの確率から直接累積不可 12
  7. UniGRPOの方法 3. ポリシー勾配目的関数 ◦ 明示的な値関数のモデリングを排除しグループ相対的な方法でアドバンテージを計算 ◦ 最終的なUniGRPOの目的関数は、クリップされた代理報酬とKL正則化を統合した形式で定義 4. 多様な報酬モデリング ◦

    テキスト推論報酬 正しい回答には2.0の正確性報酬,定義されたフォーマットに準拠した応答には0.5のフォーマット報酬を適 用 ◦ マルチモーダル推論報酬 ▪ 数学タスクにはテキスト推論と同じ正確性報酬とフォーマット報酬を適用 ▪ キャプションベースのタスクでは、さらにテキストと画像の整合性を測るCLIP報酬(0.1 * CLIPスコ ア)を導入し,その影響のバランスを取る ◦ テキストから画像への生成報酬: テキストと画像の意味的な整合性を評価するためにCLIP報酬を組み込み,さらに人間の好みを反映する ImageRewardも利用 14
  8. 16

  9. サンプリング効率 • 画像生成 ◦ 15ステップや50ステップといった少ないステップ数でも高い性能を維持 • テキストやマルチモーダルタスク ◦ フルステップの4分の1や半分で一貫性のある出力を得る •

    拡散ベースの言語モデルの効率性の可能性を強調し,サンプリング技術や高 次ソルバーの今後の進歩がその速度と品質をさらに向上させる可能性を示唆 21
  10. タスク拡張 • 3つのモダリティにわたるインペインティ ングをサポート ◦ (i) テキストシーケンスにおける欠落した 区間の予測 ◦ (ii)

    画像と部分的な入力から視覚的質問応 答の回答を補完 ◦ (iii) 不完全な視覚的プロンプトを条件とし た画像インペインティング • 統一された拡散アーキテクチャが多様な 生成と推論タスクにおいて,柔軟性と汎 化能力を備えていることを示唆 22