Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチモーダル学習ライブラリ Heronと⾃動運転への応⽤

マルチモーダル学習ライブラリ Heronと⾃動運転への応⽤

完全自動運転車の開発を進めるTuringは、マルチモーダルモデルの学習ライブラリHeronを公開・開発しています。VLMモデルの学習方法や評価ベンチマーク、自動運転への応用について紹介します。

こちらは2024年5月23日に開催されたDeepSpeed Meetup in Japanの発表資料です。
https://deepspeed.connpass.com/event/317848/
登壇者:山口祐、Director of AI, Turing

Yu Yamaguchi

May 22, 2024
Tweet

More Decks by Yu Yamaguchi

Other Decks in Research

Transcript

  1. ⾃⼰紹介 ⼭⼝ 祐 @ymg_aq チューリング株式会社 Director of AI • 産業技術総合研究所/⽶NISTで研究の傍ら、

    囲碁‧将棋などのゲームAIを開発 • 上場企業執⾏役員を経て2022年 チューリン グに創業メンバーとして参画 • AI開発の責任者として完全⾃動運転の実現に 向けた⽣成AIの研究開発を推進 2
  2. チューリング株式会社 AIとカメラのみでハンドルがないEVをつくる スタートアップ。 • AIとソフトウェアから新しいクルマを ◦ ソフトウェアエンジニアが中⼼に創業 ◦ 2021年創業、正社員40+⼈ ◦

    ⾃動運転だけでなく、⾞両‧半導体の開発も⼿掛ける ▪ 完全⾃動運転を⽬指す • ⽣成AI開発のミッション ◦ LLMを発展させた⼤規模マルチモーダルモデル ◦ 世界モデルによる⾼度な運転タスクの獲得 ⾃社⽣産のEV(JMS2023に出展) 3 Turingメンバーと⾞両⼯場
  3. 運転シーンと⼈間の思考 5 ローカルの言語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 人間の身体的 指示の理解

    人間は無意識のうちに多くの「文 脈」を理解している。 高度な自動運転には 視覚情報と言語的理解の融合(= マルチモーダル的理解)が必要
  4. ⾃動運転マルチモーダルAI 6 走行データ テキスト アノテーション 空間把握・ 身体性の獲得 2. 運転ドメイン への適合

    量産車両 に搭載 日本の道路に 適合した 自動運転AI Webデータ 画像-言語 データセット 言語データセット LLM 自動運転 マルチモーダル モデル フィルタリング ペア抽出 学習 視覚モデルと 融合 1. マルチモーダル学習 学習 GPUサーバ 分散学習 ライブラリ 高速化 3. 分散環境による 大規模化
  5. ⼤規模マルチモーダルモデル LLMをベースとした⾔語以外の⼊⼒‧出 ⼒‧タスクに対応するモデルが台頭 • LLMが認知の中核 ◦ CLIP[Radford+, 2021]以降、特定のモーダルと⾔語モ デルを結びつける技術が発展 ◦

    LLMを⽤いることで⼤幅に学習コストを抑える • 多様なモーダルへの拡張 ◦ 画像、動画、⾳声、… ◦ ⼊⼒だけでなく出⼒にも複合的に対応 ◦ GTP-4o、Gemini 1.5 Pro、…  → 学習⼤変では…? 代表的なマルチモーダルモデル [Zhang+ 2024] 8
  6. マルチモーダルモデルの仕組み 9 Image Video Audio text Image / Video NFNet-F6

    ViT CLIP ViT Eva-CLIP ViT ︙ C-Former HuBERT エンコーダー ⼊⼒ BEATs ︙ Audio Linear Projctor MLP Cross- attention Q-Former P-Former MQ-Former ⼊⼒プロジェクター (アダプター) ︙ Flan-T5 UL2 Qwen OPT LLM Backbone ︙ LLaMA LLaMA-2 Vicuna ⼊⼒テキスト text 出⼒テキスト Tiny Transformer MLP 出⼒プロジェクター ︙ Stable Diffusion Zeroscope ジェネレーター AudioLDM ︙ Image Video Audio 出⼒ マルチモーダル理解 マルチモーダル⽣成 [Zhang+ 2024] Fig.2を参考に作成
  7. Flamingo [Alayac+ 2022] 画像‧ビデオ‧テキストを同時に処理する モデルでFew-shot Learningが可能に • 画像エンコーダ + LLM

    ◦ 事前学習されたCLIPとChinchilla [Hoffmann+ 2022] ◦ プロジェクターとしてGated Cross Attensionを追 加&学習 ◦ インターリーブされたデータセットを学習 • データのリサンプリング ◦ Perceiver [Jaegle+ 2021]構造のResamplerによって画 像‧動画を固定⻑トークンに効率的に変換 Flamingoのアーキテクチャ 任意の空間‧時間⽅向の変換に対応 10
  8. LLaVA [Liu+ 2023] 画像-⾔語の⾼品質な指⽰チューニング データで⾼い性能を実現 • 指⽰チューニングデータ ◦ COCOデータセットに対してGPT-4で付与した ⼤量の指⽰チューニングデータを⽣成、

    end-to-endで学習 • コード‧データセットをOSSとして公開 • 発展モデルも多数 ◦ LLaVA-Med [Li+ 2023], LLaVA-1.5 [Liu+ 2023], LLaVA-NeXT [Liu+ 2024], … LLaVAのアーキテクチャ VLMのベンチマークを定義‧公開 11
  9. Idefics2 [Laurençon+ 2024] 様々な⼯夫でVQAやキャプショニング、 OCRなどで10B以下のモデルで最⾼レベ ルの性能を達成 • 画像の処理に関する⼯夫 ◦ 複数画像、任意位置の埋め込み、画像分割に

    よる⾼分解能の実現 • ⼤規模な学習データセット ◦ オープンに公開されている59種類の多様な データセットの形式を統⼀ Idefics2のアーキテクチャ 12
  10. マルチモーダルモデルの仕組み(再掲) 14 Image Video Audio text Image / Video NFNet-F6

    ViT CLIP ViT Eva-CLIP ViT ︙ C-Former HuBERT エンコーダー ⼊⼒ BEATs ︙ Audio Linear Projctor MLP Cross- attention Q-Former P-Former MQ-Former ⼊⼒プロジェクター (アダプター) ︙ Flan-T5 UL2 Qwen OPT LLM Backbone ︙ LLaMA LLaMA-2 Vicuna ⼊⼒テキスト text 出⼒テキスト マルチモーダル理解 [Zhang+ 2024] Fig.2を参考に作成 Tiny Transformer MLP 出⼒プロジェクター ︙ Stable Diffusion Zeroscope ジェネレーター AudioLDM ︙ Image Video Audio 出⼒ マルチモーダル⽣成
  11. 学習ライブラリ Heron Heronのconfig例 15 各モジュールや学習設定を簡単なconfig のみで⾃由に置換可能な学習ライブラリ をOSSとして公開 • 様々なモデルを組み合わせて学習できる ◦

    画像エンコーダ + アダプター + LLM ▪ LLama-2, OPT, GPT-NeoX, StableLM, … ◦ ⽇本語データセット/モデルも提供 • 分散学習にも対応 ◦ DeepSpeed ZeRO1/ZeRO2/ZeRO3 デモサイト github.com/turingmotors/heron
  12. DeepSpeed in Heron モデル学習と組み合わせて分散学習の バックエンドとして活⽤ • ⼤規模モデルの学習 ◦ フルパラメータファインチューニングをする 場合などではマルチノード学習が必須

    ◦ transformersに組み込みやすいDeepSpeed を活⽤ • 開発過程でtransformersのバグも ◦ 特定のモデルでZeRO3を使うと、state_dict が削除される不具合 transformersのDeepSpeed関連のバグを修正 18 DeepSpeed ZeRO1の可視化 ( zenn.dev/turing_motors/articles/d00c46a79dc976 )
  13. DeepSpeedを使った⼤規模分散学習 画像エンコーダ、LLMを含むフルパラメー タ事前学習を256GPUs/ZeRO3で実施 • マルチノード環境 ◦ ABCI グランドチャレンジ(V-Week)で実施 ◦ V100

    256基を使⽤ • ⼤規模データと事前学習 ◦ COCO、LAION、⽣成OCRなどの⽇本語化した画 像-⾔語データセット + テキストのみのデータ • ⼤規模学習の難しさも ◦ lossの発散、不定期に計算速度が低下 学習ステップごとの経過時間 19
  14. GPUクラスタとの連携 ⼤規模計算環境でマルチモーダルモデルの 分散学習を準備中 • GENIACプロジェクト ◦ 政府がAI開発事業者を⽀援 ◦ GCP上のH100ノードを利⽤可能 •

    ⾃社GPUクラスタ(Gaggle-Cluster-1) ◦ H100 96基 ◦ ノード間通信‧ストレージI/Oの最⼤化 ◦ HPC的なジョブ管理システム → パネルディスカッションでもお話します GENIACプロジェクト 9⽉稼働予定のGaggle-Cluster-1 20
  15. まとめ チューリングでは⾼度な⾃動運転AIを実現するため、 独⾃のマルチモーダル学習ライブラリを構築した • 運転環境ではマルチモーダル的理解が重要 ◦ 視覚情報と⾔語的理解を組み合わせた⾼度な認知 • 近年のマルチモーダルモデルはLLMをベースに ◦

    エンコーダーとアダプターを学習することで効率的に構築 • 学習ライブラリの構築と分散学習を実施 ◦ DeepSpeedを組み込み、⼤規模環境での分散学習を実現 21 チューリングのテックブログ (zenn.dev/p/turing_motors)