Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本語Vision-Languageモデルの学習と評価ベンチマークの構築

Yu Yamaguchi
June 18, 2024
590

 日本語Vision-Languageモデルの学習と評価ベンチマークの構築

近年、自動運転分野におけるマルチモーダルAIの活用が注目を集めています。本講演では、生成AIチームが取り組んでいる自動運転に向けたVLMの応用について紹介します。さらに、Heron VLMリーダーボード powered by nejumi@WandBを使用して日本語VLMを評価する方法と評価後のモデルデプロイについて解説します。

この資料は下記イベントの登壇資料です。(2024/06/18)
「サーバーからエッジまで、最新モデルサービング手法 - W&B ミートアップ #13 in 東京」
https://wandb.connpass.com/event/319391/

Yu Yamaguchi

June 18, 2024
Tweet

Transcript

  1. ⾃⼰紹介 ⼭⼝ 祐 @ymg_aq チューリング株式会社 Director of AI • 産業技術総合研究所/⽶NISTで研究の傍ら、

    囲碁‧将棋などのゲームAIを開発 • 上場企業執⾏役員を経て2022年 チューリン グに創業メンバーとして参画 • AI開発の責任者として完全⾃動運転の実現に 向けた⽣成AIの研究開発を推進 2
  2. チューリング株式会社 AIとカメラのみでハンドルがない⾃動運転⾞ をつくるスタートアップ。 • AIとソフトウェアから新しいクルマを ◦ ソフトウェアエンジニアが中⼼ ◦ 2021年創業、正社員40+⼈ ◦

    2024年4⽉に累計45億円の資⾦調達 • 完全⾃動運転を⽬指す ◦ ⾃動運転だけでなく、⾞両‧半導体の開発も⼿掛ける ⾃社⽣産の電気⾃動⾞(JMS2023に出展) 3 Turingメンバーと⾞両⼯場
  3. Contents • マルチモーダルモデルとは? ◦ Vision & Languageモデルの仕組みと学習 • ⽇本語VLM評価ベンチマーク「Heron-Bench」 ◦

    データセット構築と評価⽅法 • ⼤規模モデルのエッジへの搭載 ◦ ⾞載環境での推論に向けた半導体開発 4 学習 評価 デプロイ
  4. 運転シーンと⼈間の思考 7 ローカルの言語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 人間の身体的 指示の理解

    人間は無意識のうちに多くの「文 脈」を理解している。 高度な自動運転には 視覚情報と言語的理解の融合(= マルチモーダル的理解)が必要
  5. 第3世代の⾃動運転タスク 8 深層学習ベースの自動運転の学習データは、大規模生成AIをターゲットとした 自然言語による状況理解に移行しつつある [Li+ 2024] 第1世代 (CNN, 2012~) 第2世代

    (Transformer, 2019~) 第3世代 (LLM, 2023~) • 前方カメラ • LiDAR • 複数カメラ • LiDAR • Radar • HDマップ • 周囲カメラ • 言語による質問 /応答 DriveLM [Sima+ 2023] nuScenes [Caesar+ 2019] KITTI [Geiger+ 2012]
  6. チューリングの⾃動運転AI 9 走行データ テキスト アノテーション 空間把握・ 身体性の獲得 2. 運転ドメイン への適合

    量産車両 に搭載 日本の道路に 適合した 自動運転AI Webデータ 画像-言語 データセット 言語データセット LLM 自動運転 マルチモーダル モデル フィルタリング ペア抽出 学習 視覚モデルと 融合 1. マルチモーダル学習 学習 GPUサーバ 分散学習 ライブラリ 高速化 3. 分散環境による 大規模化
  7. ⼤規模マルチモーダルモデル LLMをベースとした⾔語以外の⼊⼒‧出 ⼒‧タスクに対応するモデルが台頭 • LLMが認知の中核 ◦ CLIP[Radford+, 2021]以降、特定のモーダルと⾔語モ デルを結びつける技術が発展 ◦

    LLMを⽤いることで⼤幅に学習コストを抑える • 多様なモーダルへの拡張 ◦ 画像、動画、⾳声、… ◦ ⼊⼒だけでなく出⼒にも複合的に対応 ◦ GTP-4o、Gemini 1.5 Pro、… 代表的なマルチモーダルモデル [Zhang+ 2024] 10
  8. マルチモーダルモデルの仕組み 11 Image Video Audio text Image / Video NFNet-F6

    ViT CLIP ViT Eva-CLIP ViT ︙ C-Former HuBERT エンコーダー ⼊⼒ BEATs ︙ Audio Linear Projctor MLP Cross- attention Q-Former P-Former MQ-Former ⼊⼒プロジェクター (アダプター) ︙ Flan-T5 UL2 Qwen OPT LLM Backbone ︙ LLaMA LLaMA-2 Vicuna ⼊⼒テキスト text 出⼒テキスト Tiny Transformer MLP 出⼒プロジェクター ︙ Stable Diffusion Zeroscope ジェネレーター AudioLDM ︙ Image Video Audio 出⼒ マルチモーダル理解 マルチモーダル⽣成 [Zhang+ 2024] Fig.2を参考に作成
  9. 学習ライブラリ Heron Heronのconfig例 12 各モジュールや学習設定を簡単なconfig のみで⾃由に置換可能な学習ライブラリ をOSSとして公開 • 様々なモデルを組み合わせて学習できる ◦

    画像エンコーダ + アダプター + LLM ▪ LLama-2, OPT, GPT-NeoX, StableLM, … ◦ ⽇本語データセット/モデルも提供 デモサイト github.com/turingmotors/heron
  10. VLMの評価ベンチマーク 15 • 主要なVQA(Visual Question and Answering)ベンチマーク ◦ VQA v2

    [Goyal + 2017] ◦ GQA [Hudson and Manning 2019] ◦ VizWiz [Hessel + 2021] • LLMを⽤いたVQAの評価ベンチマーク ◦ TouchStone [Bai+ 2023] ◦ LLaVA-Bench (COCO, in-the-wild) [Liu+ 2023] ▪ 画像理解と会話能⼒をGPT4を利⽤して定量的に図るために提案 ▪ Conversation, Detail, Complexの3つの能⼒について測定 VQA v2の画像と質問例
  11. Heron-Bench [Inoue+ 2023] 16 • ⽇本語の視覚-⾔語評価ベンチマーク ⽇本特有の画像や⽂化理解に関する質問 CVPR 2024 The

    3rd Workshop on Computer Vision in the Wildに採択 Zenn HuggingFace 本⽇のCVPR Workshopで発表
  12. 評価⽤データセットの詳細 17 • ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY

    2.0) の画像を収集 • Conversation, Detail, Complex カテゴリに分け、テキストアノテーションを付与 • 各画像は7つのサブカテゴリに分類 (anime, art, landmark, etc.) Anime Art Landmark Culture Food Landscape Traffic
  13. Heron-Benchのスコア算出⽅法 18 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3.

    コンテキスト、GPT-4回答、VLM回答をGPT-4に与えて10点満点で評価 この場所における制限速度はいくつですか? Gemini 1.5 Pro 速度は時速40キロです。[Score: 9] Claude 3 Opus 画像の道路標識によると、この場所の制限速度は 23km/hから12km/hに減速することが⽰されて います。[Score: 1] アシスタントの 回 答 は、 質 問 に 対 して 不 正 確 であり、 誤 解 を 招 く 情 報 を 提供しています。質問は「この場所における制限速度はいくつですか?」という ものでしたが、アシスタントは制限速度として「23km/hから12km/hに減速す ること」と回答しています。これは、画像に表⽰されている距離標識(ニセコま で12km、倶知安まで23km)を誤って速度制限と解釈してしまったものです。
  14. 各モデルの評価結果と傾向 19 • LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い •

    LLaVA-Bench (in-the-wild)とHeron-Benchを⽐較すると10%以上の差がある →⽇本特有の⽂化的理解は改善の余地
  15. 各モデルの⽂化理解 20 Q: 相撲の⼒⼠が何をしている かを説明してください (正解: 横綱⼟俵⼊り) Heron GIT :

    画像では、2⼈の⼒⼠のパフォーマンスが⾏われており、1⼈はリングの上で相撲の技を披露し、 もう1⼈の⼒⼠はリングの近くで太⿎を叩いています。(略) GPT-4V : この写真は、⽇本の伝統的なスポーツである相撲の試合を捉えたものです。⼒⼠たちは⼟俵の上で対戦しており、 周囲には観客が詰めかけています。写真の中央にいる⼆⼈の⼒⼠は、 試合の⼀環として、おそらく⽴ち合い直前の儀式を ⾏っているところです。(略) Claude 3 Opus : 画像は相撲の取組の様⼦を捉えたものです。⼟俵の上で2⼈の⼒⼠が対峙し、四股を踏んでいる最中の ようです。⼟俵の周りには⼤勢の観客が⾒守っており、伝統的な相撲の興⾏の雰 囲気が伝わってきます。⼒⼠たちは精⼀杯 の⼒を出し合い、勝負の⾏⽅に観客も注⽬してい るのが分かります。(略)
  16. ⼤規模モデルを⾞に搭載する 25 生成AIをエッジコンピューティングできる高効率な半導体が必要 → メモリの帯域幅がボトルネックになる 遠隔で実行 (映像入力や高速応答させるのが難しい ) API API

    その場で計算 (データ転送の問題がない) 学習した大規模VLMをどう「推論」させるか? → リアルタイムに動作させるにはその場(エッジ)で計算する必要がある データセンター環境 エッジ 環境
  17. ⾔語モデル on FPGA(Swan) LlamaアーキテクチャをFPGAで動かすため のライブラリをOSSとして公開 • ⾔語モデルのC++実装 → HLS ◦

    ⾼位合成(HLS)によりFPGA⽤のコードを⽣成 ◦ 関数処理ごとに配置 • ⼩規模FPGA上での実機デプロイ ◦ ⽐較的安価&短納期で⼊⼿可能な FPGAで実⾏できることを確認 ◦ 現在は1B以上のパラメータのモデルを 動作させるため、⼤規模なFPGAでの 開発に移⾏ ⽣成されたビットストリームの配置配線 Kria KV260 26 github.com/turingmotors/swan
  18. CIM(Compute in Memory)技術を開発中 演算器をメモリーに組み込むことで メモリー/演算器間のデータ転送のボトルネックを解消 27 メモリー容量が大きいが演算器へのデー タ転送効率が低いため、 演算器は低効率でしか実行されない。 ➡演算速度が遅い

    演算器 メモリー 例: GPU CIM (Compute in Memory) 次世代 演算器 メモリー メモリチップ内に演算器を組み込 み、演算器とメモリを近接化するこ とでデータ転送効率を引き上げる。 ボトルネックが解消され、高効率で 演算を実行。 ➡演算速度が早い 従来 ※演算器とメモリーは別チップ ※演算器とメモリーは同一チップ
  19. 開発ロードマップ 28 2023.12 チップ着手 2024.12 Phase 1 FPGA 2026 Phase

    2 Test Chip 2028 Phase 3 MP Chip 2030 製品実装 Sparse化・ 量子化検証 基本回路検証 テストチップ開発 MPチップ開発 チップ量産化 Sparse化・量子化ツール開発 マルチモーダル化 世界モデルの適用 1st 計算基盤構築 2st 計算基盤構築 3rd 計算基盤構築 運転知識の一般化 環境適応・身体性の獲得 大規模学習による汎化 モデル圧縮・高速化・安定化 汎用モデルアーキテクチャ AI開発 半導体開発 • 数⼗億パラメータのLLMを⾼速動 作させる原理検証 • 世界初の報告になる⾒込み • 8⽉にも10億パラメータの検証 • 量産化‧⾞両への組み込み • 完全⾃動運転⾞の実現 • 汎⽤のエッジデバイス向けへの展開
  20. まとめ 29 • ⾃動運転にはマルチモーダル的理解が重要 ◦ LLMを中⼼とした技術開発が加速 • VLMの⽇本語能⼒を測定するベンチマークを提案 ◦ Heron

    VLM リーダーボードとして公開 • エッジ環境でデプロイするにはメモリ帯域が課題 ◦ ⾼速推論に向けた独⾃半導体開発を進める