日本語Vision-Languageモデルの学習と評価ベンチマークの構築

⽇本語Vision-Languageモデルの学習と評価ベンチマークの構築 Turing株式会社 Director of AI ⼭⼝祐 W&B ミートアップ#13
in Tokyo (2024.6.18)

⾃⼰紹介⼭⼝祐 @ymg_aq チューリング株式会社 Director of AI • 産業技術総合研究所/⽶NISTで研究の傍ら、
囲碁‧将棋などのゲームAIを開発 • 上場企業執⾏役員を経て2022年チューリングに創業メンバーとして参画 • AI開発の責任者として完全⾃動運転の実現に向けた⽣成AIの研究開発を推進 2

チューリング株式会社 AIとカメラのみでハンドルがない⾃動運転⾞をつくるスタートアップ。 • AIとソフトウェアから新しいクルマを ◦ ソフトウェアエンジニアが中⼼ ◦ 2021年創業、正社員40+⼈ ◦
2024年4⽉に累計45億円の資⾦調達 • 完全⾃動運転を⽬指す ◦ ⾃動運転だけでなく、⾞両‧半導体の開発も⼿掛ける⾃社⽣産の電気⾃動⾞（JMS2023に出展） 3 Turingメンバーと⾞両⼯場

Contents • マルチモーダルモデルとは？ ◦ Vision & Languageモデルの仕組みと学習 • ⽇本語VLM評価ベンチマーク「Heron-Bench」 ◦
データセット構築と評価⽅法 • ⼤規模モデルのエッジへの搭載 ◦ ⾞載環境での推論に向けた半導体開発 4 学習評価デプロイ

マルチモーダルモデルとは？学習評価デプロイ

運転シーンと⼈間の思考 6 この状況で左折したいどこを見ればよい？

運転シーンと⼈間の思考 7 ローカルの言語と記号の理解複雑な三者の関係の理解カラーコーン配置の意味人間の身体的指示の理解
人間は無意識のうちに多くの「文脈」を理解している。高度な自動運転には視覚情報と言語的理解の融合（= マルチモーダル的理解）が必要

第3世代の⾃動運転タスク 8 深層学習ベースの自動運転の学習データは、大規模生成AIをターゲットとした自然言語による状況理解に移行しつつある [Li+ 2024] 第1世代 (CNN, 2012~) 第2世代
(Transformer, 2019~) 第3世代 (LLM, 2023~) • 前方カメラ • LiDAR • 複数カメラ • LiDAR • Radar • HDマップ • 周囲カメラ • 言語による質問 /応答 DriveLM [Sima+ 2023] nuScenes [Caesar+ 2019] KITTI [Geiger+ 2012]

チューリングの⾃動運転AI 9 走行データテキストアノテーション空間把握・身体性の獲得 2. 運転ドメインへの適合
量産車両に搭載日本の道路に適合した自動運転AI Webデータ画像-言語データセット言語データセット LLM 自動運転マルチモーダルモデルフィルタリングペア抽出学習視覚モデルと融合 1. マルチモーダル学習学習 GPUサーバ分散学習ライブラリ高速化 3. 分散環境による大規模化

⼤規模マルチモーダルモデル LLMをベースとした⾔語以外の⼊⼒‧出⼒‧タスクに対応するモデルが台頭 • LLMが認知の中核 ◦ CLIP[Radford+, 2021]以降、特定のモーダルと⾔語モデルを結びつける技術が発展 ◦
LLMを⽤いることで⼤幅に学習コストを抑える • 多様なモーダルへの拡張 ◦ 画像、動画、⾳声、… ◦ ⼊⼒だけでなく出⼒にも複合的に対応 ◦ GTP-4o、Gemini 1.5 Pro、… 代表的なマルチモーダルモデル [Zhang+ 2024] 10

マルチモーダルモデルの仕組み 11 Image Video Audio text Image / Video NFNet-F6
ViT CLIP ViT Eva-CLIP ViT ︙ C-Former HuBERT エンコーダー⼊⼒ BEATs ︙ Audio Linear Projctor MLP Cross- attention Q-Former P-Former MQ-Former ⼊⼒プロジェクター（アダプター） ︙ Flan-T5 UL2 Qwen OPT LLM Backbone ︙ LLaMA LLaMA-2 Vicuna ⼊⼒テキスト text 出⼒テキスト Tiny Transformer MLP 出⼒プロジェクター ︙ Stable Diffusion Zeroscope ジェネレーター AudioLDM ︙ Image Video Audio 出⼒マルチモーダル理解マルチモーダル⽣成 [Zhang+ 2024] Fig.2を参考に作成

学習ライブラリ Heron Heronのconﬁg例 12 各モジュールや学習設定を簡単なconﬁg のみで⾃由に置換可能な学習ライブラリをOSSとして公開 • 様々なモデルを組み合わせて学習できる ◦
画像エンコーダ + アダプター + LLM ▪ LLama-2, OPT, GPT-NeoX, StableLM, … ◦ ⽇本語データセット/モデルも提供デモサイト github.com/turingmotors/heron

⽇本語V&Lモデルの推論例 13 この状況ではどのような点に気をつけるべきですか？画像では、道路⼯事中の作業員が道路の⽚側に⽴ち、もう⽚側に⻩⾊いコーンが置かれている。この状況を考えると、作業員は交通の流れを妨げないように注意し、交通規則を遵守しなくてはならない。さらに、歩
⾏者や他の⾞両が道路を横断する際には、安全を確保し事故を避けるために、コーンを迂回したり、⼀時停⽌したりする必要がある。 → どう評価したらいい？

⽇本語VLM評価ベンチマーク Heron-Bench 学習評価デプロイ

VLMの評価ベンチマーク 15 • 主要なVQA（Visual Question and Answering）ベンチマーク ◦ VQA v2
[Goyal + 2017] ◦ GQA [Hudson and Manning 2019] ◦ VizWiz [Hessel + 2021] • LLMを⽤いたVQAの評価ベンチマーク ◦ TouchStone [Bai+ 2023] ◦ LLaVA-Bench (COCO, in-the-wild) [Liu+ 2023] ▪ 画像理解と会話能⼒をGPT4を利⽤して定量的に図るために提案 ▪ Conversation, Detail, Complexの3つの能⼒について測定 VQA v2の画像と質問例

Heron-Bench [Inoue+ 2023] 16 • ⽇本語の視覚-⾔語評価ベンチマーク⽇本特有の画像や⽂化理解に関する質問 CVPR 2024 The
3rd Workshop on Computer Vision in the Wildに採択 Zenn HuggingFace 本⽇のCVPR Workshopで発表

評価⽤データセットの詳細 17 • ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY
2.0) の画像を収集 • Conversation, Detail, Complex カテゴリに分け、テキストアノテーションを付与 • 各画像は7つのサブカテゴリに分類 (anime, art, landmark, etc.) Anime Art Landmark Culture Food Landscape Traﬃc

Heron-Benchのスコア算出⽅法 18 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3.
コンテキスト、GPT-4回答、VLM回答をGPT-4に与えて10点満点で評価この場所における制限速度はいくつですか？ Gemini 1.5 Pro 速度は時速40キロです。[Score: 9] Claude 3 Opus 画像の道路標識によると、この場所の制限速度は 23km/hから12km/hに減速することが⽰されています。[Score: 1] アシスタントの回答は、質問に対して不正確であり、誤解を招く情報を提供しています。質問は「この場所における制限速度はいくつですか？」というものでしたが、アシスタントは制限速度として「23km/hから12km/hに減速すること」と回答しています。これは、画像に表⽰されている距離標識（ニセコまで12km、倶知安まで23km）を誤って速度制限と解釈してしまったものです。

各モデルの評価結果と傾向 19 • LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い •
LLaVA-Bench (in-the-wild)とHeron-Benchを⽐較すると10%以上の差がある →⽇本特有の⽂化的理解は改善の余地

各モデルの⽂化理解 20 Q: 相撲の⼒⼠が何をしているかを説明してください (正解: 横綱⼟俵⼊り) Heron GIT :
画像では、2⼈の⼒⼠のパフォーマンスが⾏われており、1⼈はリングの上で相撲の技を披露し、もう1⼈の⼒⼠はリングの近くで太⿎を叩いています。（略） GPT-4V : この写真は、⽇本の伝統的なスポーツである相撲の試合を捉えたものです。⼒⼠たちは⼟俵の上で対戦しており、周囲には観客が詰めかけています。写真の中央にいる⼆⼈の⼒⼠は、試合の⼀環として、おそらく⽴ち合い直前の儀式を⾏っているところです。（略） Claude 3 Opus : 画像は相撲の取組の様⼦を捉えたものです。⼟俵の上で2⼈の⼒⼠が対峙し、四股を踏んでいる最中のようです。⼟俵の周りには⼤勢の観客が⾒守っており、伝統的な相撲の興⾏の雰囲気が伝わってきます。⼒⼠たちは精⼀杯の⼒を出し合い、勝負の⾏⽅に観客も注⽬しているのが分かります。（略）

Heron VLMリーダーボード powered by W&B 21 Weights & Biases Japanと連携してVLMリーダボードを整備し、先週リリース
http://vlm.nejumi.ai/

Heron VLMリーダーボード powered by W&B 22 15を超えるVLMの⽐較が可能 GPT-4o Heron GIT
(7B)

Heron VLMリーダーボード powered by W&B 23 • 画像、質問、VLMの回答、GPT-4による評価、スコアを⼀⽬で確認できる • 複数モデルの結果を並べて表⽰可能
Gemini 1.5-Proはこの画像からジブリ（宮崎駿監督の作品）と判断

⼤規模モデルのエッジへの搭載学習評価デプロイ

⼤規模モデルを⾞に搭載する 25 生成AIをエッジコンピューティングできる高効率な半導体が必要 → メモリの帯域幅がボトルネックになる遠隔で実行 (映像入力や高速応答させるのが難しい ) API API
その場で計算（データ転送の問題がない）学習した大規模VLMをどう「推論」させるか？ → リアルタイムに動作させるにはその場（エッジ）で計算する必要があるデータセンター環境エッジ環境

⾔語モデル on FPGA（Swan） LlamaアーキテクチャをFPGAで動かすためのライブラリをOSSとして公開 • ⾔語モデルのC++実装 → HLS ◦
⾼位合成（HLS）によりFPGA⽤のコードを⽣成 ◦ 関数処理ごとに配置 • ⼩規模FPGA上での実機デプロイ ◦ ⽐較的安価＆短納期で⼊⼿可能な FPGAで実⾏できることを確認 ◦ 現在は1B以上のパラメータのモデルを動作させるため、⼤規模なFPGAでの開発に移⾏⽣成されたビットストリームの配置配線 Kria KV260 26 github.com/turingmotors/swan

CIM（Compute in Memory）技術を開発中演算器をメモリーに組み込むことでメモリー/演算器間のデータ転送のボトルネックを解消 27 メモリー容量が大きいが演算器へのデータ転送効率が低いため、演算器は低効率でしか実行されない。 ➡演算速度が遅い
演算器メモリー例: GPU CIM （Compute in Memory）次世代演算器メモリーメモリチップ内に演算器を組み込み、演算器とメモリを近接化することでデータ転送効率を引き上げる。ボトルネックが解消され、高効率で演算を実行。 ➡演算速度が早い従来 ※演算器とメモリーは別チップ ※演算器とメモリーは同一チップ

開発ロードマップ 28 2023.12 チップ着手 2024.12 Phase 1 FPGA 2026 Phase
2 Test Chip 2028 Phase 3 MP Chip 2030 製品実装 Sparse化・量子化検証基本回路検証テストチップ開発 MPチップ開発チップ量産化 Sparse化・量子化ツール開発マルチモーダル化世界モデルの適用 1st 計算基盤構築 2st 計算基盤構築 3rd 計算基盤構築運転知識の一般化環境適応・身体性の獲得大規模学習による汎化モデル圧縮・高速化・安定化汎用モデルアーキテクチャ AI開発半導体開発 • 数⼗億パラメータのLLMを⾼速動作させる原理検証 • 世界初の報告になる⾒込み • 8⽉にも10億パラメータの検証 • 量産化‧⾞両への組み込み • 完全⾃動運転⾞の実現 • 汎⽤のエッジデバイス向けへの展開

まとめ 29 • ⾃動運転にはマルチモーダル的理解が重要 ◦ LLMを中⼼とした技術開発が加速 • VLMの⽇本語能⼒を測定するベンチマークを提案 ◦ Heron
VLM リーダーボードとして公開 • エッジ環境でデプロイするにはメモリ帯域が課題 ◦ ⾼速推論に向けた独⾃半導体開発を進める

日本語Vision-Languageモデルの学習と評価ベンチマークの構築

日本語Vision-Languageモデルの学習と評価ベンチマークの構築

Yu Yamaguchi

More Decks by Yu Yamaguchi

Featured

Transcript

⽇本語Vision-Languageモデルの学習と評価ベンチマークの構築 Turing株式会社 Director of AI ⼭⼝祐 W&B ミートアップ#13

⾃⼰紹介⼭⼝祐 @ymg_aq チューリング株式会社 Director of AI • 産業技術総合研究所/⽶NISTで研究の傍ら、

チューリング株式会社 AIとカメラのみでハンドルがない⾃動運転⾞をつくるスタートアップ。 • AIとソフトウェアから新しいクルマを ◦ ソフトウェアエンジニアが中⼼ ◦ 2021年創業、正社員40+⼈ ◦

Contents • マルチモーダルモデルとは？ ◦ Vision & Languageモデルの仕組みと学習 • ⽇本語VLM評価ベンチマーク「Heron-Bench」 ◦

マルチモーダルモデルとは？学習評価デプロイ

運転シーンと⼈間の思考 6 この状況で左折したいどこを見ればよい？

運転シーンと⼈間の思考 7 ローカルの言語と記号の理解複雑な三者の関係の理解カラーコーン配置の意味人間の身体的指示の理解

第3世代の⾃動運転タスク 8 深層学習ベースの自動運転の学習データは、大規模生成AIをターゲットとした自然言語による状況理解に移行しつつある [Li+ 2024] 第1世代 (CNN, 2012~) 第2世代

チューリングの⾃動運転AI 9 走行データテキストアノテーション空間把握・身体性の獲得 2. 運転ドメインへの適合

⼤規模マルチモーダルモデル LLMをベースとした⾔語以外の⼊⼒‧出⼒‧タスクに対応するモデルが台頭 • LLMが認知の中核 ◦ CLIP[Radford+, 2021]以降、特定のモーダルと⾔語モデルを結びつける技術が発展 ◦

マルチモーダルモデルの仕組み 11 Image Video Audio text Image / Video NFNet-F6

学習ライブラリ Heron Heronのconﬁg例 12 各モジュールや学習設定を簡単なconﬁg のみで⾃由に置換可能な学習ライブラリをOSSとして公開 • 様々なモデルを組み合わせて学習できる ◦

⽇本語VLM評価ベンチマーク Heron-Bench 学習評価デプロイ

VLMの評価ベンチマーク 15 • 主要なVQA（Visual Question and Answering）ベンチマーク ◦ VQA v2

Heron-Bench [Inoue+ 2023] 16 • ⽇本語の視覚-⾔語評価ベンチマーク⽇本特有の画像や⽂化理解に関する質問 CVPR 2024 The

評価⽤データセットの詳細 17 • ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY

Heron-Benchのスコア算出⽅法 18 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3.

各モデルの評価結果と傾向 19 • LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い •

各モデルの⽂化理解 20 Q: 相撲の⼒⼠が何をしているかを説明してください (正解: 横綱⼟俵⼊り) Heron GIT :

Heron VLMリーダーボード powered by W&B 21 Weights & Biases Japanと連携してVLMリーダボードを整備し、先週リリース

Heron VLMリーダーボード powered by W&B 22 15を超えるVLMの⽐較が可能 GPT-4o Heron GIT

Heron VLMリーダーボード powered by W&B 23 • 画像、質問、VLMの回答、GPT-4による評価、スコアを⼀⽬で確認できる • 複数モデルの結果を並べて表⽰可能

⼤規模モデルのエッジへの搭載学習評価デプロイ

⼤規模モデルを⾞に搭載する 25 生成AIをエッジコンピューティングできる高効率な半導体が必要 → メモリの帯域幅がボトルネックになる遠隔で実行 (映像入力や高速応答させるのが難しい ) API API

⾔語モデル on FPGA（Swan） LlamaアーキテクチャをFPGAで動かすためのライブラリをOSSとして公開 • ⾔語モデルのC++実装 → HLS ◦

開発ロードマップ 28 2023.12 チップ着手 2024.12 Phase 1 FPGA 2026 Phase

まとめ 29 • ⾃動運転にはマルチモーダル的理解が重要 ◦ LLMを中⼼とした技術開発が加速 • VLMの⽇本語能⼒を測定するベンチマークを提案 ◦ Heron