大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案【MIRU 2024】

⼤規模⾔語モデルを⽤いた⽇本語視覚⾔語モデルの評価⽅法とベースラインモデルの提案佐々⽊謙⼈*,1, 2 井ノ上雄⼀*,1, 3 藤井
⼀喜1, 4 棚橋耕太郎1 ⼭⼝祐1, 3 Turing株式会社1 筑波⼤学⼤学院⼈間総合科学学術院2 慶応義塾⼤学SFC研究所3 東京⼯業⼤学情報理⼯学院4 * equal contribution

研究背景と⽬的 1 • ベースラインモデルHeron-GITを構築 • 評価ベンチマークHeron-Benchを提案 • 近年、GPT-4V[OpenAI 2023]やLLaVA[Liu+ 2023]など様々な
視覚⾔語モデル (VLM: Vision Language Model)が提案されている • ⾼性能なVLMは、英語中⼼のデータセットで学習されている • 英語圏以外においてVLMの構築⽅法や性能を評価するためのベンチマークが未整備であることが課題⽇本語VLMを発展させるためには、⽇本語を対象としたベースラインモデルと評価ベンチマークが必要不可⽋

関連研究 2 • 主要なVQA（Visual Question Answering）ベンチマーク ◦ VQA v2 [Goyal
+ 2017] ◦ GQA [Hudson and Manning 2019] • LLMを⽤いたVQAのベンチマーク ◦ TouchStone [Bai+ 2023] ◦ LLaVA-Bench (COCO, in-the-wild) [Liu+ 2023] ▪ 画像理解と会話能⼒をGPT-4を⽤いて定量的に図るために提案 ▪ Conversation, Detail, Complexの3つのカテゴリのスコア算出英語の代表的なVLM評価ベンチマーク [VLMEvalKit 2024] 本研究では、LLaVA-Benchを参考に画像理解と会話能⼒の観点から⽇本語VLMの性能を評価するためのベンチマークを作成

Heron-Bench 3 • ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY
2.0) に基づく102の質問 • Conversation, Detail, Complex カテゴリごとに、テキストアノテーションを付与 • 各画像は7つのサブカテゴリに分類 Anime Art Landmark Culture Food Landscape Traﬃc

Heron-Benchのスコア算出⽅法 4 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3.
コンテキスト、GPT-4回答、VLM回答をGPT-4に与えて10点満点で評価この場所における制限速度はいくつですか？ Gemini Pro 速度は時速40キロです。[Score: 9] Claude 3 Opus 画像の道路標識によると、この場所の制限速度は 23km/hから12km/hに減速することが⽰されています。[Score: 1] アシスタントの回答は、質問に対して不正確であり、誤解を招く情報を提供しています。質問は「この場所における制限速度はいくつですか？」というものでしたが、アシスタントは制限速度として「23km/hから12km/hに減速すること」と回答しています。これは、画像に表⽰されている距離標識（ニセコまで12km、倶知安まで23km）を誤って速度制限と解釈してしまったものです。

実験：ベースラインモデルの構築 5 ⽇本語VLMのベースラインモデルHeron-GIT DeepLを⽤いて⽇本語に翻訳したLLaVA-1.5[Liu+ 2023]の事前学習: 約558K、視覚指⽰チューニング: 約665Kの画像-テキストペアデータセットを⽤いて学習 Tokenize &
Embed Text Decoder (japanese-stablelm-base-alpha-7b) Image Encoder (CLIPViT-L-336px ) BOS 写真の概要を簡潔明瞭に説明してください。 EOS … …

実験結果 6 • LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い •
LLaVA-Bench (in-the-wild)とHeron-Benchを⽐較すると10%以上の差がある →⽇本特有の⽂化的理解は改善の余地あり

考察：コンテキスト理解 7 Q: あなたは⾞を運転しており、交差点で右折しようと思っています。このまま交差点に向かってよいでしょうか？ GPT-4Vのみ⾚信号と交通誘導員の指⽰を正しく理解 Heron GIT : いいえ、あなたは右に曲がる前に、交通信号が変わるのを待ってください。[Score:
6] Claude 3 Opus : いいえ、このまま交差点に向かってはいけません。信号が⾚なので、⼀時停⽌して⻘信号になるまで待つ必要があります。交通ルールを守り、安全運転を⼼がけましょう。[Score: 6] GPT-4V : 交差点に向かう前に停⽌する必要があります。画像には⾚信号が表⽰されており、交通整理のために⽴っている作業員もいます。作業員は⾚い旗を持っていて、交通を制御している様⼦が⾒受けられます。安全に右折するためには、信号と作業員の指⽰に従う必要があります。信号が緑に変わり、作業員が進⾏を許可したときのみ、交差点に進⼊して右折することができます。[Score: 8]

考察：⽇本⽂化の理解 8 ⼟俵には3⼈の⼒⼠がいるが、すべてのモデルが「2⼈の⼒⼠」と回答通常、相撲は2⼈の⼒⼠が対戦するという⼀般的な知識に影響され、視覚情報を正確に反映できていないことが⽰唆される Q: 相撲の⼒⼠が何をしているかを説明してください。 Heron GIT :
画像では、2⼈の⼒⼠のパフォーマンスが⾏われており、1⼈はリングの上で相撲の技を披露し、もう1⼈の⼒⼠はリングの近くで太⿎を叩いています。（略）[Score: 2] Claude 3 Opus : 画像は相撲の取組の様⼦を捉えたものです。⼟俵の上で2⼈の⼒⼠が対峙し、四股を踏んでいる最中のようです。⼟俵の周りには⼤勢の観客が⾒守っており、伝統的な相撲の興⾏の雰囲気が伝わってきます。⼒⼠たちは精⼀杯の⼒を出し合い、勝負の⾏⽅に観客も注⽬しているのが分かります。（略）[Score: 4] GPT-4V : この写真は、⽇本の伝統的なスポーツである相撲の試合を捉えたものです。⼒⼠たちは⼟俵の上で対戦しており、周囲には観客が詰めかけています。写真の中央にいる⼆⼈の⼒⼠は、試合の⼀環として、おそらく⽴ち合い直前の儀式を⾏っているところです。（略）[Score: 4]

まとめ • ⽇本語VLMの性能を包括的に評価するHeron-Benchを提案 • Heron-GITはオープンモデルにおいて競争⼒のある性能を獲得 • GPT-4V、Claude 3 Opus、LLaVAなど英語圏で提案された既存のVLMは⽇本の⽂化的理解に課題あり
9 • データセット、モデル、プロジェクトコードの全てを公開 • Weights＆Biases社と技術協⼒し、Heron-VLM Leaderboardを公開 Project Code Dataset, Model Heron-VLM Leaderboard

Heron-VLM Leaderboard • Heron-VLM Leaderboard powered by Nejumi@Wandb ◦ Weights
& Biases社と技術協⼒し、⽇本語VLMのリーダボードを整備 ◦ Heron-Bench, LLaVA-Bench (in-the-wild)を⽤いた⾃動評価 ◦ GPT-4Vを含む16以上のVLMの⽇本語性能がひと⽬で確認可能 10 http://vlm.nejumi.ai/

公開URL⼀覧 • Demo https://heron-demo.turing-motors.com • TechBlog https://zenn.dev/turing_motors/articles/8e913f46374ede • GitHub https://github.com/turingmotors/heron
• Heron-GIT (Model Weight) https://huggingface.co/turing-motors/heron-chat-git-ja-stablelm-base-7b-v1 • Heron-Bench (Dataset) https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench 11

参考⽂献 12 • Takuya Akiba, Makoto Shing, Yujin Tang, Qi
Sun, and David Ha. Evolutionary optimization of model merging recipes, 2024. • Anthropic. Introducing the next generation of claude. available at: https://www.anthropic.com/news/ claude-3-family. • Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond, 2023. • Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the V in VQA Matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. • Drew A. Hudson and Christopher D. Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. • Meng Lee, Fujiki Nakamura, Makoto Shing, Paul McCann, Takuya Akiba, and Naoki Orii. Japanese stablelm base alpha 7b.

参考⽂献 13 • Haotian Liu, Chunyuan Li, Yuheng Li, and
Yong Jae Lee. Improved baselines with visual instruction tuning, 2023. • OpenAI. Gpt-4v(ision) system card, 2023. • Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning, 2023. • Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案【MIRU ...

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案【MIRU 2024】

Kento Sasaki

More Decks by Kento Sasaki

Other Decks in Research

Featured

Transcript

⼤規模⾔語モデルを⽤いた⽇本語視覚⾔語モデルの評価⽅法とベースラインモデルの提案佐々⽊謙⼈,1, 2 井ノ上雄⼀,1, 3 藤井

研究背景と⽬的 1 • ベースラインモデルHeron-GITを構築 • 評価ベンチマークHeron-Benchを提案 • 近年、GPT-4V[OpenAI 2023]やLLaVA[Liu+ 2023]など様々な

関連研究 2 • 主要なVQA（Visual Question Answering）ベンチマーク ◦ VQA v2 [Goyal

Heron-Bench 3 • ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY

Heron-Benchのスコア算出⽅法 4 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3.

実験結果 6 • LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い •

まとめ • ⽇本語VLMの性能を包括的に評価するHeron-Benchを提案 • Heron-GITはオープンモデルにおいて競争⼒のある性能を獲得 • GPT-4V、Claude 3 Opus、LLaVAなど英語圏で提案された既存のVLMは⽇本の⽂化的理解に課題あり

Heron-VLM Leaderboard • Heron-VLM Leaderboard powered by Nejumi@Wandb ◦ Weights

公開URL⼀覧 • Demo https://heron-demo.turing-motors.com • TechBlog https://zenn.dev/turing_motors/articles/8e913f46374ede • GitHub https://github.com/turingmotors/heron

参考⽂献 12 • Takuya Akiba, Makoto Shing, Yujin Tang, Qi

参考⽂献 13 • Haotian Liu, Chunyuan Li, Yuheng Li, and

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU ...

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】

More Decks by Kento Sasaki

Other Decks in Research

Featured

Transcript

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案【MIRU ...

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案【MIRU 2024】