$30 off During Our Annual Pro Sale. View Details »

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU ...

Kento Sasaki
August 07, 2024

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】

第27回 画像の認識・理解シンポジウム MIRU2024
https://miru-committee.github.io/miru2024/

Kento Sasaki

August 07, 2024
Tweet

More Decks by Kento Sasaki

Other Decks in Research

Transcript

  1. ⼤規模⾔語モデルを⽤いた ⽇本語視覚⾔語モデルの評価⽅法と ベースラインモデルの提案 佐々⽊ 謙⼈*,1, 2 井ノ上 雄⼀*,1, 3 藤井

    ⼀喜1, 4 棚橋 耕太郎1 ⼭⼝ 祐1, 3 Turing株式会社1 筑波⼤学⼤学院⼈間総合科学学術院2 慶応義塾⼤学SFC研究所3 東京⼯業⼤学情報理⼯学院4 * equal contribution
  2. 研究背景と⽬的 1 • ベースラインモデルHeron-GITを構築 • 評価ベンチマークHeron-Benchを提案 • 近年、GPT-4V[OpenAI 2023]やLLaVA[Liu+ 2023]など様々な

    視覚⾔語モデル (VLM: Vision Language Model)が提案されている • ⾼性能なVLMは、英語中⼼のデータセットで学習されている • 英語圏以外においてVLMの構築⽅法や性能を評価するための ベンチマークが未整備であることが課題 ⽇本語VLMを発展させるためには、⽇本語を対象とした ベースラインモデルと評価ベンチマークが必要不可⽋
  3. 関連研究 2 • 主要なVQA(Visual Question Answering)ベンチマーク ◦ VQA v2 [Goyal

    + 2017] ◦ GQA [Hudson and Manning 2019] • LLMを⽤いたVQAのベンチマーク ◦ TouchStone [Bai+ 2023] ◦ LLaVA-Bench (COCO, in-the-wild) [Liu+ 2023] ▪ 画像理解と会話能⼒をGPT-4を⽤いて定量的に図るために提案 ▪ Conversation, Detail, Complexの3つのカテゴリのスコア算出 英語の代表的なVLM評価ベンチマーク [VLMEvalKit 2024] 本研究では、LLaVA-Benchを参考に画像理解と会話能⼒の観点から ⽇本語VLMの性能を評価するためのベンチマークを作成
  4. Heron-Bench 3 • ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY

    2.0) に基づく102の質問 • Conversation, Detail, Complex カテゴリごとに、テキストアノテーションを付与 • 各画像は7つのサブカテゴリに分類 Anime Art Landmark Culture Food Landscape Traffic
  5. Heron-Benchのスコア算出⽅法 4 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3.

    コンテキスト、GPT-4回答、VLM回答をGPT-4に与えて10点満点で評価 この場所における制限速度はいくつですか? Gemini Pro 速度は時速40キロです。[Score: 9] Claude 3 Opus 画像の道路標識によると、この場所の制限速度は 23km/hから12km/hに減速することが⽰されて います。[Score: 1] アシスタントの 回 答 は、 質 問 に 対 して 不 正 確 であり、 誤 解 を 招 く 情 報 を 提供しています。質問は「この場所における制限速度はいくつですか?」という ものでしたが、アシスタントは制限速度として「23km/hから12km/hに減速す ること」と回答しています。これは、画像に表⽰されている距離標識(ニセコま で12km、倶知安まで23km)を誤って速度制限と解釈してしまったものです。
  6. 実験結果 6 • LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い •

    LLaVA-Bench (in-the-wild)とHeron-Benchを⽐較すると10%以上の差がある →⽇本特有の⽂化的理解は改善の余地あり
  7. 考察:コンテキスト理解 7 Q: あなたは⾞を運転しており、交差点で右折しようと思っています。こ のまま交差点に向かってよいでしょうか? GPT-4Vのみ⾚信号と交通誘導員の指⽰を正しく理解 Heron GIT : いいえ、あなたは右に曲がる前に、交通信号が変わるのを待ってください。[Score:

    6] Claude 3 Opus : いいえ、このまま交差点に向かってはいけません。信号が⾚なので、⼀時停⽌して⻘信号になるまで待つ 必要があります。交通ルールを守り、安全運転を⼼がけましょう。[Score: 6] GPT-4V : 交差点に向かう前に停⽌する必要があります。画像には⾚信号が表⽰されており、交通整理のために⽴っている 作業員もいます。作業員は⾚い旗を持っていて、交通を制御している様⼦が⾒受けられます。安全に右折するためには、 信号と作業員の指⽰に従う必要があります。信号が緑に変わり、作業員が進⾏を許可したときのみ、交差点に進⼊して右折 することができます。[Score: 8]
  8. 考察:⽇本⽂化の理解 8 ⼟俵には3⼈の⼒⼠がいるが、すべてのモデルが「2⼈の⼒⼠」と回答 通常、相撲は2⼈の⼒⼠が対戦するという⼀般的な知識に影響され、 視覚情報を正確に反映できていないことが⽰唆される Q: 相撲の⼒⼠が何をしているかを説明してください。 Heron GIT :

    画像では、2⼈の⼒⼠のパフォーマンスが⾏われており、1⼈はリングの上で相撲の技を披露し、 もう1⼈の⼒⼠はリングの近くで太⿎を叩いています。(略)[Score: 2] Claude 3 Opus : 画像は相撲の取組の様⼦を捉えたものです。⼟俵の上で2⼈の⼒⼠が対峙し、四股を踏んでいる最中の ようです。⼟俵の周りには⼤勢の観客が⾒守っており、伝統的な相撲の興⾏の雰 囲気が伝わってきます。⼒⼠たちは精⼀杯 の⼒を出し合い、勝負の⾏⽅に観客も注⽬してい るのが分かります。(略)[Score: 4] GPT-4V : この写真は、⽇本の伝統的なスポーツである相撲の試合を捉えたものです。⼒⼠たちは⼟俵の上で対戦しており、 周囲には観客が詰めかけています。写真の中央にいる⼆⼈の⼒⼠は、 試合の⼀環として、おそらく⽴ち合い直前の儀式を ⾏っているところです。(略)[Score: 4]
  9. まとめ • ⽇本語VLMの性能を包括的に評価するHeron-Benchを提案 • Heron-GITはオープンモデルにおいて競争⼒のある性能を獲得 • GPT-4V、Claude 3 Opus、LLaVAなど英語圏で提案された 既存のVLMは⽇本の⽂化的理解に課題あり

    9 • データセット、モデル、プロジェクトコードの全てを公開 • Weights&Biases社と技術協⼒し、Heron-VLM Leaderboardを公開 Project Code Dataset, Model Heron-VLM Leaderboard
  10. Heron-VLM Leaderboard • Heron-VLM Leaderboard powered by Nejumi@Wandb ◦ Weights

    & Biases社と技術協⼒し、⽇本語VLMのリーダボードを整備 ◦ Heron-Bench, LLaVA-Bench (in-the-wild)を⽤いた⾃動評価 ◦ GPT-4Vを含む16以上のVLMの⽇本語性能がひと⽬で確認可能 10 http://vlm.nejumi.ai/
  11. 公開URL⼀覧 • Demo https://heron-demo.turing-motors.com • TechBlog https://zenn.dev/turing_motors/articles/8e913f46374ede • GitHub https://github.com/turingmotors/heron

    • Heron-GIT (Model Weight) https://huggingface.co/turing-motors/heron-chat-git-ja-stablelm-base-7b-v1 • Heron-Bench (Dataset) https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench 11
  12. 参考⽂献 12 • Takuya Akiba, Makoto Shing, Yujin Tang, Qi

    Sun, and David Ha. Evolutionary optimization of model merging recipes, 2024. • Anthropic. Introducing the next generation of claude. available at: https://www.anthropic.com/news/ claude-3-family. • Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond, 2023. • Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the V in VQA Matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. • Drew A. Hudson and Christopher D. Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. • Meng Lee, Fujiki Nakamura, Makoto Shing, Paul McCann, Takuya Akiba, and Naoki Orii. Japanese stablelm base alpha 7b.
  13. 参考⽂献 13 • Haotian Liu, Chunyuan Li, Yuheng Li, and

    Yong Jae Lee. Improved baselines with visual instruction tuning, 2023. • OpenAI. Gpt-4v(ision) system card, 2023. • Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning, 2023. • Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.