Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU ...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Kento Sasaki Kento Sasaki
August 07, 2024

大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】

第27回 画像の認識・理解シンポジウム MIRU2024
https://miru-committee.github.io/miru2024/

Avatar for Kento Sasaki

Kento Sasaki

August 07, 2024
Tweet

More Decks by Kento Sasaki

Other Decks in Research

Transcript

  1. ⼤規模⾔語モデルを⽤いた ⽇本語視覚⾔語モデルの評価⽅法と ベースラインモデルの提案 佐々⽊ 謙⼈*,1, 2 井ノ上 雄⼀*,1, 3 藤井

    ⼀喜1, 4 棚橋 耕太郎1 ⼭⼝ 祐1, 3 Turing株式会社1 筑波⼤学⼤学院⼈間総合科学学術院2 慶応義塾⼤学SFC研究所3 東京⼯業⼤学情報理⼯学院4 * equal contribution
  2. 研究背景と⽬的 1 • ベースラインモデルHeron-GITを構築 • 評価ベンチマークHeron-Benchを提案 • 近年、GPT-4V[OpenAI 2023]やLLaVA[Liu+ 2023]など様々な

    視覚⾔語モデル (VLM: Vision Language Model)が提案されている • ⾼性能なVLMは、英語中⼼のデータセットで学習されている • 英語圏以外においてVLMの構築⽅法や性能を評価するための ベンチマークが未整備であることが課題 ⽇本語VLMを発展させるためには、⽇本語を対象とした ベースラインモデルと評価ベンチマークが必要不可⽋
  3. 関連研究 2 • 主要なVQA(Visual Question Answering)ベンチマーク ◦ VQA v2 [Goyal

    + 2017] ◦ GQA [Hudson and Manning 2019] • LLMを⽤いたVQAのベンチマーク ◦ TouchStone [Bai+ 2023] ◦ LLaVA-Bench (COCO, in-the-wild) [Liu+ 2023] ▪ 画像理解と会話能⼒をGPT-4を⽤いて定量的に図るために提案 ▪ Conversation, Detail, Complexの3つのカテゴリのスコア算出 英語の代表的なVLM評価ベンチマーク [VLMEvalKit 2024] 本研究では、LLaVA-Benchを参考に画像理解と会話能⼒の観点から ⽇本語VLMの性能を評価するためのベンチマークを作成
  4. Heron-Bench 3 • ⽇本に由来する21枚の画像 (CC BY 1.0 / CC BY

    2.0) に基づく102の質問 • Conversation, Detail, Complex カテゴリごとに、テキストアノテーションを付与 • 各画像は7つのサブカテゴリに分類 Anime Art Landmark Culture Food Landscape Traffic
  5. Heron-Benchのスコア算出⽅法 4 1. 画像の説明⽂を⼈⼿で付与する (コンテキスト) 2. GPT-4 (No Vision)にコンテキストとプロンプトを与えてGPT-4回答⽂を作成 3.

    コンテキスト、GPT-4回答、VLM回答をGPT-4に与えて10点満点で評価 この場所における制限速度はいくつですか? Gemini Pro 速度は時速40キロです。[Score: 9] Claude 3 Opus 画像の道路標識によると、この場所の制限速度は 23km/hから12km/hに減速することが⽰されて います。[Score: 1] アシスタントの 回 答 は、 質 問 に 対 して 不 正 確 であり、 誤 解 を 招 く 情 報 を 提供しています。質問は「この場所における制限速度はいくつですか?」という ものでしたが、アシスタントは制限速度として「23km/hから12km/hに減速す ること」と回答しています。これは、画像に表⽰されている距離標識(ニセコま で12km、倶知安まで23km)を誤って速度制限と解釈してしまったものです。
  6. 実験結果 6 • LLMと同様にクローズドモデル (GPT-4V, Claude 3 Opus etc.)のスコアが⾼い •

    LLaVA-Bench (in-the-wild)とHeron-Benchを⽐較すると10%以上の差がある →⽇本特有の⽂化的理解は改善の余地あり
  7. 考察:コンテキスト理解 7 Q: あなたは⾞を運転しており、交差点で右折しようと思っています。こ のまま交差点に向かってよいでしょうか? GPT-4Vのみ⾚信号と交通誘導員の指⽰を正しく理解 Heron GIT : いいえ、あなたは右に曲がる前に、交通信号が変わるのを待ってください。[Score:

    6] Claude 3 Opus : いいえ、このまま交差点に向かってはいけません。信号が⾚なので、⼀時停⽌して⻘信号になるまで待つ 必要があります。交通ルールを守り、安全運転を⼼がけましょう。[Score: 6] GPT-4V : 交差点に向かう前に停⽌する必要があります。画像には⾚信号が表⽰されており、交通整理のために⽴っている 作業員もいます。作業員は⾚い旗を持っていて、交通を制御している様⼦が⾒受けられます。安全に右折するためには、 信号と作業員の指⽰に従う必要があります。信号が緑に変わり、作業員が進⾏を許可したときのみ、交差点に進⼊して右折 することができます。[Score: 8]
  8. 考察:⽇本⽂化の理解 8 ⼟俵には3⼈の⼒⼠がいるが、すべてのモデルが「2⼈の⼒⼠」と回答 通常、相撲は2⼈の⼒⼠が対戦するという⼀般的な知識に影響され、 視覚情報を正確に反映できていないことが⽰唆される Q: 相撲の⼒⼠が何をしているかを説明してください。 Heron GIT :

    画像では、2⼈の⼒⼠のパフォーマンスが⾏われており、1⼈はリングの上で相撲の技を披露し、 もう1⼈の⼒⼠はリングの近くで太⿎を叩いています。(略)[Score: 2] Claude 3 Opus : 画像は相撲の取組の様⼦を捉えたものです。⼟俵の上で2⼈の⼒⼠が対峙し、四股を踏んでいる最中の ようです。⼟俵の周りには⼤勢の観客が⾒守っており、伝統的な相撲の興⾏の雰 囲気が伝わってきます。⼒⼠たちは精⼀杯 の⼒を出し合い、勝負の⾏⽅に観客も注⽬してい るのが分かります。(略)[Score: 4] GPT-4V : この写真は、⽇本の伝統的なスポーツである相撲の試合を捉えたものです。⼒⼠たちは⼟俵の上で対戦しており、 周囲には観客が詰めかけています。写真の中央にいる⼆⼈の⼒⼠は、 試合の⼀環として、おそらく⽴ち合い直前の儀式を ⾏っているところです。(略)[Score: 4]
  9. まとめ • ⽇本語VLMの性能を包括的に評価するHeron-Benchを提案 • Heron-GITはオープンモデルにおいて競争⼒のある性能を獲得 • GPT-4V、Claude 3 Opus、LLaVAなど英語圏で提案された 既存のVLMは⽇本の⽂化的理解に課題あり

    9 • データセット、モデル、プロジェクトコードの全てを公開 • Weights&Biases社と技術協⼒し、Heron-VLM Leaderboardを公開 Project Code Dataset, Model Heron-VLM Leaderboard
  10. Heron-VLM Leaderboard • Heron-VLM Leaderboard powered by Nejumi@Wandb ◦ Weights

    & Biases社と技術協⼒し、⽇本語VLMのリーダボードを整備 ◦ Heron-Bench, LLaVA-Bench (in-the-wild)を⽤いた⾃動評価 ◦ GPT-4Vを含む16以上のVLMの⽇本語性能がひと⽬で確認可能 10 http://vlm.nejumi.ai/
  11. 公開URL⼀覧 • Demo https://heron-demo.turing-motors.com • TechBlog https://zenn.dev/turing_motors/articles/8e913f46374ede • GitHub https://github.com/turingmotors/heron

    • Heron-GIT (Model Weight) https://huggingface.co/turing-motors/heron-chat-git-ja-stablelm-base-7b-v1 • Heron-Bench (Dataset) https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench 11
  12. 参考⽂献 12 • Takuya Akiba, Makoto Shing, Yujin Tang, Qi

    Sun, and David Ha. Evolutionary optimization of model merging recipes, 2024. • Anthropic. Introducing the next generation of claude. available at: https://www.anthropic.com/news/ claude-3-family. • Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond, 2023. • Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the V in VQA Matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. • Drew A. Hudson and Christopher D. Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. • Meng Lee, Fujiki Nakamura, Makoto Shing, Paul McCann, Takuya Akiba, and Naoki Orii. Japanese stablelm base alpha 7b.
  13. 参考⽂献 13 • Haotian Liu, Chunyuan Li, Yuheng Li, and

    Yong Jae Lee. Improved baselines with visual instruction tuning, 2023. • OpenAI. Gpt-4v(ision) system card, 2023. • Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning, 2023. • Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.