KDDCup2025_CRAG-MM_Challenge上位解法の紹介.pdf

KDDCup2025 CRAG-MM Challenge上位解法の紹介

自己紹介 2 2 • 名前：鈴木明作（スズキメイサク） • 所属：NTTドコモ • KDDCup 参加歴
• KDDCup 2023(Amazon Task3) : 9位入賞 • KDDCup 2024(清華大学 Task1,2) : 6位入賞×2 • KDDCup 2025(CRAG-MM Challenge) : 特別部門2部門入賞

KDDCupとは 3 3 KDDのワークショップにて開催されるデータ分析競技会(学会コンペ) - 1997年からの長い伝統を持つデータ分析競技会 - 企業が主催することが多く，各社の実務を模した問題が出題 - KDDCup2025ではMetaからスマートグラスに関する出題
• 2025年主催：Meta • 2024年主催：Amazon, Meta, 清華大学 • 2023年主催：Amazon https://www.aicrowd.com/challenges/meta-crag-mm-challenge-2025 KDDCup 2025 CRAG-MM challenge(Meta)

KDDCup2025 CRAG-MM Challengeの概要お題出題詳細入賞条件 VQAタスク(画像への質問)に対してRAGを使ってハルシネーションを起こさずに回答する Task1
画像検索APIを活用した回答生成 Q：この車の中で最高速度が最も高いエンジンはどれですか？ + A：メルセデス・ベンツ Gシリーズの320GEエンジンは、最高速度170キロメートルを誇ります。 RAG API 類似画像 + メタ情報 Task2 画像検索API + テキスト検索API を活用した回答生成 Q：この果物の熟す時期はいつですか？ + A：蜂屋柿は11月から12月にかけて熟します RAG API 類似画像 + メタ情報 + Web情報 Task3 マルチターン会話における画像検索API+テキスト検索APIの回答生成 Q1：この本はどこで最も売れた？ A1：この本は，日本で最も売れており，総発行部数は10万部です Q2：では2番目に売れたのは？ A2：2番目はアメリカであり総発行部数は 5万部です - 各3タスクごとの上位3チーム - 4部門(Simple Question, Multi-hop Question, Comparison Question, Reasoning Question)で最も精度が高いチーム ※ VLMはLlama系を利用する必要あり(多くのチームがLlama 3.2-11B-Vision-Instructを利用) ※ RAG検索APIはMetaが用意、推論のコンピュート＆実行時間などの制約あり

評価方法 1st Round. LLM評価 (初期データで評価) 2nd Round. LLM評価 (データ更新され再評価) Final
Round. 人手評価 (アノテータ評価) 最終順位決定・3つのRoundがあり1st & 2nd RoundではLLM評価(GPT 4o-mini)、Final Roundでは人手評価・以下の4段階でスコアリング - 正解（Ground Truthと完全一致）：+1.0 - 許容される正解（Ground Truthと完全一致ではないが意味は正しい）: +0.5 - 回答しない（”I don’t know”と回答する）：0.0 - 不正解（ハルシネーション回答）: -1.0 ※多くの上位チームでは、基本的には”I don’t know”と回答してVLMが回答できる質問だけを回答する戦略。その結果、2nd Roundでの上位チーム勢の回答率は20-30%程度

NTTドコモ解法（RAG Pipeline） <RAG検索> 検索により類似情報を取得 <クエリ生成> 画像と質問からRAGクエリ生成 <リランキング> 類似情報からTop1を取得 (BAAI/bge-reranker-v2-m3) <VQA>
ハルシネーション抑止SFT + CoT 1. VLMにおけるハルシネーション抑止のための教師あり学習(SFT) & CoT 2. RAG精度向上各種手法(リランキング, Self-consistency etc.) ※CoT, Re-rank, Verification etc.はTask1のみ利用 RAG API Text SearchAPI Related Text Generate RAG Query Fine-Tuned VLM Text Query Input IMAGE QUESTIO N Re-rank ？ Related Text Top Related Text Verification Fine-Tuned VLM Rule-Based Verification Final Answer VQA Fine-Tuned VLM Chain-of-Thought Reasonig + Answer <後処理> Self-consistency

NTTドコモ解法（ハルシネーション抑止 SFT用のデータ生成） CoTプロンプト(<Reasoning, <FinalAnswer>タグ)の用意 STAGE1 Llama(Llama 3.2-11B-Vision-Instruct)にて回答生成 ※複数Temperatureで多様な応答を生成 GPT-4o-mini を使用して、以下のルールでラベル付け
・ Llamaの回答が正しければ何もしない・ Llamaの回答が誤っており、RAG検索情報に正解情報が含まれていれば、Ground Truthを教師ラベルとする・ Llamaの回答が誤っており、RAG検索情報に正解情報が含まれていなければ、”I don’t know”を教師ラベルとする STAGE2 STAGE3 VLMにおいて、”新しい知識を学習させる”のではなく以下の”回答パターン”を学習させるデータセットを作成してSFTを行う - VLMが内部知識＆RAG検索情報を使って質問に回答できる(VLMが正解を知っている)場合は回答する - VLMが内部知識＆RAG検索情報を使っても質問に回答できない(VLMが正解を知らない)場合は “I don’t know”と回答する Datasets IMAGES BaseVLM temperature=0.0 BaseVLM temperature=0.1 BaseVLM temperature=0.5 ・・・ Reasonig + Answer Reasonig + Answer Reasonig + Answer ・・・ Generate Answers by LLaMa Answer Label by GPT ChatGPT 4o-mini Do Nothing Ground Truth I don’t know ？QUESTION Ref. Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations https://aclanthology.org/2024.emnlp-main.444.pdf

KDDCup2025 上位チームの共通解法検索・マルチステージ検索 - クエリリライト、マルチソース検索、リランキング（BGE, Qwenなど）・ドメイン特化パイプライン(ドメインルータなどによる質問分野ごとに処理を変える) 学習・Llama3.2
11B Vision Instruct のLoRA & QLoRA学習・Dual LoRA adapter ・カリキュラム学習（easy sample→hard sample）ハルシネーション抑止・学習する - 合成データ作成 - probability threshould ・学習データ作成のためのLLM as a judge - GPT-4o, GPT-4o-mini ・マルチステージフレームワーク - Self Consistency - CoT ・Refusal training - Refineモデルが不確かな回答を拒否するためのRL & DPO ※ 上記は主催であるMetaの現地発表スライドを和訳に変換 ※ 太字下線はNTTドコモチーム解法でも利用

北京大学チーム【概要】・SFT/DPO/GRPOの複数学習手法をはじめとして、多数の工夫が含まれている解法。・KDDCup2024(CRAG-MM challenge)優勝チーム論文：DB3 Team’s Solution For
Meta KDD Cup’ 25 【詳細】・ドメインルータ、カスタムRAG検索、 SFT/DPO/GRPOの複数学習手法、検索クエリ書き換え、画像の解像度リサイズ、複数プロンプト& 複数回評価による安定したローカル評価、モデルマージなど。

NVIDIAチーム【概要】・マルチタスク学習や、信頼性の高いローカル検証を行っている解法。【詳細】・1.検索クエリ書き換え（Query Rewrite）、2.リランキング(Re-ranker)、 3.VQA（Answer generation）の3つのタスクのデータ生成して一つのデータセット(26.5k sample)に結合し、マルチタスク学習&推論。実行環
境はGPU A100×8枚。・VQAの後処理として、VLMからの出力トークンが”I”(I don’t knowの最初のトークン)の出力確率値が閾値よりも高い場合には、” I don’t know”とする・“NVIDIA RAGAS”(NVIDIA開発のRAG特化オープンソース評価ライブラリ)を活用して、Final Roundの人手評価と相関する信頼性の高いローカル評価 ※LLM評価が不安定性にも対処・NVIDIAチーム解法コードはGithubで公開 https://github.com/rbiswasfc/crag-mm

美団①チーム【概要】・SFT、カリキュラム学習(CL)、強化学習(RL)による解法。【詳細】・SFTでは、 CoT reasoningプロンプトによる学習。・カリキュラム学習では、モデルにstep by stepで学習。
- stage1. 全て簡単な問題 - stage2. 簡単な問題:難しい問題の比率を1:1 - stage3. 簡単な問題:難しい問題の比率を1:2にして学習・強化学習では、VisualRFT付きのGRPO(少量の学習データでもマルチモーダル推論能力を強化学習する手法)で学習。 ※美団は中国の大手食品デリバリー会社

美団②チーム【概要】・マルチタスク学習やデータ拡張を使った解法。【詳細】・1.検索クエリ生成、2.リランキング、3.VQAの3つのデータを一つに統合してマルチタスク学習し、マルチタスク学習モデルで推論。 ※ NVIDIAチームと同様・Task2&3はRAG検索結果をリランキング処理も追
加・Task1では以下のデータ拡張で正例サンプルを拡張。 Llamaに回答させて正解だった場合には、該当質問のサンプルに対するn個の類似ラベル（n=10）を生成・検証し、ハルシネーションになっていないかフィルタリングした上で、残った𝑚個のラベルは、元の質問と画像と共に、学習データに追加論文：Solution for Meta KDD Cup’ 25: A Comprehensive Three- Step Framework for Vision Question Answering

Acroquest Technologyチーム【概要】・複数タスクのLoRA adapterを切り替えることで、両方のタスクに対応した回答を出力【詳細】・1.検索クエリ生成、2.VQA、の２つのタスクについて個別でVLMのQLoRA学習。推論時は1.検索クエリ生成、 2.VQAのLoRA
adapterを切り替えることで、両方のタスクに対応した回答を出力・検索クエリ生成のQLoRA学習を行う際には、検索クエリ生成専用の正解ラベルを用意するのではなく、VQAタスクでの最終的な回答を正解ラベルにすることで精度向上・Qwen3-Reranker-0.6Bでリランキングを行うことで、RAG 検索情報の品質向上

NECチーム【概要】・画像のオブジェクト抽出に焦点を当てた解法【詳細】・画像セグメンテーションモデルであるBiRefNetで画像のROI（Region of Interest: 関心領域）を切り取ることで、質問に該当する画像の中のオブジェクトを強調
し、質問に関係ない無駄な画像部分を排除して、VLM が回答しやすく画像整形・VLMへの入力プロンプト設計を最適化することで、 VLMは位置バイアスに対処して精度を向上。・質問ドメインのルータにより特定ドメインの質問には回答せずに”I don’t know” ・VLM出力の75token以上は切り捨てる BiRefNet : https://github.com/ZhengPeng7/BiRefNet

電気通信大学チーム【概要】・VLMの内部表現（Internal Representation）を活用してハルシネーションを検出する解法【詳細】・VLM内部レイヤ（hidden state, attention
head）の活用 - 最初に、VLMに画像への質問に回答させる（単純なVQA) - VLM内部表現(行列情報)を使ってロジスティック回帰でVLMがハルシネーションを起こしているかを予測 - ハルシネーションを起こしていない予測の場合はVLM出力を回答とする - ハルシネーションを起こしている予測の場合は”I don’t know”とする - 最終的に複数のロジスティック回帰予測結果をアンサンブル ※ VLMの自信の有無を、モデルの内部表現(行列情報)から推定・VLMの学習やRAG検索は使っていないことが特徴

まとめ・マルチモーダルRAGの実用的な手法が多数あり学びが多いコンペだった。・RAGパイプライン（SFTデータ生成, SFT, 推論, RAGクエリ生成, 後処理）や、コンペ評価でもLLM自動評価(LLM as a
judge)にてVLMが活用されており、生成AI時代のコンペ到来を改めて感じた。

参考. Llama 3.2 11B ZeroShot & Fine-tuning vs GPT 4
※ 上記はTask2における1st Round(LLM as a judge)での弊チームでのローカル検証結果 Method Score Llama3.2-11B-Vision-Instruct w/ ZeroShot -0.659 Llama3.2-11B-Vision-Instruct w/ QLoRA 0.041 GPT- 4o mini 0.025 GPT- 4o 0.032 Llama-3.2-11B-Vision-Instructを対してFine-Tuning(QLoRA)することで、 GPT-4oを上回る性能を発揮

KDDCup2025_CRAG-MM_Challenge上位解法の紹介.pdf

KDDCup2025_CRAG-MM_Challenge上位解法の紹介.pdf

mujirushi

More Decks by mujirushi

Other Decks in Technology

Featured

Transcript

KDDCup2025 CRAG-MM Challenge上位解法の紹介

自己紹介 2 2 • 名前：鈴木明作（スズキメイサク） • 所属：NTTドコモ • KDDCup 参加歴

KDDCup2025 CRAG-MM Challengeの概要お題出題詳細入賞条件 VQAタスク(画像への質問)に対してRAGを使ってハルシネーションを起こさずに回答する Task1

評価方法 1st Round. LLM評価 (初期データで評価) 2nd Round. LLM評価 (データ更新され再評価) Final

NTTドコモ解法（RAG Pipeline） <RAG検索> 検索により類似情報を取得 <クエリ生成> 画像と質問からRAGクエリ生成 <リランキング> 類似情報からTop1を取得 (BAAI/bge-reranker-v2-m3) <VQA>

北京大学チーム【概要】・SFT/DPO/GRPOの複数学習手法をはじめとして、多数の工夫が含まれている解法。・KDDCup2024(CRAG-MM challenge)優勝チーム論文：DB3 Team’s Solution For

美団①チーム【概要】・SFT、カリキュラム学習(CL)、強化学習(RL)による解法。【詳細】・SFTでは、 CoT reasoningプロンプトによる学習。・カリキュラム学習では、モデルにstep by stepで学習。

電気通信大学チーム【概要】・VLMの内部表現（Internal Representation）を活用してハルシネーションを検出する解法【詳細】・VLM内部レイヤ（hidden state, attention

まとめ・マルチモーダルRAGの実用的な手法が多数あり学びが多いコンペだった。・RAGパイプライン（SFTデータ生成, SFT, 推論, RAGクエリ生成, 後処理）や、コンペ評価でもLLM自動評価(LLM as a

参考. Llama 3.2 11B ZeroShot & Fine-tuning vs GPT 4