Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

KDDCup2025_CRAG-MM_Challenge上位解法の紹介.pdf

Avatar for mujirushi mujirushi
December 20, 2025

 KDDCup2025_CRAG-MM_Challenge上位解法の紹介.pdf

Avatar for mujirushi

mujirushi

December 20, 2025
Tweet

More Decks by mujirushi

Other Decks in Technology

Transcript

  1. 自己紹介 2 2 • 名前:鈴木明作(スズキメイサク) • 所属:NTTドコモ • KDDCup 参加歴

    • KDDCup 2023(Amazon Task3) : 9位入賞 • KDDCup 2024(清華大学 Task1,2) : 6位入賞×2 • KDDCup 2025(CRAG-MM Challenge) : 特別部門2部門入賞
  2. KDDCup2025 CRAG-MM Challengeの概要 お題 出題 詳細 入賞 条件 VQAタスク(画像への質問)に対してRAGを使ってハルシネーションを起こさずに回答する Task1

    画像検索APIを活用した回答生成 Q:この車の中で最高速度が最も高いエ ンジンはどれですか? + A:メルセデス・ベンツ Gシリーズの320GEエンジ ンは、最高速度170キロメートルを誇ります。 RAG API 類似画像 + メタ情報 Task2 画像検索API + テキスト検索API を活用した回答生成 Q:この果物の熟す時期はいつですか? + A:蜂屋柿は11月から12月にかけて熟します RAG API 類似画像 + メタ情報 + Web情報 Task3 マルチターン会話における 画像検索API+テキスト検索APIの回答生成 Q1:この本はどこで最も売れた? A1:この本は,日本で最も売れて おり,総発行部数は10万部です Q2:では2番目に売れたのは? A2:2番目はアメリカであり総発行部数は 5万部です - 各3タスクごとの上位3チーム - 4部門(Simple Question, Multi-hop Question, Comparison Question, Reasoning Question)で最も精度が高いチーム ※ VLMはLlama系を利用する必要あり(多くのチームがLlama 3.2-11B-Vision-Instructを利用) ※ RAG検索APIはMetaが用意、推論のコンピュート&実行時間などの制約あり
  3. 評価方法 1st Round. LLM評価 (初期データで評価) 2nd Round. LLM評価 (データ更新され再評価) Final

    Round. 人手評価 (アノテータ評価) 最終順位決定 ・3つのRoundがあり1st & 2nd RoundではLLM評価(GPT 4o-mini)、Final Roundでは人手評価 ・以下の4段階でスコアリング - 正解(Ground Truthと完全一致):+1.0 - 許容される正解(Ground Truthと完全一致ではないが意味は正しい): +0.5 - 回答しない(”I don’t know”と回答する):0.0 - 不正解(ハルシネーション回答): -1.0 ※多くの上位チームでは、基本的には”I don’t know”と回答してVLMが回答できる質問だけを回答する戦略。 その結果、2nd Roundでの上位チーム勢の回答率は20-30%程度
  4. NTTドコモ解法(RAG Pipeline) <RAG検索> 検索により類似情報を取得 <クエリ生成> 画像と質問からRAGクエリ生成 <リランキング> 類似情報からTop1を取得 (BAAI/bge-reranker-v2-m3) <VQA>

    ハルシネーション抑止SFT + CoT 1. VLMにおけるハルシネーション抑止のための教師あり学習(SFT) & CoT 2. RAG精度向上各種手法(リランキング, Self-consistency etc.) ※CoT, Re-rank, Verification etc.はTask1のみ利用 RAG API Text SearchAPI Related Text Generate RAG Query Fine-Tuned VLM Text Query Input IMAGE QUESTIO N Re-rank ? Related Text Top Related Text Verification Fine-Tuned VLM Rule-Based Verification Final Answer VQA Fine-Tuned VLM Chain-of-Thought Reasonig + Answer <後処理> Self-consistency
  5. NTTドコモ解法(ハルシネーション抑止 SFT用のデータ生成) CoTプロンプト(<Reasoning, <FinalAnswer>タグ)の用意 STAGE1 Llama(Llama 3.2-11B-Vision-Instruct)にて回答生成 ※複数Temperatureで多様な応答を生成 GPT-4o-mini を使用して、以下のルールでラベル付け

    ・ Llamaの回答が正しければ何もしない ・ Llamaの回答が誤っており、RAG検索情報に正解情報が含まれ ていれば、Ground Truthを教師ラベルとする ・ Llamaの回答が誤っており、RAG検索情報に正解情報が含まれ ていなければ、”I don’t know”を教師ラベルとする STAGE2 STAGE3 VLMにおいて、”新しい知識を学習させる”のではなく以下の”回答パターン”を学習させるデータセットを作成してSFTを行う - VLMが内部知識&RAG検索情報を使って質問に回答できる(VLMが正解を知っている)場合は回答する - VLMが内部知識&RAG検索情報を使っても質問に回答できない(VLMが正解を知らない)場合は “I don’t know”と回答する Datasets IMAGES BaseVLM temperature=0.0 BaseVLM temperature=0.1 BaseVLM temperature=0.5 ・・・ Reasonig + Answer Reasonig + Answer Reasonig + Answer ・・・ Generate Answers by LLaMa Answer Label by GPT ChatGPT 4o-mini Do Nothing Ground Truth I don’t know ?QUESTION Ref. Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations https://aclanthology.org/2024.emnlp-main.444.pdf
  6. KDDCup2025 上位チームの共通解法 検索 ・マルチステージ検索 - クエリリライト、マルチソース検索、リランキング(BGE, Qwenなど) ・ドメイン特化パイプライン(ドメインルータなどによる質問分野ごとに処理を変える) 学習 ・Llama3.2

    11B Vision Instruct のLoRA & QLoRA学習 ・Dual LoRA adapter ・カリキュラム学習(easy sample→hard sample) ハルシネーション抑止 ・学習する - 合成データ作成 - probability threshould ・学習データ作成のためのLLM as a judge - GPT-4o, GPT-4o-mini ・マルチステージフレームワーク - Self Consistency - CoT ・Refusal training - Refineモデルが不確かな回答を拒否するためのRL & DPO ※ 上記は主催であるMetaの現地発表スライドを和訳に変換 ※ 太字下線はNTTドコモチーム解法でも利用
  7. 北京大学チーム 【概要】 ・SFT/DPO/GRPOの複数学習手法をはじめとして、 多数の工夫が含まれている解法。 ・KDDCup2024(CRAG-MM challenge)優勝チーム 論文:DB3 Team’s Solution For

    Meta KDD Cup’ 25 【詳細】 ・ドメインルータ、カスタムRAG検索、 SFT/DPO/GRPOの複数学習手法、検索クエリ書き 換え、画像の解像度リサイズ、複数プロンプト& 複数回評価による安定したローカル評価、モデル マージなど。
  8. NVIDIAチーム 【概要】 ・マルチタスク学習や、信頼性の高いローカル検証を行っている解法。 【詳細】 ・1.検索クエリ書き換え(Query Rewrite)、2.リランキング(Re-ranker)、 3.VQA(Answer generation)の3つのタスクのデータ生成して一つのデ ータセット(26.5k sample)に結合し、マルチタスク学習&推論。実行環

    境はGPU A100×8枚。 ・VQAの後処理として、VLMからの出力トークンが”I”(I don’t knowの 最初のトークン)の出力確率値が閾値よりも高い場合には、” I don’t know”とする ・“NVIDIA RAGAS”(NVIDIA開発のRAG特化オープンソース評価ライ ブラリ)を活用して、Final Roundの人手評価と相関する信頼性の高いロ ーカル評価 ※LLM評価が不安定性にも対処 ・NVIDIAチーム解法コードはGithubで公開 https://github.com/rbiswasfc/crag-mm
  9. 美団①チーム 【概要】 ・SFT、カリキュラム学習(CL)、強化学習(RL)による解法。 【詳細】 ・SFTでは、 CoT reasoningプロンプトによる学習。 ・カリキュラム学習では、モデルにstep by stepで学習。

    - stage1. 全て簡単な問題 - stage2. 簡単な問題:難しい問題 の比率を1:1 - stage3. 簡単な問題:難しい問題の比率を1:2にして学習 ・強化学習では、VisualRFT付きのGRPO(少量の学習データでも マルチモーダル推論能力を強化学習する手法)で学習。 ※美団は中国の大手食品デリバリー会社
  10. 美団②チーム 【概要】 ・マルチタスク学習やデータ拡張を使った解法。 【詳細】 ・1.検索クエリ生成、2.リランキング、3.VQAの3つ のデータを一つに統合してマルチタスク学習し、 マルチタスク学習モデルで推論。 ※ NVIDIAチームと同様 ・Task2&3はRAG検索結果をリランキング処理も追

    加 ・Task1では以下のデータ拡張で正例サンプルを拡張。 Llamaに回答させて正解だった場合には、該当質問 のサンプルに対するn個の類似ラベル(n=10)を生 成・検証し、ハルシネーションになっていないかフ ィルタリングした上で、残った𝑚個のラベルは、元 の質問と画像と共に、学習データに追加 論文:Solution for Meta KDD Cup’ 25: A Comprehensive Three- Step Framework for Vision Question Answering
  11. Acroquest Technologyチーム 【概要】 ・複数タスクのLoRA adapterを切り替えることで、両方の タスクに対応した回答を出力 【詳細】 ・1.検索クエリ生成、2.VQA、の2つのタスクについて個 別でVLMのQLoRA学習。推論時は1.検索クエリ生成、 2.VQAのLoRA

    adapterを切り替えることで、両方のタスク に対応した回答を出力 ・検索クエリ生成のQLoRA学習を行う際には、検索クエリ 生成専用の正解ラベルを用意するのではなく、VQAタスク での最終的な回答を正解ラベルにすることで精度向上 ・Qwen3-Reranker-0.6Bでリランキングを行うことで、RAG 検索情報の品質向上
  12. NECチーム 【概要】 ・画像のオブジェクト抽出に焦点を当てた解法 【詳細】 ・画像セグメンテーションモデルであるBiRefNetで画 像のROI(Region of Interest: 関心領域)を切り取るこ とで、質問に該当する画像の中のオブジェクトを強調

    し、質問に関係ない無駄な画像部分を排除して、VLM が回答しやすく画像整形 ・VLMへの入力プロンプト設計を最適化することで、 VLMは位置バイアスに対処して精度を向上。 ・質問ドメインのルータにより特定ドメインの質問に は回答せずに”I don’t know” ・VLM出力の75token以上は切り捨てる BiRefNet : https://github.com/ZhengPeng7/BiRefNet
  13. 電気通信大学チーム 【概要】 ・VLMの内部表現(Internal Representation) を活用してハ ルシネーションを検出する解法 【詳細】 ・VLM内部レイヤ(hidden state, attention

    head)の活用 - 最初に、VLMに画像への質問に回答させる(単純なVQA) - VLM内部表現(行列情報)を使ってロジスティック回帰でVLMが ハルシネーションを起こしているかを予測 - ハルシネーションを起こしていない予測の場合はVLM出力を回答とする - ハルシネーションを起こしている予測の場合は”I don’t know”とする - 最終的に複数のロジスティック回帰予測結果をアンサンブル ※ VLMの自信の有無を、モデルの内部表現(行列情報)から推定 ・VLMの学習やRAG検索は使っていないことが特徴
  14. 参考. Llama 3.2 11B ZeroShot & Fine-tuning vs GPT 4

    ※ 上記はTask2における1st Round(LLM as a judge)での弊チームでのローカル検証結果 Method Score Llama3.2-11B-Vision-Instruct w/ ZeroShot -0.659 Llama3.2-11B-Vision-Instruct w/ QLoRA 0.041 GPT- 4o mini 0.025 GPT- 4o 0.032 Llama-3.2-11B-Vision-Instructを対してFine-Tuning(QLoRA)することで、 GPT-4oを上回る性能を発揮