画像検索APIを活用した回答生成 Q:この車の中で最高速度が最も高いエ ンジンはどれですか? + A:メルセデス・ベンツ Gシリーズの320GEエンジ ンは、最高速度170キロメートルを誇ります。 RAG API 類似画像 + メタ情報 Task2 画像検索API + テキスト検索API を活用した回答生成 Q:この果物の熟す時期はいつですか? + A:蜂屋柿は11月から12月にかけて熟します RAG API 類似画像 + メタ情報 + Web情報 Task3 マルチターン会話における 画像検索API+テキスト検索APIの回答生成 Q1:この本はどこで最も売れた? A1:この本は,日本で最も売れて おり,総発行部数は10万部です Q2:では2番目に売れたのは? A2:2番目はアメリカであり総発行部数は 5万部です - 各3タスクごとの上位3チーム - 4部門(Simple Question, Multi-hop Question, Comparison Question, Reasoning Question)で最も精度が高いチーム ※ VLMはLlama系を利用する必要あり(多くのチームがLlama 3.2-11B-Vision-Instructを利用) ※ RAG検索APIはMetaが用意、推論のコンピュート&実行時間などの制約あり