Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Japanese SimpleQA: 日本語における事実に基づいた回答能力の評価ベンチマーク

Japanese SimpleQA: 日本語における事実に基づいた回答能力の評価ベンチマーク

本報告では,大規模言語モデル(LLM)の日本語における事実に基づく回答能力(事実性)を評価するベンチマーク「Japanese SimpleQA」の構築と既存モデルの振る舞いについて述べる.Japanese SimpleQAは,短文で特定の事実について問う3000問の日本語質問応答からなるベンチマークである.SimpleQAと同様に,(1)最新のLLMにとっても高難度であり,(2)時間経過による正答の変化がなく,(3)別解が存在しない,質問応答で構成されている.この設計により,「モデルが自己の知識をどの程度正確に認識しているか」を評価できる.Japanese SimpleQAを用い,既存LLMの事実性や,RAGによる事実性の向上効果を明らかにした.構築したベンチマークは https://github.com/pfnet-research/japanese-simpleqa/ で公開している.

Avatar for Preferred Networks

Preferred Networks PRO

December 17, 2025
Tweet

More Decks by Preferred Networks

Other Decks in Technology

Transcript

  1. 2 • LLMの事実性 (factuality) について ◦ 事実性とはなにか ◦ 事実性を評価する既存のベンチマーク •

    Japanese SimpleQAの構築 ◦ ベンチマークの概要 ◦ ベンチマークの構築手法 • Japanese SimpleQAにおける既存モデルの振る舞い • まとめ 目次
  2. 8 gpt-oss-20b 事実性評価の難しさ 徳川家康について教えてください 徳川家康 (Tokugawa Ieyasu)(1543 – 1616) … 1. 生涯の概要 年代

    主な出来事 1543 兵庫・大島で生まれる(推定) … 長い文章に対する事実性のスコア付けは困難
  3. 9 gpt-oss-20b 事実性評価の難しさ 徳川家康について教えてください 徳川家康 (Tokugawa Ieyasu)(1543 – 1616) … 1. 生涯の概要 年代

    主な出来事 1543 兵庫・大島で生まれる(推定) … 正確 長い文章に対する事実性のスコア付けは困難
  4. 10 gpt-oss-20b 事実性評価の難しさ 徳川家康について教えてください 徳川家康 (Tokugawa Ieyasu)(1543 – 1616) … 1. 生涯の概要 年代

    主な出来事 1543 兵庫・大島で生まれる(推定) … 明確に誤り 正確 長い文章に対する事実性のスコア付けは困難
  5. 11 gpt-oss-20b 事実性評価の難しさ 徳川家康について教えてください 徳川家康 (Tokugawa Ieyasu)(1543 – 1616) … 1. 生涯の概要 年代

    主な出来事 1543 兵庫・大島で生まれる(推定) … 明確に誤り 旧暦1542年で42と書くものもある 正確 長い文章に対する事実性のスコア付けは困難
  6. 12 gpt-oss-20b 事実性評価の難しさ 徳川家康について教えてください 徳川家康 (Tokugawa Ieyasu)(1543 – 1616) … 1. 生涯の概要 年代

    主な出来事 1543 兵庫・大島で生まれる(推定) … 明確に誤り 旧暦1542年で42と書くものもある 正確 事実性評価の難しさ • 長い出力に含まれる事実をどのように列挙・抽出するか • それぞれの事実がハルシネーションかどうかをどう判定するか • 出力に対する事実性の定量的なスコアをどう定義するか 重要性の割にベンチマークが少ない 長い文章に対する事実性のスコア付けは困難
  7. 13 Q&Aの形式を制限することで事実性を短い時間で評価 SimpleQA [Measuring short-form factuality in large language models]

    Question: Who was the first president of the United States? Answer: George Washington 何らかの事実を問う短い質問 明確に一つに定まる正解
  8. 14 Q&Aの形式を制限することで事実性を短い時間で評価 SimpleQA [Measuring short-form factuality in large language models]

    Question: Who was the first president of the United States? Answer: George Washington 何らかの事実を問う短い質問 明確に一つに定まる正解 George Washington
  9. 15 Q&Aの形式を制限することで事実性を短い時間で評価 SimpleQA [Measuring short-form factuality in large language models]

    Question: Who was the first president of the United States? Answer: George Washington 何らかの事実を問う短い質問 明確に一つに定まる正解 George Washington correct (正解) / incorrect (不正解) / not attempt (未回答) LLM-as-a-Judge
  10. 16 Q&Aの形式を制限することで事実性を短い時間で評価 SimpleQA [Measuring short-form factuality in large language models]

    Question: Who was the first president of the United States? Answer: George Washington 何らかの事実を問う短い質問 明確に一つに定まる正解 John Adams correct (正解) / incorrect (不正解) / not attempt (未回答) LLM-as-a-Judge
  11. 17 Q&Aの形式を制限することで事実性を短い時間で評価 SimpleQA [Measuring short-form factuality in large language models]

    Question: Who was the first president of the United States? Answer: George Washington 何らかの事実を問う短い質問 明確に一つに定まる正解 I don’t know. correct (正解) / incorrect (不正解) / not attempt (未回答) LLM-as-a-Judge
  12. 18 Q&Aの形式を制限することで事実性を短い時間で評価 SimpleQA [Measuring short-form factuality in large language models]

    Question: Who was the first president of the United States? Answer: George Washington 何らかの事実を問う短い質問 明確に一つに定まる正解 I don’t know. not attempt (未回答) LLM-as-a-Judge • 事実性について、accuracyのような定量的なスコアを定義できる • 英語ベンチマークであり、英語の応答しか評価できない 日本語版のSimpleQAを作りたい
  13. 19 SimpleQAの構築 人による Q&A生成 LLMによる Q&A検証 人による Q&A検証 人による 一部サンプルの品質確認

    データセット 人の作業を中心に、LLM (ChatGPT) を補助的に使うベンチマーク構築
  14. 20 SimpleQAの構築 人による Q&A生成 LLMによる Q&A検証 人による Q&A検証 人による 一部サンプルの品質確認

    データセット 日本語版を作る時の課題 多くの工程が人による作業・アノテーションであり 構築に時間とコストがかかる 人の作業を中心に、LLM (ChatGPT) を補助的に使うベンチマーク構築
  15. 21 Chinese SimpleQA [Chinese SimpleQA: A Chinese Factuality Evaluation for

    Large Language Models] LLMによる Q&A検証 人による Q&A検証 データセット LLMによる Q&A生成 LLMによってベンチマークを生成し、人は最終的なチェックのみ
  16. 22 Chinese SimpleQA [Chinese SimpleQA: A Chinese Factuality Evaluation for

    Large Language Models] LLMによる Q&A検証 人による Q&A検証 データセット LLMによる Q&A生成 工程の多くがLLMの推論であり、 比較的簡単に他言語版を作れる可能性がある 日本語版SimpleQAの構築を目指す LLMによってベンチマークを生成し、人は最終的なチェックのみ
  17. 24 問題数 : 3,000問 公開URL : https://github.com/pfnet-research/japanese-simpleqa/tree/main Japanese SimpleQA: 概要

    質問: 1854年の日英和親条約調印時,イギリス艦隊を 率いた提督は誰か? 答え: ジェームズ・スターリング 問題例
  18. 26 Japanese SimpleQA: 構築 LLMによる Q&A検証 データセット LLMによる Q&A生成 人による

    一部サンプルの品質確認 不適切なQ&Aの割合は3%ほど (SimpleQAの2.8%とほぼ同じ) LLMによってベンチマークを生成し、品質確認のみ人が行う
  19. 27 Japanese SimpleQA: 構築 LLMによる Q&A検証 データセット LLMによる Q&A生成 人による

    一部サンプルの品質確認 知識源のデータとして、英語Wikipediaも活用 英語にしかない情報を日本語で聞いた時の 事実性を計測するため 不適切なQ&Aの割合は3%ほど (SimpleQAの2.8%とほぼ同じ) LLMによってベンチマークを生成し、品質確認のみ人が行う
  20. 28 SimpleQAでは、LLM-as-a-Judgeのための評価モデルが必要 Japanese SimpleQA: 評価モデルの選定 correct / incorrect / not

    attempt 質問: 1854年の日英和親条約調印時,イギリス艦隊を 率いた提督は誰か? 正解: ジェームズ・スターリング 答え: ペリー SimpleQA : GPT-4.1 Chinese SimpleQA : GPT-4o
  21. 29 SimpleQAでは、LLM-as-a-Judgeのための評価モデルが必要 Japanese SimpleQA: 評価モデルの選定 correct / incorrect / not

    attempt 質問: 1854年の日英和親条約調印時,イギリス艦隊を 率いた提督は誰か? 正解: ジェームズ・スターリング 答え: ペリー SimpleQA : GPT-4.1 Chinese SimpleQA : GPT-4o API提供のモデルは更新などで結果の再現性がなくなる可能性がある open weightなLLMのほうが望ましい
  22. 30 Japanese SimpleQA: 評価モデルの選定 モデル 評価の人との一致率 Qwen3-4B-Instruct-2507 76/90 Qwen3-8B 85/90

    Qwen3-32B 83/90 DeepSeek-V3-0324 87/90 GPT-4.1 87/90 評価にかかるコストと評価の正確さのバランスからQwen3-8Bを採用
  23. 32 既存モデルの振る舞い: モデルサイズの影響 モデルシリーズ F値 (小さいモデル) F値 (大きいモデル) gpt-4o 11

    35 Qwen3 (reasoningなし) 5 21 gpt-oss 23 20 • 多くのモデルシリーズはモデルを大きくすると性能が上がる • gpt-ossシリーズは大きいgpt-oss-120bのほうが低い性能となった
  24. 33 既存モデルの振る舞い: reasoningの影響 モデル 正解率 不正解率 未回答率 Qwen3-32B (reasoningなし) 10

    86 4 Qwen3-32B (reasoningあり) 11 81 10 • reasoningをしても知識は増えないので、正解率はほぼ変化しない • reasoningによりハルシネーションに気づいて 未回答にできるケースがある
  25. 34 既存モデルの振る舞い: GPT-5シリーズ モデル 正解率 不正解率 未回答率 gpt-4o 33 52

    15 gpt-4o-mini 11 86 2 gpt-5 44 39 16 gpt-5-mini 23 14 63 gpt-5-nano 13 25 62 • gpt-4シリーズ及びgpt-5は回答を避けることはほぼない • gpt-5シリーズの小型モデルは未回答率が高い 知識量の乏しい小型モデルで事実性を向上するための振る舞い?
  26. 35 既存モデルの振る舞い: RAGの効果 モデル 正解率 不正解率 未回答率 Qwen3-32B 10 86

    4 Qwen3-32B (RAG活用) 31 25 44 • RAGの利用により、大きく事実性の能力は向上する • 簡単なRAGだとまだ25%ほどのケースでハルシネーションを起こす retrieval、LLM双方に改善の余地がある