Upgrade to Pro — share decks privately, control downloads, hide ads and more …

新規事業 toitta におけるAI 機能評価の話 / AI Feature Evaluati...

Avatar for pokutuna pokutuna
January 22, 2026

新規事業 toitta におけるAI 機能評価の話 / AI Feature Evaluation in toitta

新規事業「toitta」(インタビュー分析サービス)には複数の AI 機能があります。これらを「動く」プロトタイプレベルからリリースできる品質へ引き上げる過程で課題だったのが、プロダクトの期待を捉えた LLM 出力の評価整備です。まだ定番の方法がない中、評価にどう取り組んできたか、1年間の試行錯誤から得た知見を共有します。

Hatena Engineer Seminar #36 「プロダクトを支えるAI編」を26年1月22日にオンライン開催します #hatenatech - Hatena Developer Blog

Hatena Engineer Seminar #36 プロダクトを支えるAI編 - connpass

Avatar for pokutuna

pokutuna

January 22, 2026
Tweet

More Decks by pokutuna

Other Decks in Technology

Transcript

  1. id:pokutuna • よみ: ぽくつな • 現在: toitta の AI 周辺担当

    • 2013 新卒入社 ➡ Miiverse ➡ カクヨム ➡ 広告配信・データ基盤 ➡ 新規事業
  2. 今日話す 3 つの AI 機能 • 切片分類: 切片をクラスタ化 • クロスレポート:

    情報抽出・構造化 • ask toitta: 質問への回答・RAG
  3. クロスレポート • インタビューから情報を抽出・構造化 ◦ 質問リストを設定 → レポート生成 • LLM-as-a-Judge を導入

    ◦ DeepEval をランナーとして利用 ◦ 組み込み指標ではなくカスタム指標を定義して評価 ◦ 結果の JSON を保存・可視化
  4. カスタム指標の例 • Contains("内容") ◦ 期待する内容が含まれているか • Guideline("状態") ◦ 指示の状態を満たしているか •

    Groundedness(["文脈", ...]) ◦ 文脈(発話データ)に基づいた回答か • Length(min, max) ◦ 文字数が想定範囲内か (決定的)
  5. ask toitta • 蓄積したインタビューへの Q&A RAG • 品質を高めていくところに課題 • 多様な入力がありうる

    ◦ 「ユーザーが困っていることは?」 ◦ 「A と B でどちらが好まれている?」 ◦ 「解約を防ぐアイデアを提案して」
  6. アプローチ1: 入力をカテゴリ分類 ユーザーの入力を分類 👉 カテゴリごとに評価 • 評価を作りやすい • 範囲を絞って改善 •

    要求・優先度の調整にも ├─ 情報抽出 │ ├─ 話題の抽出 │ ├─ 発言有無 │ └─ 発話者特定 ├─ 整理 │ ├─ 要約 │ ├─ リスト化 │ └─ 時系列 ├─ 分析 │ ├─ 比較 │ ├─ 課題特定 │ ├─ 理由づけ │ └─ ユーザ属性分類 ├─ 提案 └─ メタ    ├─ 一般知識    └─ toitta の使い方
  7. アプローチ3: Promptfoo • 欲しい評価・機能があった ◦ 主に以下で評価 ▪ model-graded-closedqa: Y/N で答える

    ▪ llm-rubric: 基準に基づいてスコアを付ける ◦ セルフホストで安く運用しつつ共有 • AI で作業しやすい ◦ 評価のたたき台を作らせ調整 ◦ 合成データを探索する MCP で正解データを生成
  8. テストのような評価を書く 🤔 有用性スコアが 70 点以上? 🤔 コサイン類似度が 0.6 以上? ⭕

    「価格が高い」という内容を含む? ⭕ ユーザ A, B, C の発言を引用して回答して る? → 具体的で判断がしやすい評価をする
  9. スコアを刻まない 🤔 100点満点で評価 ⭕ Pass or Fail ⭕ 段階分けるなら 3~5

    段階 😊「よし、80点でリリースしよう」 🙄「78点の時は何をどうすればいいの?」
  10. 評価の評価をする • 評価がうまく評価できているか • 人間の評価とのすり合わせ ◦ 人間と LLM が同じスコアを付けるか ◦

    Cohen's kappa で比較 • 評価プロンプト自体もテストする ◦ 簡単: 意図したスコアになるかテスト
  11. まとめ • toitta の紹介 ◦ AI を活用したインタビュー分析サービス • なぜ評価が必要か ◦

    改善の道しるべにするため • AI 機能での評価とふりかえり ◦ 定性評価から LLM-as-a-Judge、評価データの生成へ • 評価のプラクティス ◦ 課題の発見 & 改善に繋がる評価をしよう