Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMに評価を任せるということ

Avatar for S.Masui S.Masui
January 28, 2026
360

 LLMに評価を任せるということ

2026/01/28 Findy Hello LT world『2026年これやる宣言!書き初め LT Night』 登壇資料

Avatar for S.Masui

S.Masui

January 28, 2026
Tweet

Transcript

  1. 解決策としてのLLM-as-a-Judge LLMを評価者として使う 特性 効果 スケーラブル 大量の出力を短時間で評価 一貫性 同じ基準で繰り返し評価できる(ように見える) 高速な実験ループ 設定変更

    → 評価 → 改善のサイクルが回る 研究によって、LLMによる評価結果と人間の評価結果には高い相関があると報告 されている (例:MT-Bench、AlpacaEval) 4