カンタン だけど落とし穴もある 審査員 LLM におけるバイアス問題 (Zheng+’23) 第三者ライブラリと現場業務の性能要求ギャップ 位置 バイアス 自己選好 バイアス 具体性 バイアス 冗長性 バイアス 同じ選択肢でも 先頭に位置する 候補を好む 同じ選択肢でも より長い候補 を好む 権威ある情報源の引用, 数値, 専門用語を含む回答を好む 審査員と同一のモデルが生成した回答を好む LLMは pplx が低い出力に対して有意に高い評価を与える (Wataoka+’24) 第三者ライブラリは汎用性を目指して判定基準を採用している 必ずしも現場業務で正しく稼働するとは限らない → 汎用的な有用性 と 業務での有用性 は異なる ため、業務で使うには指示が曖昧すぎる Zheng+’23 - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS) Gu+’25 - A Survey on LLM-as-a-Judge Given question, answer and context verify if the context was in arriving at the given answer. Give verdict as "1" if and "0" if not with json output. useful useful e.g. Ragas - Context Precision 指示文 LLM でコンテンツを審査するのは簡単に実装できる。 実装したものを現場業務に適用させるのにはものすごい労力が必要。