各サンプルを個別に評価するため基準のみ参照(Sample-wise evaluation paradigm) ◦ Promptのわずかな変更が評価結果に⼤きく影響 → ✘ Promptに対する頑健性 ◦ サンプル間の⽐較がないため, 評価スコアは識別性に⽋け不均⼀な分布に→ ✘ノイズに対する頑健性 • 提案⼿法(BatchEval) ◦ ⼈間評価を模倣して, 基準定義に基づいてサンプルを分析し, 「サンプル間の⽐較」を通じて識別スコ アを算出(Batch-wise evaluation paradigm)