特徴 メリット デメリット 適したユースケース 自 動 評 価 k アルゴリズムやメトリクスによる評 k BERT Score、F1、ROUGEなどの指標 を使 k 組み込みまたはカスタムデータセットで 実行 k 高速で大量データを処理可| k コスト効率が高w k 一貫性があ k 再現性が高w k 客観的な数値指標が得られる k 意味的なニュアンスの理解に限 界があ k 創造性や有用性などの主観的側 面を評価しにくw k 評価指標が実際のユーザー満足 度と必ずしも一致しない k 大規模な初期スクリーニンÙ k モデル間の客観的比Ï k 継続的な性能モニタÐ k 定量的ベンチマーク 人 間 評 価 k 実際の人間が回答を評 k 二択(親指上げ/下げ)や5段階評価なÃ k 複数の評価者の意見を集約 k 微妙なニュアンスや文脈を理解でき k 主観的品質(有用性、創造性など) を評価でき k 実際のユーザー体験を反映 k 時間とコストがかか k スケーリングが困 k 評価者によるバイアスが入りう k 評価者間で一貫性を保つのが難 しい k 重要な意思決定前の最終評 k ユーザー体験の質的評 k 創造的コンテンツの評 k エッジケースの特定 L L M 評 価 k 他のLLMを評価者として使 k 特定の評価基準に基づいて判断 k 人間よりも高速で安 k 自動評価よりも意味理解が優れてい k 詳細なフィードバックを提供でき k 場合により人間より専門的な知識で 評価できる k 評価LLM自体のバイアスや限界 があ k 人間の直感や感覚を完全に模倣 できない k 中規模から大規模の評 k 人間評価の前段階でのフィ ルタリンÙ k 説明可能な評価が必要な場6 k 専門的コンテンツの評価