о すべての質問に回答できているか о 回答に有害な内容が含まれていないか о 回答に意図しないバイアスが発生していないか ⚫ 評価手法の選択肢 о 人間による評価 о BERTスコアやF1スコアなど従来の評価アルゴリズムによる評価 о LLMを審査員として活用する評価(LLM-as-a-Judge)
Amazon Bedrock Knowledge BasesのRAG評価機能はLLM-as-a-Judgeの手法を採用 о RAG評価は、4つのデータ(質問、模範解答、コンテキスト、回答)を組み合わせて評価 о ストアや生成モデルより、Indexingにコストをかけるべき о RAGをサクッとお試ししたいなら、現時点では以下の構成にしてみると良い о パース戦略:Foundation models as a parser => Claude 3.5 Sonnet v1 о チャンキング戦略:Hierarchicalチャンキング о ストア:Amazon Aurora Serverless v2 о 生成モデル:Claude 3 Haiku v1 まとめ