Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon Bedrock LLM as a Judgeを試す

Amazon Bedrock LLM as a Judgeを試す

【AWS活用 AI/ML/LLM #7】機械学習/大規模言語モデルの実装と運用
https://blueish.connpass.com/event/348779/

ttnyt8701

March 26, 2025
Tweet

More Decks by ttnyt8701

Other Decks in Programming

Transcript

  1. 1 News 2 Amazon Bedrock Evaluationとは? 3 評価の説明 4 ハンズオン:

    RAGの検索と生成を評価 5 まとめ ©BLUEISH 2025. All rights reserved.
  2. ©BLUEISH 2025. All rights reserved. 2025-03-20 Amazon Bedrock EvaluationにLLM-as-a-judgeが一般提供開始
 正式サポートされたことで、本番環境でも安定運用



    新機能追加
 Bedrock上でモデル・RAGだけではなく、外部で推論された結果を渡すことで、外部 のモデルやRAGを評価することができるようになり柔軟性が向上 News
  3. Amazon Bedrock Evaluationとは? ©BLUEISH 2025. All rights reserved. モデルの評Y e

    自動評S e 人間による評S e LLMによる評価 
 RAGの評Y e LLMによる評価
  4. 比較 ©BLUEISH 2025. All rights reserved. 評 価 手 法

    特徴 メリット デメリット 適したユースケース 自 動 評 価 k アルゴリズムやメトリクスによる評† k BERT Score、F1、ROUGEなどの指標 を使€ k 組み込みまたはカスタムデータセットで 実行 k 高速で大量データを処理可| k コスト効率が高w k 一貫性があŽ k 再現性が高w k 客観的な数値指標が得られる k 意味的なニュアンスの理解に限 界があŽ k 創造性や有用性などの主観的側 面を評価しにくw k 評価指標が実際のユーザー満足 度と必ずしも一致しない k 大規模な初期スクリーニンÙ k モデル間の客観的比Ï k 継続的な性能モニタÐ k 定量的ベンチマーク 人 間 評 価 k 実際の人間が回答を評† k 二択(親指上げ/下げ)や5段階評価なà k 複数の評価者の意見を集約 k 微妙なニュアンスや文脈を理解できŽ k 主観的品質(有用性、創造性など) を評価できŽ k 実際のユーザー体験を反映 k 時間とコストがかかŽ k スケーリングが困™ k 評価者によるバイアスが入りう Ž k 評価者間で一貫性を保つのが難 しい k 重要な意思決定前の最終評† k ユーザー体験の質的評† k 創造的コンテンツの評† k エッジケースの特定 L L M 評 価 k 他のLLMを評価者として使€ k 特定の評価基準に基づいて判断 k 人間よりも高速で安† k 自動評価よりも意味理解が優れていŽ k 詳細なフィードバックを提供できŽ k 場合により人間より専門的な知識で 評価できる k 評価LLM自体のバイアスや限界 があŽ k 人間の直感や感覚を完全に模倣 できない k 中規模から大規模の評† k 人間評価の前段階でのフィ ルタリンÙ k 説明可能な評価が必要な場6 k 専門的コンテンツの評価
  5. RAGの評価 評価の作成 1. 評価者モデル → 評価を行うモデR Ad 推論ソース → Bedrock

    ナレッジベースを評b 0d 評価タイプ → 検索と応答の両方を評価す d レスポンスジェネレータモデル → 推論を行うモデルで 評価対象者