Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Text-to-SQLをAgentCoreで実現し、生成されるSQLの精度を定量的に評価する

 Text-to-SQLをAgentCoreで実現し、生成されるSQLの精度を定量的に評価する

Avatar for やくも

やくも

July 04, 2026

More Decks by やくも

Other Decks in Technology

Transcript

  1. やっていることの解説など • スキーマの検索・取得 • AgentCore Memoryの活用 • LLM as a

    judgeによるSQLの精度評価 • 実行計画の確認とSQLの修正(未実装(泣))
  2. ②AgentCore Memory使用・未使用の比較 1. 質問 2. スキーマ取得 3. SQLを生成 • 過去の正解例を知らない

    • 似た質問でも毎回ゼロから推論 1. 質問 2. Memory検索(類似の正解を取得) 3. スキーマ取得 4. SQLを生成 • 正解を手本に • JOINのパスやカラム選択の精度の向上 毎回推論して生成する Memoryを参照するのでどんどん 精度が向上する Memory 未使用 Memory 使用
  3. LLM as a judgeによるSQL評価について • LLM自身がLLMのアウトプットを評価する手法 • なぜLLM as a

    judge? • BIRDのようなベンチマークはオフライン評価 • 本番で稼働し、データが変わり続ける場合LLMを利用した方が 品質の担保がしやすかった • 本番導入前のオフラインでの検証では有用かもしれない • Ex)スキーマ検索の有無、Memoryの有無での精度比較など
  4. 採点モデルごとのプロンプト例 • Opus • SQLの正確性に関する深い検証 • テーブルやカラム、JOIN条件などの妥当性 • Sonnet •

    回答品質の評価 • 質問に対して的確に答えているか?わかりやすいか? • Haiku/Amazon Nova • 効率性のチェック • フルスキャン、冗長なJOINがないか
  5. なぜAgentCore Evaluationsじゃないのか 1. 非同期表示のため • 実行後、即座に、シームレスに評価を確認したい場合がある。 • Evaluationsは毎回CloudWatchを見る手間があり、表示にタイムラグもある。 2. GenAIダッシュボードを見る必要がある

    • 結果・評価の確認、実行計画の改善などを単一ダッシュボードで改善したかった 3. マルチモデル評価やコメント合成未対応 • マルチモデルによる評価は不可 • ビルトイン評価の場合、モデルそのものが不明(カスタムの場合指定可能)