Text-to-SQLをAgentCoreで実現し、生成されるSQLの精度を定量的に評価する

AgentCoreを利用したText-to-SQLと精度評価八雲慎之助/Shinnosuke Yakumo 2026/7/4 JAWS-UG ミート 2026

八雲慎之助（やくもしんのすけ） • 所属：株式会社クレスコ / JAWS-UG 新潟支部 • 業務：R&D(AI分野)
• AWS Community Builder – AI Engineering • 2025 Japan AWS Jr.Champions Who am I

AgentCore 使ってますか？

Text-to-SQLはやったことありますか？

Text-to-SQLって？？ • 自然言語の質問をSQLクエリに変換する • NL2SQLとかあるけどほぼ同じ • 難しい構文を理解しなくても良いので、知識がなくても必要なデータの取得が可能になる。

ざっくりなイメージ（従来のSQL） SQLカキカキ〜

ざっくりなイメージ（Text-to-SQL） SQLカキカキ〜 LLMにSQLを考えさせて実行

Text-to-SQLの課題や弱点 • LLMに生成させるのでハルシネーションは起こりうる • 場合によってはレイテンシーが大きくなる • 生成されたSQLの精度が評価しづらい

導入の背景やメリット • アプリ部門にいた時代、SQLによる分析や実行計画からの改善の負担が大きかった • 職人気質な分野だが若手が任されやすい • 本来の開発に時間をかけたいので、LLMを使えるなら活用して時間を短縮したい！

AWSでの構築方法 https://speakerdeck.com/yakumo/bedrockde

Bedrock Agentsさん…（7/30より新規利用停止） https://aws.amazon.com/about-aws/whats-new/2026/06/aws-service-availability/

AgentCoreで実装するとこんな感じになりました

動作イメージ（次のスライド）

AgentCoreで実装するとこんな感じになりました評価+ダッシュボード表示スキーマ検索+SQL実行

やっていることの解説など • スキーマの検索・取得 • AgentCore Memoryの活用 • LLM as a
judgeによるSQLの精度評価 • 実行計画の確認とSQLの修正（未実装（泣））

①スキーマの取得全テーブルを参照すると、SQL生成時のコンテキストが爆発するデータストアこんな感じでヨロデータ探すの大変なんですけど…

①スキーマの取得エージェントが効率的にSQLを書くために、どのテーブル・カラムを使えばいいかを判断する →コストの削減(トークンベースで1/10)、精度向上、レスポンス短縮

①スキーマの取得スキーマ検索+SQL実行 • レイテンシと精度はトレードオフ • 数テーブルしかないのであれば、不要な処理となる • テーブル数が膨大で、LLMの負担を減らしたいのであれば効果的な処理となります。

②AgentCore Memoryの活用 1. ユーザーの質問をメモリに保存 2. 類似の過去事例を取得 3. 参考にSQLを生成

②AgentCore Memory使用・未使用の比較 1. 質問 2. スキーマ取得 3. SQLを生成 • 過去の正解例を知らない
• 似た質問でも毎回ゼロから推論 1. 質問 2. Memory検索（類似の正解を取得） 3. スキーマ取得 4. SQLを生成 • 正解を手本に • JOINのパスやカラム選択の精度の向上毎回推論して生成する Memoryを参照するのでどんどん精度が向上する Memory 未使用 Memory 使用

LLM as a judgeによるSQL評価について • LLM自身がLLMのアウトプットを評価する手法 • なぜLLM as a
judge？ • BIRDのようなベンチマークはオフライン評価 • 本番で稼働し、データが変わり続ける場合LLMを利用した方が品質の担保がしやすかった • 本番導入前のオフラインでの検証では有用かもしれない • Ex)スキーマ検索の有無、Memoryの有無での精度比較など

マルチモデルによる採点を実施 • 単一モデルによる偏りを防ぐため、3つのモデルで採点質問＋SQL＋応答異なるモデル、異なるプロンプトで並列評価最終スコアを表示

採点モデルごとのプロンプト例 • Opus • SQLの正確性に関する深い検証 • テーブルやカラム、JOIN条件などの妥当性 • Sonnet •
回答品質の評価 • 質問に対して的確に答えているか？わかりやすいか？ • Haiku/Amazon Nova • 効率性のチェック • フルスキャン、冗長なJOINがないか

AgentCore Evaluationsについて • AgentCoreで実装しているなら、組み込み機能のEvaluationsを使えばいいのでは？？ →実はAgentCore Evaluationsもオンライン評価に対応しているので、技術的には可能です。 • ですが今回はユーザー体験が良い方を優先しました。

なぜAgentCore Evaluationsじゃないのか 1. 非同期表示のため • 実行後、即座に、シームレスに評価を確認したい場合がある。 • Evaluationsは毎回CloudWatchを見る手間があり、表示にタイムラグもある。 2. GenAIダッシュボードを見る必要がある
• 結果・評価の確認、実行計画の改善などを単一ダッシュボードで改善したかった 3. マルチモデル評価やコメント合成未対応 • マルチモデルによる評価は不可 • ビルトイン評価の場合、モデルそのものが不明（カスタムの場合指定可能）

さいご • LLMを利用したSQL生成により、初学者・新規参画者の湿気がグッと下がることを実感 • AgentCoreに縛られず、要件や現場に適した実装や技術選定のの重要さを改めて理解 • 実行計画の改善機能が残っているので、早めに実装する

Text-to-SQLをAgentCoreで実現し、生成されるSQLの精度を定量的に評価する

Text-to-SQLをAgentCoreで実現し、生成されるSQLの精度を定量的に評価する

やくも

More Decks by やくも

Other Decks in Technology

Featured

Transcript

AgentCoreを利用したText-to-SQLと精度評価八雲慎之助/Shinnosuke Yakumo 2026/7/4 JAWS-UG ミート 2026

八雲慎之助（やくもしんのすけ） • 所属：株式会社クレスコ / JAWS-UG 新潟支部 • 業務：R&D(AI分野)

AgentCore 使ってますか？

Text-to-SQLはやったことありますか？

Text-to-SQLって？？ • 自然言語の質問をSQLクエリに変換する • NL2SQLとかあるけどほぼ同じ • 難しい構文を理解しなくても良いので、知識がなくても必要なデータの取得が可能になる。

ざっくりなイメージ（従来のSQL） SQLカキカキ〜

ざっくりなイメージ（Text-to-SQL） SQLカキカキ〜 LLMにSQLを考えさせて実行

Text-to-SQLの課題や弱点 • LLMに生成させるのでハルシネーションは起こりうる • 場合によってはレイテンシーが大きくなる • 生成されたSQLの精度が評価しづらい

AWSでの構築方法 https://speakerdeck.com/yakumo/bedrockde

Bedrock Agentsさん…（7/30より新規利用停止） https://aws.amazon.com/about-aws/whats-new/2026/06/aws-service-availability/

AgentCoreで実装するとこんな感じになりました

動作イメージ（次のスライド）

AgentCoreで実装するとこんな感じになりました評価+ダッシュボード表示スキーマ検索+SQL実行

やっていることの解説など • スキーマの検索・取得 • AgentCore Memoryの活用 • LLM as a

①スキーマの取得全テーブルを参照すると、SQL生成時のコンテキストが爆発するデータストアこんな感じでヨロデータ探すの大変なんですけど…

①スキーマの取得エージェントが効率的にSQLを書くために、どのテーブル・カラムを使えばいいかを判断する →コストの削減(トークンベースで1/10)、精度向上、レスポンス短縮

①スキーマの取得スキーマ検索+SQL実行 • レイテンシと精度はトレードオフ • 数テーブルしかないのであれば、不要な処理となる • テーブル数が膨大で、LLMの負担を減らしたいのであれば効果的な処理となります。

②AgentCore Memoryの活用 1. ユーザーの質問をメモリに保存 2. 類似の過去事例を取得 3. 参考にSQLを生成

②AgentCore Memory使用・未使用の比較 1. 質問 2. スキーマ取得 3. SQLを生成 • 過去の正解例を知らない

LLM as a judgeによるSQL評価について • LLM自身がLLMのアウトプットを評価する手法 • なぜLLM as a

マルチモデルによる採点を実施 • 単一モデルによる偏りを防ぐため、3つのモデルで採点質問＋SQL＋応答異なるモデル、異なるプロンプトで並列評価最終スコアを表示

採点モデルごとのプロンプト例 • Opus • SQLの正確性に関する深い検証 • テーブルやカラム、JOIN条件などの妥当性 • Sonnet •