Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI エージェントと考え直すデータ基盤

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.
Avatar for na0 na0
July 11, 2025

AI エージェントと考え直すデータ基盤

Avatar for na0

na0

July 11, 2025
Tweet

More Decks by na0

Other Decks in Technology

Transcript

  1. 3 Agent Engineer / Mercari BI Product Google Developer Expert

    (Google Cloud) Naofumi Yamada @na0fu3y
  2. 4 会話を通して利用者のデータ分析を支援。 メルカリにおけるデータアナリティク ス AI エージェント「Socrates」と ADK 活⽤事例 で解説。 メルカリのデータ分析

    AI エージェント Socrates の概要 ⼈ Socrates BigQuery 権限管理 エージェント 会話を通じた データ分析 Python エージェント ツール 使⽤ 依頼 応答 依頼 応答 応答
  3. 5 Socrates の主要機能 ⾒出し 実⾏ 準備 • 分析要求の理解 / 具体化

    • 関連データ / ドキュメント の提案と探索 • 仮説提案 • BigQuery クエリの⽣成 / 実⾏ • Python コードによる⾼度 な加⼯ / 分析 / 可視化 • 結果の解釈と洞察の提⽰ • レポート⾃動⽣成⽀援 活⽤
  4. 6 「AI エージェント=LLM + Context」を分解して改善する AI エージェント改善のために何ができるか カテゴリ 構成要素 改善の例

    LLM LLM • ⽤途に対する応答品質の⾼いモデルに切り替える Context ツール (今⽇はここ!) • ツールの名前、説明、引数、返り値、エラーを分かりやすくする • ツールの接続する先の説明性を⾼め、汚染度合を下げる Context システムメッセージ • 利⽤者全体で使える知識をまとめる • 階層化して、チーム単位で使える知識をまとめる • エージェントを分離して困難を分割する Context ユーザメッセージ • 利⽤者のプロンプトエンジニアリング⼒を鍛える Context ⻑期記憶 • 知識の選択、圧縮
  5. 7 Socrates はデータ分析エージェントであり、データ基盤との対話が重要 Socrates の代表的なツール ツール やること データ検索 • データカタログ

    / 社内ドキュメント / ⻑期記憶から検索 • 各データをランク付けして、おすすめのデータを提案 データ定義取得 • テーブル / 列の description、サンプルレコード、サンプルクエリを取得 クエリ実⾏ • クエリ実⾏ • ⾼コスト / ⾼リスクなクエリを拒否
  6. 8 A. 新⼊社員が使えない状態だから。データ基盤の多くは暗黙知と併せて使うこ とが前提になっており、知識なしには AI エージェントも上⼿く扱えない。 AI エージェントがなぜデータ基盤をうまく使えないのか? 課題 具体的な例

    コンテキストの⽋如 • 列名だけではビジネス上の意味が不明(例:status = 3 とは?) 発⾒の困難さ • 膨⼤なテーブルの中から探すのは困難(例:売上データはどこ?) 信頼性の不明瞭さ • どのデータが公式で、どれがテスト⽤か区別がつかない
  7. 9 AI エージェントが⾃律的にデータを活⽤できる理想的なデータ基盤の要素 Agent-Ready なデータ基盤とは? 要素 ⽬的と優先順位 おすすめの格納場所 理解可能性 •

    データの意味と使い⽅を正確に理解できる • P1:⼀番⼤事! • テーブル名 • データセット / プロジェクト名 • BigQuery テーブル / 列 description 発⾒可能性 • ⽬的に対応するデータを⾒つけられる • P2:まあまあ⼤事! • Vertex AI RAG Engine • システム / ユーザメッセージ • BigQuery Universal Catalog 信頼性 • データの正確性と注意すべき点を伝える • P3:初期リリース後に頑張る • Vertex AI RAG Engine • BigQuery Universal Catalog • BigQuery テーブルラベル / タグ
  8. 10 Socrates のためのデータ基盤整備を以下のような順序で実施 Agent-Ready なデータ基盤の実装例 Step 理解可能性 発⾒可能性 信頼性 ⽬標とする⽔準

    取り組みの例 i. Lv. 1 Lv. 1 Lv. 2 限定範囲内で正しく Basic Tables ii. Lv. 1 Lv. 2 Lv. 1 全域でそこそこ正しく Socratic Data Catalog iii. Lv. 1 Lv. 2 Lv. 2 正しさレベルを管理できる データ認証制度 iv. Lv. 2 Lv. 3 Lv. 3 多くの範囲内で正しく分析 プロンプト調整サイクル
  9. 11 i. 理解可能性の実装例:Basic Tables • 新入社員、 AI エージェントから使いやすい高品質データ ◦ 特徴

    ▪ 理解しやすいビジネスイベントテーブル( items、users など) ▪ JOIN 不要で、一般的な分析をサポートする One Big Table ▪ CI で強制された徹底的な description ◦ 詳しくは メルカリの効率的なデータ活用を支えるデータインタフェース Basic Tables|Mercari Analytics Blog • Socrates PoC は Basic Tables に限定し、高い理解可能性を確保
  10. 12 ii. 発⾒可能性の実装例:Socratic Data Catalog • BigQuery ML を使って自動生成したデータカタログ ◦

    入力データ ▪ テーブルを参照するクエリの大量のサンプル ▪ INFORMATION_SCHEMA.TABLES.DDL ◦ 出力ドキュメント ▪ テーブル概要 ▪ 用途 ▪ サンプルクエリ ▪ 関連テーブル ▪ 注意点 • Socrates の参照可能範囲を全テーブルに拡大し、発見可能性を高める
  11. 13 iii. 信頼性の実装例:データ認証制度 • 「Socrates が十分正確に分析できるデータ」に Verified ラベルを付与 ◦ Basic

    Tables が Socrates 最初の Verified テーブル ◦ LLM as a Judge による Verified ラベルの自動調整弁も実装可能か • Socrates による Verified ラベル活用 ◦ ラベルのあるデータは優先的に利用 ▪ ラベルがあってもリスクの高い用途では人間レビューを案内 ◦ ラベルのないデータは必要な時のみ、注意喚起付きで利用
  12. 14 iv. 理解可能性の実装例:プロンプト調整サイクル • システムプロンプトを分解して階層化 ◦ 共通プロンプト:組織全体で共通する Socrates の振る舞いを規定 ▪

    言語設定 ▪ 大まかな仕事内容 ▪ ハルシネーション抑制 ▪ 一般的な用語 / 対応するクエリ ◦ チームプロンプト:チームや個人でよく使うデータの説明を補強 ▪ チーム固有の用語 / 対応するクエリ ▪ チーム固有の仕事内容 ▪ 人格 • よくできているチームプロンプトを見つけたら ◦ 共通プロンプトに集約 ◦ テーブル / 列 description の加筆依頼
  13. 15 残された⼈間の役割は...? • データ基盤改善≒「暗黙知→形式知」の実施 ◦ 各データドメインでデータ品質とメタデータに責任を持つ⼈を任命 し、データ利⽤者と開発者、AI の橋渡しを担う • 「暗黙知→形式知」のインセンティブ設計

    ◦ 「暗黙知→形式知」は組織の Agent-Ready な状態をつくる上で必須 ◦ ⼀⽅で「暗黙知」のままの⽅が個⼈のジョブセキュリティ上は得 • Socrates / AI エージェントがまだできない仕事
  14. 16 今⽇のまとめ • データ分析 AI エージェントの品質は、データ基盤の品質に依存 • Agent-Ready なデータ基盤を⽬指しましょう ◦

    発⾒可能性&理解可能性&信頼性 • Agent-Ready なデータ基盤に向けた取り組みの例 ◦ Basic Tables ◦ Socratic Data Catalog • 成功の鍵は「暗黙知→形式知」 ◦ インセンティブ設計忘れずに!