[みん強]AIの価値を最大化するデータ基盤戦略：Self-Service型Data Meshへの転換とAgentic AI Meshに向けた取り組み with Snowflake他

AIの価値を最⼤化するデータ基盤戦略： Self-Service型Data Meshへの転換と Agentic AI Meshに向けた取り組み with Snowflake他

Business Profile 松原侑哉 Matsubara Yuya 株式会社NTTドコモ R&Dイノベーション本部サービスイノベーション部ビッグデータ基盤兼
ネットワーク本部ネットワーク部技術企画部⾨ Principal Data Engineer 2 社外：OSS・SaaSコミュニティの運営他

Executive Summary • ネットワーク領域を中⼼とするデータ基盤を従来の中央集権的なData Warehouseから⾮中央集権的なData Mesh構成へと変⾰中央集権型から⾃律分散型への変⾰ Data
Mesh＆Data Product Agentic AI時代を⾒据えた準備 Agentic AI Mesh • 既存のData Managementの課題を踏まえた AI AgentをData Productとして管理中央集権では流通していなかったデータの流通 • ツール/成果物の分析結果データ • ビジネスメタデータが揃った⾼品質なデータ etc. データ活⽤意識の向上/意識改⾰ • データへの責任感 • ⼀⼈⼀⼈のデータの価値の再確認 etc. 次世代/AIによるデータ活⽤への⼟台構築 3

On-premises Public Cloud Multi Cloud SaaS • Netezza ・ Greenplumを社
屋内に構築 • 保守運⽤を社員が実施 • Amazon Web Serviceを採⽤ • AWS Redshiftを Data Warehouse として導⼊コンシューマ通信関連 • Google Cloudを追加で採⽤ • Google Cloud BigQueryを Redshiftと並⾏して利⽤する形で導⼊スマートライフ・法⼈関連データ流通・分析基盤各種規制・法律に対応するため、社内には代表的なデータ基盤が２つ存在双⽅ともSnowflake ⼗数PBクラスのデータと計数万弱のテーブル/ビューを提供共有 • Snowflakeを採⽤ • AWS RedshiftとGC BigQueryの利⽤を停⽌ • Databricksをデータ処理領域に採⽤ 2014 2020 2024 データ SaaSの活⽤ Snowflakeを中⼼とし数千のテーブル/ビューを提供 ※規制・法律により流通データを制限 4

Data Catalog Data Marketplace Governance 中央集権型 Data Warehouse SaaS導⼊当初は引き続き中央集権型のData
Warehouse及び中央運⽤チームによるデータ処理・提供を実施データの増加・データ活⽤の増加が続く 5

中央集権型の基盤ではデータを⽣成する事業部⾨とデータを処理する中央チーム、そしてデータを利⽤する部⾨が分断されておりデータを⽣成する側はデータ品質に対する責任感（オーナーシップ）が⽋如しがちである中央チームは全社からの依頼を抱えるためバックログが膨れ上がり、中央チームそのものが組織のボトルネックとなる往々にしてデータ品質やデータ活⽤速度低下の責任を負うのは中央チームである中央集権の限界データを⽣成する側は「基盤にデータを流し込めば終わり」と考え、そのデータの使い勝⼿（データ形式
/ メタデータ整備他）を疎かになり、中央チームはそのデータのクレンジングに時間を浪費データのオーナーシップの不在とデータ品質の低下ビジネスコンテキストの喪失組織的なボトルネックとアジリティの低下新しいデータ分析の要件や AIモデルの構築が必要になった際、すべてのリクエストが中央チームに集中し、データチームそのものが組織のボトルネック化中央チームはデータのドメイン知識を保有しておらず、ドメインに適したデータ処理が困難であり、結果提供されるデータはどの部⾨にとっても使い勝⼿の悪いデータに 6 AI活⽤において死活問題

⾃律分散型 Data Mesh Open Table Format ・ Signed URL 形式に制限なく流通
• 構造化データ • 半構造化データ • ⾮構造化データ • セマンティックモデル • ベクトル • AI/MLモデル etc. アクセス権の流通データのコピーによるストレージコストの増加や Unload/Loadによるデータ鮮度の低下を防⽌ Domain Data Catalog Data Marketplace Governance 7

8 Domain Project Team Data Product Listing Listing Access External
Iceberg Table from Snowflake Domain Domain External Env, Service ⾃律分散型 Data Mesh

中央集権型⾃律分散型 Domain Data Catalog Data Marketplace Governance Data Catalog
Data Marketplace Governance Ownership 1 2 3 Data Product Self-Service 責任の明確化：データを⽣み出したDomainがデータの品質・管理・監督に責任を持つ品質の担保とパッケージ化：カタログと保証・問い合わせの窓⼝がセットとした製品としてデータを取り扱う相互流通：データオーナー⾃らがデータを Marketplaceに出品するデータのオーナーシップの不在とデータ品質の低下組織的なボトルネックとアジリティの低下ビジネスコンテキストの喪失 9

Marketplace流通: カタログ経由で「アクセス権」を流通。非移動共有: データの物理コピーを最小化し、鮮度を維持。⾃律分散型 Domain Data Catalog Data Marketplace
Governance Ownership 1 2 3 Data Product Self-Service 責任の明確化：データを⽣み出したDomainがデータの品質・管理・監督に責任を持つ品質の担保とパッケージ化：カタログと保証・問い合わせの窓⼝がセットとした製品としてデータを取り扱う相互流通：データオーナー⾃らがデータを Marketplaceに出品するデータの移動がないデータ活⽤アクセス権の流通データのコピーによるストレージコストの増加や Unload/Loadによるデータ鮮度の低下を防⽌結果の再出品による知⾒の統合分析結果の再流通分析結果が再びData ProductとしてMesh上に再出品されることで、組織を跨いだ知⾒の統合を実現 10

11 ドキュメント他データ情報 function 各種情報をテーブル化カタログ情報生成AIによるメタデータの出力結果の確認・修正 + 評価
データ利用者メタデータの確認・評価カタログ評価生成AI評価生成結果の評価を取り入れることにより • 不足ドキュメントの追加など継続的にアップデート可能データ利用者目線で理解しづらいメタデータの判別が可能 Data Owner メタデータの強化データ利⽤者が、流通するデータに関しては利⽤者ならではの知⾒を保有しているそれらの情報も共有・流通するため、利⽤者がメタデータを提案できる仕組みも整備

Center Of Excellence データが「組織全体で繋がる（相互運⽤性）」こと「安全である（信頼性）」ことを保証するための「共通ルール（規約）」を策定し、その規約にデータオーナーが準拠しているか監督を実施 • 相互運⽤性と標準化 • ルールの統⼀：⽇付、単位、命名規則など書式の統⼀
• 共通IDの設計：ドメイン横断でデータを結合するための共通IDの設計 • ⾔葉の定義の統⼀：部署間での⽤語定義の統⼀と解釈不⼀致の防⽌ • データプロダクトの品質と信頼性 • 品質の監視（SLO）：更新頻度や⽋損率など、データ品質の継続的な監視 • 窓⼝とマニュアル：問合わせ窓⼝の明確化と最新ドキュメントの維持 • 背景情報の付与：データの⽤途や背景（ビジネスメタデータ）の適切な付与 • セキュリティとコンプライアンス • ルール策定と監査：匿名化/最⼩アクセス権限のルール策定および監査 • セキュリティの⾃動化：⾃動マスキングなど、セキュリティポリシー適⽤の⾃動化 • 評価とエコシステムの活性化 • 利⽤状況の分析：データプロダクトの利⽤率や⼈気度の可視化 • 貢献度の評価：データ提供者の貢献度可視化とインセンティブ設計 • 効果測定（ROI）：データ活⽤によるビジネスインパクトの計測中央集権的な検閲官ではなく⾃動化・⾃律を⽀援するイネーブラー 12 • 現場の変⾰実践的なサポート：⽀社に対するFDEスタイルのハンズオン⽀援イノベーションの促進：ハッカソンやワークショップを通じた変⾰の推進基盤アセットの提供：過去の分析記録に基づいて、便利な「SKILL.md」や「セマンティックレイヤー」の作成と提供＋α データ・AI活⽤の推進最近社内の Forward Deployed Engineer化

Center Of Excellence データが「組織全体で繋がる（相互運⽤性）」こと「安全である（信頼性）」ことを保証するための「共通ルール（規約）」を策定し、その規約にデータオーナーが準拠しているか監督を実施 • 相互運⽤性と標準化 • ルールの統⼀：⽇付、単位、命名規則など書式の統⼀
• 共通IDの設計：ドメイン横断でデータを結合するための共通IDの設計 • ⾔葉の定義の統⼀：部署間での⽤語定義の統⼀と解釈不⼀致の防⽌ • データプロダクトの品質と信頼性 • 品質の監視（SLO）：更新頻度や⽋損率など、データ品質の継続的な監視 • 窓⼝とマニュアル：問合わせ窓⼝の明確化と最新ドキュメントの維持 • 背景情報の付与：データの⽤途や背景（ビジネスメタデータ）の適切な付与 • セキュリティとコンプライアンス • ルール策定と監査：匿名化/最⼩アクセス権限のルール策定および監査 • セキュリティの⾃動化：⾃動マスキングなど、セキュリティポリシー適⽤の⾃動化 • 評価とエコシステムの活性化 • 利⽤状況の分析：データプロダクトの利⽤率や⼈気度の可視化 • 貢献度の評価：データ提供者の貢献度可視化とインセンティブ設計 • 効果測定（ROI）：データ活⽤によるビジネスインパクトの計測中央集権的な検閲官ではなく⾃動化・⾃律を⽀援するイネーブラー 13 • 現場の変⾰実践的なサポート：⽀社に対するFDEスタイルの⽀援イノベーションの促進：ハッカソンやワークショップを通じた変⾰の推進基盤アセットの提供：過去の分析記録に基づいて、便利な「SKILL.md」や「セマンティックレイヤー」の作成と提供＋α データ・AI活⽤の推進最近社内の Forward Deployed Engineer化今までのように「活⽤の仕⽅を教える」・「ハンズオンをする」だけでは世の中の変化についていけない ※今までもついて⾏っているかは疑問ではあるが現場の泥臭い課題をリアルタイムに解決する「動くもの」を早く⾒せることで現場の業務削減に直接コミット

『 AIに “作業の指⽰書” ではなく、 “達成すべき⽬標“ だけを伝えるだけで⽬的が達成される世界にむけて』 14

AI AgentもData Productと定義 • 責任の明確化： Data Productには必ず「オーナー（責任者）」が存在するため、エージェント（含むskillsなどのAI Assets) も同様に、誰がその精度と運⽤を管理す
るのかを明確化 • ガバナンスの適⽤：データの利⽤規約やセキュリティ、プライバシー保護のルールをそのままエージェントの⾏動規範に反映することが可能 • 再利⽤性：特定の⽤途（例：発注管理エージェント）をプロダクトとして管理することで、社内の他の部署でも「部品」として再利⽤することが可能 Data Productの定義を拡張ダッシュボードやデータセットのように、⼈が中⾝を⾒て判断を下すための「受動的なものData Product」から、データをもとに⾃ら思考し次のアクションを提案・実⾏する「能動的なData Product」へ 15

AI-Native・Human-on-the-loopに向けて「⼈間を補助するツール」から、⾃律的に意思決定と実⾏を⾏う真の「Agentic AI」へと変わり、従来の「⼈間が事前に掃除する」から「AIが⽂脈を読み解きながらその場で解釈する」に進化する Ontology・knowledge Graphの整備 AIが「汚いデータ」から必要な情報を抽出するためには？ AIに「世界の解釈」を授ける「概念と概念の関係性」を定義することで、 AIはデータの「表⾯上の汚れ」に惑わされず
推論が可能 • 多義性の解消 • 未知のデータの解釈 • 推論のガイド • 点ではなく⾯による推論 • 汚いデータの⾃動クレンジングドメインを絞る：まずは「顧客対応」や「製造プロセス」など、特定の業務範囲に限定してその中の重要な概念と関係性を定義するボトムアップでAIに作らせる：既存の仕様書やマニュアルをAIに読み込ませ、「この業務における主要な概念図を抽出して」と指⽰し、⼈間はそれを修正する側に回る「世界の解釈」を授けることで AIは「共通⾔語」と「常識」を学び、「⽂脈」を頼りに正解にたどり着けるようになる How to 16

Agentic AI Mesh と Agentic AI Workflowに向けて • 複数エージェントの協調：「データ検索が得意なAgent」「コードを書くAgent」「コンプ
ライアンスをチェックするAgent」など、特化型の専⾨Agent同⼠がチームとして連携し複雑なタスクを実⾏ • ガバナンスとゼロトラスト・セキュリティ：「このエージェントは⼈事データへのアクセス権限（RBAC）を持っているか」「実⾏前に⼈間の承認（Human-in-the-loop）が必要か」といったルールを定義し、全エージェントの⾏動履歴を監査ログとして記録・監視（オブザーバビリティ） • エージェントのレジストリと発⾒可能性：組織内のどこにどんな能⼒を持ったAI Agentが存在するのかを Catalog化し、⼈間や他のAI Agentが発⾒・再利⽤複数の専⾨特化した「AI Agent」が網⽬（Mesh）のように繋がり互いに連携・協⼒して複雑なタスクを解決する（=Agentic AI） Agentic AI Mesh上のAI Agentは⾃律的にAgent/Data Catalogを検索し、ユーザーからの曖昧な指⽰のみでも必要なAI Agent・Dataを各ドメインから集め処理を完遂する Agentic AI Mesh AI Agent Multi Agent Routing Domain-specific Orchestrators AIガバナンス Agent to Agent(A2A)通信 17

Data Mesh：供給の⾃律中央集約的なデータウェアハウス（DWH）の限界を突破し、データの「鮮度」と「専⾨性」を担保 AIが中央のIT部⾨を介さず、必要なデータを直接、リアルタイムに取得できる Ontology：意味の地図定義表記ゆれやデータの不整合があっても、AIがこの「地図」を参照することで、データの真の意味を読み解き、論理的な推論を可能とする
Agentic AI Mesh：⾃動探索・実⾏⼈間が「どのデータをどう処理するか」を指⽰するのではなく、AIが⾃律的に「どのドメインのデータ/Agentが必要か」を判断し、⾃⼒で正解を探索・⽣成する Domain Domain Domain Data Product Marketplace Data Mesh Agentic AI Mesh AI Agent Multi Agent Routing Domain-specific Orchestrators データガバナンス AIガバナンス Agent to Agent(A2A)通信 MCP Server Ontology 特定の⼩さな課題に対して⼩規模に連携して動かし徐々に拡張拡⼤していく 1 2 3 組織的知性の循環・確⽴ 18

19 ⾃律分散型 Data Mesh とはいったところで、変化が早くすぐ陳腐化するため四苦⼋苦している「変化」に対応するには今まで以上の「Agility」が必要であり、⾝軽になる上でもSelf-Serviceを推進するのは現時点では悪くない選択であったと考えている

AIの価値を最⼤化するために AIに「質の⾼い情報」を届けられるよう、データの品質管理とカタログ化による知識の供給ラインを整備することが必要であるその上で、データの鮮度や安全性を保証するガバナンスを敷き、 AIが迷わず、かつ責任を持って動ける「信頼の⼟台」をアジャイルに築くことが不可⽋である p AIが⾃律的に動作する世界のためには、オントロジー他必要なデータが存在し、それらのデータもマネジメントする必要がある
p 良質なAI Agentを育てるためには、良質なData Productを⽤意する必要がある p Agentを「Data Product」とみなせば、「野良AI」を卒業し「資産」として正しく運⽤・スケールができると考えている 20

[みん強]AIの価値を最大化するデータ基盤戦略：Self-Service型Data Meshへ...

[みん強]AIの価値を最大化するデータ基盤戦略：Self-Service型Data Meshへの転換とAgentic AI Meshに向けた取り組み with Snowflake他

Matsubara

More Decks by Matsubara

Other Decks in Technology

Featured

Transcript

AIの価値を最⼤化するデータ基盤戦略： Self-Service型Data Meshへの転換と Agentic AI Meshに向けた取り組み with Snowflake他

Business Profile 松原侑哉 Matsubara Yuya 株式会社NTTドコモ R&Dイノベーション本部サービスイノベーション部ビッグデータ基盤兼

Executive Summary • ネットワーク領域を中⼼とするデータ基盤を従来の中央集権的なData Warehouseから⾮中央集権的なData Mesh構成へと変⾰中央集権型から⾃律分散型への変⾰ Data

On-premises Public Cloud Multi Cloud SaaS • Netezza ・ Greenplumを社

Data Catalog Data Marketplace Governance 中央集権型 Data Warehouse SaaS導⼊当初は引き続き中央集権型のData

⾃律分散型 Data Mesh Open Table Format ・ Signed URL 形式に制限なく流通

8 Domain Project Team Data Product Listing Listing Access External

中央集権型⾃律分散型 Domain Data Catalog Data Marketplace Governance Data Catalog

Marketplace流通: カタログ経由で「アクセス権」を流通。非移動共有: データの物理コピーを最小化し、鮮度を維持。⾃律分散型 Domain Data Catalog Data Marketplace

11 ドキュメント他データ情報 function 各種情報をテーブル化カタログ情報生成AIによるメタデータの出力結果の確認・修正 + 評価

『 AIに “作業の指⽰書” ではなく、 “達成すべき⽬標“ だけを伝えるだけで⽬的が達成される世界にむけて』 14

AI AgentもData Productと定義 • 責任の明確化： Data Productには必ず「オーナー（責任者）」が存在するため、エージェント（含むskillsなどのAI Assets) も同様に、誰がその精度と運⽤を管理す

Agentic AI Mesh と Agentic AI Workflowに向けて • 複数エージェントの協調：「データ検索が得意なAgent」「コードを書くAgent」「コンプ