AI時代に必要なデータプラットフォームの要件とは by @Kazaneya_PR / 20251107

AI時代に必要なデータプラットフォームの要件とは 2025-11-07 DataTech 2025 特別講演株式会社風音屋横山翔（Sho Yokoyama） @yuzutas0

っで、でCMで。

データエンジニア・データコンサルタント採用中 Speakerdeck公開版

データエンジニア募集の採用広告 8

の漫画広告、私生成AIで作りま 9

デベロッパー採用の漫画広告とて（極一部で）話題に！ 10 （というとで）AI時代にるデータプラットフォームの話を始めま →

1. はめに

注意事項 1. 本資料は許諾範囲内でのみ利用い。無断転載ならびに複写を禁ま。 2. 本資料に記載
れている会社名・製品名などは、一般に各社の登録商標まは商標、商品名で。資料内では ©, ®, ™ マーク等は省略ていいてりま。 3. 本資料は特定企業の情報公開や称賛・批判を意図るものではありまん。社名提示れていないケーススタディやシステム構成は、原則的に複数企業の事例を踏まえダミー情報となりま。 4. 説明を簡略化るめに、用語やツールの紹介は厳密な定義に則っていない場合ありま。自身や所属チームでの理解・解釈紹介内容と異なる場合は、適宜読み替えていると幸いで。 12

生成AIの活用進ま、期待を超える成果には繋っていない 13 PwCコンサルティング「生成AIに関る実態調査2024 春米国との比較」 https://www.pwc.com/jp/ja/knowledge/thoughtleadership/generative-ai-survey2024-us-comparison.html

生成AIの活用効果「期待以上」となる要因の2位は日米ともに「データ品質」 14 PwCコンサルティング「生成AIに関る実態調査2024 春米国との比較」 https://www.pwc.com/jp/ja/knowledge/thoughtleadership/generative-ai-survey2024-us-comparison.html

データの質・量不十分日本国内686社の調査で、データ活用の課題2位とて「質・量を備えデータの取得」挙られている。 NEDO（2019）「産業分野にる人工知能及びの内の機械学習の活用状況及び人工知能技術の安全性に関
る調査」ならびに https://ainow.ai/2020/07/05/224999/ 15

データのサイロ化（分断）アジア太平洋よび欧州中近東の企業調査にて、テクノロジー部門の上級意思決定者670人中73% 、データのサイロ化によって「必要とるデータを提供でていない」「目標を達成でていない」と回答。 Oracle Corporation
(2020) “Moving the Needle: Data Management for the Multi-Hybrid Age of IT” ならびに https://prtimes.jp/main/html/rd/p/000000003.000057729.html 16

ニーズの高まりにより、データマネジメント国家資格へ 17 https://www.nikkei.com/article/DGXZQOUA219D40R20C25A5000000/ https://xtech.nikkei.com/atcl/nxt/column/18/00001/10716/

本講演の題 AI活用盛んになるにつれ、データプラットフォームに求められる要件は刻々と変化ていま。んな中、レガシーなプラットフォームを刷新ようにもどら着手べ
分らない、ま実際に刷新ても保守運用うま回ら使い物にならないなど、ままな課題に直面ている企業も多いとでょう。で本講演では、企業のデータ基盤システム構築ら保守運用までを支援てり、「ゆ」とてブログやSNSなどでの情報発信も行っている横山氏、「AI時代に必要となるデータプラットフォームの要件」をテーマに講演。データプラットフォーム刷新にいてIT部門直面な課題を洗い出なら、AI 台頭ている今、プラットフォームを再構築る際に押えるべポイントやアーキテクチャの要件などを解説ま。 18

本講演のスコープ　　　　　　　　　　　　　　　　　　　　　󰢏 対象　　　　　　　　　　　　　　　　　　　　　　　 • 「どら刷新る」「刷新データ基盤現場で使われない」の解説
◦ 2010年代のプラクティス通用る（＝風音屋のクライアントなら既に解決ている）部分 ◦ 新規性ないので前半で片付ま • 「2010年代の代表的なデータ基盤」と「2025年の生成AI時代のデータ基盤」との差分 ◦ ソリューション日々変わるので、現在地と主要論点をピックアップて解説ま　　　　　　　　　　　　　　　　　　　　　󰢄 対象外　　　　　　　　　　　　　　　　　　　　　　 • 「データ基盤とは何？」「データ基盤で使われる技術とは？」といっ基礎的な講義 • も知識不足と感ら、風音屋や@yuzutas0の書籍や過去スライドをひ読んでい！ 19

まソリューション揃っていない点に注意 20

本日のタイムスケジュール開始目安所要時間アジェンダ ① 13:00 3分はめに ②
13:03 3分自己紹介 ③ 13:06 3分データ活用の事例 ④ 13:09 3分レガシーなプラットフォームを刷新ようにもどら着手べ【既知】 ⑤ 13:12 3分実際に刷新ても保守運用うま回ら使い物にならない問題【既知】 ⇒「ももニーズを満ているの」編 ⑥ 13:15 3分 ⇒「ももマジメに運用保守をているの」編 ⑦ 13:18 3分「横断的なデータ基盤」と「個々のAIツール」の関係性は？ ⑧ 13:21 3分データ収集（狭義のETL処理）のアーキテクチャは生成AIで変わる？ ⑨ 13:24 3分データ加工のアーキテクチャは生成AIで変わる？（特に非構造化データ） ⑩ 13:27 3分メタデータ管理のアーキテクチャは生成AIで変わる？ ⑪ 13:30 3分開発・運用プロセスを支えるめのアーキテクチャは生成AIで変わる？ ⑫ 13:33 3分「業務システム」と「データ基盤」の関係性は生成AIで変わる？ ⑬ 13:36 3分わりに 21

2. 自己紹介

登壇者（カジュアル版）ゆ（@yuzutas0）リクルートやメルカリでデータ活用を推進後、AWSを経て、風音屋（ねや）を創業。独立行政法人情報処理推進機構（IPA）にて情報処理技術者試験委員を兼任。データ基盤やダッシュボードの構築について積極的に情報発信てり、主な著書・訳書に『実践的データ基盤への処方箋』『データマネジメント
30分でわる本』『アジャイルデータモデリング』ある。 1,800人参加るSlackコミュニティ datatech-jp、延べ参加者15,640人の勉強会 Data Engineering Study の立上に関わるなど、日本のデータエンジニアリング業界の発展をリードて。 23 Now Writing…

登壇者（詳細版）横山翔（@yuzutas0） • リクルートやメルカリにてデータ活用を推進後、AWSを経て独立、株式会社風音屋を創業 • 広告配信の最適化、店舗営業のインセンティブ改善など、データ分析によって数億円規模のインパクトを創出 •
独立行政法人情報処理推進機構（IPA）にて情報処理技術者試験委員を兼任（2025〜） • 東京大学経済学研究科金融教育研究センター特任研究員を兼任（2023〜2025）主な登壇・発表 • Pythonのカンファレンス「PyCon JP 2017」にてベストトークアワード優秀賞 • 翔泳社主催「Developers Summit 2018 Summer」にてベストスピーカー賞 • Google主催「Google Cloud Day」（‘21, ‘23）,「Google Cloud Next Tokyo」（‘23, ‘25） • 日本統計学会第16回春季集会主な執筆・翻訳・出版 • 講談社サイエンティフィク『アジャイルデータモデリング』 • 技術評論社『実践的データ基盤への処方箋』 • 技術評論社『Software Design 2020年7月号 - ログ分析特集』『同 2025年7月号 - SQL特集』 • 風音屋『データマネジメント 30分でわる本』 • 内閣府「経済分析第208号 - 景気動向分析の新な潮流」主なコミュニティ活動 • Google 認定る技術エキスパート「Google Cloud Champion Innovator / Google Developer Experts」に選出（2023〜） • 1,800人以上参加るSlackコミュニティ「datatech-jp」の立上・運営 • 延べ参加者15,640人以上の勉強会「Data Engineering Study」の立上・モデレーター（2020〜2025） • 国内最大規模の技術カンファレンス「Developers Summit」コンテンツ委員会（2022〜2026） 24

大手らスタートアップまで幅広いクライアント企業のデータ活用を支援るITコンサルティング企業。 100社のデータ経営を実現、諸産業の活性化に貢献るとをミッションとて掲ていま。
データエンジニア技術相談やノウハウ共有あう副業ギルドとて始まり、日本全国ら多数の相談・要望を受て法人化。ステークホルダーの皆様に協力いなら、会社組織とてアジャイルに成長てま。スタートアップCEO らの推薦コメント風音屋（ねや） 25 支援先（一部抜粋）　　　　 • ランサーズ株式会社 • エイベックス株式会社 • 株式会社クラシコム • 株式会社商船三井 • 株式会社ビズリーチ • NE株式会社 • 株式会社リクルート • 福岡地所株式会社 • 住友化学株式会社

データエンジニア＆ITコンサルタントを募集中！ 26

データエンジニアリングの書籍読み放題で！風音屋オフィス（Library） 27

風音屋提供るサービス 28 データ基盤構築データ分析

「Excelで学ぶデータマネジメント入門」研修＆風音屋データマネジメント検定 29 【研修実績】 • 全社研修：500名の社員にデータマネジメントの全体像と勘所をインプット • 新入社員研修：ゼミのレポートを題材とて、データ管理の
Do’s & Don’ts を学習 • IT部門研修：データ基盤の実践的なシステム構成例、開発・運用プロセスまで踏み込んで紹介【ポイント①】Excelファイルに例えならデータマネジメントの作法を解説 • 「Excelファイルで◯◯を工夫るのと同ように、本格的なITシステムでは〜」フォーマットで説明 • 業務部門とIT部門スムーズに連携でるように知識の橋渡を行う【ポイント②】理解度チェックテスト（風音屋データマネジメント検定）を活用柔軟な研修デザイン • 講義の前と後にテスト → 研修による学習効果を計測・評価 • 分割講義で都度テスト → 講義内容の理解をサポート • 満点獲得まで繰り返 → 講義内容の理解を徹底強制、セキュリティテストと同位置付に • 講義の後に単発テスト → 組織アセスメントや人事評価、配属検討に利用可能

採用文脈でオンライン講座を提供 30

累計260ページ・18万文字の超豪華な研修教材を読み、データ基盤構築のハンズオンを行いま。データ基盤構築のインプット＆ハンズオン 31

データエンジニアへの転職は無理なの！？ 32

3. データ活用の事例

横山や風音屋過去に発信事例 • テーブル数50程度の小規模WEBサービスで、ダッシュボードを含むデータ基盤を2時間で構築。 • 6人日ってい「売上の変動箇所の特定」を10分に短縮、ビジネスの変化を迅速に察知。
ビジネスにるデータ活用の事例（1/6） 35

横山や風音屋過去に発信事例 • 集客（マーケ）→営業（セールス）→CS（サクセス）を横断データ基盤を構築るとで個別最適化ら全体最適化に切り替えて利益を最大化
、いわゆるRevOpsを実現。2020年の記事。ビジネスにるデータ活用の事例（2/6） 36 https://yuzutas0.hatenablog.com/entry/2020/12/02/173000

横山や風音屋過去に紹介事例 • ビジョン達成の計測。「の事業 ◯人の生活を支えている」を上場企業の社長室モニターに投影。 • 各指標のモニタリング。売上、会員数、販売数、コンテンツ閲覧数、広告費、顧客対応時間など。 •
投資家向報告書やプレスリリースのめのファクトブック。集計データを再現可能な形で管理る。 • M&A（買収）にるシナジー効果の推定・測定。ビジネスにるデータ活用の事例（3/6）株式会社風音屋（監訳）『アジャイルデータモデリング』より「株式会社クラシコム」「ランサーズ株式会社」の事例 37

横山や風音屋過去に紹介事例 • 顧客セグメントや商品ジャンル別の傾向分析。ロイヤル顧客の特徴やリピート商品を特定る。 • キャンペーン施策の効果測定。の後のリピートに繋っ
、需要の先食いは起ていない。 • エンタテイメント領域にるコンテンツ企画。視聴数多い曜日・時間帯ら分析。 • 工場にる製造プロセス改善や機械の故障検知。ビジネスにるデータ活用の事例（4/6）株式会社風音屋（監訳）『アジャイルデータモデリング』より「住友化学株式会社」の事例 38

横山や風音屋過去に紹介事例 • 顧客データベース管理によって、部署横断での連携や引継を2日→10分に短縮。 • 異常検知：SNSの”バズり”を検知て関連コンテンツを即日提供。過剰アクセスや迷惑投稿のBAN。
• デジタル広告によるROAS（売上÷広告費）を最大化るめの入札の最適化。 • 物件や船舶などの資産（アセット）の売り買いによるポートフォリオ最適化。ビジネスにるデータ活用の事例（5/6）株式会社風音屋（監訳）『アジャイルデータモデリング』より「エイベックス株式会社」「株式会社商船三井」の事例 39

横山や風音屋過去に紹介事例 • レコメンド：類似商品の推薦、クリック率を最大化る表示順、マッチング期待値高い人材の紹介。 • 経路探索：自動車ドライバーや月面探査機のルート最適化。 •
動産（アート）や不動産（物件）など交渉で価格決まる「1点モノ」のプライシング（値付）。 • 従量課金やレベニューシェア、ダイナミックプライシングによる、取引単価の最大化。ビジネスにるデータ活用の事例（6/6）事業のグロースを支えるDataOpsの現場　https://speakerdeck.com/yuzutas0/20180727 40

4. レガシーなプラットフォームを刷新ようにもどら着手べ【既知】

システム刷新のアプローチ（2016年書籍より） 44 レガシーなITシステム（特にソフトウェア）とは何　“保守まは拡張困難な既存のプロジェクトなら、　なんでも「レガシー」（legacy）と呼ぶとにている” レガシーなシステムに対
るアプローチ 1. リファクタリング ◦ 振る舞いを変えに中身を変える ◦ テスト自動化による振る舞いの担保重要 2. リアーキテクティング ◦ モジュールやコンポーネントの構成を変える 3. ビッグ・リライト ◦ 年単位のプロジェクトでゼロら作り直 ◦ 一般的に非推奨とれる ⇒AsIs（現状）の仕様を可視化・整理て、テストを自動化、少つ置換えていと望まい。 ⇒再構築PJTの最中にSnowﬂake 新機能を提供、再構築完了頃には構成時代遅れになっ例。『レガシーソフトウェア改善ガイド』

「システム刷新」を日常的に行う（2016年書籍より） 45 ボーイスカウトの原則　“ボーイスカウトには、シンプルな規則ありま。　「自分のい場所は、を出て行時、
　来時よりもれいになればならない」という規則で。　とえ、自分来時には既にキャンプ場汚っとても、　とえ、汚の自分ではなっとても、　れいにてらの場を去るので。” どら刷新る？いつ刷新る？ • システムに変更を加える前に、該当箇所をキレイにる（＝飯を食べる前に机を片付る） • システムに変更を加え後に、該当箇所をキレイにる（＝飯を食べ終わっら机を拭）『プリンシプル・オブ・プログラミング』

重点箇所をデータで分析る（2018年の資料 by @yuzutas0） 46 「問い合わ多い事象」「データ利用の多い部署」「利用頻度の多いデータ」「ボトルネックの処理」などの重点領域を計測て、優先的に刷新る。データ利用を促
立場率先てデータで意思決定る。

経営・事業の方針にアラインメントる（2021年の資料 by @yuzutas0） 47 • IRを読んり実際に商品を試など、会社の状況を把握てビジネス構造を整理
る。 • 中期経営計画で示れている方針と結びつる形でデータ戦略とシステム戦略を策定る。 https://www.bizup.jp/solution/chukei/01/01_07/01.pdf

新いテクノロジーを試、取り込んでい（2018年の資料 by @yuzutas0） 48 日進月歩で多様なソリューション台頭＆進化ている
• リサーチや運用サポートに工数を割ない • 1度はダメっツールあとで使えるようになるともある ◦ Google Data Studio（現Looker Studio）は2018年当時、月に1〜3回の頻度で機能アップデート行われてい希望者使いいツール（A）を自分で検証る • 検証観点の例 ◦ セキュリティ観点などで問題ないと ◦ 現行ツール（B）よりも生産性向上ると • ツール選定についてもA/Bテストで決める ◦ 検証観点をアナウンスるとで、各メンバー自発的に利用る（＝自然と生残る）。 ◦ 中途半端にガバナンスを効るのではな、市場原理を利用る。 ⇒生残っツールやニーズの多いツールを技術基盤チーム検証て取り込む。変化に適応る。

• システム構成の現状、理想、登り方を描 • データ基盤システムを段階的に置換える • 短期視点で既存業務を回つつ…… • 長期視点で新規導入を進めてい
• 進め方の例 • STEP1：既存の仕組みで業務を続る • STEP2：新い仕組みを裏側で開発・構築る • STEP3：新い仕組みを一部で試験導入る（リスクを検証る） • STEP4：新い仕組みを全面的に導入、旧システムら切り替えるデータ基盤のリリース＆アップデート（2021年の資料 by @yuzutas0） 49 短期視点長期視点既存移行開発・構築試験導入全面導入

旧業務・旧システムを廃止る（2020年の資料 by @yuzutas0） 50 • 業務やシステムの切り替え時には、既存の業務やシステムを廃止るとろまでやり抜 •
10年弱で4世代のデータパイプライン残り続てまい、一気に除去事例（Retty ん） https://engineer.retty.me/entry/dataplatform-archaeology-and-migration

繰り返で徐々に基盤を整備る（2022年の資料 by @yuzutas0）個々のプロジェクト • 商品 (活用施策) を踏まえて工場
(システム) を増築・改修てい • 短期的なROIをもとに金や人員を割結果とて達成る状態 • 水道インフラのようにデータ基盤整備れ状態 • データを継続的に使うカルチャー定着状態 51 ROIを考慮プロジェクト ROIを考慮プロジェクト ROIを考慮プロジェクト ROIを考慮プロジェクト

5. 実際に刷新ても保守運用うま回ら使い物にならない問題【既知】 ⇒「ももニーズを満ているの
」編

優先順位の高い施策を見定める（2021年の資料 by @yuzutas0）データ活用施策の投資対効果を見立てる・便益：売上寄与、リードタイム削減、改善対象の人数・投資：稼働人員、システム費用、リスク集客予算の推移、開発人員の採用計画、市場の動向などを踏まえて、「①を行う」「②を行う」「両方行う」「両方行わない」を意思決定る。 54
①デジタル広告配信による登録促進 ②解約候補者へのクーポンメール配信に実施でる集客予算は不要巨額の集客予算必要システム開発に時間掛る

データ活用施策の概要設計（2018年資料、2021年の資料 by @yuzutas0）「どの顧客/従業員の」「どの作業/判断を」「どのように置換える」を書出 • 消費者：カスタマージャーニーマップ、ジョブマップ •
事業者：バリューストリームマッピング、業務フロー図顧客体験や業務フローをどのように改善る？ (例) • 顧客：商品を探 → ( の手間を削減るめに) 検索機能を作る • 経営企画部門：売上を集計る → ( の手間を削減るめに) 売上ダッシュボードを作る • 販促部門：クーポン配信対象を探 → ( の手間を削減るめに) 配信システムを作る 55 https://webtan.impress.co.jp/e/2014/03/24/16722 http://gihyo.jp/dev/column/01/devops/2017/value-stream-mapping

データ利用の5W1Hを特定（2019年の資料 by @yuzutas0）誰、いつ、どで、何のめに、何を、どうるの？例）売上ダッシュボードを作る
利用状況を解像度高描ば、売上ダッシュボードを作る意義明確になる • ◯◯部長報告いようにレイアウトを整えるようなタスクを想定でる • 用途を考慮にダッシュボードを作るよりも、効率良高い成果を出る 56 60% 45% 30% 15% 1月 2月 3月 4月 5月 6月 Who 経営陣(◯氏,△氏,□氏) When 毎週◯曜日の◯時に Where 会議室◯◯で Why サービス利用状況を知るめに What 主要導線UU率の推移を How 議事録テンプレのURL経由で見る

データの出口（利用箇所）を検証る（2021年の資料 by @yuzutas0）本当にの施策で上手い？を検証る・実地調査、観察、ユーザーインタビュー
・FigmaやExcelのモックアップ、ユーザビリティテスト例）本格的なシステムを作る前に、まはExcelで簡易集計＆グラフ化　　→ のビジュアライズを見て課題発見＆改善施策に繋るのを検証 57

データの入口（生成箇所）を検証る（2018年の資料 by @yuzutas0）データソースも同様に検証る・誰、いつ、どで、どのように、　何のデータを生成
るを設計る・インタビューやプロトタイプを用いて　必要なデータ取得でる検証る例）北海道のサポートセンターを視察 → 現場で手動作成れているExcelシートのフォーマットを確認 → 入力スタッフと後続システムの双方使いやいシート形式を提案 58

データの流れを設計る（2021年の資料 by @yuzutas0）データの出口（利用箇所）と入口（生成箇所）をどのように繋る？ 59 datamart層 datalake層
元データのコピー元データのコピー元データのコピー用途別データ用途別データ用途別データデータソースデータソースデータソースユースケース元データのコピーデータソース元データのコピーデータソース用途別データ用途別データユースケースユースケースユースケースユースケース GCS BigQuery DB / Log TROCCO dbt Looker BI / CRM / Google Sheets TROCCO / Looker 設計順② DataOwner の意思反映れる設計順① DataUser の意思反映れる設計順③ DataSteward の意思反映れる 1対1 1対1 1対1 1対1 1対1 1対1 1対1 1対1 1対1 datawarehouse層 1対1 クレンジング /標準化/統合クレンジング /標準化/統合クレンジング /標準化/統合ディメンショナルモデリング (fact/dimension) 共通指標 (metric) 共通指標 (metric) ディメンショナルモデリング (fact/dimension) クレンジング /標準化/統合

データ利用ガイドを社内提供（2022年の資料 by @yuzutas0） • 「で全体像分る」という社内Wikiを整備る。 •
ダッシュボードのトップに、利用案内のURLを掲載る。 60

社内勉強会やハンズオン（2022年の資料 by @yuzutas0） • データ利用の流れを解説り、実際に体験てもらう場を設る。 • 毎月の「相談会」で伴走
なら分析レポートを作り、のまま上司や経営陣、投資家に報告る流れになるとスムーズ。上司ら「A案件はデータ相談会に持もう」と声掛るようになる。 61

6. 実際に刷新ても保守運用うま回ら使い物にならない【既知】 ⇒「ももマジメに運用保守をているの
」編

データ管理者（データスチュワード）担う運用業務（2021年の資料 by @yuzutas0） 64 仕様調査問い合わ対応データ利用者の要求や要望
データスチュワードデータソースデータオーナー購買DB 商品マスタ広告ログユースケースデータユーザー Pythonで分析クーポン配信 BIツール可視化 DWH データオーナーデータオーナーデータユーザーデータユーザーデータ生成者の事情や背景 • データ生成者（データオーナー）には、データソースに関る事情や背景を聞いて、仕様調査る。 • データ利用者（データユーザー）には、ユースケースに関る要求・要望を受て、依頼対応る。

データ生成者とデータ利用者のフィードバックサイクルを回（2021年の資料 by @yuzutas0） 65 データスチュワードデータソースデータオーナー購買DB
商品マスタ広告ログユースケースデータユーザー Pythonで分析クーポン配信 BIツール可視化 DWH データオーナーデータオーナーデータユーザーデータユーザーデータ管理者（データスチュワード）両者を仲介る役割となって、品質水準を最適化てい。ういう事情ある分ってほいなるほど！ゃあうやってデータを作るね！なるほど！ゃあうやってデータを使うね！ういう要求ある対応てほい

日々の依頼をチケット管理（2018年の資料 by @yuzutas0） 66 1つのバックログでTODOを管理る。柔軟に優先順位を入れ替える。調査対応などのToilを稼働の50%以下に抑えてプロアクティブな
活動の比率を高める 1 問い合わ対応 (特に集計ミスの調査) 1つ間違っていると全部信用でななるので最優先対応。調査れば関係者の信用残高を増やる。 2 新規データ連携や集計タスク多少見にても使える状態にると優先。最悪の場合はデータを使う人に工夫てもらう。 3 ダッシュボード構築やビジュアライズ修正分りや変化を示るので、インパクトある。使い手にとって重要なので可能な範囲でサポートい。 4 システムの保守性とパフォーマンス最初ら凝ると「早る最適化」に陥り。ボトルネックになっら対処。別案件のついでに直習慣。各ステークホルダーと会話を進める中で生 TODOをチケットとて管理る。

• チャットツールで相談場所を設る。 ◦ データチームで運用当番を設てユーザーサポートに当る。 • よある問い合わ
（FAQ）はWikiやデータカタログツールに反映る。 ◦ 次らはURLの案内で済むようにる。 ◦ ナレッジを充実るとでAIの回答精度を高める。 • 自動対応るチャットBotを構築る。 ◦ Slackを窓口にるならGoogle CloudのConversational Analytics APIを用いて実装る。 ◦ 今後はGemini EnterpriseやLooker (Studio Pro) のConversational Analyticsに期待。 ◦ データ項目追加や権限付与依頼はGitHub管理と、Devin等の開発AIエージェントに任る。問い合わ対応や作業依頼（2018年の資料 by @yuzutas0） 67 分析相談レビュー依頼 FAQ 充実化再利用

SLO（サービスレベル目標）をステークホルダーと合意る（2018年の資料 by @yuzutas0） • 誰も望んでいないのに過剰な目標を追ってまうと、徒労で終わる。 • 部署や用途とに暗黙的に期待
れている品質目標を洗い出、明文化て、関係者と合意る。 68 例用途約束相手連絡先利用データ期待品質未達時の影響範囲 1 日次レポートマーケター Slack #daily_kpi BigQueryの売上テーブル毎営業日の8時までに欠損な前日売上レポートれると（即時性）売上状況に応施策打てななる（機会損失） 2 … … … … … … 3 … … … … … … … … … … … … …

風音屋定義るデータ品質の5分類（2023年の記事 by 風音屋）数十種類の「データ品質」を大まにまとめると以下の5種類になる。①〜⑤の順に依存関係ある。例：① 不十分
と②〜⑤を正確に計測でない。② 不十分と③で見るべデータ存在ない。 69 ②データ適切な場所に置れている（可用性・即時性・最新性・回復性・移植性） ③データの中身現実を正確に表現ている（正確性⊇完全性、一意性、一貫性、有効性、精度） ④適切な人適切なデータにアクセスでる（アクセシビリティ・機密性） ⑤データ使いやい状態になっている（ユーザビリティ⊇理解性、効率性、標準適合性） ①活動を追跡でる（追跡可能性・信憑性）

テスト・監視（2019年の資料 by @yuzutas0） • 人間目視で品質チェックるのは最終手段。 • 定期バッチでメタデータを集計て、期待
れるデータ品質満れているとを監視る。 • データ更新の成否、レコード件数（0件）、nullや空白の有無、値の範囲など。 70

データ利用者への案内（2019年の資料 by @yuzutas0） • ダッシュボードのトップ画面に「🚨現在判明ている問題🚨」欄を設て、検知可能にる。 • システム管理者への通知とは別に、データ利用者にチャットBotで速報を送る。
71

インシデント対応を仕組み化る（2018年の資料 by @yuzutas0） • 期待品質満れないと（＝インシデント発生時）に「どう対応る
」を定義る。 • 作業手順や障害レポートを事前にテンプレート化て。例）日次のデータ連携プログラムのエラー時 72 優先順位　①深夜休日でも対応　②案件を止めて優先対応　③案件と優先度を調整　プログラムを再実行　→ダメなら代替データ案内　→関係者にレポート対応手順

システムチューニング（2019年の資料 by @yuzutas0） • 品質の目標と現状のギャップ大い箇所（ボトルネック）を特定、原因を特定る。 •
例えば、「朝8時までに売上集計を終わらる」（即時性）担保れていない場合、集計処理のうどの部分に時間っているのを確認る。 • の上で、以下のようなチューニング施策を実施る。 ◦ 「全件更新」ら「差分更新」に切り替える。前日分を集計る。 ◦ 「クラスタリング」や「パーティション」でデータの参照範囲を区切る。 ◦ 処理Aの後に処理Bを行う「直列実行」ら、A・Bを同時に行う「並列実行」に切り替える。 73 処理時間最も長い箇所（＝ボトルネック）をチューニングる

週次ミーティングで改善サイクルを回（2018年の資料 by @yuzutas0） • 毎週の振り返りミーティングで現状（AsIs）と期待（ToBe）を比べる。 • の週のインシデント（トラブル）一覧を読み返。 •
サービスレベル目標（SLO）を満ていなれば、改善アクションのめのTODOを起票る。 ◦ 例：新規データ連携を後回にてパフォーマンスチューニングを優先る。 • サービスレベル目標（SLO）自体を見直。 ◦ 過大目標であれば下方修正（e.g. 未使用ダッシュボードはメンテナンスに除却る） ◦ 過小目標であれば上方修正（e.g. データ更新頻度を毎週ら毎日に変更る） 74 What 何をるスプリントレビューどうやってる How スプリントプランニングレトロスペクティブデイリースクラム

7. 「横断的なデータ基盤」と「個々のAIツール」の関係性は？

データ基盤はサイロ化を解消てSSoTを実現るめのもの • データ基盤は「複数のユースケース」（利用者）と「複数のデータソース」（情報源）をリボンのように結びつる一連の（ITシステムに閉ない）サービス群である。
• 多対多（n:m）で個別のやり取りをると弊害大いので横断管理の仕組みを作る。データの実体を中央に保存てら配布る形を「データHUB」、アクセス権を動的に付与る形を「Data Mesh（データメッシュ）」と呼ぶ、構造とては同。 ◦ データメッシュのコンセプトは色々と言われている、データHUB構成でも大抵は実現可能。 79 DWH データソースユースケース Salesforce：加盟店営業 kintone：加盟店管理 Zendesk：顧客サポート JIRA：チケット管理 Workday：人事マスタ営業活動のファネル可視化エンジニア組織の稼働可視化 QA チームによるバグ分析社内ツールのアカウント更新、グループ紐付を自動化オペレーションスタッフの運用業務をクイックに立上＆成果をトラッキング BigQuery

ERPやMAツールはデータHUBの要件にマッチないともある • 現代のデータ基盤に求められる要件は多岐に渡る ◦ 「10TB/日のアクセスログの集計」などのビッグデータ処理。 ◦ 「ユーザー投稿
画像への自動タグ付」といっ機械学習処理。 • 「経営の主要データを一元管理でるERP」や「あらゆる顧客データを取り込めるMAツール」 ◦ あまで「基幹業務の遂行」や「パーソナライズれメール配信」に強みを持つ。 ◦ れらのツールをデータ基盤の中核に据えても、上記の要件とはアンマッチ。 ▪ れで問題ないというケースも当然ある。Excelデータ基盤ベストなともある。 ▪ 、大抵のケースでは「データの入口」や「データの出口」に位置付られるろう。 80

データウェアハウス製品データHUBの要件を満やい • 2015年〜2025年現在にいて、主な論点を比較検討ると「主要クラウドベンダー達提供る
サーバレスつフルマネージドなデータウェアハウス製品」総合的に選ばれやい。 ◦ 特にBigQueryとSnowﬂake 2010年代後半にグローバルで存在感を発揮。 ◦ Snowﬂakeはインスタンス（ウェアハウス）を選ぶ必要あっ、2025年6月のSummitにて Adaptive Warehouse機能を発表。10年越にBigQueryに追いつ形となり、利便性向上。 • 今後ものトレンド続は不明。 ◦ 従来のOLTPとOLAPを両立 HTAPの台頭。サーバレスの思想とはやや乖離。 ◦ ファイルを高機能化 Icebergの台頭。あまでファイルなのでツール側の進化必要。 ◦ AWSではクラウドストレージやRDBMSを強化て、従来のクラウドデータウェアハウス製品の要件を満るようなアップデートを展開ている。 ▪ S3 Tables, S3 Vectors ▪ Aurora Serverless, Aurora DSQL 81

あらゆるデータをコネクタで取り込もうとるAIツール • 手軽で便利、多対多（n x m）のアクセス発生るとになって
まう。 • MAツールと同様に「出口となるツール」のような位置付にも思える ……？ 82 Claudeの設定画面

非構造化データ in データパイプラインパイプラインに組み込むどうで2つのアプローチ考えられる。 1. データパイプラインに組み込む場合。BigQuery ML
GeminiでSQL らGeminiを実行る。 2. 従来のパイプラインに組み込ま、Gemini Enterpriseに各データを集約てAI側で完結る。 83 非構造化データデータパイプライン構造化データ非構造化データ ①生成AIで前処理 ②生成AIで出力作成

• 各ツールら文章、画像、動画、PDFファイルなどの非構造化データを集約る。 • システム管理る場合はGCSに置、必要に応てBigQueryにデータをロード
る。 • 人間管理る場合はGoogle Driveに置、必要に応てGCSを経由てBigQueryにロードる。 • BigQueryのObject Table機能でGCSの非構造化データを参照、バイナリ形式で機械学習に利用。データ基盤システム（Google Cloud）社内フォルダ等のデータ取得（ストレージに集約る場合） 84 インターネット Google Workspace BigQuery ユーザー HTTP リクエストファイルをアップロード各ファイル Google Drive 取得プログラム例：Python Cloud Run functions 各ファイル GCS 保存 WebAPIコールやスクレイピング各ツール外部テーブル HTTPリクエスト Web API コール HTTP リクエスト

• 各ツールら文章、画像、動画、PDFファイルなどの非構造化データを連携る。 • Gemini Enterpriseに直接データを連携、BigQueryに集約構造化データと組み合わる。
• データ分析のレポートやSQLを自動生成り、カレンダーやメールの作成可能。 • 例：キャンペーン企画や契約書を連携 ⇒ 売上の変動要因を解釈 ⇒ 重点顧客にアポ依頼のメール。社内フォルダ等のデータ取得（Gemini Enterpriseで直接利用る場合） 85 Microsoft Teams Microsoft Outlook Microsoft OneDrive SharePoint Slack Box Gmail Google Drive Conﬂuence JIRA GitHub Salesforce Google Group Google Calendar 文章 | 画像 | 動画 | PDF 非構造化データ HubSpot Zendesk Service Now Workday etc… Trello BigQuery 構造化データデータ基盤システム（Google Cloud） Gemini Enterprise Vertex AI Agent Engine Python + ADK Assistants Gemini Google Workspace Google Calendar Gmail 人間連携連携利用利用スケジュール設定やメールの送信分析レポートや SQLの作成 Web画面でチャット指示 ⚠Gemini Enterprise等のAI Agent系サービスはEarly AccessやPreview相当のもの多い。機能強化は今後に期待。 ⚠Claude Desktop等を使い、各サービスをMCP経由で参照て分析レポートを作る方法もあり。

• 「データソースの品質担保」や「アクセス制御」は、個々のツールで別々に設定るのではな、 Data MeshやService Mesh（Microservicesの横断管理レイヤー）のような仕組み必要。 ◦ Data
Meshの発端であるThoughtworks論文（2019）はMicroservicesの影響を受ている。 • 従来のデータプラットフォームの延長で進化るの、生成AI関連ツールら仕組み作られてらに従来のデータプラットフォーム取り込まれていのは、れら陣取り合戦。 ◦ Databricksのように両分野で存在感の強いプレイヤー大胆な展開を行うと面白なりう。各AIツールを横断管理でるメッシュアーキテクチャ必要 86 提供者　　　　　　　　　　　　　　　データ　　　　　　　　　　　　　　　利用者業務提供者　　　　　　　　　　　　　　　データ業務提供者　　　　　　　　　　　　　　　データ業務提供者　　　　　　　　　　　　　　　データ業務データストアツール　　　　　　　　　　　　　　　利用者データストアツール　　　　　　　　　　　　　　　利用者データストアツール　　　　　　　　　　　　　　　利用者データストアツール多対多の格子状（mesh）権限管理や監査ログ、仕様確認といっ n:mの連携を横断管理る仕組み

従来のデータプラットフォームによるAIメッシュ対応は前途多難 • Microservices & Service Mesh 普及でのは、TerraformなどのIaCツールに加えて、 Istio のような専用フレームワークの存在
大い。 ◦ 各社一ら同ような仕組みを実装るのは現実的ではない。 • 一方で、Data Meshには Istio に相当るもの十分に育っていない。 ◦ SOAやMicroservicesの仕組みに乗る形現実的となる。 ◦ 例えば、Data Contractの専用ツールではな、protobufやSwaggerを流用るとになる。 ◦ @yuzutas0ら 2019年頃にメルカリ社で作っ仕組みもの方式。 • 一部の大企業はデータメッシュと銘打つつ、実態とては従来の稟議プロセスの延長で Publishers / Subscribers の権限管理ワークフローを管理ている。Microservices 内包るDevOpsの文脈は損なわれてり、データメッシュという単なる業務手順の整理。 ◦ 大企業での整理整頓は大変つ重要な仕事で、十分に素晴らい取り組みでどね。 • 今のData Meshに関るエコシステムを拡張てAI Meshな仕組みを作るには時間る。 ◦ 新興のAI Meshフレームワーク Data Meshにも対応るシナリオのほう現実的。 87

8. データ収集（狭義のETL処理）のアーキテクチャは生成AIで変わる？

オープンデータ取得やWEBスクレイピングの難易度下り、扱えるデータのバリエーション増える。 • 生成AI自身持つWEB検索機能（例：Gemini CLI） • 生成AI
らの操作に適ブラウザの台頭（例：ChatGPT Atlas） • WEB画面（HTML）やシート構成（Excel）らの対象要素の抽出（※後述の非構造化データ） • WEB画面やシート構成の変更差分の特定 → 要素抽出スクリプトの修正（※後述の開発プロセス）従来はWebAPIやDB らのデータ取得主流で、以下のような場面・組織でないと持続不可能っ。 • アドホック分析で都度データを取得る（例：マーケティング担当や研究者） • スクレイピング選任の開発チームを運営る（例：法人データ提供会社）生成AIによる「データ収集」の変化 90 ゆ編『個人開発をはめよう！- クリエイター25人の実践エピソード』の第8章「格安スクレイピングを支える技術」（morizyun ん）では、岡崎市立中央図書館事件を例に挙てスクレイピングの注意点を紹介ていま。 AI開発を始める前にひ読んでまょう！ ⚠スクレイピングや外部データ利用時は、規約やマナーを守りまょう！

• PCを持運ぶめのバッグ検索サイト「HileSearch」（入るサーチ） ◦ 自分のノートPC ょうどっぽり入るサイズのカバン・バッグ・リュックを約1万の候補ら探出
「HileSearch」 - GIGAZINE • MacBookPro を持っている人には、MacBookPro より大いサイズのバッグを、一覧で表示る • 検索機能を実現るめには、PCとバッグ、れれのサイズに関るデータ必要 10年前は開発に数カ月っデータ収集システム 91 ゆ（編）『個人開発をはめよう！』、ゆ（共著）『データマネジメント 30分でわる本』より引用

• 政府統計や各社オープンデータはBigQuery Sharing機能で提供事業者らデータ取得可能。 • WEBコンテンツは、Python等のプログラム + Geminiでスクレイピングを行い、BigQueryに連携。データ基盤システム
（Google Cloud）各提供者各省庁等オープンデータによるデータ取得 92 WEB公開コンテンツ提供事業者A 政府統計収集・加工システム BigQuery 提供事業者B 各社データベース BigQuery BigQuery BigQuery Sharing BigQuery Sharing インターネット取得プログラム例：Python Cloud Run functions ファイル例：CSV, JSON GCS 保存外部テーブル HTTPリクエストスクレイピング（Google検索） Gemini 取得更新更新連携 HTTPリクエストスクレイピング（ページ指定） 💡Webサービスの画面レイアウト変更時は、エラーログとHTML文字列をもとに GitHub Issueを自動起票てコーディングAIにパース処理を修正てもらう！

データ収集SaaS 不要になる or データ収集SaaS AI対応るデータ収集用のETL SaaS（ETLツール）を使うメリット減っている。 •
もともと社内業務システムらのデータ抽出には向ない。 ◦ 「通信量でコストる料金体系」つ「VPC外通信でのセキュリティ懸念」重なる。 • 多様なSaaSや広告データを取得るユースケースに向いてい（去年までは）。 ◦ 各WebAPIへのリクエスト処理をメンテナンスるよりも、ETL SaaSに頼るほう ROI 高い。 ◦ 、の1年でAIエージェントやAIコーディングに任られるようになっ。 ▪ 現状とデータ収集SaaSは不要になる。オープンデータ取得やスクレイピングなど「データ収集」の業務自体は広っている。 • むろ生成AIのHuman in the loop管理など、仕組みを自前でメンテナンスる難易度は向上。 • データ収集SaaS 進化てう用途に対応でると、引続使われるとになるは。 ◦ 既存ベンダーはゆに相談てれら技術顧問＆宣伝協力ま。 • 既存ベンダー後手に回れば、新興のデータ収集SaaS 台頭るは（予言）。 ◦ ゆにプロトタイプを持参ら出資＆宣伝協力ま。PLAID んありも興味持つ。 ◦ という風音屋の内製ツールを外販るの最速？ 93

9. データ加工のアーキテクチャは生成AIで変わる？（特に非構造化データ）

機械学習システム構築の難易度下り、カジュアルに構造化データと非構造化データを相互変換でる。 • 従来は「選任の機械学習チーム」や「AutoMLツール」による専用システムの構築必要っ • 現在は「SQLのSELECT句を1行書
」（10秒）で変換処理を実行でるようになっ生成AIによる「データ加工」の変化 96 画像を準備する AIの回答を取得 SQLでAIを呼ぶ https://docs.cloud.google.com/bigquery/docs/reference/standard-sql/bigqueryml-syntax-ai-generate

主要クラウドベンダー各位のトレンドとて、非構造化データの取り扱いを強化ている。 • ストレージやデータウェアハウス製品に、画像やPDFなどの非構造化データを扱う機能増え。 • 生成AIのユースケースとて、
れらのデータを参照るニーズ増えていると主な背景。 • 従来はテーブル形式の処理メインっ、対象データのバリエーション増え。 Analytics製品の非構造化データ対応進む 97

• 各ツールら文章、画像、動画、PDFファイルなどの非構造化データを集約る。 • システム管理る場合はGCSに置、必要に応てBigQueryにデータをロード
る。 • 人間管理る場合はGoogle Driveに置、必要に応てGCSを経由てBigQueryにロードる。 • BigQueryのObject Table機能でGCSの非構造化データを参照、バイナリ形式で機械学習に利用。データ基盤システム（Google Cloud）【再掲】社内フォルダ等のデータ取得（ストレージに集約る場合） 98 インターネット Google Workspace BigQuery ユーザー HTTP リクエストファイルをアップロード各ファイル Google Drive 取得プログラム例：Python Cloud Run functions 各ファイル GCS 保存 WebAPIコールやスクレイピング各ツール外部テーブル HTTPリクエスト Web API コール HTTP リクエスト

【再掲】非構造化データ ⇔ 構造化データの変換生成AIによる「非構造化データ」ら「構造化データ」への変換（以下は例） • 商品名のテキスト → 商品カテゴリーの分類
→ カテゴリー別の売上集計可能になる • 自動車撮影路面写真 → リスク要因のラベリング → 走行データと合わて事故予測の精度向上 • 代理店との会議メモやメール → キャンペーンの情報を抽出 → MMMに組み込んで広告効果推定の改善生成AIによる「構造化データ」ら「非構造化データ」への変換（以下は例） • 法人顧客の行動データ → 営業担当向に追加提案メールのドラフトを生成 • 商品の在庫や注文のデータ → 今日推べ商品で「んな人買ってま」訴求文面を生成 • 企業の募集要項と求職者の履歴書 → 条件ミスマッチを緩和るめの修正提案メッセージを作成 99 風音屋TechTalk #4 発表資料より

【再掲】非構造化データ in データパイプラインパイプラインに組み込むどうで2つのアプローチ考えられる。 1. データパイプラインに組み込む場合。BigQuery ML
GeminiでSQL らGeminiを実行る。 2. 従来のパイプラインに組み込ま、Gemini Enterpriseに各データを集約てAI側で完結る。 100 非構造化データデータパイプライン構造化データ非構造化データ ①生成AIで前処理 ②生成AIで出力作成

非構造化データの3層構造 Garbage In, Garbage Out（ゴミを入れらゴミ出てる） • 社内文書や動画ファイルはボリューム
多い割に、品質低っり、ノイズ情報も混る。 • 生成AI 一度に記録・利用でるデータ量には上限ある。 • ルンバ（掃除ロボット）を動めに、床の物を片付るのと同。事前に整える。構造化データと同ようにデータの整理必要 • 元のファイル（入口）→整理情報（中間）→用途に必要な情報（出口）を整備る。 • “ゆ ”の3層構造の「データレイク層」「データウェアハウス層」「データマート層」に該当。の領域は生成AIの台頭に伴って急進化始まっフェーズ • 現時点でれというリファレンスアーキテクチャ定まっていない。 • データの持方も定まっていない。テキストを書直もの、文書ベクトル、グラフ構造 etc…？ • 対応るソリューションも違う。BigQuery、Vertex AI Feature Store、Spanner Graph etc…？ ◦ グラフDBの構築はToo MuchなのでGIS機能と似位置付のBigQuery Graph 欲い。 101 ソース水源レイク湖 = 蓄積るウェアハウス倉庫 = 管理るマート市場 = 売るユーザー利用者

「データウェアハウス製品」ら（AWS 言う）「データレイク」への揺れ戻？ • 非構造化データの中間加工のパターンやベストプラクティスはま決まっていない。 ◦ ベクトル化やグラフ構造など、非構造化データを扱うめの作法
複数あり、解定まらない。 ◦ 非構造化データモデリング分野の体系化とソリューション実装必要なフェーズ。 • 必要なツールや機能もま出揃っていない。 ◦ 次の3年間は状況日々変わっていように思える。 ◦ 現時点では既存のリファレンスアーキテクチャを踏襲、3年後に式年遷宮でも良いも。 • クラウドストレージに元データを置いていて、後ら修正でるようにての大事。 ◦ AWS 言う「データレイク」本来のコンセプトに（一周回って）立戻る。 ◦ 一方で、2010年代はAWS + Snowﬂake構成人気っように、DWH製品に寄る世界観グローバルで受入れられて。 ◦ 両者の擦り合わなれて、次の進化起るタイミング。まに技術の螺旋。 102 https://speakerdeck.com/twada/understanding-the-spiral-of-technologies-2025-edition

補足：AWSにる（主にS3を中心と）データレイクデータウェアハウス、データレイク、よびデータマートは、異なるクラウドストレージソリューションで。（中略）データウェアハウスは、構造化れ形式でデータを格納
ま。れは、分析よびビジネスインテリジェンス用に前処理れデータの中心的なリポジトリで。（中略）データマートは、企業の財務部門、マーケティング部門、営業部門など、特定のビジネスユニットのニーズに対応るデータウェアハウスで。（中略）一方、データレイクは、生データと非構造化データの中心的なリポジトリで。最初にデータを保存、後で処理でま。 https://aws.amazon.com/jp/compare/the-diﬀerence-between-a-data-warehouse-data-lake-and-data-mart/ https://aws.amazon.com/jp/big-data/datalakes-and-analytics/datalakes/ 103

10. メタデータ管理のアーキテクチャは生成AIで変わる？

１）生成AI⇒メタデータ：生成AIによってメタデータ拡充容易になる。 • メタデータの一部は「非構造化データ」であり、従来は人間入力・編集る必要あっ。 • 生成AIによって非構造化データを自動処理で
るようになり、メタデータ拡充容易となっ。２）メタデータ⇒生成AI：生成AIを使うめにメタデータ拡充必要になる。 • もともとデータカタログ機能強化のトレンドあっ。生成AIへの需要でらに加速。 ◦ 2020年前後に大手各社でもデータウェアハウス製品普及、カタログ管理の課題顕在化。 • 生成AIにコンテキストを与えて処理精度を改善るにはメタデータの整備必要となる。 ◦ 主要クラウドベンダー各位のトレンドとて、AIエージェント関連の機能提供とセットでメタデータ整備に関る機能を強化・充実ている。生成AIによる「メタデータ整備」の変化 106

非構造化データ構造化データメタデータ管理の3層構造（1/2）メタデータも、収集（入口）→統合（中間）→提供（出口）の3層構造でパイプライン化れる。 107 RDBMSのスキーマ情報＠DDL
SFDCで入力るデータ項目＠管理シート Dataform 加工る BigQueryテーブル仕様＠設定ファイル BigQuery コンソール画面のクエリ作成補助AI （Gemini）各AIチャットへのデータ分析依頼や問い合わデータ利用ガイド社内ポータル Dataplex Universal Catalog 一連のデータ仕様とクエリ生成のコツを組み込ん社内MCPサーバ一連のデータ仕様を SphinxやJekyllなどのサイトジェネレーターに反映基幹システム顧客管理システム（CRM） BigQuery 加工テーブル BigQuery 利用記録 Cloud Logging 出力る監査ログ＠監査ログ顧客対応システム Zendeskの入力手順社内マニュアル＠GoogleDocs 取得元メタデータの入口メタデータの出口利用先メタデータの中間 GitHubの専用リポジトリメタデータ管理プログラム

メタデータ管理の3層構造（2/2）前提：システムで自動化でるものは自動化、人間は人間に扱えない情報に専念る。 • システムで自動生成れメタデータは
うと分るように自動生成のラベルをつる。 • 人間チェックら認証済みのラベルを、管理部門承認ら「公式」ラベルをつる。入口：データを生成る人、データを生成る箇所で、メタデータを管理る。 • 例：SFDCの設定は管理者シートで管理。RDBMSのスキーマはSREチーム DDLで管理。 • 理由1：データ基盤以外の通常業務でも使うめ。何らの形でメタデータは必要。 • 理由2：データ利用者事後調査ると1日る。担当者本人事前記入ると10分で済む。中間：れれのメタデータを集約管理る。 • 現状、を満るツール世にないめ、各社 GitHub管理の仕組みを作っている。出口：メタデータの利用箇所に合わ場所・形式でメタデータを連携る。 • 例：GeminiでBigQueryを使う場合はDataplex Universal Caralogにメタデータ必要。 108

11. 開発・運用プロセスを支えるめのアーキテクチャは生成AIで変わる？

データエンジニアリングにる一連の業務プロセスを効率化、サイクルタイムを短縮でる。 • システム開発：コーディング、テスト、レビューの自動化 • システム運用：リリース、監視、アラート対応の自動化 • サービス運用：問い合わ
対応、権限管理、コスト管理の自動化 • データ分析：数値変動調査、探索（EDA）、レポートの自動化生成AIによる「DataDevOps」の変化 111

開発標準・開発環境（1/2） 112 ▪ リポジトリ：コードの置場。 • Git：コードの差分や履歴を管理るツール。AIエージェントミスをても復旧で
る。 • GitHub：Git管理のコードをチームで共有、開発を進めていめのツール。 • GitHub Actions：GitHubの機能。Linterや自動テスト、Terraform等の処理を実行でる。 ▪ CI（継続的インテグレーション）：継続的にコードを開発、安全つ効率的に統合る。 • Linter：コード社内ルールに沿っ書方になっているとを自動チェックる仕組み。 ◦ 例：PythonならRuﬀ、SQLならSQLFluﬀ、TerraformならTFLint、。 • 自動テスト：コード期待通りに挙動るとを自動でチェックるめの仕組み。 • Code Rabbit：GitHubで人間の代わりにコードレビューてれるAI。 ◦ 「シニアデータエンジニアとて振る舞って」「若手に助言るようにレビューて」「若手の反論甘っら徹底的にツッコミて」と設定ると、丁寧に教えてれる。 ▪ CD（継続的デリバリー）：継続的にコードを本番環境へとリリースる活動。 • Terraform：クラウドインフラをコードで管理て、自動構築るめのツール。 ◦ IaC（Infrastructure as Code）なる概念。画面操作と異なり、作業ミス防止や横展開容易。 ◦ 例：BigQueryの設定をコードで管理て、GitHubでレビュー通っら自動反映。

コードレビューの自動化 113 • 新規構築 dbtプロジェクトのPull Requestに対て、メタデータ入力を促コメント。 ◦ RAGのように参考資料を追加
とも、データエンジニアリングの要素も加味てれる。 ◦ 今のとろCode Rabbitのほう GitHub Copilotより期待に近い。 • AIやジュニア人材作っ Pull Requestをレビューるとに「最低限は抑えてほいなあ」「んなケアレスミスを指摘てら仕事進まないよ」というラインをある程度指摘てれる。 ◦ ブラッシュアップれ状態で手元にレビュー依頼届ので、従来比でストレス 9割減。

開発標準・開発環境（2/2） 114 ▪ 開発標準：自社のルールを決めり、仕組みを自動化るとで開発効率を上る。 • テンプレート：要件定義フォーマット、セキュリティ設計シート、コスト計測シート
etc…。 • 規約／ガイドライン：Pythonコーディング規約、SQL規約、データモデリング標準 etc…。 ▪ 開発AIエージェント：Terraformを含めて一連のプログラムを自動実装るツール。 • Cursor：ローカル環境のIDEでユーザーに編集提案てれる。 • Claude Code：ローカル環境のターミナルで自律開発てれる。Gemini CLIもの立位置（？） • Claude Code Actions：GitHubでのユーザーコメントをもとに自律開発てれる。 • Devin：Slackでのユーザーコメントをもとに自律開発てれる。 ◦ データ分析者 Gemini支援の元でSQLを作り、SlackでDevin君にパイプライン追加を依頼。 ⇒風音屋では一連のデータ基盤システムをクライアント最短工数で利用開始でる仕組みを構築中。本資料のように「データ基盤の構築や運用」といっ業務を 1つ1つ言語化、手順化、システムに反映るとで徐々に「AI Ready」な開発環境へ進化てい（は）！

• チャットツールで相談場所を設る。 ◦ データチームで運用当番を設てユーザーサポートに当る。 • よある問い合わ
（FAQ）はWikiやデータカタログツールに反映る。 ◦ 次らはURLの案内で済むようにる。 ◦ ナレッジを充実るとでAIの回答精度を高める。 • 自動対応るチャットBotを構築る。 ◦ Slackを窓口にるならGoogle CloudのConversational Analytics APIを用いて実装る。 ◦ 今後はGemini EnterpriseやLooker (Studio Pro) のConversational Analyticsに期待。 ◦ データ項目追加や権限付与依頼はGitHub管理と、Devin等の開発AIエージェントに任る。問い合わ対応や作業依頼 115 分析相談レビュー依頼 FAQ 充実化再利用

生成AIによるアドホック分析ジュニア分析者より正確で、シニア分析者より早い＆安いアウトプット • GeminiチャットやNotebookLMによるデータ分析レポートの作成。 • Claude Desktop等のサードパーティツールらBigQueryを参照る事例も散見れる。
MCP経由で加工済みテーブルにアクセス • 本資料作成時点で主流なのはBigQueryのMCPを経由てデータを参照る方法。 • 将来的にはGeminiやNotebookLM、Looker Studio Pro（対話エージェント機能）を社内提供るアプローチ Google Cloudユーザーの主流になりうる。ま高水準とは言えない今後に期待。 • BigQueryでFact＆Dimension（まはれらを結合 Wide or Summary）テーブルに接続る。 116

生成AI データを正使うめには、データの整備必要 50個の「売上テーブル」存在ていら、生成AIはどの「売上」で分析れば良い
判断でない。もも考え方や用途によって「売上」の定義は変わる。 • 消費税を含む？ • 途中解約はどに計上る？ • 年間契約は月次で按分る？ • 割引はどで差引？ • 返金は後で差引？購入時に遡って差引？ • 通販サイトやアプリ決済の決済手数料を含む？年間契約を行っ場合、ある分析では「今月の売上」大幅に向上と報告ても、別の分析と月次で按分ているので1/12の数字になる。 AI 生成 2つのレポートを見比べると「今月の売上」 10倍近ズレるとになる。 117

「fct_xxx」と「dim_xxx」のテーブル用意れている。つまりれはディメンショナルモデリングで作られテーブル。 • 集計対象 fctで、切り口
dim ろう。 • れらのテーブルは「xxx_id」列で結合れば良いのろう。 • 1 らAI 集計るのではな、既に整備れている「按分売上」や「消費税抜」列を使えば良いのろう。 • AI 事業年度を「4月〜翌3月」と推測るのではな、整備れている「事業年度」列を使えば良いのろう。生成AIによるデータ分析の品質安定、従業員カジュアルに生成AIに頼るとでるようになる。テーブルの形式明確と生成AI 推論やい 118

他の有識者の資料 Microsoft PowerBI はディメンショナルモデリング前提となる。Copilot 機能を使う場合もま然り。 https://www.docswell.com/s/yugoes1021/KRXVY2-2024-05-08-213110 メルカリ社のSocrates（分析AIエージェント）はBasic
Tables（信頼でるテーブル）に依拠ている。 https://note.com/mercari_data/n/n247a65af9bf5 119

12. 「業務システム」と「データ基盤」の関係性は生成AIで変わる？

Gemini Enterprise等のAIエージェントによる業務効率化・自動化業務フローを整理て、作業・判断を「システムで完結る」「AI 担う」ように置換えてい • AIエージェントの設計プロセスについては後述。 •
システム構成はGemini Enterpriseのデータ連携スライドを参照。他システムでも似構成となる。 • 本資料作成時とGemini Enterpriseはま理想とギャップある。 ◦ Google Workspaceとネイティブ連携でる強みら、将来的な進化に期待い。 ◦ 直近はDifyやn8nのほう期待像に近い。コード管理もほい。Opal 主流になる。例：法人顧客の離反検知とフォローアップの（半）自動化 1. BigQueryで法人顧客の利用状況を収集 2. 日次集計で離反の可能性を検知（＝事前定義セグメントに分類） 3. Googleカレンダーで営業担当者の空日程を確認 4. Gメールで対象顧客に打合わのアポイントメントを送信 5. Google Slidesで提案スライドの草案を作成 6. Google Docsで打合わ台本の叩台を生成 7. Salesforceにフォローアップ状況を入力・更新 122 https://cloud.google.com/blog/products/ai-machine-learning/bringing-ai-agents-to-enterprises-with-google-agentspace

ITエンジニアやWEBマーケターではな、人事や経理などのバックオフィス職（事務職）にも「AIエージェント」や「データエンジニアリング」の考え方必要になるバックオフィス職にもAI＆データ必須の時代 123

DXの議論を踏襲つつ、DXとの差分に注目る 124

DXの進め方①：現状のリソースの流れを書出「アナログ志向の業務」は「ヒト・モノ」（リソース）の流れに依存ている。 125 自社法務郵便局員相手法務契約書を印刷署名・押印
受付配達受付配達受取り受取り署名・押印ヒトヒトヒトモノモノ

DXの進め方②：理想のデータの流れを書出「デジタル志向の業務」は「情報」（データ）の流れを最適化る。データ基盤の本来のコンセプト。 126 Input 入力 Processing 加工 Output
出力契約書PDF 自社署名相手署名内容確認締結署名済みPDF 取引記録

DXの進め方③：システムで自動化でる箇所を特定るツール導入やシステム化によって「人間」の作業を減ら、ムダ・ムラ・ムリを解消る。 127 Input 入力 Processing
加工 Output 出力契約書PDF 自社署名相手署名内容確認締結署名済みPDF 取引記録 ▪ヒトやるべと（入力と確認） ▪DXで実現でると（加工と出力）

DXの進め方④：システムで置換え後のリソースの流れを書出「デジタル志向の業務」になっ後のフローを書出、業務マニュアル作成やスタッフ研修を行う。システム構築やツール導入で終わりではな、現場業務の落と
込みとカルチャー装着まで「変革」る。 128 自社法務 GMOサイン相手法務 PDFアップロード入力・送信受取り入力・送信ヒトヒト情報受取り転送転送 DX

Before ら「増やべもの」を追加、「減らべもの」を取り除。のめの予算確保、体制整備、社内営業＆サポートの徹底、ロードマップ策定・推進を行う。
DXの進め方⑤：BeforeとAfterの差分を埋めるの DXプロジェクト 129 After Before 減らもの増やもの契約書PDF、電子契約ツール、 PDFアップロード、電子署名紙の契約書(原本) 署名、捺印、郵送依頼、郵便局員、配達、受取り

AIエージェント導入の勘所①：AIで半自動化でる箇所を特定る AI導入によって「人間」の作業＆判断をらに減ら、ムダ・ムラ・ムリを解消る。 130 Input 入力
Processing 加工 Output 出力契約書PDF 自社署名相手署名内容確認締結署名済みPDF 取引記録 ▪ヒトやるべと（入力と確認） ▪DXで実現でると（加工と出力） ▪AI 一部担えると（草案作成＆懸念指摘） NEW!

AIエージェント導入の勘所②：AI導入後のリソースの流れを書出業務手順の中にAIエージェントを組み込む。あるいはAIエージェントの中に人間の介在箇所を組み込む。業務マニュアル作成やスタッフ研修を行い、現場業務の落と込みとカルチャー装着まで「変革」る。 131 自社法務担当 GMOサイン相手法務担当
PDFアップロード承認・送信受取り入力・送信ヒトヒト受取り転送転送法務’sサポートAI　　. （ワトソン君）契約書の作成自社記入欄の入力情報 DX AI

業務システムやAIシステムを高速開発でるデータテクノロジー台頭 132

AIネイティブな時代の「ビジネス」や「オペレーション」の行着先あらゆる事業（ビジネス）や業務（オペレーション）は以下の一連の活動と言える。 • 何らのリソースを投入（Input）て • 何ら
の価値を付加（Processing）て • 何らの財・サービスを提供（Output）る AIエージェントによって「情報」（データ）の担う部分拡大る。結果、あらゆるビジネスやオペレーション「データエンジニアリング」化る。 • 「情報」（データ）の流れを制御る中核システム「データ基盤」 • 「情報」（データ）の流れを制御る活動「データエンジニアリング」 ⇒Development（仕組みの構築）　「データエンジニアリング」と「AIエージェント導入」と「業務定義」と「経営」と一体化る。 ⇒Operations（仕組みの運営）　「データ基盤」と「AIエージェント」と「業務フロー」と「事業運営」と一体化る。 133

13. わりに

世界最古のデータ基盤 5,000年前ら本質は変わっていない。扱える幅当時より少広なっ。 • メソポタミアの都市ウルクでシュメール人牛の数を記録
「粘土板」説（紀元前3,000年） • 「船乗りの樽」説（同時代にシュメール人船で飲み物を運んとれる詳細は不明） 138 飲み物の残量・推移乗組員の命に直結るKPI 「一」の線即座に読める直感的なUI 節約 or 消費アロケーションの意思決定具体的な行動に直結

139 139  穀物の収穫高をどう増や？工場の生産量をどう増や？通販サイトの販売高をどう増や？データを収集・整備・管理・活用る
めの「仕組み」（データ基盤）や「取り組み」（データエンジニアリング）必要病気の治療効果をどう増や？飲み水をどう増や？安全な土地をどう増や？配達速度をどう増や？人類はデータと対峙て移動距離をどう増や？歴史や産業を超え普遍性

150年前の明治維新を超える「革命」の渦中に私は立っている、 700万年の「人類の歴史」の最前線に私は立っている（と考えるとワクワクまん？） • 5年後：全企業 AIを活用
るめの AI Ready なデータ基盤 • 15年後：全企業ロボットを活用るめの Robot Ready なデータ基盤 • 500年後：（気候変動で）全人類エネルギー資源を活用るめの Energy Ready なデータ基盤 • 5,000年後：（地球の滅亡を見据えて）全人類宇宙進出るめの Space Ready なデータ基盤 5,000年後の「当り前」に向ベストプラクティスを開拓でる時代 140

データエンジニアリングを楽もう！ 141 データエンジニアリングは、いわば総合格闘技で。データの重要性日々増てい時代、世界中で誰も困っている課題に立
向ってい仕事で。エンジニアリングの面白（て難）詰まっ、やりいのある分野で。の発表皆様の業務に少でも役に立てら嬉思いま。

【再掲】知識不足で「話についていなっ」というアナタには！ 142

累計260ページ・18万文字の超豪華な研修教材を読み、データ基盤構築のハンズオンを行いま。【再掲】データ基盤構築のハンズオン 143

データエンジニアへの転職は無理なの！？ 144

清聴ありとういま 145 改善サイクルを回、今日よりも良い明日を。 https://kazaneya.com/contact

AI時代に必要なデータプラットフォームの要件とは by @Kazaneya_PR / 2025...

AI時代に必要なデータプラットフォームの要件とは by @Kazaneya_PR / 20251107

More Decks by 風音屋 (Kazaneya)

Other Decks in Technology

Featured

Transcript