Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Microsoft Fabric と データメッシュ

Ryoma Nagata
December 06, 2023

Microsoft Fabric と データメッシュ

Ryoma Nagata

December 06, 2023
Tweet

More Decks by Ryoma Nagata

Other Decks in Technology

Transcript

  1. Microsoft Fabric とデータメッシュ

    View full-size slide

  2. Silver Sponsor
    本イベントのスポンサー様
    Facilities & Staff Sponsor
    Gold Sponsor

    View full-size slide

  3. 自己紹介
    永田 亮磨(Ryoma Nagata)
    • Microsoft MVP for Data Platform
    • Databricks Solutions Architect Champion
    • 株式会社ジール
    • Microsoft Data Analytics Solution の導入など
    • 主な活動場所
    • Qiita : @ryoma-nagata
    • Twitter : @ryomaru0825
    • connpass :
    • JSSUG (Japan SQL Server User Group)
    • JEDAI - The Data & AI Meetup
    MVP Profile
    推しサービス(≒守備範囲)
    Synapse / Databricks / Power BI / Machine Learning
    Purview / Microsoft Fabric

    View full-size slide

  4. 本日お話する内容
    01
    データメッシュ/データファブリックについて
    02
    Microsoft Fabric とは
    03
    Microsoft Fabric でのデータメッシュ/データファブリック について考える

    View full-size slide

  5. 本日お話する内容
    01
    データメッシュ/データファブリックについて
    02
    Microsoft Fabric とは
    03
    Microsoft Fabric でのデータメッシュ/データファブリック について考える

    View full-size slide

  6. 今日の企業のデータの配置状態
     各種の観点で企業のデータはあらゆる種類で各所に分散し、その形式は様々
     これらのデータに迅速にアクセスするには多用なプロセス、ツールを使いこなす必
    要があり、データ活用の難易度が上がっている
    観点 選択肢
    場所 オンプレミス / クラウド
    ベンダー Azure / AWS / GCP / 他SaaS
    形式 構造化/ 非構造
    流入頻度 バッチ / ストリーム

    View full-size slide

  7. データ基盤自体が散在している現実
     社内の主要ユーザーの好みや、政治的な問題、あるいは法規制により、
    同じ組織内でN個のデータ基盤があるような場合もある
     一次データだけでなく二次的なデータについても所在が分散
     こうした現実に目を向けながら企業は『正しいデータに迅速にアクセス』する仕組み
    について考える必要がある
    Microsoft Azure 各種SaaS
    On-premise
    BigQuery
    Cloud
    Storage
    SQL DB Synapse Analytics
    Blob Storage
    Amazon S3
    Amazon RDS
    Amazon Redshift
    SQL Server
    AWS Cloud

    View full-size slide

  8. 伝統的ソリューション 中央集権型のデータ基盤
     これまで、データのサイロを解消するために企業は分散したデータを
    一つの大きなデータ基盤に物理的に集約することでデータへのアクセスを実現してきた
     この経験を経てモノリスな基盤の課題が指摘されているのが現状
    1. 中央のデータエンジニアに委託する方式となることが多く、データ活用のスピードが低下するだけでなく、
    ドメイン知識について現場とのギャップが発生しやすい
    2. 中央集権を目指すはずのソリューションがいくつも発生し、しかも互換性をもたない状態
    中央集権型データ基盤(モノリス)

    View full-size slide

  9. データ基盤では何が起きているか
    データをビジネスアクションにつなげるまでの基本的流れ
     一般に異なるデータソースが統合されることでBIや機械学習といったシナリオに変換さ
    れ、アクションにつながる
     データ統合にはメダリオンアーキテクチャと呼ばれるような段階ごとにデータを整理するような考え方がある
     安定したデータ消費には安定したデータエンジニアリングが不可欠となる
    生データ
    (Bronze)
    目的別の準備済みデータ
    ( Gold )
    整備済みデータ
    ( Silver )
    BI
    機械学習
    ビジネスアクション
    データソース
    データ消費
    データ統合

    View full-size slide

  10. 役割分担を行い、データ活用における知識のギャップをなくす
    生データ
    (Bronze)
    目的別の準備済みデータ
    ( Gold )
    整備済みデータ
    ( Silver )
    BI
    アナリスト
    分析ソリューションの専門家
    データエンジニア
    データ統合を中心としたデータ整備の専門家
    機械学習
    データサイエンティスト
    統計処理、機械学習
    ソリューションの専門家
    ビジネスユーザー
    洞察をビジネスアクションへ
    転用する利用者
    ビジネスアクション
     データ活用の一連の活動では様々なスキルセットを持つ人々が存在するが、
    具体的な活用シナリオに近いほどビジネス知識が重要となる
    データ消費
    データ統合
    データソース

    View full-size slide

  11. 役割分担を行い、データ活用における知識のギャップをなくす
    生データ
    (Bronze)
    目的別の準備済みデータ
    ( Gold )
    整備済みデータ
    ( Silver )
    BI
    アナリスト
    分析ソリューションの専門家
    データエンジニア
    データ統合を中心としたデータ整備の専門家
    機械学習
    データサイエンティスト
    統計処理、機械学習
    ソリューションの専門家
    ビジネスユーザー
    洞察をビジネスアクションへ
    転用する利用者
    ビジネスアクション
     データ活用の一連の活動では様々なスキルセットを持つ人々が存在するが、
    具体的な活用シナリオに近いほどビジネス知識が重要となる
    データ消費
    データ統合
    データソース
    1つのチームでさばける量に限界
    • 様々な部署から
    異なる依頼
    • 待たされる

    View full-size slide

  12. セルフサービスの重要性
     ビジネスの問いに『迅速』かつ『確実に』対応する方法は直接データにアクセスすること
    データの消費者自身が試行錯誤を実施できるセルフサービスの仕組みが重要
    テクニカルなデータから
    ビジネスに生かせる情報の生成
    洞察からアクションへ
    データ整備と提供
    セルフサービスによる試行錯誤、改善サイクル
    アナリスト
    分析ソリューションの専門家
    データエンジニア
    データ統合を中心としたデータ整備の専門家 データサイエンティスト
    統計処理、機械学習
    ソリューションの専門家
    ビジネスユーザー
    洞察をビジネスアクションへ
    転用する利用者
    データ消費
    データ統合
    データの特定と取得
    本当に整備すべきデータがわかる

    View full-size slide

  13. MSも陥っていたBIの課題(セルフサービスモデル濫立)
    https://docs.microsoft.com/ja-jp/power-bi/guidance/center-of-excellence-microsoft-business-
    intelligence-transformation
     一貫性の欠如
     国や、個社、部署ごとに独自の考え
    方で売上を計上する
    「税別?税込?年間契約は月次
    で按分?」
     再利用されないデータ
     アナリストが分析ではなく整理・収
    集に時間を消費
    「各アナリストが個別で集約を行い、
    ロジックが組織全体で利用されな
    い」

    View full-size slide

  14. データ製品指向によるデータガバナンス
     データ製品指向(Data as Product):データに商業製品的な特性を適用する考え方
     「データは水道のようにすぐに使えて、どこにでも同じような形で蛇口があり、安全であってほしい」
     これらの原則でデータを統制し、セルフサービスを推進させることが重要とされている
     検出、説明性:たとえばECサイトのように
     データは発見が可能な状態(市場化)である
     消費者に説明するためのカタログが付随する
     データ契約:たとえばクラウドサービスのように
     データには所有者が定められており、保証されている
     データにおけるSLAを定義し、監視、統制する
     相互運用性:たとえばねじや工具のように
     データはあらゆる目的、場所でも同じように使えるようにフォーマットが標準化されている

    View full-size slide

  15. セルフサービスとコラボレーションを重視した大規模データ戦略「データメッシュ」
     分散型データオーナーシップ、ドメイン駆動設計
     中央集権的にデータ管理するのではなく、ドメインそれぞれでデータを管理する
     一貫したデータガバナンス
     管理や所有権は各ドメインに委任されるが、全体で一貫したガバナンスを適用する
     セルフサービスプラットフォーム
     ユーザーにとってセルフサービスでデータ構築のしやすいツールを提供する
    組織全体のデータをドメインに分割
    ドメインA
    ドメインB
    ドメインC
    ・・・
    分割されたドメインチームそれぞれでデータを製品として開発

    View full-size slide

  16. セルフサービスとコラボレーションを重視した大規模データ戦略「データメッシュ」
     分散型データオーナーシップ、ドメイン駆動設計
     中央集権的にデータ管理するのではなく、ドメインそれぞれでデータを管理する
     一貫したデータガバナンス
     管理や所有権は各ドメインに委任されるが、全体で一貫したガバナンスを適用する
     セルフサービスプラットフォーム
     ユーザーにとってセルフサービスでデータ構築のしやすいツールを提供する
    ドメインA
    ドメインB
    ドメインC
    ドメインD
    ドメインE
    ドメインG
    データ検出と説明性
    (データカタログ)
    データ契約
    (データ品質・プライバシー)
    相互運用性
    (データ標準化)
    データガバナンス
    データメッシュ
    ストレージ・パイプライン・分析ツール
    セルフサービスプラットフォーム
    各ドメインのデータオーナーシップのもと相互に
    データ製品を交換・昇華する

    View full-size slide

  17. 参考)データメッシュスタイル
     Data Mesh: Topologies and domain granularity | by Piethein Strengholt | Towards
    Data Science

    View full-size slide

  18. セルフサービスプラットフォームを実現するテクノロジーは?
     データメッシュは組織の構造と文化のアプローチ
     ガバナンスのもとにセルフサービスを推進するためにはテクノロジーが必要
     特にドメイン内のデータ製品開発、ドメイン間のデータ交換ではデータへのアクセス性の向上が重要となる
    ドメインA
    ドメインB
    ドメインC
    ドメインD
    ドメインE
    ドメインG
    データ検出と説明性
    (データカタログ)
    データ契約
    (データ品質・プライバシー)
    相互運用性
    (データ標準化)
    データガバナンス
    データメッシュ
    ストレージ・パイプライン・分析ツール
    セルフサービスプラットフォーム

    View full-size slide

  19. Web
    API
    データへのアクセス性を高めるデータ統合技術
     物理統合
     ETL(抽出・変換・取込)やレプリケーションにより、データをデータウェアハウスやデータレイクに移送する
     仮想統合
     仮想化技術を通じて実際にデータがどこにあるかに関わらず利用可能な状態にする
     統合アクセスポイント
     クラウドネイティブな Web API を通じて様々なツール、目的をもつデータ消費者にデータを配信する
    ストレージ
    BI
    機械学習
    データ消費
    分散されたデータ配置 データ統合
    レプリケーション
    ETL
    仮想化

    View full-size slide

  20. セルフサービスを実現するためのテクノロジー「データファブリック」
     データファブリックとは、組織内のデータを効率的に管理・利用するための技術を包括した、
    テクノロジーの集合体
     以下のコンポーネントで構成される
     データ統合:ETL、仮想化などを通じてデータを利用可能にする機能
     データ分析:BIや可視化、機械学習のワークロードを実行する機能
     ストレージとコンピューティング:データウェアハウス、データレイクなどの方式で提供されるデータ蓄積・処理機能
     データマネジメント:メタデータ管理や、ガバナンスの機能
     AI・自動化:各種の機能にAIを適用し、自動化を行う
    ETL/仮想化
    Web APIによる
    データ提供
    データレイク データウェアハウス
    BI・可視化 機械学習
    メタデータ収集
    カタログ化
    プライバシー
    アクセス制御
    データ統合
    データファブリック
    データマネジメント ストレージとコンピューティング
    データ分析
    AI・自動化
    データ配置やクエリの最適化
    AIによる予測、インサイトの自動抽出
    メタデータ自動付与やデータ品質の監視
    自動収集・マッピング
    組織全体のデータ活用
    組織内データ
    セルフサービス
    による加速
    統合による
    アクセス性向上
    ビジネスアクション
    分散されたデータ

    View full-size slide

  21. Microsoft Fabric

    View full-size slide

  22. トライアルと導入
    サインオン
    ナビゲーションモデル
    ワークスペース
    コラボレーション
    データレイク
    ストレージフォーマット
    全てのエンジンで使用可能なデータコピー
    セキュリティモデル
    CI/CD
    監視ハブ
    データハブ
    ガバナンスとコンプライアンス
    単一化されたUX
    Microsoft Fabric
    データ活用にまつわるすべての機能を All-in One 型で提供する分析 SaaS
    インテリジェントデータファブリック
    AI による作業支援
    共有型作業環境
    一体化したコンピューティング容量
    統合セキュリティ
    ”単一”のデータレイク
    データ統合
    データ
    エンジニアリング
    データ
    ウェアハウス
    リアルタイム
    分析
    データ
    サイエンス
    ビジネス
    インテリジェンス

    View full-size slide

  23. Microsoft Fabric エクスペリエンス
    Data Factory
    Synapse
    Data Engineering
    Synapse
    Data Warehouse
    Synapse
    Real-Time
    Analytics
    Synapse
    Data Science Power BI
    Data
    Activator
    (Preview)
    データ統合
    様々なロケーションにあ
    るデータシステムから
    データを収集するコネク
    タをもち、
    ETLプロセス全体のワー
    クフローをパイプラインと
    して定義・実行する
    データエンジニアリング
    データレイクハウスを構
    成し、Apache Spark
    を使用した分散処理
    により、組織内のデータ
    を変換・準備する
    データウェアハウス
    ペタバイトスケールで最
    高のパフォーマンスを備
    え、T-SQL べースで分
    析が可能なリレーショナ
    ルDWH を構築する
    リアルタイム分析
    時系列データに最適
    化されたデータベースに
    任意の形式のデータを
    迅速に取り込み変換
    し、ニアリアルタイムで
    分析クエリの実行、可
    視化
    データサイエンス
    MLflow が統合された
    jupyter ライクな UI 上
    で機械学習モデルの
    学習と推論を行うこと
    で分析情報を強化す

    ビジネスインテリジェンス
    豊富なビジュアルと分
    析機能を使用して、
    データ探索の実施や企
    業の意思決定を迅速
    化するダッシュボードを
    構築する
    データドリブン
    Fabric 上で作成した
    分析結果を監視、通
    知し、データとビジネス
    アクションを連動させる
    ことでデジタルフィード
    バックループを促進する
    Fabric 限定の
    新機能

    View full-size slide

  24. データメッシュ、データファブリックの文脈での Microsoft Fabric を考える
    1. データファブリックとしてどのようなテクノロジーがデータへのアクセスを効率化するか
    2. データメッシュ戦略を実施するためにどのようなサポートが存在するか

    View full-size slide

  25. データメッシュ、データファブリックの文脈での Microsoft Fabric を考える
    1. データファブリックとしてどのようなテクノロジーがデータへのアクセスを効率化するか
    2. データメッシュ戦略を実施するためにどのようなサポートが存在するか

    View full-size slide

  26. バッチ・ストリーム双方の取り込みに対応可能
    バッチ処理のシナリオに対応し、100 を超えるコネ
    クタであらゆる場所のデータをコピーする
    Azure Databricks 、
    Azure Machine Learning とのオーケストレー
    ションや、Outlook や Teams との接続も可能
    ストリーム処理のシナリオに対応し、Azure Event
    Hubs 、Azure IoT Hub など様々なデータからイ
    ベントデータをフェッチ
    独自のアプリケーションから直接の送信も可能に
    するカスタムアプリ機能も提供
    処理したデータは時系列分析に最適化された
    KQL データベースなどに連携可能
    Data Factory
    Synapse Real-Time Analytics

    View full-size slide

  27. OneLake とサーバレスコンピューティング
     中核となる OneLake ストレージと、分離されたコンピューティングエンジンにより
    どのようなワークロードでもコピーせずに同じデータにアクセス
    OneLake
    ストレージ
    サーバレス
    コンピューティング
    Finance
    Customers
    360
    Service
    Telemetry
    Business
    KPIs
    T-SQL Spark KQL
    Analysis
    Services
    Delta –
    Parquet
    Format
    Delta –
    Parquet
    Format
    Delta –
    Parquet
    Format
    Delta –
    Parquet
    Format
    データウェアハウス、データレイクハウ
    スなど全てのワークロードのデータは
    OneLake に自動保存
    コンピューティングはストレージと分離さ
    れ、別のエンジンで処理したデータを相
    互に処理可能
    非構造化、構造化問わずに保存
    可能なストレージ
    構造化データはDelta – Parquet
    と呼ばれるOpenフォーマットで保管
    データ
    ウェアハウス
    データ
    エンジニアリング
    データ統合
    データ
    サイエンス
    リアルタイム
    分析
    ビジネス
    インテリジェンス

    View full-size slide

  28. クラウドデータレイクとの仮想統合が可能
     OneLakeショートカットにより、既存のクラウドデータレイクの資産を Fabric で活用することが
    可能
    OneLake
    クラウドストレージ
    Azure Data Lake
    Storage Gen2
    Amazon S3
    ショートカット データ移動なしで直接
    Fabric 外部のデータにアクセス

    View full-size slide

  29. Databricks 社の開発したストレージ OSS によりデータアクセスを標準化
    特徴
    • オープンかつシンプル:
    • ベンダーロックインなく、あらゆるツールからアクセス可能
    • SQL/Python 双方での共通データアクセス
    • 統一されたバッチ、ストリーミング
    • DWHとデータレイクのいいとこどり:
    • 列指向フォーマットを背景に高速なクエリ
    • タイムトラベル機能による過去データの遡り
    • スキーマの自動拡張 or 強制
    • 構造化~非構造化データに対応しつつ高い圧縮率
    • コンプライアンス対応:
    • 監査履歴
    • UPDATE, DELETEによるデータ操作
    オープンフォーマットDelta Lakeの採用

    View full-size slide

  30. オープンフォーマット/APIによるあらゆるツールからのデータアクセス
     Azure Data Lake と同様の API を採用しており、Azure 内外の分析サービスから
    Fabric のDelta - Parquetにアクセス可能
    OneLake
    クラウドストレージ
    Azure Data Lake
    Storage Gen2
    Amazon S3
    ショートカット
    Fabric 上のテーブルを任意のサービスで分析
    Azure Databricks
    Azure Synapse Analytics
    Azure Analytics

    View full-size slide

  31. 外部データシステムからのニアリアルタイムレプリケーションに対応予定
     New! ) ミラーリングにより、No-ETL で既存のデータシステムからのデータを連携
    OneLake
    クラウドストレージ
    Azure Data Lake
    Storage Gen2
    Amazon S3
    ショートカット
    外部データシステム
    Azure Databricks
    Azure Synapse Analytics
    Azure Analytics
    Azure SQL DB
    Snowflake
    Azure Cosmos DB
    そのほかも・・・
    MongoDB
    Fabric 外部のデータシステム
    からレプリケーション

    View full-size slide

  32. Copilot for Microsoft Fabric によるデータ分析支援
    Data Factory
    Synapse
    Data Engineering
    Synapse
    Data Warehouse
    Synapse
    Real-Time
    Analytics
    Synapse
    Data Science Power BI
    Data
    Activator

    View full-size slide

  33. データファブリックとしての今後の注目点
     データガバナンスサービスとの連携
     Microsoft Purview との連携は今のところコンプライアンスや、データの状況が中心で、データカタログとしての
    Purview との連動性について大きな統合のニュースに期待
     データプライバシーの管理
     きめ細やかアクセス制御の管理

    View full-size slide

  34. データメッシュ、データファブリックの文脈での Microsoft Fabric を考える
    1. データファブリックとしてどのようなテクノロジーがデータへのアクセスを効率化するか
    2. データメッシュ戦略を実施するためにどのようなサポートが存在するか

    View full-size slide

  35. Microsoft Fabric ドメイン
    データ
    ウェアハウス
    データ
    エンジニアリング
    データ統合
    データ
    サイエンス
    リアルタイム
    分析
    ビジネス
    インテリジェンス
    OneLake
    ドメインA
    ドメインB
    ドメインC
    ドメインD
    ドメインE
    ドメインG
     OneLake をベースにサービスとしてのデータ メッシュをサポート
     サービス内の設定でドメインを
    定義可能
     サブドメイン/ドメインロール/委任設定
     ワークスペース単位で割り当て
     ワークスペースのアイテムはすべてドメイン
    に関連付けられる

    View full-size slide

  36. Fabric アイテムの認定
     組織内で信頼できるデータ製品にラベリングをすることで、コラボレーションを促す
    承認の概要 - Microsoft Fabric | Microsoft Learn
     昇格→認定の順でラベル付け
     認定されたグループのみが判定
    を行う設計となっている
     各ドメインで認定者をそれぞれ構成可能

    View full-size slide

  37. OneLake データハブ
    Microsoft OneLake in Fabric、データ向けOneDrive |Microsoft ファブリック ブログ |Microsoft
    ファブリック
    OneLake 内で分散管理されたデータを効率的に見つけて、利用するためのハブ
     Fabric に関連する各種ツールに組み
    込まれており、いつでもデータを検出・
    接続可能
     ドメインおよび認定と連動し、
    特定のドメインにフィルタリングしたり、
    認定済みデータの一覧を表示可能

    View full-size slide

  38. まとめ
     ビジネスに確実に役立てるデータ活用はセルフサービスの仕組みによるデータの
    民主化が不可欠
     データメッシュ戦略により中央データチームにボトルネックをもたない、かつガバナン
    スをきかせた組織づくり
     複雑化するデータ活用の世界で、データアクセスを効率化するデータファブリック
    テクノロジーを理解し、活用する
     Microsoft Fabric はデータファブリックとしてのテクノロジーをもち、データメッシュ
    戦略を支援する

    View full-size slide

  39. Microsoft Fabric コミュニティリソース
    ✓ Microsoft Fabric を無料体験する: https://aka.ms/try-fabric
    ✓ Fabric コミュニティとつながる: https://aka.ms/fabriccommunity
    ✓ 機能リクエストをして新機能に投票する: https://aka.ms/fabricideas
    ✓ MS 公式ブログを読む : https://aka.ms/fabricblog
    ▪ 製品サイト : https://aka.ms/fabric
    ▪ Buildでのデジタルイベント動画 : https://aka.ms/build-with-analytics
    ▪ ドキュメント : https://aka.ms/fabric-docs
    ▪ eブック: https://aka.ms/fabric-get-started-ebook
    ▪ Microsoft Learn: https://aka.ms/learn-fabric
    ▪ エンドツーエンドのチュートリアル : https://aka.ms/fabric-tutorials
    ▪ Fabric Notes (解説図集): https://aka.ms/fabric-notes

    View full-size slide

  40. その他参考リソース1
     How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com)
     クラウド規模の分析 - Azure 向けの Microsoft Cloud 導入フレームワーク - Cloud Adoption Framework |
    Microsoft Docs
     ★データ基盤の新たな潮流:データファブリック ~データとAIの活用を加速させる新たなアプローチ |前編
    データファブリックの概要 - アイマガジン|i Magazine|IS magazine
     Data Fabric vs Data Mesh: 3 Key Differences, How They Help and Proven Benefits
     データメッシュとデータファブリックを実現させるデータガバナンス
     拡張データ管理: データ ファブリックとデータ メッシュ (ibm.com)
     データ・ファブリックとは|アイビーエム (ibm.com)
     ガートナーの2021年のトップデータと分析トレンド (gartner.com)
     Using Data Fabric Architecture to Modernize Data Integration (gartner.com)
     データファブリック:ナレッジグラフのキラーユースケース (datanami.com)
     ★データファブリックとデータメッシュ:どこが違うのか?|北原 祐司 / 「データとAIの民主化」を目指す
    Databricks|note
     データファブリックとは最新のエンタープライズデータアーキテクチャ (k2view.com)
     James Serra's Blog
     データ メッシュ: トポロジとドメインの粒度|ピエテイン・ストレングホルト・|データサイエンスに向けて
    (towardsdatascience.com)

    View full-size slide

  41. その他参考リソース2
     ★データメッシュの概念について理解する - connecting the dots
    (hatenablog.com)
     Data Mesh: Centralized ownership vs decentralized ownership | James
    Serra's Blog
     成功するデータメッシュの構築 – 単なるテクノロジーイニシアチブ以上のもの|リンクトイ
    ン (linkedin.com)
     Data Trends: Comparing Data Fabrics, Data Meshes, And Knowledge
    Graphs – Diffblog (diffbot.com)
     Data Mesh: The Balancing Act of Centralization and Decentralization | by
    Piethein Strengholt | Mar, 2022 | Towards Data Science
     Lakehouse: A New Generation of Open Platforms that Unify Data
    Warehousing and Advanced Analytics (cidrdb.org)

    View full-size slide

  42. ご清聴ありがとうございました。

    View full-size slide