Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Microsoft Purview Data Governance について

Avatar for Ryoma Nagata Ryoma Nagata
June 14, 2024
2.1k

Microsoft Purview Data Governance について

Microsoft Purview Data Governance をひも解きます

Avatar for Ryoma Nagata

Ryoma Nagata

June 14, 2024
Tweet

Transcript

  1. Microsoft MVP for Data Platform 永田 亮磨 (ZEAL CORPORATION) X:

    @ryomaru0825 Linkedin: ryoma-nagata-0825 Qiita: ryoma-nagata Microsoft Purview Data Governanceについて
  2. M365 コンプライアンスソリューション + Azure Purview = Microsoft Purview Microsoft Purview

    とは? | Microsoft Learn Azure Purview M365 コンプライアンスソリューション 統合、リブランディング データ損失防止 内部リスク管理 情報保護 メタデータの自動収集・管理 データカタログ データアクセスポリシー データライフサイクル管理 電子情報開示と監査 コミュニケーションコンプライアンス
  3. 従来のソリューションとのマッピング Microsoft Purview ポータル (https://purview.microsoft.com/home/applauncher) From Azure Purview From M365

    コンプライアンスソリューション From M365 コンプライアンス ソリューション From Azure Purview From Azure Purview From Azure Purview From M365 コンプライアンス ソリューション From M365 コンプライアンスソリューション コンプライアンスとデータ ガバナンスの未来はここにあります: Microsoft Purview の概要 |Microsoft セキュリティ ブログ
  4. Microsoft Purview データガバナンス 全体像 データマップ データ資産のスキャン・詳細なメタデータの付与を行い、組織全体のデー タ資産を管理する 統合カタログ データ資産をビジネスの文脈で整理・管理し、 利用価値を生み出す

    オンプレミス マルチクラウド SaaS アプリケーション Microsoft Purview データガバナンス ビジネスオーナー ガバナンスドメイン内でデータ製 品を管理し、利用者に提供 データ利用者 データシステムオーナー データアセットへの 接続・スキャンの管理 データガバナンス責任者 ソリューションの管理 データエステートの監視統制 *頻出ワードの補足 • データエステート:組織全体のデータ資産 • データアセット:個々のデータ資産 データ製品/データアセットを 発見・活用 メタデータのアクティベート メタデータの収集
  5. データメッシュ  共通の統制+ドメイン個々での柔軟なポリシーのもとでデータを管理し、 迅速性と柔軟な統制を両立する考え方  Data Mesh Principles and Logical

    Architecture (martinfowler.com) ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ製品の生成 データガバナンス基盤 セルフサービスデータ基盤 データ製品の文書化 ドメイン横断の統制+個々のポリシー定義 ドメイン個々でのデータ処理
  6. 補足)データ製品=ドメインが保証するデータの提供ポイント  データ製品を共通のインターフェースとすることでドメイン内外のデータ利用が統制される  Understanding Data Modelling in Data Mesh

    | by Piethein Strengholt | Medium  これを進めるとデータを統合するためのグループとして業務に直接関係しないドメインも発生する  エンタープライズデータアーキテクチャなどの企業内の「同一エンティティ異ドメインデータ」を統合する活動がそれにあたる  このドメインは専用のバックオフィス(いわゆるCDO直轄チーム)として組織される場合がある
  7. データメッシュによるセルフサービスデータ活用の統制と促進  データメッシュ:組織全体で一貫した統制に加えて、ドメイン個々で必要なポリ シーやルールの拡張を委任することで迅速性と統制を両立する  Data Mesh Principles and Logical

    Architecture (martinfowler.com) ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ製品の生成 データガバナンス基盤 セルフサービスデータ基盤 データ製品の文書化 ドメイン全体で横断した統制 ドメイン個々でのデータ処理 Microsoft Fabric Microsoft Purview
  8. Catalog of Catalog 相互運用性を高めることでデータメッシュの柔軟性が向上 単一プラットフォームによるデータメッシュ 複合プラットフォームによるデータメッシュ ドメイン間のデータ共有はプラットフォームの標準機能によって実 現 • プラットフォーム内のメタデータ整備のみ

    • ガバナンスを効かせることが容易 • ドメイン個々での製品選択の柔軟性は低下 標準化により相互運用性を確保することでドメイン間のデー タ共有を実現 • プラットフォーム横断型のガバナンス・メタデータ管理が必 要 • ドメイン個々で自由な選択 ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG ドメインA ドメインB ドメインC ドメインD ドメインE ドメインG データ 提供標準 のどれかに固定
  9. データメッシュ参考  Data Mesh Principles and Logical Architecture (martinfowler.com) 

    How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com)  クラウド規模の分析 - Azure 向けの Microsoft Cloud 導入フレームワーク - Cloud Adoption Framework | Microsoft Docs  ★データ基盤の新たな潮流:データファブリック ~データとAIの活用を加速させる新たなアプローチ |前編 データファブリックの概要 - アイマガジン|i Magazine|IS magazine  Data Fabric vs Data Mesh: 3 Key Differences, How They Help and Proven Benefits  データメッシュとデータファブリックを実現させるデータガバナンス  拡張データ管理: データ ファブリックとデータ メッシュ (ibm.com)  データ・ファブリックとは|アイビーエム (ibm.com)  ガートナーの2021年のトップデータと分析トレンド (gartner.com)  Using Data Fabric Architecture to Modernize Data Integration (gartner.com)  データファブリック:ナレッジグラフのキラーユースケース (datanami.com)  ★データファブリックとデータメッシュ:どこが違うのか?|北原 祐司 / 「データとAIの民主化」を目指す Databricks|note  データファブリックとは最新のエンタープライズデータアーキテクチャ (k2view.com)  James Serra's Blog  データ メッシュ: トポロジとドメインの粒度|ピエテイン・ストレングホルト・|データサイエンスに向けて (towardsdatascience.com)  ★データメッシュの概念について理解する - connecting the dots (hatenablog.com)  Data Mesh: Centralized ownership vs decentralized ownership | James Serra's Blog  成功するデータメッシュの構築 – 単なるテクノロジーイニシアチブ以上のもの|リンクトイン (linkedin.com)  Data Trends: Comparing Data Fabrics, Data Meshes, And Knowledge Graphs – Diffblog (diffbot.com)  Data Mesh: The Balancing Act of Centralization and Decentralization | by Piethein Strengholt | Mar, 2022 | Towards Data Science  Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics (cidrdb.org)
  10. データガバナンス原則からビジネスデータカタログ機能を理解する Microsoft Purview データガバナンス 統合カタログ データ資産を 意味づけ、整理し、 公開することで、安全 に利用、保護できる ようにします。

    データの適切な使用 とアクセスを促進し、 安全性とイノベーショ ンのバランスを取りま す。 日々のビジネスや イノベーションに必要 なデータを、ユーザーが 発見、承認できるよう にします。 ユーザーがデータの内 容と使用方法を理解 するための文書を提 供します。 データ品質や、データ マネジメントにおける 対応状況を維持し、 データの最新性と安 全性を保ちます。 データキュレーション データアクセス データの健全性 データ理解 データディスカバリ New Microsoft Purview Data Catalog (Preview) | Microsoft Learn
  11. ビジネス価値中心にデータを理解する データ理解 - ユーザーがデータの内容と使用方法を理解するための文書を提供します。 用語集の用語  ガバナンスドメイン内で定義された用語 がデータカタログをビジネス語彙の側面 から強化します。 共通的な語彙が業務上のインター

    フェースの混乱を防ぎます OKR(Objective Key Result)  ガバナンスドメイン内のデータ活用をドラ イブするために、ビジネス的なバリューに よる目標を定義します  データ製品にひもづけられたOKRは その価値を明らかにします
  12. 統合カタログとデータマップ データマップはPurviewソリューション全体のバックエンドとして メタデータ収集を効率化し、インフラストラクチャーとアクセス制御を提供する データマップ データ資産のスキャン・詳細なメタデータの付与を行い、組織全体のデー タ資産を管理する 統合カタログ データ資産をビジネスの文脈で整理・管理し、 利用価値を生み出す オンプレミス

    マルチクラウド SaaS アプリケーション Microsoft Purview データガバナンス メタデータのアクティベート メタデータの収集 データアセットにアクセス、 ビジネスメタデータの付与と表 示をするためのインターフェース データアセットを収集・蓄積し、 テクニカルメタデータの充実と アセット個々に対する細かい アクセス制御層を提供する 組織全体でのRBACや SaaSとしての設定を構成する
  13. 詳細な機能の説明と関係性 – 統合カタログ 統合カタログ データ資産正常性 データマップ Microsoft Purview データガバナンス ガバナンスドメイン

    正常性コントロール ドメインと サブコレクション ソース管理 注釈管理 データ品質 アクセスポリシー ビジネス用語集 OKR カスタム属性 重要データ データ製品 スキャン アセット 正常性アクション メタデータ品質 レポート 監視 スキャンルールセット パターンルール 統合ランタイム 資格情報 系列の接続 分類 分類名 データソース キュレーション (編纂)、表示 ビジネスメタデータ付与 ガバナンスドメイン データカタログ内で、「ビジネス文脈」中心にアセットを整理するため の論理グループ 主な管理対象 • データ製品:アセットをパッケージ化して利用者に提供する。 データカタログのメインとなる成果物 • 重要データ:アセット、データ製品に紐づけて利用する。N個のアセットの 列をグループ化し、データ品質とポリシーを一元的に適用 • ビジネス用語集:アセット、データ製品に紐づけて利用する。ガバナンスド メイン内でビジネスユーザーの共通語彙として提供・統制 ガバナンスドメイン内で定義され、成果物に紐づけされるもの • OKR:目標と主要な結果を定義し、データの活用を促進する • データ品質:プロファイリング結果と品質の測定結果を提供する • アクセスポリシー:データの利用規約を定義する。ポリシーは用語や重要 データ要素からデータ製品に継承可能 • カスタム属性:必須の説明情報など、ドメイン固有のメタデータ項目を 定義する データ資産正常性 組織のデータカタログ状況を測定・調査・改善するツール群 主な管理対象 • 正常性コントロール:ガバナンスドメインまたは組織のデータカタログ全体 に品質ルールを適用し、測定スコアを算出する • 正常性アクション:データ品質または正常性コントロールの結果から抽出 された問題と対処内容をバックログ化として表示する • メタデータ品質:独自または組み込み済みの品質測定ルールを定義す る • レポート:カタログの利用状況/充実度やインベントリレポートなど、様々 な観点でデータガバナンスの状況を監視する
  14. 詳細な機能の説明と関係性 – データマップ 統合カタログ データ資産正常性 データマップ Microsoft Purview データガバナンス ガバナンスドメイン

    正常性コントロール ドメインと サブコレクション ソース管理 注釈管理 データ品質 アクセスポリシー ビジネス用語集 OKR カスタム属性 重要データ データ製品 スキャン アセット 正常性アクション メタデータ品質 レポート 監視 スキャンルールセット パターンルール 統合ランタイム 資格情報 系列の接続 分類 分類名 データソース ドメインとサブコレクション データマップ内に取り込み対象のデータソースや、 取り込まれたアセットのアクセス制御を管理するための親子構造 主な管理対象 • アセット:系列ソースや、スキャンにより取り込まれたデータ資産 • データソース:データソースをデータマップに紐付けて管理する • スキャン:紐づけられたデータソースに対するスキャンを構成する ソース管理 共通されるインフラストラクチャや再利用可能なスキャンルールを定義する 主な管理対象 • 系列の接続:Data Factoryなど、リネージ情報を送信するソースサービ スを管理する • パターンルール:共通の命名規則をもったファイル群など、アセットをグ ループ化(リソースセット)するためのルールを定義する • スキャンルールセット:分類規則など、スキャン時に使用する規則をグ ループ化して、データソース個々で再利用する • 統合ランタイム:スキャンに使用されるインフラストラクチャーを管理する • 資格情報:スキャンに使用される資格情報を管理する 監視 スキャン結果などアセット取り込み結果を監視する 注釈管理 スキャンルールセットに利用する分類と分類名を管理する 主な管理対象 • 分類:「電話番号」「住所」など、格納されたデータから特定可能なラ ベルを定義する • 分類規則:分類を割り当てるためのルールを定義する キュレーション (編纂)、表示 ビジネスメタデータ付与
  15. 全体構成例:eコマースドメインでのデータ製品開発 業務アプリケーション データ製品 マーケティング eコマース 別ドメイン 業務アプリケーション Fabric ワークスペース 統合カタログ

    データマップ ガバナンスドメイン、データ製品 コレクション(技術ドメイン) マーケティング分析基盤 eコマース分析基盤 eコマース マーケティング Microsoft Purview データ統合 Fabric ワークスペース 利活用コレクション
  16. コレクション(技術ドメイン) 補足)運用システムとのマッピング 業務アプリケーション データ製品 マーケティング eコマース 別ドメイン 業務アプリケーション Fabric ワークスペース

    統合カタログ データマップ ガバナンスドメイン、データ製品 コレクション(技術ドメイン) eコマースシステム マーケティングシステム マーケティング分析基盤 eコマース分析基盤 eコマース マーケティング Microsoft Purview データ統合 Fabric ワークスペース 運用コレクション 利活用コレクション
  17. 補足)Databricks × Fabric による大規模データ管理とデータ製品開発  Microsoft Purview は Microsoft Fabric

    のプラットフォームガバナンスと、Databricks Unity Catalogによるプラットフォームレベルのガバナンスと 深く統合することでより大規模なセルフサービスデータプラットフォームに拡張可能 Microsoft Fabric Microsoft Purview Databricks メタデータの統合 ビジネスデータカタログによる利用規約の定義 ビジネスユーザーフレンドリーな体験と総合力の高さ データプロフェッショナルに最高効率の機能を提供 Catalog of Catalog Local Catalog Local Catalog プラットフォーム内で 最適化されたポリシーの定義
  18. Purview データガバナンスの提供方式について  SaaS オファリングとしてリブランディングされているが、 費用や処理リソースはAzure リソースから供給される  Fabric についても類似のモデルとなる

    ※Fabric にはPower BI のための ユーザーライセンスの概念が追加される  Purview アカウントの数は テナントに一つのみである点は注意(現時点)  新しい Microsoft Purview ポータルについてよく寄せら れる質問 | Microsoft Learn Microsoft Purview Microsoft Fabric Microsoft Azure サブスクリプション Microsoft Entra ID テナント サブスクリプション Fabric 容量 Purview アカウント ワークスペース ワークスペース Fabric アイテム(成果物) ワークスペース に紐づけ テナントに一つの アカウントとして使用
  19. 新しい価格モデルの同意について  既存の Purview 利用者は 価格改定アナウン スに従い、同意することで課金モデルが変更さ れ、新しい 統合カタログなどのPurview データ

    ガバナンス機能が利用可能となる  価格 - Microsoft Purview | Microsoft Azure  Microsoft Purview の課金モデルについて説 明します | Microsoft Learn  スキャンコストが無料化  コンピューティング課金はデータ品質処理がメイン  データ製品や、用語などに紐づけた試算が Governed Asset と して課金される  データマップ上の資産は Purview Data Security 課金対象の「At Rest Protection」により資産数として別途計上される※公式アナウンス確認中  Copilot の課金モデルは現在は未発表
  20. Purview Data Governance → Purview Unified Catalog  2024/11/19 にリブランディングを発表

     Safely activate your data estate with Microsoft Purview | Microsoft Community Hub
  21. リソース  Microsoft Fabric と Microsoft Purview によるスケーラブルなデータ管理 |作 成者

    Piethein Strengholt |中程度 (medium.com)  Episode 5: Connecting the dots with Microsoft Purview (youtube.com)  Microsoft Purview | Microsoft Learn  Microsoft Purview 用語集 | Microsoft Learn
  22. OneLake Catalog  Fabric 上のデータについては OneLake Catalog により発見しやすさが向上予定  Introducing

    the new OneLake catalog: Your central hub for data discovery, management, and governance | Microsoft Fabric ブログ | Microsoft Fabric
  23. リソース  Microsoft Fabric と Microsoft Purview によるスケーラブルなデータ管理 |作 成者

    Piethein Strengholt |中程度 (medium.com)  Episode 5: Connecting the dots with Microsoft Purview (youtube.com)  Microsoft Purview | Microsoft Learn  Microsoft Purview 用語集 | Microsoft Learn