Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Microsoft Fabric 開発ガイド - 基本編 -

Avatar for Ryoma Nagata Ryoma Nagata
September 03, 2025
120

Microsoft Fabric 開発ガイド - 基本編 -

Microsoft Fabric 全体像まで

Avatar for Ryoma Nagata

Ryoma Nagata

September 03, 2025
Tweet

More Decks by Ryoma Nagata

Transcript

  1. Microsoft Fabric 攻略ガイド 2.0版 2025.xx.xx Microsoft MVP for Data Platform

    永田 亮磨 (ZEAL CORPORATION) X: @ryomaru0825 Linkedin: ryoma-nagata-0825 Qiita: ryoma-nagata ドラフト
  2. 目次 1. はじめに 2. データ活用基盤の全体像 3. Microsoft Fabric について 4.

    データ管理機能 1. データ蓄積 2. データ処理 5. ユースケース 1. データレイク・DWH 2. BI 3. データサイエンス 4. リアルタイム 5. AI 6. 基盤管理  インフラストラクチャー:Microsoft Fabric について  ガバナンス  コスト・パフォーマンス最適化  CICD 7. 学習リソース  MS Learn  Tech Blog  公式ドキュメント  GitHub サンプル  コミュニティ  製品ロードマップ
  3. 本書の対象読者 ロール名 概要 特に関連の深い章 データガバナンス責任者 データ資産の把握、推進 5.基盤管理(ガバナンス) プラットフォーム管理者 容量・ワークスペース・ネットワーク管理 5.基盤管理(インフラ)

    データスチュワード ドメイン管理、ポリシー統制 5.基盤管理(ガバナンス) プロダクト管理者 データ資産運用責任 5.基盤管理(ガバナンス、コスト最適化,CICD) データエンジニア DWH/ETL/パイプライン開発 3.基盤機能、4.ユースケース データサイエンティスト 機械学習モデル開発 3.基盤機能、4.ユースケース(AI/DS) BIモデラー BIモデル設計 3.基盤機能、4.ユースケース(BI) レポート開発者 レポート作成 4.ユースケース(BI) データ利用者 公開データの活用 4.ユースケース  本書はデータ分析基盤に関わる多様な立場の読者を想定しています。 以下は各ロールごとに、特に参考になる章を示したものです。 ご自身の役割に合わせて参照すると効率的に読み進められます。
  4. データ分析基盤が目指すデータ資産の価値昇華 データ分析基盤はデータを価値ある資産に昇華するプロセスを推進する  データの価値昇華の流れは一般に DIKW モデルで表現される。  データ:事実の収集(センサー、取引、ログなどデータそのもの)  情報(Information):整理され意味をもったデータ(集計、分類、可視化など計測できる状態)

     知識(Knowledge):知見の獲得(モデル化、予測、相関分析などでデータの背景、関連性がわかった状態)  知恵(Wisdom):意思決定と実行(ビジネスアクション、改善サイクルを回せる状態) データ 情報 知識 知恵 データ分析基盤
  5. データの昇華と役割と課題  データの昇華過程では複数の専門スキルが必要とされ、多様なロールが参画する  それぞれがデータ分析基盤を通じてつながり、共創する  知恵を生むためのビジネスユーザーの依頼に応える、消費者と生産者が分断した構造  少人数で構成されるハイスキルなロールに負担が集中 データ

    情報 知識 知恵 アナリスト/データサイエンティスト 分析/解析の専門家 ビジネスユーザー 洞察をビジネスアクションへ データエンジニア データ整備の専門家 関与範囲 ロール 負担が集中する ビジネス知識の重要度
  6. セルフサービスの重要性  現代のデータ分析基盤では、ビジネスユーザーがデータ資産を知恵として消費するだけで はなく、 「昇華のプロセスに直接参画し、セルフサービスで試行錯誤」することにより、迅速性と 確実性を向上させることが期待されている  価値ある知恵を生み出すためのプロセスであるほど、「ビジネス現場の知識」が重要なため効果大 データ 情報

    知識 知恵 アナリスト/データサイエンティスト 分析/解析の専門家 ビジネスユーザー 洞察をビジネスアクションへ データエンジニア データ整備の専門家 ビジネス知識の重要度 関与範囲 ロール データ分析基盤を活用したセルフサービスにより情報生成に踏み込む
  7. 公式データの整備活動とセルフサービスデータ活用の両輪  「正しい公式データの整備」×「セルフサービスでの活用」 を両輪で回す  公式データの整備により 一貫性・再利用性・信頼性 を担保  セルフサービスの活用により

    迅速な試行錯誤・現場での知恵の獲得 が可能  現場で得られた知恵を組織全体で共有し、再利用可能な資産として蓄積  活用と整備が循環することで継続的にデータ資産の価値が強化される 情報を探索し、 知見を生成 知見からアクションへ (知恵) 公式データや 公式の情報の生成 セルフサービスの価値実証 データの特定と取得 現場の知恵を個人レベルで終わらせず、 組織全体で共有・再利用可能なデータ資産に昇華させる データ活用 データ整備 正しいデータでの 改善サイクル
  8. データ分析基盤 Microsoft Fabric によるデータ分析基盤の実現  本書ではデータ分析基盤に Microsoft Fabric を採用する 

    Microsoft Fabric は分析における全ての機能を一貫して提供する総合サービスである データソース 打ち手・施策 データ活用 データ整備 DWH・データレイク BI データサイエンス AI リアルタイム プラットフォームサービス(インフラストラクチャー / ガバナンス etc.) データ処理 データ蓄積 ユースケース データ管理基能
  9. パイプライン データフロー Gen2 レイクハウス ウェアハウス Apache Airflow ジョブ ノートブック Graph

    QL 用 API ミラーリング 環境 SQL DB Microsoft Fabric ワークロードとアイテムの整理 Data Factory Data Engineering Data Warehousing Databases 実験/ MLモデル データエージェント Python/Spark ノートブック 環境 Data Science セマンティックモデル レポート イベントストリーム アクティベーター リアルタイム ダッシュボード ページ分割レポート イベントハウス 組織アプリ Power BI Real-time Intelligence データ統合 様々なロケーションにある データシステムをターゲット にして、データを収集・準 備・変換する データエンジニアリング 多様なデータをレイクハウ スに集約し、Apache Spark で大規模処理を 行う データサイエンス 市民データサイエンティス トを中心に、AI や機械 学習でデータを強化・活 用する データウェアハウス 大規模データを Fabric 上に蓄積またはミラーし、 T-SQL で効率的に分 析する リアルタイムデータ活用 時系列データを蓄積・処 理し、リアルタイムの監視 やビジネスアクション連携 を実現する 運用データベース 運用アプリケーションに最 適化されたリレーショナル /NoSQL データベースを 構築する ビジネスインテリジェンス 組織全体で分析モデルと ビジュアルを共有し、デー タ探索と意思決定を迅 速化する コピージョブ Microsoft Fabric ドキュメントの Data Engineering - Microsoft Fabric | Microsoft Learn Fabric データ ウェアハウス - Microsoft Fabric | Microsoft Learn Microsoft Fabric のドキュメントのリ アルタイムインテリジェンス - Microsoft Fabric | Microsoft Learn Microsoft Fabric の Data Factory のドキュメント - Microsoft Fabric | Microsoft Learn Power BI ドキュメント - Power BI | Microsoft Learn Microsoft Fabric のデータベース - Microsoft Fabric | Microsoft Learn Microsoft Fabric Data Science のドキュメント - Microsoft Fabric | Microsoft Learn Cosmos DB コンセプト 主なアイテム ワークロード
  10. Data Factory 様々なロケーションにあるデータシステムをターゲットにして、 データを収集・準備・変換する 多様な処理をまとめて実行するワークフローを構築 データフロー Gen2 パイプライン Power Query

    ベースのローコードで、 データの抽出・変換・登録を実行 Dataflow Gen2 とは - Microsoft Fabric | Microsoft Learn Data pipelines - Microsoft Fabric | Microsoft Learn
  11. Data Factory 様々なロケーションにあるデータシステムをターゲットにして、 データを収集・準備・変換する 複雑なデータワークフローをプログラムで作成・管理できる Apache Airflow 環境 Apache Airflow

    ジョブ プレビュー コピージョブ パイプライン不要で、ガイド付きの操作でソースから コピー先へデータを簡単に移動 Apache Airflow ジョブとは - Microsoft Fabric | Microsoft Learn コピー ジョブとは - Microsoft Fabric | Microsoft Learn
  12. Data Engineering 多様なデータをレイクハウスに集約し、 Apache Spark で大規模処理を行う 構造化/非構造化データを統合的に格納・管理できる レイクハウスアーキテクチャ レイクハウス Apache

    Spark による並列分散データ処理を ノートブック形式で実行する ※データサイエンスワークロードのノートブックと同一 ノートブック ノートブックの開発、実行、管理 - Microsoft Fabric | Microsoft Learn レイクハウスとは - Microsoft Fabric | Microsoft Learn
  13. Data Engineering 多様なデータをレイクハウスに集約し、 Apache Spark で大規模処理を行う ノートブック実行用のランタイムとライブラリセットを管理する 環境 アプリケーションが効率的にデータにアクセスするための GraphQL

    API エンドポイントを提供 ※データサイエンスワークロードの環境と同一 GraphQL 用 API Fabric で環境を作成、構成、使用する - Microsoft Fabric | Microsoft Learn GraphQL 用の Microsoft Fabric APIとは - Microsoft Fabric | Microsoft Learn
  14. Data Warehouse 大規模データを Fabric 上に蓄積またはミラーし、 T-SQL で効率的に分析する 高性能な T-SQL エンジンで構造化データを効率的に分析

    ウェアハウス 外部 DB (Cosmos DB / Azure SQL / Snowflake 等)を ETL なしで Fabric にレプリケーションし、分析に活用 ミラーリング ミラーリング - Microsoft Fabric | Microsoft Learn Microsoft Fabric のデータ ウェアハウスとは? - Microsoft Fabric | Microsoft Learn
  15. Microsoft Fabric ミラーリング  様々な外部データシステムのデータに対するニアリアルタイム分析を実現する カスタマー 360 ファイナンス サービス テレメトリー

    ビジネス KPI Data Factory Synapse Data Engineering Synapse Data Science Synapse Data Warehousing Real-time Intelligence Power BI Data Activator Snowflake Open Mirroring For Partner eco systems Azure Cosmos DB Azure Databricks Unity Catalog Azure SQL Database …and more Fabric ミラーリングにより、既存のデータベースや データウェアハウスをETLなしでFabricに追加 データは Delta 形式で OneLake に複製され、 ほぼリアルタイムで最新の状態に保たれます。 OneLake上に作成されたレプリカは Fabric による 全てのデータ分析に利用でき、ソースデータベースに 分析の負荷を与えることはない
  16. Data Science 市民データサイエンティストを中心に、 AI や機械学習でデータを強化・活用する 実験・モデル 機械学習の実験を管理し、モデルを記録・評価・追跡する GUI 付きノートブックでデータ探索や ML

    モデルの構築・管理を実行し、データを強化 ※データエンジニアリングワークロードのノートブックと同一 ノートブック Machine Learning の実験 - Microsoft Fabric | Microsoft Learn Machine learning model - Microsoft Fabric | Microsoft Learn ノートブックの開発、実行、管理 - Microsoft Fabric | Microsoft Learn
  17. Databases 運用アプリケーションに最適化された リレーショナル/NoSQL データベースを構築する SQL DB Cosmos DB 運用アプリケーション向けのフルマネージドなリレーショナルデータベース グローバル分散型の低レイテンシ

    NoSQL データベース Cosmos DB データベース プレビュー - Microsoft Fabric | Microsoft Learn SQL データベースの概要 (プレビュー) - Microsoft Fabric | Microsoft Learn プレビュー プレビュー
  18. OneLake  組織全体で共有される 1 つのデータレイク (OneDrive for Data)  Fabric

    に標準で備わり、ワークスペース - アイテム - テーブル・・・のようにフォルダ分割  全ワークロードのデータは自動で OneLake に保存 xOneLake、データ用の OneDrive - Microsoft Fabric | Microsoft Learn 構造化/非構造化データを保存可能 構造化データは Delta-Parquet 形式で統一保存 ストレージと計算を分離、任意のエンジンで相互処 理
  19. OneLake の特徴  OneCopy: データコピーは一度きり。どのエンジンからも再利用可能  冗長コピーをなくし、ストレージコスト削減とデータの一貫性を実現 カスタマー 360 ワークスペース

    オンプレミス クラウド データソース コピー (一度だけ) T-SQL エンジン 分析・変換 Data Factory エンジン Microsoft Fabric Power BI エンジン 可視化 (No コピー)
  20. OneLake の特徴  OneCopy: データコピーは一度きり。どのエンジンからも再利用可能  ショートカットにより既存のデータ資産をリンクを張るように簡単に再利用 カスタマー 360 ワークスペース

    オンプレミス クラウド データソース コピー (一度だけ) T-SQL エンジン 分析・変換 Data Factory エンジン Microsoft Fabric Power BI エンジン 可視化 (No コピー) Python(Pyspark) エンジン ファイナンス ワークスペース 解析 既存のデータレイク ショートカット (Noコピー) 既存のデータ資産を そのまま参照可能 ショートカット (Noコピー)
  21. OneLake の特徴  オープンアクセス:既存の ADLS Gen2 ツール・サービスがそのまま使える  ADLS Gen2(DFS

    API) に対応した多くのサービスが OneLake にアクセス可能 Azure Databricks データ活用サービス Azure AI Studio Snowflake Azure Data Factory クライアントツール Azure Storage Explorer PowerShell SDK OneLake File Explorer Microsoft 以外もOK
  22. OneLake の特徴  オープンフォーマット:標準規格でサイロ化を防止  ベンダーフリーな Delta Lake 形式を採用することで、将来のクラウド移行やマルチクラウド戦略にも対応可能 ファイナンス

    非構造化データ 構造化データ (Delta Parquet) Home | Delta Lake  データは2種類のフォルダで管理 - Tables(構造化データ) : Delta Lake 形式専用のフォルダ - Files: 非構造化データを含むあらゆるデータ用フォルダ  独自拡張「Delta Parquet」  独自のエンコーディング技術(V-Order) によりクエリ性能を 向上
  23. Delta Lake  Databricks 社が開発したオープンテーブルフォーマット オープンかつシンプル  ベンダーロックインなく、あらゆるツールからアクセ ス可能 

    SQL/Python 双方での共通データアクセス  統一されたバッチ、ストリーミング DWHとデータレイクのいいとこどり  高速なクエリ  タイムトラベル機能による過去データの遡り  スキーマの自動拡張 or 強制  構造化~非構造化データに対応しつつ高い圧縮率 Home | Delta Lake コンプライアンス対応  監査履歴  UPDATE, DELETEによるデータ操作
  24. オープンテーブルフォーマット Iceberg にも対応  OneLake は別の業界標準オープンテーブルフォーマットである、「Iceberg」との互換性 も実現  OneLake に保存された

    DeltaLake テーブルは Iceberg としても読取可能  New in OneLake: Access your Delta Lake tables as Iceberg automatically (Preview) | Microsoft Fabric ブログ | Microsoft Fabric  OneLake に保存された Iceberg テーブルは Delta Lakeとして読取可能  OneLake で Iceberg テーブルを使用する - Microsoft Fabric | Microsoft Learn  「Databricks は Delta Lake が標準」、「Snowflake は Iceberg を選択可能」である ため、主要なデータ分析プラットフォームとの高度な相互運用性を実現可能 Iceberg OneLake Delta Lake Databricks Microsoft Fabric Snowflake 双方のフォーマットを 自動生成
  25. 補足)Delta Lake と Iceberg の概要比較  一般に OTF 市場内では機能の大きな相違はなく、成熟度や牽引するベンダーエコシステムが 現在の比較ポイントとなる

    Linux Foundation コミュニティ Apache Foundation Spark の開発者 *Spark の開発者によりDatabricks が設立される 開発元 Netflixのエンジニア *Iceberg 創設者による企業 Tabular は Databricks に買 収済 カタログレイヤー:任意 メタデータレイヤー:delta_log データレイヤー:Parquet コンポーネント カタログレイヤー:Polaris Rest Catalog などを要する メタデータレイヤー:manifest file データレイヤー:Parquet, ORC, Avro Spark に特化 エンジン親和性 多エンジン(Spark, Flink, Trino 等) Databricks が牽引(現在 4.0 preview) ベンダーエコシステム 中立(現在1.81) Databricks 、Fabric OneLake など プラットフォームの ネイティブサポート Snowflake, Dremio, AWS Athena, Starburst など
  26. AI ドリブンな洞察の取得  Power BI レポートとモデルのための Copilot  AI向けに準備されたセマンティックモデルをもとに、自然言語で「レポートを要約して」と指示すれば、主要な傾向や異 常値を自動で抽出可能。

     DAXや統計の専門知識がなくても、レポートやデータに関する質問を補助的にサポートし、AIがビジネスインサイトの発 見を支援。 Power BI レポートとセマンティック モデルで Copilot を使用する - Power BI | Microsoft Learn プレビュー
  27. AI ドリブンな洞察の取得  スタンドアロン Copilot  ホーム画面から直接アクセスでき、データ探索の最初の入口として利用可能  自然言語でデータに関する質問を投げかけ、関連レポートやセマンティックモデルを横断的に検索・要約 

    「部門別の売上レポートを探して」「このレポートを要約して」など、探索・要約・質問 を 1 つの入口から実行 Power BI でのスタンドアロン Copilot エクスペリエンス (プレビュー) - Power BI | Microsoft Learn プレビュー
  28. 組み込みのガバナンス機能  OneLake カタログ (管理タブ)  データ資産のガバナンス状況を見える化  改善が必要なポイントを分析し、推奨アクションを提示 データ資産の分析情報

    データ資産の概要 ガバナンス改善に推奨されるアクション OneLake カタログを使用して Fabric データを管理する - Microsoft Fabric | Microsoft Learn
  29. データ活用者にとってのデータ資産価値向上支援  ドメイン - Microsoft Fabric | Microsoft Learn 

    ワークスペースを論理的に分類し、必要なデータ資産に素早くアクセス  承認(エンドースメント)の概要 – Microsoft Fabric | Microsoft Learn  信頼できるデータを「公式」として認定し、安心して再利用可能に  Fabric のタグ  追加のメタデータで検索性・発見性を向上させ、データ探索を効率化
  30. Microsoft Purview と連携したデータガバナンスの強化 Purview の機能を活用することで、安心して使えるデータ活用環境を整備する  How can I decide

    which protection method to use to protect my sensitive data in Fabric? | Microsoft Fabric Blog | Microsoft Fabric  データ損失防止(DLP)について | Microsoft Learn  機密データが不適切に共有されないように検知・アラート  Microsoft Fabric の保護ポリシー - Microsoft Fabric | Microsoft Learn  秘密度ラベルと連動し、許可されていないユーザーやグループのアクセスを制御 DLP(データ損失防止)ポリシーへの違反時にアラート Microsoft Purview 秘密度ラベル × データ損失保護でファイルの外部共有を監 視統制する #DLP - Qiita Microsoft Fabric で秘密度ラベルを適用する②保護ポリシーによりシ ステム管理者からのデータアクセスをブロックする #MicrosoftFabric - Qiita 保護ポリシーで許可されていないユーザーに対して制限
  31. データ分析基盤 Microsoft Fabric によるデータ分析基盤の実現  Fabric の各サービスは、データ分析基盤の要素に当てはめて整理できる。  以降の章では、この整理を軸に Fabric

    の活用方法を紹介する。 データソース 打ち手・施策 データ活用 データ整備 DWH・データレイク BI データサイエンス AI リアルタイム プラットフォームサービス(インフラストラクチャー / ガバナンス etc.) データ処理 データ蓄積 ユースケース データ管理基能
  32. データ分析基盤 データ分析基盤の全体像  データ蓄積領域は以下のパートで整理する  データストア:どこになにを格納するか  データモデリング:どのようにデータを表現するか データソース 打ち手・施策

    データ活用 データ整備 プラットフォームサービス(インフラストラクチャー / ガバナンス etc.) データ処理 データ蓄積 ユースケース データ管理基能 データストア データモデリング 鋭意作成中