Databricks Academic Series 〜データアナリスト編〜 / academic-series-data-analyst

機械学習と生成 AI によるビジネスデータサイエンスデータブリックス・ジャパン株式会社 2026年4月 Data+AIの今データアナリスト編 1

©2025 Databricks Inc. — All rights reserved Databricks Academic Series
~ データアナリスト編 ~ ~DE-TA 主な対象者ワークショップを通じて、 Data+AI業界の最新動向から、Sparkを用いたデータ加工・ EDA、ダッシュボードや自然言語分析によるインサイト導出までをハンズオン形式で学びます。 • Sparkを用いたデータ加工やEDAを実践的に学びたい方 • ダッシュボードや自然言語分析を活用したデータ分析に関心のある方ゴール事前準備アジェンダ 1. Data+AI業界で働く人とスキルセット、事例 2. Sparkを用いたデータ加工と EDA 3. ダッシュボードと自然言語分析によるインサイト導出 4. 実践演習 • Data+AI業界の全体像と、求められるスキルセットを理解する • Sparkを用いたデータ加工とEDAの基本を理解する • ダッシュボードと自然言語分析によるインサイト導出の流れを理解する • 環境：お客様のPC環境、Databricks環境を利用いただきます

講義の全体像モジュール # 講義 Data+AIの今 1 Data+AI業界で働く人とスキルセット、事例データアナリスト編 2 Sparkを用いたデータ加工とEDA
3 ダッシュボードと自然言語分析によるインサイト導出 4 実践演習データエンジニア編 5 Sparkを用いた大規模データ加工 6 パイプラインの構築 7 実践演習データサイエンティスト編 ①機械学習 8 ノートブックによるモデル開発実践 (SparkMLを活用) 9 MLOpsによる業務品質のモデル開発サイクル 10 実践演習データサイエンティスト編 ②大規模言語モデル 11 大規模言語モデル(LLM)の理論と実践 12 AIエージェントの理論と実践（LLMOps含む） 13 実践演習

#1 Data + AIの今 4

Data+AIの社会実装 5

今求められているデータサイエンスの力 6 産業界は今、あなたのような専門性を持つ人材を強く求めているデータ駆動型への変換データ+AI人材の不足具体的な課題の解決 - 企業のDX加速 - データが競争力の源泉
- 世界：ITスキル不足により 2026年までに5.5兆ドルの損失*1 - 国内：17.6万人のデータ関連人材需要*2 - 需要予測・異常検知、サプライチェーン最適化etc - データはあるが活用できない状態からの脱却 *1: IDC, 2024 https://my.idc.com/getdoc.jsp?containerId=prUS52128824 *2: 矢野経済研究所 , 2023 https://www.yanoict.com/summary/show/id/715

産業環境におけるデータサイエンス 7 評価指標 Metrics 時間軸 Timeline 成果物 Deliverables 体制 Team
データ Data • 説明性 • 投資対効果 • UX向上 / コスト削減 • 週〜月単位の価値提供 • 実証済みの手法を活用 • 継続的なデリバリー • 具体的な問題解決 • 本番運用システムとの接続 • 継続的な価値提供 • 多職種協働（エンジニア・デザイナー・ビジネス） • 組織横断の調整 • ノイズが多く不完全 • 多様なフォーマット • リアルタイムな変化産業でのデータサイエンスの取り組みは、研究と異なる目的や環境を持つ

産業界が直面している現実的な制約 8 産業界では、技術的課題だけでなく組織的・社会的制約も考慮が必要

産業界が直面している現実的な制約 9 産業界では、技術的課題だけでなく組織的・社会的制約も考慮が必要 1. レガシーシステムとの共存 ✓ 数十年前の古いシステムとの連携が必須 ✓ データフォーマットの不統一、文字化け、データ欠損
✓ 完全刷新は不可能、段階的な移行が現実的

産業界が直面している現実的な制約 10 産業界では、技術的課題だけでなく組織的・社会的制約も考慮が必要 2. データガバナンスと品質管理 ✓ 権限管理：誰がどのデータにアクセスできるか ✓ データの正確性・鮮度・完全性の保証
✓ メタデータ管理、データカタログの整備

産業界が直面している現実的な制約 11 産業界では、技術的課題だけでなく組織的・社会的制約も考慮が必要 3. 組織横断の壁 ✓ 部署間のサイロ化（営業・製造・ITが別々のシステム） ✓ 異なる目標・KPI・予算による利害対立 ✓
意思決定プロセスの複雑さ、承認フローの長さ

産業界が直面している現実的な制約 12 産業界では、技術的課題だけでなく組織的・社会的制約も考慮が必要 4. 倫理・プライバシー・法規制 ✓ 個人情報保護法、GDPR、業界固有の規制 ✓ バイアスの検出と軽減（公平性の担保） ✓
データの匿名化・暗号化の要求 ✓ 国境を越えたデータ移転の制限

産業界が直面している現実的な制約 13 産業界では、技術的課題だけでなく組織的・社会的制約も考慮が必要 5. 説明責任とビジネス判断 ✓ 経営層・顧客への説明可能性（ブラックボックスは避ける） ✓ 障害時の責任の所在、
SLA（サービスレベル保証） ✓ 「完璧なモデル」より「現場で使えるシステム」

14 求められる技術スタックの例データ基盤構築の技術データを準備する分析・モデル開発の技術データから価値を作る本番運用・協働の技術価値を届け続けるクラウド・インフラ #コンピュート基盤
#ネットワーク設計 #IAM・セキュリティ #可用性・運用ストレージ・データベース #RDB #NoSQL #オブジェクトストレージ # データレイク #データウェアハウス#データレイクハウスパイプライン #ETL／ELT #ストリーミング #分散処理技術ガバナンス #スキーマ管理 #メタデータ管理 #機密情報保護 #権限管理 #監査プログラミング・ソフトウェア開発 #実装(SQL/Python/他)・API化 #テスト #コード品質管理データ処理・探索 #探索的可視化 #特徴量エンジニアリング評価・実験設計 #評価指標策定 #オフライン・オンライン評価モデリング・アルゴリズム #伝統的ML（回帰／分類）#深層学習 #生成 AI（プロンプト設計・RAG/Agent） MLOps・ワークフロー #実験管理 #モデルレジストリ #CI/CD/CTパイプライン #スケジューリング／オーケストレーション #モニタリング・自動再学習開発プロセス・チーム開発 #バージョン管理 #レビュー・ペアプロ #ドキュメンテーション #プロジェクトマネジメントビジネス活用 #BI・ダッシュボード #レポーティング #アラート通知・オペレーション連携 #業務プロセスへの組み込み #意思決定支援データエンジニアデータサイエンティスト／ MLOpsエンジニアデータアナリスト優れたデータ+AI組織を持つ企業では異なるスキルセットの人材が協業する

DATA+AIの民主化を支える Databricks 15

Q. データサイエンスの成果を本番化する仕組みは？ 16

D プロトタイプから本番システムへ 17 DSの成果を本番化にするには、データ基盤とMLOpsを両立したDATA+AI統合プラットフォームが不可欠 DATA AI 多様なデータの統合管理：テーブル、画像、音声、ドキュメントなどあらゆるデータの一元管理
他データソースとの接続：バッチやストリーミング、複製や仮想化の使い分けによる中央統合スケーラブルな処理基盤：データ量の増加に対応できる拡張性と安定的な処理性能品質・リネージ・監査：どのデータがいつ・どのように生成されたかを追跡データ基盤

D プロトタイプから本番システムへ 18 DSの成果を本番化にするには、データ基盤とMLOpsを両立したDATA+AI統合プラットフォームが不可欠 DATA AI モデル開発〜運用の自動化：学習・デプロイ・監視のサイクルの確立
継続的なモデル改善：本番環境での性能監視と再学習ガバナンスと再現性：モデル管理、バージョン管理、監査対応 LLMOpsへの拡張：サイクルに基盤モデル選定、プロンプト管理、チューニングを追加 MLOps

19 DATA AI Our mission is to democratize

Databricksを用いることで 1つのプラットフォームでデータとAIに関するあらゆるユースケースを実現

データエンジニアリングペタバイト級データ分析 SQL, BI モデル開発〜提供機械学習 Databricksの得意分野

データエンジニアリングペタバイト級データ分析 SQL, BI 生成AI 活用〜カスタマイズモデル開発〜提供機械学習
活用／シンプル化 Databricksの得意分野

顧客が保有するデータと紐付けて 1つのサービスで生成AIを動作させる技術 “ ” 生成AI分野でのDatabricksの独自性データインテリジェンス汎用インテリジェンスではなく

データインテリジェンスプラットフォーム

Q. もう少し（技術的に）詳しく！ 25

DBSQL Data warehousing Lakeﬂow Ingest, ETL, streaming Marketplace Data &
AI marketplace Apps Secure data & AI apps Lakebase Transactional database AI/BI Business intelligence Mosaic AI Artiﬁcial intelligence Data Intelligence Platform

キーワード「データレイクハウス」 27

データプラットフォームアーキテクチャの変遷データベース、 etc ETL データウェアハウス BI・レポートビジネスアナリストクラウドストレージ
画像、音声、動画、文書、 ... ビジネスアナリストデータサイエンティストデータエンジニアノートブック・機械学習パイプライン ETL/ELT データウェアハウス BI・レポートビジネスアナリストデータサイエンティストデータエンジニアメタデータ・ガバナンス層（ACL / リネージ / 監視 / モニタリング ..) 全てのデータ BI・レポート・パイプライン・ノートブック・機械学習 etc 1990s データウェアハウス 2010s データレイク 2020s データレイクハウス

用語(データウェアハウス ) Data Warehouse データベース、 etc ETL データウェアハウス BI・レポート (+)
企業データの統合 (-) 構造化データのみ対象 (-) 限定的な拡張性（ストレージとコンピュートが密結合） 1990sに登場ペルソナ：ビジネスアナリストストレージ：DHW内ブロックデータ：構造化データビジネスアナリスト長所短所特徴

用語(データレイク ) Data Lake クラウドストレージ画像、音声、動画、文書、 ... ビジネスアナリストデータ
サイエンティストデータエンジニアノートブック・機械学習 (+) 低コストなストレージ (+) 非構造化データにも対応 (+) ストレージの高い拡張性 (-) 低い信頼性 (Data Swamp) (-) サイロ化 2010sに登場ペルソナ：データエンジニア、データサイエンティスト他ストレージ：クラウドストレージデータ：非構造化データパイプライン ETL/ELT データウェアハウス BI・レポート長所短所特徴

用語(データレイク ) サイロ化されたデータシステムの課題ビジネスアナリストデータサイエンティストデータエンジニアデータ提供者（管理者・エンジニア）
• データとシステムの権限管理・運用が複雑化 • 非構造化データを扱えていない • 別部署/拠点とのデータ連携をすぐに行えないデータ消費者（アナリスト・サイエンティスト） • 分析したいデータが存在しない、見つからない • 大規模なデータを扱える環境がない • チーム間のコラボレーションが加速しない Data Lake ロックイン/断片化したデータ分散するセキュリティポリシー

用語(データレイクハウス ) Data Lakehouse ビジネスアナリストデータサイエンティストデータエンジニア
(+) 低コストなストレージ (+) ストレージ/計算資源双方の拡張性 (+) ACID保証による高信頼性 (+) 統合データガバナンス 2020sに登場ペルソナ：全てのデータ &AIユーザーストレージ：クラウドストレージデータ：全てメタデータ・ガバナンス層（ACL / リネージ / 監視 / モニタリング ..) 全てのデータ BI・レポート・パイプライン・ノートブック・機械学習 etc 長所短所特徴

メタデータ・ガバナンス層（ACL / リネージ / 監視 / モニタリング ..) 全てのデータ BI・レポート・パイプライン・ノートブック・機械学習 etc Lakehouse Data Intelligence Platform DBSQL Data warehousing Lakeﬂow Ingest, ETL, streaming Marketplace Data & AI marketplace Apps Secure data & AI apps Lakebase Transactional database AI/BI Business intelligence Mosaic AI Artiﬁcial intelligence

メタデータ・ガバナンス層（ACL / リネージ / 監視 / モニタリング ..) 全てのデータ BI・レポート・パイプライン・ノートブック・機械学習 etc Lakehouse Data Intelligence Platform DBSQL Data warehousing Lakeﬂow Ingest, ETL, streaming Marketplace Data & AI marketplace Apps Secure data & AI apps Lakebase Transactional database AI/BI Business intelligence Mosaic AI Artiﬁcial intelligence トランザクション & バージョン管理を実現し、大量データの分析を可能とするオープンテーブルフォーマット組織の全データと AIのアクセス権限を一元管理しセキュアなデータ活用を実現するガバナンス基盤データ分析・ AI開発・リアルタイム処理まで、データと AIに必要な機能を全部入りで搭載

なぜ企業で Databricksが求められているか 35 ✓ データサイロの解消 ✓ データとAIの民主化 ✓ 研究開発から本番運用までシームレス ✓
クラウドネイティブでスケーラブル ✓ 世界10,000社以上が採用世界10,000社以上が、データサイロ解消とAI民主化のために採用

Databricksを始める - Free Edition - 36

環境セットアップ https://www.databricks.com/jp/learn/free-edition　にアクセスクリック

環境セットアップご自身のアドレスを入力し、メールアドレスで続行をクリック

環境セットアップ登録したアドレスに、認証コードが届きます。そちらを入力してください

環境セットアップ続行をクリック

環境セットアップ以上でFree edition環境のセットアップは完了です！

#2 データガバナンスの基礎とデータ探索 42

AIは今や企業にとって必要不可欠な存在であり、 AIガバナンスはサイバーセキュリティやコンプライアンスと並んで取締役会レベルのトピックとなる「組織はようやく、データの価値を資産として認識しつつある。データを保護、管理、維持し、資産価値を高める必要がある。」 AIから最も高いリターンを得ている組織は、AIガバナンス
のフレームワークを持っており、モデル開発プロセスのあらゆるステップをカバーしているデータおよび AIイニシアチブの拡大においてガバナンスが最も重要

ガバナンスは単なるデータの保護ではないアクセスコントロール監査セキュリティ誰がどのデータに何ができるかを明確化し、リスクを抑えて業務を進められるようにする操作履歴の証跡を残して、内部
統制やコンプライアンス対応を確実にする従来

ガバナンスは単なるデータの保護ではないアクセスコントロールディスカバリーリネージ監査安全・オープンデータ共有品質
モニタリングコストコントロールビジネスセマンティクスセキュリティコラボレーション品質洞察誰がどのデータに何ができるかを明確化し、リスクを抑えて業務を進められるようにする必要なデータをすばやく見つけて理解し、意思決定や分析の着手時間を短縮するデータの来歴と影響範囲を可視化し、変更のリスク評価と調整を迅速化する操作履歴の証跡を残して、内部統制やコンプライアンス対応を確実にする社内外の関係者と安全にデータ連携し、スピードと統制を両立して協業を進める重要データの鮮度や抜け漏れを常時監視し、異常を早期検知して業務影響を最小化する利用とコストを見える化して、投資対効果の最大化と予算順守を実現する指標や定義を全社で統一し、「同じ数字・同じ物差し」を保証して議論・意思決定の質を高める従来現代

すべてのデータ資産にガバナンスを適用することは困難分断されたデータ・ AIのガバナンスアクセス管理、監査、モニタリング、オブザーバビリティ、リネージオープンな接続性の欠如アクセスとクロスプラットフォームのコラボレーションビルトインのインテリジェンスの欠如
データの発見、理解、領域に関する洞察の獲得サイロ Delta Lake Parquet Iceberg 異なるデータフォーマットデータレイクデータウェアハウスデータベースカタログ複数のデータソーステーブル AI モデルファイルノートブックダッシュボード多様なデータ・AI資産

分断されたガバナンスオープンな接続性の欠如インテリジェンスの欠如コンプライアンス、セキュリティ、品質リスク業務の非効率性ベンダーロックイン運用コストの上昇イノベーション速度の低下競争力の低下これらの課題は
ビジネス価値に影響を与える

統合ガバナンスすべてのデータ、AI資産、フォーマットを対象ビルトインのインテリジェンスドメインナレッジとプラットフォームの最適化オープンな接続性
あらゆるデータソース、計算エンジン、クライアントに理想のガバナンスに必要なソリューションとは

従来のカタログ Delta Lake Parquet Iceberg アクセスコントロールディスカバリーリネージ
監査安全・オープンデータ共有品質モニタリングコストコントロールビジネスセマンティクスセキュリティコラボレーション品質洞察テーブル AIモデルファイルノートブックダッシュボードあらゆる外部データソースを接続あらゆるツール、エンジン、プラットフォームによるオープンアクセスとコラボレーションすべてのData+AI の統合かつオープンなガバナンス

あらゆるデータソース、計算エンジン、クライアントに

• すべてのファイル、テーブル、ML モデル、 AI ツール、ノートブック、ビジネスメトリクスを 1 つのカタログにまとめ、運用効率を高
める • Delta、Iceberg、Parquet など、任意のオープンデータ形式を活用可能 • データの保存場所に関係なく、すべてのデータの唯一の信頼できるソースを作成する統合されたディスカバリー

• アクセスポリシーを管理し、すべてのデータと AI を監査するためのシンプルなインターフェースでコンプライアンスを向上 •
きめ細かなアクセス制御と属性ベースのポリシーでデータセキュリティを強化 • セルフサービスアクセスワークフローでデータの検出から利用までのプロセスを加速統合されたアクセス管理

• リアルタイムの列レベルのリネージにより、データフローと依存関係を追跡する運用オーバーヘッドを削減 • タグ付けと自動分類により、機密データと AI 資産のコンプライアンスを向上
• AI を活用したモニタリングとアラートにより、データ品質を確保 • 請求、使用状況、コスト、コンプライアンスに関するエンドツーエンドの可視性を実現統合された監視と可観測性

• データの複製なしで外部データベース、データウェアハウス、オープンテーブル形式のカタログにフェデレーションアクセスしてクエリを実行する • あらゆるツール、エンジン、プラットフォーム
からアクセスしてベンダーロックインを回避し、幅広い相互運用性を実現する • オープンソース基盤でガバナンスを将来にわたって保証するオープンなアクセス Amazon EMR Open APIs Federation AWS Glue Iceberg Catalog Azure Synapse Analytics Amazon Redshift Google BigQuery Horizon PostgreSQL Kafka External data sources External clients, engines and tools

• ETLやデータ複製なしで、オープンなクロスクラウド、クロスプラットフォームのデータ共有により、信頼できるデータと AI アセットで協業する • スケーラブルなクリーンルームを使
用しクラウド、リージョン、プラットフォーム間で機密データに関するパートナーとの安全なコラボレーションを実現するオープンなコラボレーション Apache Spark pandas PowerBI Tableau Microsoft Excel Databricks PostgreSQL MySQL Snowﬂake Amazon Redshift Azure SQL Azure Synapse Google BigQuery Apache Hive AWS Glue

• AI を活用したコメントとタグで明確さと理解を促進 • コンテキスト認識検索と自動生成されたデータインサイトにより生産性を向上 • あらゆるワークロード、あらゆるユーザーにドメイン
インテリジェンスを提供するインテリジェントアシスタントによりワークロードを高速化 • AI を活用した最適化によりパフォーマンスを最大化し、TCO を改善ビルトインインテリジェンス 58

Demo: Unity Catalog 59

カタログエクスプローラー 60 テーブル構造・説明列名、データ型、ビジネスメタデータ等その他基本情報作成/最終更新の日時、ユーザー、ストレージの場所、テーブルプロパティ
等履歴いつ、誰が、どのコードやジョブでどんな処理をしたか、等を一覧表示アクセス権限アクセスできるユーザーや権限の種類データリネージュ他のデータとの依存関係の可視化、ジョブや MLモデル、コードとの関連も表示利用状況このテーブルを使用している主なユーザー、クエリやコード、利用頻度等を可視化データプロファイルデータの中身に関する様々な統計、データ品質のダッシュボード

Appendix データメッシュ 61

データメッシュとは？課題：大規模組織での中央集権的データ基盤の限界 • 中央集権構造の限界：中央のデータレイクと単一データチームに極度に集約され、スケールせずボトルネックと過負荷が発生 • 品質・アジリティ不足：文脈を失った低品質データが蓄積し、分析までのリードタイムが長く、脆いパイプラインが散在
• データ所有と責任の欠如：ドメイン（事業部）側がデータの所有権・責任を持たず、「中央チーム待ち」と副産物的なデータ扱いが常態化 https://datameshlearning.com/getting-started/ https://martinfowler.com/articles/data-mesh-principles.html 解決策：データメッシュ - 企業のデータ管理における分散型アプローチ • ドメインと中央による分担型データガバナンス：ドメインに十分な自律性を持たせながらガバナンスを遵守するために、ドメインと中央IT組織の間で責任を分担 • セルフサービス型データ基盤：データエンジニアリング能力を持たないドメインチームがデータプロダクトを自律的に作成、開発、維持できるようなセルフサービスツールを提供し、ドメインによるデータオーナーシップを可能に

データメッシュ構成例：大手金融グループ 63 銀行ドメイン * G Data Data Product DWH
Insight Apps Amazon Redshift Fed ** 流通系企業 G Data Data Product DWH Insight Apps データとAIのセキュリティとガバナンスデータAIハブ G Data Apps Apps Apps Data ML LLM Data Product データ連携・加工・名寄せ・品質管理・MLモデル証券ドメイン G Data Data Product DWH Insight Apps Amazon Redshift Fed ** 市場ドメイン G Data Data Product DWH Insight Apps Amazon Redshift Fed ** ウエルスドメイン G Data Data Product DWH Insight Apps Amazon Redshift Fed ** 与信ドメイン G Data Data Product DWH Insight Apps Amazon Redshift Fed ** 広告系企業 G Data Data Product DWH Insight Apps クリーンルームクリーンルーム外部業者など G Data Data Product DWH Insight Apps APP：金融アドバイザリーお客様 FP 海外ドメイン G Data Data Product DWH Insight Apps 海外データAIハブマーケットプレイス G LLM Bot デルタシェアリング

データメッシュの 4原則 #1 ドメイン所有権 (Domain Ownership) #2 プロダクトとしてのデータ (Data as
a Product) • ドメインチームが自身のデータに責任を持つ • 分析データはドメインを中心に構成される • 中央のデータチームからドメインチームにデータの所有権が移行するドメインチーム：マーケティング、財務、顧客サービスなど、特定の事業領域や機能に特化したチームを指す。そのドメインに関する深い知識と専門性を持ち、データの生成から分析まで一連のプロセスを担当する • 分析データにプロダクト思考の哲学を適用する • ドメインチームは他のドメインのニーズを満たす高品質なデータを提供する責任がある • ドメインデータは公開APIと同様に扱われるべきプロダクト思考：データを単なる情報の集合体ではなく、価値あるプロダクトとして扱う公開APIと同様：データへのアクセスや利用方法を標準化し、明確に定義されたインターフェースを通じて提供する #3 セルフサービス型データ基盤 (Self-serve Data Infrastructure Platform) #4 連合ガバナンス (Federated Governance) • データ基盤にプラットフォーム思考を採用する • 専門のデータプラットフォームチームが、全ドメインのデータプロダクトを構築・実行・維持するための機能やツールを提供する • ドメインチームがデータプロダクトを簡単に消費・作成できるようにするプラットフォーム思考：多様なニーズに対応できる基盤（プラットフォーム）を構築するアプローチで、将来的な拡張性や柔軟性を考慮し、様々なアプリケーションやサービスが構築できる環境を提供することを目指す • 全データプロダクトの相互運用性を標準化によって実現する • ガバナンスグループがデータメッシュ全体で標準化を推進する • 組織のルールや業界規制に準拠したエコシステムを作る相互運用性：異なるシステムや組織間でデータやサービスをシームレスに交換・利用できる能力を指す。具体的には、共通の標準やプロトコルの採用、データフォーマットの統一化、 APIの標準化と公開、セマンティックな相互運用性の確保など

データメッシュのための Databricksの機能 #1 ドメイン所有権データ生産者であるドメインチームが、自分たちのデータとその結果に責任を持つことができる分散アーキテクチャ •
オープンで柔軟なアーキテクチャにより、ドメインごとのワークスペース /カタログを実現 • データ資産とパイプラインの分散所有 #2 プロダクトとしてのデータプロダクト思考を分析データに適用し、ソースドメインを超えたデータ消費者に質の高いデータを提供する • FAIR*データのためのオープンスタンダードとフォーマット • Delta LakeによるACID保証、バージョン、監査 • Delta Live Tablesによる新鮮で高品質なデータ #3 セルフサービス型データ基盤共通のツールによる相互運用可能なデータ製品の構築、実行、維持のためのドメインにとらわれないアプローチ • すべての分析ワークロードに対応する統一プラットフォーム • Databricks Workﬂowによるマネージドオーケストレーション • オートスケーリング & サーバーレス • IaC (Terraform) #4 連合型ガバナンス標準化を通じて、組織のルールや業界の規制に準拠したデータ・エコシステムを構築する。 • Unity Catalogによるディスカバリー、アクセス、リネージ • データおよびコンピュートリソースへのアクセス用のグローバルポリシーテンプレート

データメッシュパラダイムを採用する主な理由 1. 自律性と説明責任 • 中央のモノリシックなプラットフォームやプロセスによるボトルネックを回避する • 包括的なガバナンス・ルールを尊重しつつ、ドメインが自給自足できるようにする 2. データ品質とユーザビリティの向上 •
データとドメインを最もよく知るチームに任せる • ドメインに関連した品質とユーザビリティを、後付けではなく、設計によって実現する • データ作成者は消費者を満足させ、報酬を得るべきである 3. （クロスドメインの）コラボレーションと生産性の向上 • チーム間でのデータ共有とアクセスの簡素化 • オープンスタンダード、相互運用性、 FAIRデータ原則の奨励 * FAIR: Findable, Accessible, Interoperable, Re-usable

データメッシュ構造の適格条件エグゼクティブスポンサーシップデータドリブンなビジネスユニット組織の規模 • 変革をサポートするリーダーシップが必要 •
複雑な組織につきものの絶え間ない変化、継続的な成長、不確実性に対処する • ビジョンを戦略やロードマップに反映させる方法を理解する • データメッシュが意味を持つためには、組織内のビジネスユニットが以下の両方を望むことが重要である： ◦ 他のチームのデータプロダクトを分析に使用する ◦ 自分たちのデータをプロダクトとして他のチームに提供する • いくつかのビジネスユニットは、データメッシュのデータドメインとして組織化される • データメッシュのアプローチが有益であるためには、組織が「十分に大きな規模」である必要がある。 • 異なるビジネスユニットに十分なデータ＋ AI人材が存在し、ドメインへの分割が実際に意味を持つ必要がある。 • 成長する可能性のある小規模な組織では、標準的なレイクハウスから始め、将来の拡張に備える

#3 ダッシュボードと自然言語分析によるインサイト導出 68

ダッシュボードとは 69

ダッシュボードはデータと情報のギャップの橋渡しを行うデータダッシュボードビジネスインサイト

ダッシュボードは規模に応じて瞬時にインタラクティブな分析結果を提供するデータ SELECT name, national_id, country, fee_paid FROM fee_transactions
WHERE country IN (‘US’,’CA’,’MX’); クエリー可視化 AI

ダッシュボードを作成するには何が必要かデータビジネス目的ターゲットの閲覧者

ダッシュボードの構成要素の例 Title Filters Pie chart Counters Stacked bar chart Bubble
chart

ダッシュボードによる統計量の解釈の例

参考：よく使用する可視化の例

AI/BI Dashboards 76

企業はデータと AIの民主化を全従業員に対して実現したい

BI Platform Databricks Platform Unity Catalog データウェアハウス AI/ML データ
加工全てのデータデータのサブセット BIガバナンス BIダッシュボード限定された AIの知識データとガバナンスのポリシーを複製 “レガシー”なBIの典型的な問題 AIアシスタントの知能の限界特定のダッシュボードやセマンティックモデルに関する知識しか持たない管理すべきシステムが複数存在データセット、セマンティクス、ガバナンスモデルの同期を保つのが困難。追加の BIライセンス購入が必要となるパフォーマンスとスケールのどちらかを選択データの抽出が必要か、ダイレクトクエリーのレイテンシ問題に対処する必要がある 78

ネイティブ BIの典型的なメリット統合スケーラブルインテリジェント 1 2 3 79 統合された
BI、ガバナンス、セマンティクスにより、単一プラットフォームから洞察を得られる。別途ライセンスの調達、管理すべき「シャドーデータウェアハウス」、矛盾するKPIは不要。ボリュームや抽出レイテンシの制限なく、「Databricks規模」のデータセットを分析するライブクエリパフォーマンスパックを購入する必要がないデータ資産、利用パターン、ビジネス概念に関する深い知見を基盤とした AIが、迅速にカスタマイズされた正確な回答を生成する

Introducing Databricks AI/BI 全てのお客様のためのインテリジェントな分析ツール 80 Governed with Unity Catalog |
Powered by Databricks SQL Dashboards 組織全体のための迅速かつ安全な可視化インサイト Genie データと自然言語で対話 Included with Databricks SQL—No extra license fees

Included with Databricks SQL—No extra license fees AI/BI Dashboards Data
visualization in the era of AI AIをコアに内蔵あらゆる段階でインテリジェントな支援により、データ可視化、トレンド予測、主要要因分析を容易に実現 “光速”な分析簡素化されたコンテンツモデルとネイティブなパフォーマンス最適化により、大規模環境でもほぼ瞬時のインタラクティブ性を実現配布に最適化組織全体で、また信頼できるパートナーや顧客と、安全に知見を共有する

AI支援によるデータ分析と可視化自然言語を用いてダッシュボードに必要なデータセットを作成自然言語と画面のクリックで新しいビジュアルを作成

データとBIの統合的なガバナンスとセキュリティエンドツーエンド・列レベルのリネージデータパイプラインの変更が下流のダッシュボードにどんな影響を与えるかを列レベルで把握データと BI資産を一元的に管理・保護 Databricks外で特別なガバナンスモデルやデータウェアハウスを準備する必要なし Unity
Catalog

すべてのデータを用いて超高速・インタラクティブにインサイトを得るあらゆる規模に対応する超高速でインタラクティブなダッシュボードすべてのデータを用いた分析 vs. 抽出データのみを用いた分析
常に最新のデータでリアルタイムの分析を構築・展開

BIプラットフォーム Data Governance Semantic Models BI Dashboards & AI-bots Databricksプラットフォーム
Unity Catalog Data Warehouse AI and ML Data Engineerin g All your data Semantic Models Data Governance Databricksプラットフォーム Unity Catalog Data Warehouse AI and ML Data Engineering All your data Semantic Models Data Governance AI/BI Dashboards & Genie Subsets of your data 統合BI スタンドアロン BI ✔ ✔ ✔ ✖ ✖ ✖ データ、セマンティクス、ガバナンスを一箇所で実現データの一元管理意味論のためのひとつの場所データガバナンスのための単一拠点データの保存場所が複数意味論のための複数の場所データガバナンスのための複数の場所

ユニークユーザー数は？国別の売上の推移は？最も重要な顧客層は？最もポピュラーな配送方法は？注文の優先度の変化の傾向は？
注文の優先度別の売上の構成は？たしかに、良いダッシュボードは多くの質問に答えてくれる

あなたが予測できるのはユーザーが尋ねる質問のほんの一部ユニークユーザー数は？国別の売上の推移は？最も重要な顧客層は？最もポピュラーな配送方法は？
注文の優先度の変化の傾向は？注文の優先度別の売上の構成は？主要なサプライヤーは？現在の在庫レベルは？最もリードタイムが長いサプライヤーは？サプライチェーンのボトルネックはどこか？配送の遅延頻度は？欠品が発生している製品は？需要予測の精度は？余剰在庫がある場所は？場所別の在庫の状況は？最も利益が大きい製品は？配送遅延のコストは？品質に問題のあるサプライヤーは？平均的な注文履行時間は？輸送コストの傾向は？配送コストの傾向は？サプライヤーの契約義務の遵守状況は？製品別の返品率は？倉庫の稼働率は？持続可能性目標の達成状況は？

もし、ユーザーが自分たちが持っているデータと会話することができたら？

ビジネスは年度の目標に対してどう進捗している？もし、ユーザーが自分たちが持っているデータと会話することができたら？

ビジネスは年度の目標に対してどう進捗している？製品ライン売上実績売上予測差分目標

AI/BI Genie

AI/BI Genie データと会話セルフサービスでの Q&A ダッシュボードの更に先へ：ユーザーが自らのデータと自然言語を通じて会話しインサイトを得られるデータインテリジェンスを活用したAI
AIはユーザーデータに固有の知識を元に回答、ユーザーフィードバックを通じた精度の向上が可能ガバナンスとセキュリティユーザーがアクセス可能なデータは Unity Catalogで完全に管理一般提供（GA）

GENIE Query Agent Query Agent AIエージェントユーザー固有のデータの意味を継続的に学習するエージェントシステム専門のAIエージェントが協調して動作するアンサンブル方式
必要に応じてユーザーに確認を求めるツールとコンテキストの活用 • Unity Catalogのメタデータ • クエリ履歴 (すべてのワークロード ) • 関連する資産 (ノートブック、ダッシュボード、クエリ ) • セマンティックモデル (利用可能な場合 ) 学習し、記憶する質問は何でしょうか？ユーザーデータの意味を継続的に理解

ダッシュボードの更に先へ自社が持つデータに直接、対話型のQ&Aを行う Genieが会話のスレッドを保存、前回の続きから再開できる Genieは自然言語、表形式、グラフを使って回答

データインテリジェンスを活用した AIによる精度の高い回答データプラットフォームからのインテリジェンス管理者の指示を通じたインテリジェンスユーザーフィードバックを通じたインテリジェンス GenieはUnity
Catalogのテーブルのスキーマ、コメント、PK/FK関係を理解する。加えて、ダッシュボード内の SQLクエリも理解する。 Genieスペースの管理者は、指示（例：SQL クエリ、ビジネスルール、セマンティクス）を通じて更にインテリジェンスを追加できる。質問にどのように回答すべきか不確かな場合、 Genieは回答を推測するのでなくユーザーに明確化を求める。ユーザーはリアルタイムでフィードバックを提供することで、Genieの回答精度を更に向上できる。

AIが生成するインサイトにガバナンスとセキュリティを適用 Genieのモニタリング機能を用いることで、ユーザーが質問した内容をレビューできる。評価 (良い/悪い) を元に今後の回答精度を向上させられる。
AI/BIダッシュボード AI/BI Genie 安全な回答を返却企業データアクセスポリシーを適用 Unity Catalog GenieはUnity Catalogのアクセスポリシーを遵守し、ユーザーがアクセス可能なデータのみを返却する。

AI/BIを選ぶ理由シンプルなアーキテクチャー AI/BIはデータプラットフォームの一部として統合されているため、別のデータシステムや BIシステムの管理は不要 AI/BIはユーザーのデータ資産や使用パターン、ビジネスの概念に関する深い知識
を持ち、関連性が高く正確な回答を迅速に生成 AI/BI Genieは、ビジネスユーザーがダッシュボードを超えて、自然言語を使って新しいインサイトをセルフサービスで得られるようサポートするデータを深く理解より賢いセルフサービス 1 2 3

#4 実践演習 98

事前準備サンプルテーブルの作成 99

サンプルテーブル作成用ノートブックの取得ワークスペース > 作成 > Gitフォルダをクリック 100

サンプルテーブル作成用ノートブックの取得 1. GitリポジトリのURLに以下を貼り付け https://github.com/databricks-solutions/databricks-japan-bootcamp 2. スパースチェックアウトモードにチェックしコーンパターンに以下を貼り付け databricks-aibi-quick-workshop 3. Gitフォルダを作成をクリック 101

サンプルテーブル作成用ノートブックを開く databricks-aibi-quick-workshop > notebooks フォルダをクリック 102

サンプルテーブル作成用ノートブックを開く create_aibi_demo_data_bricksmart をクリック 103

サンプルテーブル作成用ノートブックを実行接続をクリックしサーバーレスを選択 ※ 非サーバーレスのクラスターでも本ノートブックは実行可能です 104

サンプルテーブル作成用ノートブックを実行 1つ目のセルを実行 105

サンプルテーブル作成用ノートブックを実行ワークスペースでのノートブックの初回実行時の場合、通知を表示の許可を求めるダイアログが表示されるので、許可する 106

サンプルテーブル作成用ノートブックを実行ウィジェットが表示されるので、カタログ名を入力 107

サンプルテーブル作成用ノートブックを実行すべてを実行をクリック 108

サンプルテーブル作成用ノートブックを実行一番下までスクロールダウンしてセルが正常終了（✔）していればOK 109

事前準備サンプルテーブルの確認 110

サンプルテーブルの確認カタログ > aibi_demo_catalog > bricksmart をクリック 111

サンプルテーブルの確認 gold_user テーブルをクリック 112

サンプルテーブルを確認 gold_user の概要タブ 113

サンプルテーブルを確認 gold_user のサンプルデータタブでコンピュートを選択をクリック 114

サンプルテーブルを確認開始して閉じるをクリック 115

サンプルテーブルを確認以下のようにサンプルデータが表示されればOK 116

ハンズオン : Unity Catatlog 1. Databricksワークスペースにログイン ◦ ログイン方法はFree Edition登録方法を参照 2.
表示言語を日本語に変更 3. サンプルのテーブルを表示 ◦ カタログ: （当日指示） ◦ スキーマ: bricksmart ◦ テーブル: gold_user 4. サンプルのテーブルの各種情報を確認 ◦ どんなデータが入っているか？ ◦ いつ、誰によって作られたか？ ◦ 誰がデータを使用できるか？ ◦ テーブル/他データ資産との関係性は？ 1. テーブルの説明の鉛筆ボタンを押してみましょう（説明を変更してもSaveを押さなければ反映されません） 2. 列のコメントの鉛筆ボタンを押してみましょう 3. transactions テーブルの概要タブの「関係を表示」ボタンを押してみましょう課題追加課題 (時間があれば挑戦 )

1. Genieスペースを作成 • Title例: EC分析スペース_山田太郎 • Default warehouse: Serverless Starter
Warehouse または当日指示 • Tables: aibi_demo_catalog > bricksmart スキーマの全テーブルを選択 • 2. 商品のカテゴリーの理解 • ブリックスマートの商品のカテゴリーをGenieに聞く • 回答が英語の場合、日本語で回答するように Genieに指示を追加する • 3. 商品のサブカテゴリーの理解ハンズオン : AI/BI Genie 課題 4. 回答にフィードバックを付与 • Good/Badを付与 • 管理者にレビューリクエストを送信 • 5. スペース設定の更新 • 説明とサンプル質問を追加 • 6. スペースの共有 • ワークスペースのユーザーに作成した Genieスペースを共有

ハンズオン : AI/BIダッシュボード 1. 空のダッシュボードを作成 • 名前例: EC分析ダッシュボード _山田太郎
• 使用するウェアハウス : Serverless Starter Warehouse または当日指示 • 2. ダッシュボードにテキストを追加 • テキスト例: # 基本的な分析 • 3. ダッシュボードにデータセットを追加 • gold_user テーブルを選択 • 4. ダッシュボードにグラフを追加 1. 合計ユーザー数 2. 年齢層別ユーザー数 3. 性別別ユーザー数 4. 地域別ユーザー数課題 5. ダッシュボードにフィルタを追加 1. 年齢層 2. 性別 • 6. ダッシュボードを公開 • 7. クロスフィルタリングを試す • グラフの「シニア層」などをクリックし他のグラフの変化を確認する

ハンズオン : AI/BIダッシュボード 1. ダッシュボードに新しいページを追加 • 既存ページ名を基本などに変更する • 新規ページ名を応用などに変更し、
# 応用的な分析のテキストを追加する • 2. Databricks Assistantを活用して以下のデータセット用のSQLを追加 1. 地域別・年齢層別のユーザー数 2. 年齢層別・地域別の平均食品購入点数 • 3. 2のデータセットを使ってグラフを作成 • 4. ダッシュボードを公開追加課題 (時間があればチャレンジ ) 5. 公開済みダッシュボード上の Genieに聞くをクリックし、何かしらの質問をしてみる • データセットについて日本語で説明して • シニア層の定義は？ • 地域の例は？

ハンズオン : AI/BI Genie 1. 地域の傾向を分析（以下は観点の例） • ユーザーがいる地域 •
東京と大阪のカテゴリー別の売上金額と割合 • 東京と大阪のカテゴリー別の購買客数・客単価・購買頻度 • 2. 年齢層の傾向を分析 • ユーザーの年齢層 • 年齢層ごとのカテゴリー別の売上金額と割合 • シニア層と中年層の食料品の売上構成の差追加課題 (時間があればチャレンジ ) 3. 更に時間があれば自由に質問を行いデータの隠れた傾向を炙り出す以下は分析軸の例 • 性別ごとの傾向 • 組み合わせによる傾向 i. 若年層の地域別の傾向 ii. シニア層の地域別の傾向

Databricks Academic Series 〜 データアナリスト編 〜 / acad...

Databricks Academic Series 〜 データアナリスト編 〜 / academic-series-data-analyst

More Decks by Databricks Japan

Other Decks in Technology

Featured

Transcript

Databricks Academic Series 〜データアナリスト編〜 / acad...

Databricks Academic Series 〜データアナリスト編〜 / academic-series-data-analyst