Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
生成AIによるデータサイエンスの変革
Search
Takaaki Yayoi
August 13, 2025
Technology
0
2.9k
生成AIによるデータサイエンスの変革
青山学院大学での講義に用いた資料です。
Takaaki Yayoi
August 13, 2025
Tweet
Share
More Decks by Takaaki Yayoi
See All by Takaaki Yayoi
生成AIによる情報システムへのインパクト
taka_aki
1
260
JEDAI Databricks Free Editionもくもく会
taka_aki
1
170
15分で作るDatabricksと生成AIエージェント
taka_aki
1
140
MLflowはどのようにLLMOpsの課題を解決するのか
taka_aki
1
340
ハンズオンで学ぶ Databricks - はじめてのDatabricks
taka_aki
1
660
DeepSeekとは?何がいいの? - Databricksと学ぶDeepSeek! 〜これからのLLMに備えよ!〜
taka_aki
2
310
ハンズオンで学ぶ Databricks - Databricksにおけるデータエンジニアリング
taka_aki
2
3.1k
ハンズオンで学ぶ Databricks - Databricksにおける機械学習、画像処理
taka_aki
2
160
Databricks : 製造業AI統合プラットフォームのご紹介
taka_aki
1
210
Other Decks in Technology
See All in Technology
Tableau API連携の罠!?脱スプシを夢見たはずが、逆に依存を深めた話
cuebic9bic
3
220
GMOペパボのデータ基盤とデータ活用の現在地 / Current State of GMO Pepabo's Data Infrastructure and Data Utilization
zaimy
3
210
AI時代の経営、Bet AI Vision #BetAIDay
layerx
PRO
1
1.9k
AWS DDoS攻撃防御の最前線
ryutakondo
1
150
プロダクトエンジニアリングで開発の楽しさを拡張する話
barometrica
0
130
全員が手を動かす組織へ - 生成AIが変えるTVerの開発現場 / everyone-codes-genai-transforms-tver-development
tohae
0
110
Amazon Bedrock AgentCoreのフロントエンドを探す旅 (Next.js編)
kmiya84377
1
140
LLMで構造化出力の成功率をグンと上げる方法
keisuketakiguchi
0
690
Bet "Bet AI" - Accelerating Our AI Journey #BetAIDay
layerx
PRO
4
1.7k
ロールが細分化された組織でSREと協働するインフラエンジニアは何をするか? / SRE Lounge #18
kossykinto
0
210
Serverless Meetup #21
yoshidashingo
1
120
Jamf Connect ZTNAとMDMで実現! 金融ベンチャーにおける「デバイストラスト」実例と軌跡 / Kyash Device Trust
rela1470
1
190
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
Statistics for Hackers
jakevdp
799
220k
Into the Great Unknown - MozCon
thekraken
40
2k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
183
54k
Six Lessons from altMBA
skipperchong
28
3.9k
BBQ
matthewcrist
89
9.8k
RailsConf 2023
tenderlove
30
1.2k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
Docker and Python
trallard
45
3.5k
Designing for Performance
lara
610
69k
The Language of Interfaces
destraynor
158
25k
Transcript
©2025 Databricks Inc. — All rights reserved 生成AIによる データサイエンスの 変革
2025/8/13 Databricks Japan 弥生 隆明
©2025 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明
(やよい たかあき) Databricks シニア スペシャリスト ソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 専門領域は生成AI、データエンジニアリン グ、Webアプリケーション ▪ 前職はコンサル、総合電機メーカー にてデータ分析・Webサービス構築 などに従事。インド赴任経験あり。 ▪ Qiitaでいろいろ書いています。 2 @taka_aki
©2025 Databricks Inc. — All rights reserved アジェンダ 1. Databricksのご紹介
2. 生成AIとは 3. Databricksと生成AIの融合 4. データサイエンスプロセスの変革 5. 生成AIを用いたデータサイエンスの実践 6. まとめ 3
©2025 Databricks Inc. — All rights reserved Databricksのご紹介
©2025 Databricks Inc. — All rights reserved データ+AIカンパニー クリエーター 10,000+
グローバルのお客様 $2.4B+ 年間収益 4B+ の投資 レイクハウス の 発明者 生成AIの パイオニア LEADER 2025 Data Science & Machine Learning Analytic Stream Processing LEADER 2024 Data Science & Machine Learning
データウェアハウス ETL 構造化データ データウェアハウス ビジネス インテリジェンス Pros ▪ 偉大なるビジネスインテリジェン ス(BI)アプリケーション
Cons ▪ 限定的な機械学習(ML)の サポート ▪ SQLインタフェースのみを 備えたプロプライエタリな システム 1990年代〜
構造化、半構造化、非構造化データ 機械学習 ETL データレイク Pros ▪ MLをサポート ▪ オープンなフォーマット、 巨大なエコシステム
Cons ▪ 貧弱なBIサポート ▪ 複雑化したデータ品質問題 データレイク 2010年代〜
多くの企業がデータウェアハウス・データレイクと格闘しています サイロ化はデータアーキテクチャをより複雑にしています データウェアハウス データエンジニアリング ストリーミング データサイエンス & 機械学習 Extract Load
Transform ストリーミングデータソース ストリーミングデータエン ジン リアルタイムデータ ベース 分析、BI データマー ト データウェアハウス 構造化データ 構造化、半構造化、非構造化データ 構造化、半構造化、非構造化データ データレイク データ準備 データレイク 機械学習 データ サイエンス そして現在
サイロ化はデータアーキテクチャをより複雑にしています データウェアハウス データエンジニアリング ストリーミング データサイエンス & 機械学習 Extract Load Transform
ストリーミングデータソース ストリーミングデータエン ジン リアルタイムデータ ベース 分析、BI データマー ト データウェア ハウス 構造化データ 構造化、半構造化、非構造化データ 構造化、半構造化、非構造化データ データレイク データ準備 データレイク 機械学習 データ サイエンス Amazon Redshift Teradata Azure Synapse Google BigQuery Snowflake IBM Db2 SAP Oracle Autonomous Data Warehouse Hadoop Apache Airflow Amazon EMR Apache Spark Google Dataproc Cloudera Jupyter Amazon SageMaker Azure ML Studio MatLAB Domino Data Labs SAS TensorFlow PyTorch Apache Kafka Apache Spark Apache Flink Amazon Kinesis Azure Stream Analytics Google Dataflow Tibco Spotfire Confluent 断絶したシステムとプロプライエタリなデータフォーマットはシステムの統合を妨げています 多くの企業がデータウェアハウス・データレイクと格闘しています そして現在
サイロ化はデータアーキテクチャをより複雑にしています データウェアハウス データエンジニアリング ストリーミング データサイエンス & 機械学習 Extract Load Transform
ストリーミングデータソース ストリーミングデータエン ジン リアルタイムデータ ベース 分析、BI データマー ト データウェア ハウス 構造化データ 構造化、半構造化、非構造化データ 構造化、半構造化、非構造化データ データレイク データ準備 データレイク 機械学習 データ サイエンス Amazon Redshift Teradata Azure Synapse Google BigQuery Snowflake IBM Db2 SAP Oracle Autonomous Data Warehouse Hadoop Apache Airflow Amazon EMR Apache Spark Google Dataproc Cloudera Jupyter Amazon SageMaker Azure ML Studio MatLAB Domino Data Labs SAS TensorFlow PyTorch Apache Kafka Apache Spark Apache Flink Amazon Kinesis Azure Stream Analytics Google Dataflow Tibco Spotfire Confluent 断絶したシステムとプロプライエタリなデータフォーマットはシステムの統合を妨げています データ サイエンティスト データ エンジニア データ アナリスト データ エンジニア サイロ化したチームの生産性は低下します 多くの企業がデータウェアハウス・データレイクと格闘しています そして現在
前進するためには : データレイクハウス 構造化、半構造化、非構造化データ データレイク 機械学習 ビジネス インテリジェンス ETL メタデータ、キャッシュ、
インデックス層 ETL 構造化データ データウェアハウス ビジネス インテリジェンス 構造化、半構造化、非構造化データ 機械学習 ETL データレイク
©2025 Databricks Inc. — All rights reserved データレイクハウス すべてのデータに対するオープンで統合された基盤 オープンデータレイク
すべての生データ (ログ、テキスト、音声、動画、画像) Databricksが レイクハウス アーキテクチャを発明 2020 統合セキュリティ、ガバナンス、カタログ 信頼性と共有のための統合データストレージ データ エンジニアリング BI データウェアハウス データサイエンス & AI Databricks AI Lakeflow AI/BI Databricks SQL Unity Catalog Delta Lake グローバル企業の 74% がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023
©2025 Databricks Inc. — All rights reserved 生成AIとは
©2025 Databricks Inc. — All rights reserved 生成AIとは? 人工知能: 人間レベルの知能を模倣し、人間を上回る能力を
持つシステムの作成を狙いとした学際的な コンピューターサイエンスの領域。 人工知能 (AI) 機械学習 (ML) ディープラーニング (DL) 機械学習: 明示的にプログラムすることなしに既存の データから学習し、予測を行う。 生成AI ディープラーニング : データからの学習に「人工ニューラルネットワーク」 を活用する。 14
©2025 Databricks Inc. — All rights reserved 生成AIとは? 生成AI: 以下のような新たなコンテンツの
生成にフォーカスしたAIのサブ領域: • 画像 • テキスト • 音声/音楽 • 動画 • コード • 3Dオブジェクト • 合成データ 人工知能 (AI) 機械学習 (ML) ディープラーニング (DL) 生成AI 15
©2025 Databricks Inc. — All rights reserved 生成モデル • 合成画像生成
• スタイルの変換 / 編集 • 翻訳 • 質疑応答 • 意味検索 • スピーチ to テキスト • 編曲 [0.5, 1.4, -1.3, ….] [0.8, 1.4, -2.3, ….] [1.8, 0.4, -1.5, ….] データオブジェクト ディープ ニューラルネットワーク タスク 数式的に世界を近似するMLモデリングの分派 16
©2025 Databricks Inc. — All rights reserved なぜ今なのか? 生成AIを現実のものにした要因 大規模データセット
• 大規模かつ広範なデータ セットが利用可能に • AIモデルは大規模データ セットのパターン、 相関、特性を学習 • 最先端の事前学習モデル
©2025 Databricks Inc. — All rights reserved なぜ今なのか? 生成AIを現実のものにした要因 大規模データセット
• 大規模かつ広範なデータ セットが利用可能に • AIモデルは大規模データ セットのパターン、 相関、特性を学習 • 最先端の事前学習モデル 計算パワー • ハードウェア、GPUの 進化 • クラウドコンピューティング へのアクセス • オープンソースソフトウェ ア、Hugging Face
©2025 Databricks Inc. — All rights reserved なぜ今なのか? 生成AIを現実のものにした要因 大規模データセット
• 大規模かつ広範なデータ セットが利用可能に • AIモデルは大規模データ セットのパターン、 相関、特性を学習 • 最先端の事前学習モデル 計算パワー • ハードウェア、GPUの 進化 • クラウドコンピューティング へのアクセス • オープンソースソフトウェ ア、Hugging Face 革新的なDLモデル • 敵対的生成ネットワーク (GAN) • トランスフォーマー アーキテクチャ • 人間のフィードバックによ る強化学習 (RLHF)
©2025 Databricks Inc. — All rights reserved なぜ気にする必要があるのか? 生成AIモデルの精度や効果が転換点を超えました •
1年前には不可能だったユースケースを実現するのに 十分にパワフルです • 技術者ではないビジネスユーザーが利用するにも十 分に経済的です 生成AIモデルとツールがすでに利用可能です • 多くモデルはオープンソースでありカスタマイズできま す • パワフルなGPUが必要ですが、クラウドで利用できま す ML/AIはしばらく前から存在していたが、なぜ今問題となっているのか “Chegg(オンラインチューターサー ビス)がChatGPTが自身のビジネ スに損害を与えていると発言した 後に、株価が40%下落しました” 05/02/2023 Source: CNBC 20
©2025 Databricks Inc. — All rights reserved 生成AIとDatabricksの融合
©2025 Databricks Inc. — All rights reserved あなたのすべてのデータに対する オープンで統合された基盤 データレイクハウス
データとAIを容易にスケール、活用 生成AI 組織全体におけるデータ+AIの民主化 データインテリジェンス プラットフォーム
©2025 Databricks Inc. — All rights reserved すべての生データ (ログ、テキスト、音声、動画、画像) データ
エンジニアリング BI データウェアハウス データサイエンス & AI Mosaic AI Lakeflow AI/BI Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake Databricksデータインテリジェンスプラットフォーム オープンデータレイク
©2025 Databricks Inc. — All rights reserved データ エンジニアリング BI
データウェアハウス データサイエンス & AI Mosaic AI Lakeflow AI/BI Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog Databricksデータインテリジェンスプラットフォーム 信頼性と共有のための統合データストレージ Delta Lake データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像)
©2025 Databricks Inc. — All rights reserved データ エンジニアリング BI
データウェアハウス データサイエンス & AI Mosaic AI Lakeflow AI/BI Databricks SQL Unified security, governance, and cataloging Unity Catalog Databricksデータインテリジェンスプラットフォーム Unified data storage for reliability and sharing Delta Lake データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化 Databricks SQL Text-to-SQL AI/BI 自然言語による データ分析 Lakeflow 自動化されたデータ品質 Mosaic AI カスタムLLMの作成、チュー ン、サービング
©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム データ中心の AI
生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンド AI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス データのセマンティクスを理解するために生成AIを活用 データインテリジェンスエンジン オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画像) Databricks SQL Text-to-SQL AI/BI 自然言語による データ分析 Lakeflow 自動化されたデータ品質 Mosaic AI カスタムLLMの作成チュー ン、サービング Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動で最適化
©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム データのセマンティクスを理解するために生成 データインテリジェンスエンジン
オープンデータレイク すべての生データ (ログ、テキスト、音声、動画、画 AI/B 自然言語に データ分 Lakeflow 自動化されたデータ品質 Unity Catalog 自然言語でセキュアに洞察を獲得 Delta Lake 利用パターンに基づきデータレイアウトを自動 Mosaic AI カスタムLLMの作成チュー ン、サービング オペレーション 財務 マーケティング カスタマーサービス どのようにして 組織の全員に データとAIを展開 できるのか? AI/BI Genie 自然言語で誰でもデータ&AI
©2025 Databricks Inc. — All rights reserved 改めて用語を整理しましょう 人工知能 (AI)
人間の知能を模倣できるシステムの構築を狙いとしたコンピュータサイエンスの学祭的領域 機械学習 (ML) 明示的にプログラムすることなしに既存データから学習して予測 Deep Learning (DL) データから学習するために人工ニューラルネットワークを活用 生成AI 新たなコンテンツ(画像、テキスト、音声、コード...)の生成にフォーカスしたAIのサブ領域 LLM 高度な言語処理能力を達成するために膨大なデータセットでトレーニングされたモデル 基盤モデル (GPT-4, BART, MPT-7B, …) 特定の言語の理解、生成タスクにファインチューンされたLLM 28
©2025 Databricks Inc. — All rights reserved 従来型、プロプライエタリ、オープンソース生成AI + LLMをサポート
あなたのユースケースにベストなモデルを選択 Databricksの生成AIに対するアプローチ ディープ ラーニング モデル 従来のML アルゴリズム プロプライ エタリLLM オープン ソース AI + LLM チェーン & エージェント Dolly MPT Stable Diffusion 29
©2025 Databricks Inc. — All rights reserved Mosaic AIはデータ中心のアプローチです 事前学習モデルの
活用、カスタム モデルの構築 リアルタイムアプリへ のモデルの サービング、監視 ネイティブツールで データと特徴量を準 備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データ セット モデル アプリ ケーション 30
©2025 Databricks Inc. — All rights reserved Mosaic AIはデータ中心のアプローチです 事前学習モデルの
活用、カスタム モデルの構築 リアルタイムアプリへ のモデルの サービング、監視 ネイティブツールで データと特徴量を準 備 データプラットフォーム — Delta Lake ガバナンス — Unity Catalog データ セット モデル アプリ ケーション データプラットフォーム上に構築 高速なデプロイメント ビルトインのガバナンスとモニタリング
©2025 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集
EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング 32
©2025 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集
EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング データ エンジニア リング モデル開発 モデル トラッキング モデル レジストリ モデル デプロイ メント 33
©2025 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集
EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント レイクハウス モニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング データ エンジニア リング モデル開発 モデル トラッキング モデル レジストリ モデル デプロイ メント データエンジニアリング モデル開発 Databricks ML ランタイム モデルトラッキング モデルデプロイメント Databricks モデルサービング モデルレジストリ Unity Catalog 34
©2025 Databricks Inc. — All rights reserved 完全なMLライフサイクル データクリーニング データ収集
EDA 探索的データ分析 特徴量エンジニアリング モデル選択 モデルトレーニング モデル評価 実験トラッキング コラボレーションとガバナンス モデルデプロイメント モデルモニタリング モデルメンテナンス バージョン管理 継続的モニタリング モデルのバージョン管理 / タグ付け モデルの昇格 モデルメタデータ管理 CI/CDと自動化 ハイパーパラメーター チューニング 35
©2025 Databricks Inc. — All rights reserved クラウドネイティブの連携機能 コメント 同時参照
同時編集 マルチ言語: Scala, SQL, Python, R MLflow連携による実験トラッキング Databricksノートブック 36
©2025 Databricks Inc. — All rights reserved • 自然言語でコードを生成、 説明、修正
• すべてのユーザー体験にAI アシスタントを • 高度に適切な回答のために DatabricksIQを活用 Databricksアシスタント コンテキストを解するAIアシスタントで生産性をブースト 37 🚀 10万以上のユーザーを毎月支援! 🚀
©2025 Databricks Inc. — All rights reserved コンテキストを解するAIアシスタントの例 38 AIは質問された
ビジネスの質問 に適した正しい SQLの作成方法 を知っている AIは適切な データがどこにあ るのかを知ってお り、私が アクセスできる テーブルのみを 表示
©2025 Databricks Inc. — All rights reserved 自然言語でコードを生成、説明、修正 • 自然言語のリクエストを受け付け、コー
ドスニペットを作成 • 精度を改善するために、コードの セル、ライブラリ、ランタイムなどからの 詳細情報を適用 • セル内で問題を説明、診断、修正 39
©2025 Databricks Inc. — All rights reserved すべてのユーザー体験にAIアシスタントを 40 ダッシュボードでの
Databricks アシスタント SQLエディタの Databricksア シスタント すべてのユーザー の生産性をブースト データサイエンティスト | データエンジニア | SQLアナリスト | ビジネスユーザー ヘルプでのDatabricks アシスタント ノートブックの Databricks ア シスタント
©2025 Databricks Inc. — All rights reserved Databricks AI/BI Genie
41 • ビジネスユーザー向けの自然言語に よるAI支援のデータ分析 • AIが生成するパーソナライズ された回答 • ボタンのクリックでデータを グラフで可視化 • DatabricksのSQLウェアハウス が データを高速に処理 • Unity Catalogによるデータの保護 自然言語を用いたインテリジェントなデータ分析
©2025 Databricks Inc. — All rights reserved データサイエンス プロセスの変革
©2025 Databricks Inc. — All rights reserved データサイエンスのプロセス CRISP-DM (Cross-Industry
Standard Process for Data Mining) ビジネス理解 データ理解 データ準備 モデリング 評価 デプロイ • ステークホル ダーとの会話 • 現状分析 • 期待効果の 見積もり • データソースの 特定と収集 • 探索的データ 分析(EDA) • データ クレンジング • データ統合 • 特徴量作成 • アルゴリズム の選択 • モデル訓練 • 技術的評価 • ビジネス評価 • 実装計画の 策定 • システム統合 運用・保守 • 精度、性能 監視 • 再訓練 • インシデント 対応 43
©2025 Databricks Inc. — All rights reserved データサイエンスのプロセス 既存プロセスの課題 ビジネス理解
データ理解 データ準備 モデリング 評価 デプロイ • ステークホル ダーとの会話 • 現状分析 • 期待効果の 見積もり • データソースの 特定と収集 • 探索的データ 分析(EDA) • データ クレンジング • データ統合 • 特徴量作成 • アルゴリズム の選択 • モデル訓練 • 技術的評価 • ビジネス評価 • 実装計画の 策定 • システム統合 運用・保守 • 精度、性能 監視 • 再訓練 • インシデント 対応 • 要件定義の 曖昧性 • 実現可能性 判断が困難 • 大量データの 手動探索 • 非構造化デー タの取り扱い 困難 • 洞察発見に 時間を要する • 手作業の クレンジング • データ不足の 問題 • アルゴリズム の選択が困難 • コーディング の負荷 • 技術指標の 解釈が困難 • ビジネス影響 が不明確 • 説明可能性の 欠如 • 複雑な統合 作業 • ドキュメント作 成の負荷 • UIの開発 • モデル劣化の 検出遅れ • 原因特定に 時間を要する • 手動での改善 44
©2025 Databricks Inc. — All rights reserved データサイエンスのプロセス 生成AIによる変革 ビジネス理解
データ理解 データ準備 モデリング 評価 デプロイ 運用・保守 • 要件定義の 曖昧性 • 実現可能性 判断が困難 • 大量データの 手動探索 • 非構造化デー タの取り扱い 困難 • 洞察発見に 時間を要する • 手作業の クレンジング • データ不足の 問題 • アルゴリズム の選択が困難 • コーディング の負荷 • 技術指標の 解釈が困難 • ビジネス影響 が不明確 • 説明可能性の 欠如 • 複雑な統合 作業 • ドキュメント作 成の負荷 • UIの開発 • モデル劣化の 検出遅れ • 原因特定に 時間を要する • 手動での改善 • 対話型要件 定義 • インテリジェン トな課題 探索 • 自動データ プロファイ リング • マルチモーダ ルの理解 • スマート クレンジング • 合成データ 生成 • 高度な AutoML • コード自動 生成 • 基盤モデル 活用 • 自然言語で 説明 • 多面的な評価 • What-If分析 • インフラ コードの 自動生成 • 対話型インタ フェース • ドキュメント自 動化 • 予測的モニタ リング • 自動的な 再学習 • インシデント自 動対応 45
©2025 Databricks Inc. — All rights reserved データサイエンスのプロセス 生成AIによる変革 👥
民主化の加速 専門知識がなくてもデータサイエンスに参加 可能。より多くの人がデータ活用に関われる 時代へ ⚡ 開発速度の加速 従来数ヶ月かかっていたプロジェクトが数週間・数日 で完了。高速プロトタイピングが可能に 🎯 品質と信頼性向上 自動チェック、ベストプラクティスの適用、包括的テス トによる高品質なソリューション構築 🚀 新たな可能性 非構造化データ活用、リアルタイム適応学習、 人間とAIの協調など、従来不可能だった手法が 実現可能に 46
©2025 Databricks Inc. — All rights reserved データサイエンスのプロセス Databricksにおけるデータサイエンスでの生成AIの活用 ビジネス理解
データ理解 データ準備 モデリング 評価 デプロイ 運用・保守 • 要件定義の 曖昧性 • 実現可能性 判断が困難 • 大量データの 手動探索 • 非構造化デー タの取り扱い 困難 • 洞察発見に 時間を要する • 手作業の クレンジング • データ不足の 問題 • アルゴリズム の選択が困難 • コーディング の負荷 • 技術指標の 解釈が困難 • ビジネス影響 が不明確 • 説明可能性の 欠如 • 複雑な統合 作業 • ドキュメント作 成の負荷 • UIの開発 • モデル劣化の 検出遅れ • 原因特定に 時間を要する • 手動での改善 • 対話型要件 定義 • インテリジェン トな課題 探索 • 自動データ プロファイ リング • マルチモーダ ルの理解 • スマート クレンジング • 合成データ 生成 • 高度な AutoML • コード自動 生成 • 基盤モデル 活用 • 自然言語で 説明 • 多面的な評価 • What-If分析 • インフラ コードの 自動生成 • 対話型インタ フェース • ドキュメント自 動化 • 予測的モニタ リング • 自動的な 再学習 • インシデント自 動対応 Databricksノートブック + アシスタント レイクハウス モニタリング AI/BI Genie AI/BI Genie 47
©2025 Databricks Inc. — All rights reserved 生成AIを用いた データサイエンスの実践
©2025 Databricks Inc. — All rights reserved バイブコーディング 「雰囲気」や「意図」を伝えるだけでコードを生成する開発スタイル プログラマーが厳密な仕様やアルゴリズムを定義するのではなく、
「こんな感じで動いてほしい 」という大まかな意図を自然言語で伝え、 AIが適切なコードを生成する開発手法。 49
©2025 Databricks Inc. — All rights reserved バイブデータサイエンス 「ビジネスゴール」や「欲しい洞察」を伝えるだけで分析を実行するデータサイエンス データサイエンティストが統計手法や機械学習アルゴリズムを選択するので
はなく、「この課題を解決したい 」「こんなインサイトが欲しい 」という要望を伝 え、AIが適切な分析を実行する手法。 50
©2025 Databricks Inc. — All rights reserved バイブコーディングとバイブデータサイエンス 観点 従来のコーディング
バイブコーディング 従来の データサイエンス バイブ データサイエンス 入力 詳細な仕様書や設計書 自然言語での意図やイメージ 分析計画、統計手法の 選択 ビジネス課題、 欲しい答え プロセス 手動でコード記述 AI対話でコード生成 手動で分析実行 AI対話で分析自動実行 必要スキル プログラミング言語の 習得 コミュニケーション能力 統計、MLの知識 ビジネス理解力 アウトプット 実装コード 動作するアプリケーション 分析結果、モデル ビジネスインサイト スピード 時間/日単位 分/時間単位 日/週単位 時間/日単位 51
©2025 Databricks Inc. — All rights reserved バイブデータサイエンスがもたらす価値 プロセス 👤従来のデータサイエンス
🤖バイブデータサイエンス ビジネス理解・要件定義 ✍手動でステークホルダーヒアリング ✍手動で要件ドキュメント作成 ✍手動でKPI・評価指標の定義 🤖AIが要件を構造化・整理 🤖AIがKPI候補を自動提案 👤人間がビジネス判断・承認 データ収集・準備 ✍手動でSQLクエリ作成 ✍手動でデータクレンジング処理 ✍手動で欠損値・異常値処理 🤖AIが自然言語→SQL変換 🤖AIがデータ品質を自動評価 🤖AIがクレンジング処理を自動実行 探索的データ分析 ✍手動で統計量計算 ✍手動でグラフ作成コード記述 ✍手動でパターン探索 🤖AIが自動でパターン発見 🤖AIが重要な相関を自動検出 🤖AIが可視化を自動生成 モデル構築 ✍手動で特徴量エンジニアリング ✍手動でアルゴリズム選択・実装 ✍手動でパラメータチューニング 🤖AIが特徴量を自動生成 🤖AIが最適モデルを自動選択 🤖AIがパラメータを自動最適化 評価・レポーティング ✍手動で評価指標の計算 ✍手動でレポート作成 ✍手動でプレゼン資料作成 🤖AIが多面的評価を自動実施 🤖AIが自然言語でレポート生成 🤖AIがダッシュボードを自動構築 52
©2025 Databricks Inc. — All rights reserved • やりたいことを日本語で 伝えてデータ処理や分析を
• 編集(Edit)モードで複数の セルを同時に編集 • アシスタントへの指示で挙動を カスタマイズ Databricksアシスタント バイブデータサイエンスを強力に支援 53
©2025 Databricks Inc. — All rights reserved • 是非マニュアルをご一読くださ い。
• Chatモードは問い合わせ、Edit モードはセルを直接編集してく れます。 • 今回は主にEditモードを使用し ます。 Databricksアシスタント 画面の説明 54 新規チャット アシスタント設定 表示設定 閉じる チャットボックス モード切り替え 送信ボタン
©2025 Databricks Inc. — All rights reserved • アシスタント画面の表示形態を 変更できます
• 今回は横側がおすすめです Databricksアシスタント 表示設定 55
©2025 Databricks Inc. — All rights reserved • アシスタントに対する プロンプトを指定することで挙動
を制御するできます Databricksアシスタント アシスタント設定 56
©2025 Databricks Inc. — All rights reserved データサイエンスにおける生成AIの活用 • 事前課題
• 事前に実施をお勧めするハンズオン • バイブデータサイエンスのデモ • Databricksアシスタントとの対話を通じた分析要件定義 • Databricksアシスタントによる新たな分析体験 57
©2025 Databricks Inc. — All rights reserved データサイエンスにおける生成AIの活用 • バイブデータサイエンスハンズオン
• 前提: Databricks Free Editionアカウント作成済み • ゴール: AIアシスタントを活用してデータ分析を実践 • 手順: • データを取得するプロンプトを入力します。以下のプロンプトでは scikit-learnが提供する カリフォルニアの住宅 価格のサンプルデータ を取得するように指示しています。 • fetch_california_housing()でデータを取得 • 他の例: load_iris()、load_breast_cancer()、こちらに一覧 がありますので好きなデータで試してみてください。 • 事前課題やデモでお見せしたプロンプトを活用して自身の感覚でデータサイエンスを行ってみてください。 58
©2025 Databricks Inc. — All rights reserved データサイエンスにおける生成AIの活用 • バイブデータサイエンスハンズオン
• プロンプトの例 • fetch_california_housing()でデータを取得 • 可視化してください • 地図にプロットできますか • 可視化結果からどのような洞察が得られますか • それぞれの特徴量を説明してください • 物件価格を予測するモデルを作ってください • データ取得、 EDA、モデル構築という順序にセルを整理してください。適切な粒度でセルを分割してマークダウンセルによる説明 を追加してください • ダミーデータを使う必要はないので読み込んだデータのみを使ってください。 59
©2025 Databricks Inc. — All rights reserved まとめ
©2025 Databricks Inc. — All rights reserved 生成AIがデータサイエンスを大きく変革させます 👥 従来のデータサイエンス
大部分が人手の作業 🤖 バイブデータサイエンス 大部分をAIで自動化 • 自然言語で分析を実行 • 開発期間を大幅に短縮 • HOWではなくWHATにフォーカス • 必要なスキルは技術力よりも対話力に • データサイエンスは専門家の仕事 から誰もが活用できる ツールへ 61
©2025 Databricks Inc. — All rights reserved