Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ハンズオンで学ぶ Databricks - はじめてのDatabricks

ハンズオンで学ぶ Databricks - はじめてのDatabricks

1. 座学(1時間)
  a. Databricksとは
  b. Databricksの使い方
  c. Unity Catalogとは
  d. ノートブックとは
  e. pandasとPySpark

2. ハンズオン(1.5時間)
  a. ノートブックの基本的な使い方
  b. pandasとPySparkによるファイル読み書き

Takaaki Yayoi

March 04, 2025
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. ©2025 Databricks Inc. — All rights reserved 1 1 ハンズオンで学ぶ

    Databricks はじめてのDatabricks 2025/3/4 Databricks Japan 弥生 隆明
  2. ©2025 Databricks Inc. — All rights reserved 自己紹介 弥生 隆明

    (やよい たかあき) シニア スペシャリスト ソリューションアーキテクト ▪ 2020年からデータブリックス ジャパンにお いて、プレセールス、POCに従事 ▪ 前職はコンサル、総合電機メーカー にてデータ分析・Webサービス構築 などに従事。インド赴任経験あり。 ▪ Databricks Certified (Data Engineer | Machine Learning) Professional, Generative AI Engineer Associate ▪ Qiitaでいろいろ書いています。 2 @taka_aki
  3. ©2025 Databricks Inc. — All rights reserved 1. 座学(1時間) a.

    Databricksとは b. Databricksの使い方 c. Unity Catalogとは d. ノートブックとは e. pandasとPySpark 2. ハンズオン(1.5時間) a. ノートブックの基本的な使い方 b. pandasとPySparkによるファイルの読み書き
  4. データ+AIカンパニー クリエーター 10,000+ グローバルのお客様 $2.4B+ 年間収益 4B+ の投資 レイクハウス の

    発明者 生成AIの パイオニア LEADER 2023 Cloud Database Management Systems LEADER 2024 Data Science & Machine Learning Analytic Stream Processing
  5. データウェアハウス ETL 構造化データ データウェアハウス ビジネス インテリジェンス 利点 ▪ 偉大なるビジネスインテリジェン ス(BI)アプリケーション

    課題 ▪ 限定的な機械学習(ML)の サポート ▪ SQLインタフェースのみを備えた プロプライエタリなシステム 1990年代〜
  6. ©2025 Databricks Inc. — All rights reserved 互換性のない2つのアーキテクチャが障害に データとAIの成熟度 競合優位性

    レポート データ クレンジング アドホックク エリー データ探索 予測 モデリング 処方的分析 意思決定の 自動化 データレイク for AI データウェアハウス for BI データ成熟度曲線 何が起きる? 何が起きた?
  7. ©2025 Databricks Inc. — All rights reserved ほぼすべてのクラウドデプロイメントは2階層 であり、5個以上のプラットフォームを必要とします ガバナンスとセキュリティ

    テーブルACL ビジネス インテリジェンス SQL 分析 高い信頼性と効率性 データサイエンス & ML ガバナンスとセキュリティ ファイルとBlob データ ストリーミング すべてのデータと高い適応性 データの一部をコピー 構造化テーブル データウェアハウス すべての生データ ログ、テキスト、音声、動画、画像 データレイク 9
  8. ©2025 Databricks Inc. — All rights reserved 複雑で重複したアーキテクチャ ガバナンスとセキュリティ テーブルACL

    ビジネス インテリジェンス SQL 分析 高い信頼性と効率性 データサイエンス & ML ガバナンスとセキュリティ ファイルとBlob データ ストリーミング すべてのデータと高い適応性 データの一部をコピー 構造化テーブル データウェアハウス すべての生データ ログ、テキスト、音声、動画、画像 データレイク 分断され重複したデー タサイロ 互換性のない セキュリティと ガバナンスのモデル ユースケースの 不完全なサポート 10
  9. ©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム オープンデータレイク すべての構造化、半構造化、非構造化データ

    (ログ、テキスト、音声、動画、画像など) ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake 12 ©2025 Databricks Inc. — All rights reserved あなたのすべてのデータのためのオープン統合基盤
  10. ©2025 Databricks Inc. — All rights reserved データレイクハウス オープンデータレイク すべての生データ

    (ログ、テキスト、音声、動画、画像など) Databricksが レイクハウス アーキテクチャを発表 2020 グローバル企業の 74%がレイクハウスを導 入 現在 MIT Technology Review Insights, 2023 セキュリティ、ガバナンス、カタログの統合 信頼性と共有のための統合データストレージ ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL Unity Catalog Delta Lake あなたのすべてのデータのためのオープン統合基盤 ©2025 Databricks Inc. — All rights reserved 13
  11. ©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム オープンデータレイク すべての生データ

    (ログ、テキスト、音声、動画、画像) データ中心の AI 生成AI • カスタムモデル • モデルサービング • RAG エンドツーエンドの AI • MLOps (MLflow) • AutoML • モニタリング • ガバナンス Databricks SQL Text-to-SQL Workflows 実行履歴に基づく ジョブコストの最適化 Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング サービング Unity Catalog 自然言語で洞察をセキュアに獲得 Delta Lake 利用パターンに基づいてデータレイアウトを自動で最適化 ©2025 Databricks Inc. — All rights reserved あなたのデータのセマンティクスを理解するためにAIを活用するデータインテリジェンスエンジン DatabricksIQ 14
  12. ©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム 運用 財務

    マーケティング カスタマー サービス 組織の全員にデータとAIを 展開するにはどうすれば? “Genie” 自然言語で誰でも データとAIを オープンデータレイク W 実行 ジョブ Delta Live Tables データ品質の自動化 Mosaic AI カスタムLLMの作成チュー ニング サービング Unity Catalog 自然言語で洞察をセキュア Delta Lake 利用パターンに基づいてデータレイアウ ©2025 Databricks Inc. — All rights reserved あなたのデータのセマンティクスを理解するためにAIを活 DatabricksIQ
  13. ©2025 Databricks Inc. — All rights reserved Databricksデータインテリジェンスプラットフォーム 20 ©2025

    Databricks Inc. — All rights reserved あなたのすべてのデータのためのオープン統合基盤 オープンデータレイク すべての構造化、半構造化、非構造化データ (ログ、テキスト、音声、動画、画像など) ETL & リアルタイム分析 オーケストレーション データウェアハウス データサイエンス & AI Mosaic AI Delta Live Tables Workflows Databricks SQL セキュリティ、ガバナンス、カタログの統合 Unity Catalog 信頼性と共有のための統合データストレージ Delta Lake
  14. ©2025 Databricks Inc. — All rights reserved Databricks Unity Catalog

    Unity Catalog データレイク メタデータ データウェアハウス MLモデル ダッシュボード データ アナリスト データ エンジニア データ サイエンティスト 21 データ、分析、AIに対する統合ガバナンス
  15. ©2025 Databricks Inc. — All rights reserved 22 Unity Catalog

    - 鍵となる機能 • メタデータとユーザー の集中管理 • データアクセスコントロール の集中管理 • データリネージ • データアクセス監査 • データ検索と発見 • Delta Sharingによるセキュアなデータ共有 Databricks ワークスペース Databricks ワークスペース Unity Catalog GRANT … ON … TO … REVOKE … ON … FROM … カタログ, データベース (スキーマ), テーブル, ビュー, ストレージ資格情 報, 外部ロケーション
  16. ©2025 Databricks Inc. — All rights reserved 3レベルの名前空間 SELECT *

    FROM main.paul.red_wine; -- <catalog>.<schema>.<table> SELECT * FROM hive_metastore.default.customers; Unity Catalog カタログ 2 カタログ 1 スキーマ 2 スキーマ 1 External Table ビュー ボリューム テーブル hive_metastore (レガシー) default (スキーマ) customers (テーブル) 既存メタストアへのシームレスなアクセス
  17. ©2025 Databricks Inc. — All rights reserved 24 アクセス制御の集中管理 GRANT

    <privilege> ON <securable_type> <securable_name> TO `<principal>` GRANT SELECT ON iot.events TO engineers 権限 レベルを選択 お使いのID プロバイダーの グループと同期 ‘テーブル’= S3/ADLSの ファイルの集合 ANSI SQL DCLを使用 UIを使用 ワークロードに対するアクセス権限の付与と集中管理
  18. ©2025 Databricks Inc. — All rights reserved 25 すべてのワークロードに対する自動リネージ •

    クラスターやSQLウェアハウスにおける処 理実行時のデータリネージを自動キャプ チャ • テーブル、カラムレベルでのリネージ追跡 • Unity Catalogの共通権限モデルを活用 • テーブル、ダッシュボード、ワーク フロー、ノートブック横断のリネージ あなたの組織でデータがどのように流れ、利用されているのかに関する エンドツーエンドの可視性
  19. ©2025 Databricks Inc. — All rights reserved 26 ビルトインの検索と発見 •

    Unity Catalogに格納されているデータ資 産を検索するためのUI • DSML + DBSQL横断での統合UI • Unity Catalogの共通権限モデルを活用 • データに意味づけするタグを適用し、 タグで検索 低レイテンシーのデータ発見による価値創出の加速
  20. ©2025 Databricks Inc. — All rights reserved Unity Catalogガバナンスによる 非テーブルデータ

    へのアクセス、 格納、整理、処理 データサイエンス、機械学習を含む任意のファイルの新た な処理機能の解放 すべてのファイルフォーマット。構造化、半構造化、非構造 化データ UI、Spark API、FUSE、dbutils、REST、SQL、 Databricks CLI、Terraform経由でアクセス可能なファイ ル ボリューム 27 Unity Catalogにおけるファイルのカタログコレクション
  21. ©2025 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム 非テーブルデータのアクセス、格納、制御、整理、処理

    * 28 - ボリュームタイプ: マネージド、外部 - Unity Catalogで集中管理される3レベルの名前空間で整理されるファイル <catalog>.<schema>.<volume_name> - Hadoop分散ファイルシステムの実装、FUSEサポート - パス Hadoop [dbfs:]/Volumes/<catalog>/<schema>/<volume>/<path>/<file_name> FUSE /Volumes/<catalog>/<schema>/<volume>/<path>/<file_name> - ANSI SQLのGRANTやREVOKEコマンドをベースとしたガバナンスモデル - ボリュームレベル - カタログエクスプローラやノートブックのファイル参照、管理のためのユーザインタフェース - API(Spark、dbutils、REST、SQL、ローカルファイルシステム)やDatabricks CLI経由でアクセスできるコン テンツ * テーブルではなくファイルとして直接アクセスできるデータ
  22. ©2025 Databricks Inc. — All rights reserved Unity Catalogにおけるボリューム 29

    Unity Catalogガバナンスによるファイルのアクセス、格納、整理、処理 - ボリュームは以下のような非テーブルデータに対するガバナン スを追加します - MLで活用される画像、音声、動画、PDFファイルのような 非構造化データ - MLモデルトレーニングで活用される半構造のトレーニング、検証、 テストデータセット - ad-hocや初期段階のデータ探索で使用される生のデータ、 保存されるアウトプット - ワークスペース横断で利用されるライブラリ、設定ファイル - ロギングやチェックポイントの出力ファイルのようなオペレーション データ - … - 一方でテーブルはテーブルデータセットに対するガバナンスを 提供します
  23. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    31 マルチ言語 1つのノートブックでPython、SQL、Scala、R を活用 Jupyterとの互換性 ノートブックでJupyterエコシステムの パワーを活用 探索に最適 ビルトインのチャートとデータプロファイルに よるデータの探索、可視化、要約 プロダクションを迅速に ジョブとしてクイックにノートブックをスケ ジュール、ジョブの結果から ダッシュボードを作成 コラボレーティブ リアルタイムの同時参照、同時編集、 コメント 再現可能性 Reposバージョン履歴を自動で追跡、 Reposによるgitバージョン管理の活用 エンタープライズレディ エンタープライズレベルのアクセス 制御、ID管理、監査 適応性 標準ライブラリのインストール、 ローカルモジュールの使用 レイクハウスの玄関 Databricksノートブック
  24. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    Databricksアシスタントによ るAIを活用した開発 レイクハウス連携 Databricksノートブックにようこそ モダンで直感的な UX
  25. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    最適化されたセルのデザイン よりモダンなルックアンド フィール🚀 34 • クリーンでシンプルなデザイン • 1クリックでセルを実行 • 強化されたマークダウンレンダリング • はっきり表示される実行タイマー • フォーカスモード
  26. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    モダンな結果テーブル 見た目のアップデート & 馴染みのある操作感 🤝 35 • レンダリング性能の改善 • シンプル & モダンなUX • Excelやその他の人気のデータグリッド ツールと同じ選択操作 • ビルトインのフィルタリング
  27. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    36 ビジュアライゼーションのアップデート より速く、よりプリティに ✨ • 拡張されたカラーパレット • レンダリングの高速化 • ツールチップやシリーズ選択の ソート、ズーム機能 • 製品全体で統一
  28. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    Databricksアシスタント によるAIを活用した開発 37
  29. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    開発アシスタント 🤖 38 • ノートブック、ファイルエディタ、SQLエディ タに組み込まれたLLMを活用した開発ア シスタント • より正確なレスポンスを行うために コンテキスト を活用 • コードのセル • ライブラリ • Databricksランタイムバージョン • ドキュメント • テーブルのスキーマ • 最近アクセスした、お気に入りのテー ブル • 人気のテーブル • 人気のjoin • UCの説明文とタグ • リネージ
  30. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    Text-to-SQL 📊 41 • 適切なテーブルを特定 : 強化された検索 でデータ資産の発見を容易に • あなたにパーソナライズ : 会社の専門 用語を用いてクエリーを作成、洗練するた めに自然言語を活用 • インラインでの提案 : コメントを記述 して、よく使われるクエリースニペットをア シスタントに提案させる
  31. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    レイクハウス連携 42 レイクハウスに最適なノートブック
  32. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    柔軟なコンピュート サーバレス • 完全マネージド、スケーリングの設定なしに高速 に起動 • 使った分だけ支払い—アイドル状態の コンピュートはありません SQLウェアハウス • ノートブックでSQLウェアハウスを使ってSQLを実 行 • SQLウェアハウスを用いたジョブとして ノートブックをスケジュール サーバレス、SQLウェアハウス、クラシック 📊 43
  33. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    レイクハウスの探索をシンプルに エディタを離れることなしにデータを検索 🔍 44 • スキーマブラウザ • アクティブなテーブルで フィルタリング • ノートブックセルから テーブルにジャンプ • ファイルブラウザ • Delta-Live-Tablesの出力 • 表出化させる手段の探索 : • データリネージ • レイクハウスモニタリング • エクスペクテーション
  34. ©2025 Databricks Inc. — All rights reserved Confidential and Proprietary

    パーソナライズされたオートコンプリート あなたのすべてのコアのフローにコンテキストを 🔄 45 • 以下に基づく提案による強化 オートコンプリート : • 人気のテーブルとjoin • お気に入りのテーブル • 最近使用した、参照した テーブル
  35. ©2025 Databricks Inc. — All rights reserved ▪ 教育 (オンラインコース、書籍、大学)

    → pandas ▪ 小規模データセットの分析 → pandas データサイエンティストの典型的な道のり
  36. ©2025 Databricks Inc. — All rights reserved ▪ 教育 (オンラインコース、書籍、大学)

    → pandas ▪ 小規模データセットの分析 → pandas ▪ 大規模なデータセットの分析 → Sparkのデータフレーム データサイエンティストの典型的な道のり
  37. ©2025 Databricks Inc. — All rights reserved pandasデータフレーム PySparkデータフレーム 列

    df['col'] df['col'] 可変性 可変 不変 実行 貪欲(eager) 遅延(lazy) 列の追加 df['c'] = df['a'] + df['b'] df = df.withColumn('c', df['a'] + df['b']) 列名変更 df.columns = ['a','b'] df = df.select(df['c1'].alias('a'), df['c2'].alias('b')) df = df.toDF('a', 'b') 値のカウント df['col'].value_counts() df.groupBy(df['col']).count() .orderBy('count', ascending=False) pandasデータフレーム vs. PySparkデータフレーム
  38. ©2025 Databricks Inc. — All rights reserved Sparkのご紹介 PCで処理できるデータ量であればpandasで十分ですが… •

    Apache Sparkは、多数のマシンで並列でコードを実行するための洗練された分散処理 フレームワークです。これによって、大量データも効率的に処理することができます。 • Sparkでもデータフレーム でデータを取り扱うことが可能です。Python(PySpark)やSQLなどのAPI を提供しており、pandasとの相互運用も可能です。 pandas pandas API on Spark (旧Koalas) Apache Spark(PySpark) データセットが小さい場合は pandasが正しい選択肢となり ます。 大量データを操作する必要が あり、PySparkではなくpandas APIを活用したいと考える際に は最適な選択肢となります。 ※APIの対応状況など注意事項があります。 大量データに対する処理が必 要な場合は、Apache Sparkの ような並列データフレームを使 用することで高速化が期待でき ます。
  39. ©2025 Databricks Inc. — All rights reserved SparkとDatabricksの関係 Databricksでは処理エンジンとしてSparkを活用しています •

    Databricks は、ビッグデータと機械学習のための統合アナリティクス エンジンである Apache Spark の上に構築されています。PySpark は、学習、実装、保守が容易な柔軟な 言語である Python プログラミング言語を使用して Apache Spark とインターフェースするのに役 立ちます。 また、Databricks でのデータビジュアライゼーションのための多くの オプションも提供します。 • Databricksは、Apache Sparkの機能の開発とリリースを続けています。 Databricks ランタイムには、C++で書き直されたApache Sparkの最適化バージョンであるPhotonなど、 Apache Spark上に構築および拡張する追加の最適化と独自の機能が含まれています。 Azure Databricks における Apache Spark - Azure Databricks | Microsoft Learn
  40. ©2025 Databricks Inc. — All rights reserved PySparkとは SparkのPython APIです

    • PySparkとは、Sparkを実行するためのPython APIです。Apache SparkとPythonの コラボレーションをサポートするためにリリースされました。開発者はPySparkを用いることで、 Pythonからデータフレームを操作する形でSparkを活用することができます。
  41. ©2025 Databricks Inc. — All rights reserved PySparkの概念 PySparkにはプログラミングを促進する様々なAPIが存在します •

    Spark SQL と DataFrames を使用したリレーショナル クエリによる構造化データの処理。 Spark SQL を使用すると、SQL クエリと Spark プログラムを混在できます。 Spark DataFrames を使用 すると、Python と SQL を使用してデータの読み取り、書き込み、 変換、分析を効率的に行うことができます。つまり、常に Spark の全機能を活用できます。 • Spark 上の Pandas API (Pandas API on Spark)を使用して Apache Spark で動作する Pandas データ構造とデータ分析ツール。 Spark 上の Pandas API を使用すると、Pandas (テスト、小規模 なデータセット) と Spark (運用、分散データセット) で動作する単一の コードベースを使用して、複数のノードに分散された Pandas ワークロードを任意のサイズにスケー リングできます。 Azure Databricks の PySpark - Azure Databricks | Microsoft Learn
  42. ©2025 Databricks Inc. — All rights reserved PySparkの概念 PySparkでもpandas同様のデータフレームを取り扱います Apache

    Sparkデータフレーム は、名前付き列に編成されたデータセットです。 これらは、型が異なる列 を持つ 2 次元のラベルの付いたデータ構造です。 データフレームには、一般的なデータ分析の問題を 効率的に解決できる豊富な関数セットが用意されており、組み込みのメソッドを 使用してデータを簡単に変換して、データの並べ替え、フィルター処理、集計を行うことが できます。 Azure Databricks の PySpark - Azure Databricks | Microsoft Learn
  43. ©2025 Databricks Inc. — All rights reserved PySparkの概念 メソッドを活用してデータを操作します •

    以下のようなメソッドがあります。 メソッド 説明 sql 指定されたクエリーの結果を表現するデータフレームを返却。 table 指定されたテーブルをデータフレームとして返却。 read データフレームとしてデータを読み込む際に使用できるDataFrameReaderを 返却。 range startからend(含まない)の範囲とステップ値、パーティション数を持つ要素を 含むカラムを持つデータフレームを生成。 createDataFrame タプルのリストからデータフレームを作成、主にテストで使用。
  44. ©2025 Databricks Inc. — All rights reserved 最終形 ベストプラクティスのパイプライン クレンジング

    取り込み ブロンズ シルバー ゴールド 再サンプリング 内挿された 時系列 特徴量拡張 特徴量削減 生データ ▪ データ処理なし ▪ 間違いを修正するためにデータを保持 クレンジングされたデータ ▪ 直接クエリー可能 ▪ PIIのマスキング/検閲 ▪ 共有することで整形されたデー タを複数人で活用可能 ▪ 異なる用途に合わせて 右のゴールドを作成可能 整理されたビジネスレベルのテーブル ▪ プロジェクト/ユースケース固有 ▪ 非正規化、読み取りに最適化した データモデル
  45. ハンズオンの流れ 60 1. Databricksノートブックの基礎 • Databricksノートブックの基本的な使い方を学びます。 2. Databricksにおけるファイルとテーブルの取り扱い • Pythonを用いてインターネットから

    CSVファイルを取得 • Unity Catalogのボリュームに CSVファイルを保存 • CSVファイルを読み込んで内容を表示 (Pandas/PySpark) • データを加工 (Pandas/PySpark) • データをテーブルに永続化 (PySpark) • テーブルからのデータの読み込み (PySpark) 2つのノートブックを用いてハンズオンを行います。
  46. ©2025 Databricks Inc. — All rights reserved 61 ハンズオンの準備 クラスターとカタログ

    / スキーマの準備を行います。 ワークスペース名 : xxxxxxx クラスター • クラスター名 : xxxxxxx カタログ • カタログ名 : rd_shared (作成済みです) スキーマ • スキーマ名 : 7桁の社員番号 のスキーマを rd_shared カタログ配下に作成いただきます。
  47. ©2025 Databricks Inc. — All rights reserved 63 スキーマの作成 スキーマ名を入力します

    ①スキーマ名 を入力します ②必要に応じてコメントを入力します ③作成をクリックします
  48. ©2025 Databricks Inc. — All rights reserved 学習リソース • Databricks

    Academy - アクセス方法、セルフペーストレーニング動画の参照方法を確認するために、 これらの手順をご覧ください。 ◦ Course Catalog あなたの会社メールアドレスでアカウントを作成しましょう。 • Databricks Certifications - Databricksで資格を取得しましょう。 • Databricks Demo Hub - Databricks製品のショートデモをご覧ください! • チュートリアル - すぐに利用できるベストプラクティスのデモを、あなたのワークスペースに インストールしましょう。 • Instructor Led Training (購入した場合) - ラーニングパスをチェックするようにしてください! • Databricks Japanのエンジニアによる技術記事 • Databricks ブログ
  49. ©2025 Databricks Inc. — All rights reserved 有用なリソース Pythonを用いたDatabricksでの開発 Pythonを用いたDatabricksでの開発

    AWS, Azure Pythonライブラリのアップロード AWS, Azure Pythonにおける可視化 AWS, Azure データフレームのご紹介 AWS, Azure Pandasユーザー定義関数 AWS, Azure シングルノードワークロードをDatabricksに移行 AWS, Azure Databricks Connect AWS, Azure Pandas APIs on Apache Spark Apache Spark Docs, AWS, Azure DatabricksでのBIツールの活用 BIアプリケーションへの接続 AWS, Azure DatabricksにおけるSQL AWS, Azure ETL & ストリーミング Delta Lake公式ドキュメント AWS, Azure Delta Lakeベストプラクティス AWS, Azure 構造化ストリーミングガイド AWS, Azure Databricks Deltaを用いてストリーミング ストックデータ分析をシンプルに Blogpost 構造化ストリーミングとDelta Lakeによる ETLパイプラインのデザイン Video ワークフローとジョブ Databricksジョブ AWS, Azure Delta Live Tables AWS, Azure
  50. ©2025 Databricks Inc. — All rights reserved Qiitaの記事 https://qiita.com/taka_yayoi まとめページを作っています

    • Databricks記事のまとめページ(その1) • Databricks記事のまとめページ(その2) トピック • Databricks入門者向けコンテンツ • Databricksとは何か • ユースケース • ソリューションアクセラレータ(ゲノム分析、 病理画像分析、etc.) • 生成AI • Spark • Unity Catalog • Delta Lake • MLflow • CI/CD • etc.
  51. ©2025 Databricks Inc. — All rights reserved Qiitaの記事 ほぼ毎日書いてます 入門編

    • はじめてのDatabricks #Databricks - Qiita • Databricksチュートリアル #Databricks - Qiita • 私はDatabricksをどのように学んできたのか(学習コンテンツのご紹介) #Databricksクイックスタートガイド - Qiita • 今さら聞けないPython - Pythonの基礎 #Databricks - Qiita • [2024年12月版] Databricksとは何か? #生成AI - Qiita 生成AI • Databricks生成AIクックブック #Databricks - Qiita • DatabricksのLLMバッチ推論を用いた感情抽出 • エンベディングと生成AIによる異常検知 • Databricksでstable-diffusion-xl-1.0-inpaintingを使って顔ハメ看板を作ってみる • 生成AIによる時系列予測のご紹介 • LLaVAを用いたビジョンチャットアシスタントの作成
  52. ©2025 Databricks Inc. — All rights reserved Qiitaの記事 ほぼ毎日書いてます ユースケース

    • COVID-19への迅速な対応による感染拡大の抑制 (Databricksユースケース) • データドリブンのドローンが救命治療を世界中にデリバリー (Databricksユースケース) • Databricks研究レポート:リアルワールドエビデンスの価値を解放する ソリューションアクセラレータ • Databricksにおける機械学習による病理画像分析の自動化 • Databricks Delta Lakeによる大規模ゲノミクスパイプラインの簡略化 • ヘルスケアにおける大規模テキストデータへの自然言語処理の適用 • リアルワールドデータによる高リスク患者の検知 • 自然言語処理によるリアルワールド診療データからのオンコロジー(腫瘍学)に関する洞察の抽出 • Glow V1.0.0 - 次世代ゲノムワイド分析 • NLPを用いた薬害イベント検知による薬品安全性の改善 • Smolderを用いてリアルタイムで電子医療レコードを使い倒す • Databricksのプロジェクトdbignite:患者分析における相互運用性 • Databricksにおけるヘルスケア関連のサンプル集
  53. ©2025 Databricks Inc. — All rights reserved Qiitaの記事 ほぼ毎日書いてます データエンジニアリング

    • Databricksにおけるエンドツーエンドのデータパイプラインの構築 • ETLのT(Transformation)実践 • ETLのE(Extract)実践 • Databricksにおけるビジネスアナリストからデータエンジニアへの転換 • Databricksのメダリオンレイクハウスアーキテクチャとは? ジョブ管理 • Databricks Jobsを使ってみる • Databricksジョブのクイックスタート • 最近のDatabricksワークフローの機能(Slack投稿など)を試してみる • DatabricksワークフローとジョブとDelta Live Tablesの関係性 • Databricks SDK for Pythonによるジョブ作成の効率化 • Databricksジョブでfor eachタスクがサポートされました!