Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DTD_Databricksことはじめ

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for BrainPad BrainPad
January 29, 2026

 DTD_Databricksことはじめ

Avatar for BrainPad

BrainPad

January 29, 2026
Tweet

More Decks by BrainPad

Other Decks in Technology

Transcript

  1. ©BrainPad Inc. Strictly Confidential 1. 自己紹介、DEのお仕事紹介 2. Databricks PJで使うと良さそうな機能 3.

    DatabricksをML・BIで使うとどうなるか? 4. ノーコード/ローコードツールを使ってみた 5. まとめ
  2. ©BrainPad Inc. Strictly Confidential 3 1. 自己紹介 ・経歴: ・ 2013年

    医療機器の会社に勤務 ・ 2021年 フリーランスのDSとして活動 ・ 2025年 株式会社ブレインパッド 入社 データエンジニアリングユニット プラットフォーム開発 ・プロジェクト経験: ・小売業でのデータ分析基盤の構築 ・統計関連の案件 ・趣味: ・統計学の勉強 ・ボードゲーム ・子供と遊ぶ
  3. ©BrainPad Inc. Strictly Confidential 1. 自己紹介、DEのお仕事紹介 2. Databricksとは? PJで使うと良さそうな機能 3.

    DatabricksをML・BIで使うとどうなるか? 4. ノーコード/ローコードツールを使ってみた 5. まとめ
  4. ©BrainPad Inc. Strictly Confidential 8 2. Databricksとは? 概要や特徴 Databricksとは?: 大規模なデータ分析、AI開発などを1つの場所で行うための

    統合データ分析プラットフォーム • どこが便利なのか? • 使っているクラウド環境に接続するだけでOK • AWS、Azure、GCPなど、現在の環境・データをそのまま利用可能 • 環境が変わっても同じように使える • データの移行作業なども不要
  5. ©BrainPad Inc. Strictly Confidential 9 2. Databricksとは? 概要や特徴 Databricksで主にこんなことができます •

    ETL:データの加工 • 定期実行(Job, Pipeline) • データ増分の自動取り込み(Auto Loader) • 大規模データの処理(Spark) • 加工後のテーブルを管理(Data Lineage) • BI:ダッシュボードで可視化して傾向を見る • データ分析:PythonやSQLで可視化 • ML:機械学習モデルを構築 https://docs.databricks.com/aws/ja/introduction/
  6. ©BrainPad Inc. Strictly Confidential 10 2. Databricksとは? よく質問を受ける内容 Q. クラウドの標準的な機能だけで同じことはできませんか?

    A. 機能的には可能ですが、構築・運用にコストや手間がかかりそうです… • 比較:クラウドvs Databricks • 1. 分析やモデル管理機能を作る手間の有無 • 使い慣れた機能が良い粒度で入っている • 2. パフォーマンスや処理速度 • 処理エンジン(Spark)による大量データの高速分散処理が可能 • 3. データガバナンス(セキュリティ管理) • 「Unity Catalog」という機能により、ファイル、テーブル、AIモデルの権限を一元管理できる • ファイル、テーブル、AIモデルなどにアクセス権を細かく割り振れる
  7. ©BrainPad Inc. Strictly Confidential 1. 自己紹介、DEのお仕事紹介 2. Databricksとは? PJで使うと良さそうな機能 3.

    DatabricksをML・BIで使うとどうなるか? 4. ノーコード/ローコードツールを使ってみた 5. まとめ
  8. ©BrainPad Inc. Strictly Confidential 13 3. Databricks PJで使うと良さそうな機能 • Unity

    Catalogで一元管理 • データやモデルなどにアクセスさせたい人、させたくない人を制御できる Cloud AWS, GCP,Azure など Unity Catalog in databricks
  9. ©BrainPad Inc. Strictly Confidential 14 3. Databricks PJで使うと良さそうな機能 • Unity

    Catalogで一元管理 • データやモデルなどにアクセスさせたい人、させたくない人を制御できる
  10. ©BrainPad Inc. Strictly Confidential 15 3. Databricks PJで使うと良さそうな機能 • Unity

    Catalogで一元管理 • データやモデルなどにアクセスさせたい人、させたくない人を制御できる アクセス可能にしたい アカウントを追加する アクセスの種別を追加する
  11. ©BrainPad Inc. Strictly Confidential 16 3. Databricks PJで使うと良さそうな機能 • Data

    Lineage • テーブルを加工・保存した履歴を追跡できる どんな列が 増えたかがわかる どのテーブルを加工して 作成されたかがわかる
  12. ©BrainPad Inc. Strictly Confidential 17 3. Databricks PJで使うと良さそうな機能 • Serverless

    SQL Warehouse • 計算資源をクラウドから別途用意することなく、コンピュートリソースを利用できる
  13. ©BrainPad Inc. Strictly Confidential 23 3. Data Lineage • データ加工で、テーブルのトラッキング(Unity

    Catalog のData Lineage) どんな列が 増えたかがわかる どのテーブルを加工して 作成されたかがわかる
  14. ©BrainPad Inc. Strictly Confidential 24 3. 定期実行 Job • データ加工で、処理の方針が決まったら定期実行スケジュールを組める(Job)

    https://docs.databricks.com/aws/ja/jobs/monitor いつ処理が 失敗しているかがわかる いつどの処理が 実行されたかがわかる
  15. ©BrainPad Inc. Strictly Confidential 25 3. Titanicデータの概要(補足) 姉妹兄弟/配偶者の数 親/子供の数 Master:男の子

    3人の兄弟と来た 1人の親と来た Mrs:既婚女性 兄弟や旦那さんとは来てない 2人の親か子と来た
  16. ©BrainPad Inc. Strictly Confidential 29 3. EDA Python • 通常のnotebookのように可視化ライブラリを扱える

    • PythonでもSQLでも簡単な可視化をVisualizeツールで可視化可能 コードが長い… その割に書くことはお決まり
  17. ©BrainPad Inc. Strictly Confidential 1. 自己紹介、DEのお仕事紹介 2. Databricksとは? PJで使うと良さそうな機能 3.

    DatabricksをML・BIで使うとどうなるか? 4. ノーコード/ローコードツールを使ってみた 5. まとめ
  18. ©BrainPad Inc. Strictly Confidential 1. 自己紹介、DEのお仕事紹介 2. Databricksとは? PJで使うと良さそうな機能 3.

    DatabricksをML・BIで使うとどうなるか? 4. ノーコード/ローコードツールを使ってみた 5. まとめ
  19. ©BrainPad Inc. Strictly Confidential 47 5. まとめ Databricksを触ってみた所感 • 良いと思ったところ:

    • 分散処理による高速処理ができる • 可視化が簡単にできる • データやモデルの管理が便利 • 今後に期待したいところ: • 参考記事が少ない印象