Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricksによるセキュアで効率的なデータエンジニアリングの実現

 Databricksによるセキュアで効率的なデータエンジニアリングの実現

Databricks Japan

May 10, 2024
Tweet

More Decks by Databricks Japan

Other Decks in Technology

Transcript

  1. 目次 - 分析基盤イントロダクション
 - Databricksの用途
 - 前環境の課題点
 - セキュリティ要件への対応 


    - データ利用の最適化 
 - チューニングされたSparkによるパフォーマンス向上 
 - 閉塞環境下での工夫
 - DevOpsの改善とコード管理
 - 効果的な権限管理とリソースの最適化 
 - 今後の展望
 - まとめと要望

  2. 分析基盤 全体像 3つの分析環境
 - AWS databricks
 - セキュアな分析環境
 - GCP Bigquery

    in tokyo
 - フォーマルな分析環境
 - GCP Bigquery in US
 - カジュアルな分析環境

  3. 3つの分析環境
 - AWS databricks
 - セキュアな分析環境
 - 論文
 - 管理会計


    - MLモデル開発
 - GCP Bigquery in tokyo
 - フォーマルな分析環境
 - GCP Bigquery in US
 - カジュアルな分析環境
 分析基盤 全体像
  4. AWS Cloud AWS account AWS account VDI : : Source

    DB Databricksの用途 前環境の課題点
  5. AWS Cloud AWS account AWS account VDI : : Source

    DB Squid Domain list Databricksの用途 前環境の課題点 プロキシサーバの管理が大変
 • 疎通可能なドメインをホワイトリスト管理
 
 ◦ サービス追加のたびに確認が必要
 ◦ 意図しないドメイン変更なども発生

  6. AWS Cloud AWS account AWS account VDI : : Source

    DB Databricksの用途 前環境の課題点 データフローが煩雑
 • 論文執筆用途で過去断面への 参照用途がある
 
 • 煩雑ゆえエラー対応の
 工数も多くかかっていた

  7. AWS Cloud AWS account AWS account VDI : : Source

    DB Databricksの用途 前環境の課題点 ユーザ環境の管理コストが高い
 • Jupyter on EMRとAthenaで構築
 ◦ リソースとユーザごとの権限管理が必 要
 ◦ 単一クラスタのため、各用途最適の環 境を用意することが難しい
 

  8. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI Databricksの用途 移行後
  9. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI Databricksの用途 セキュリティ要件への対応 Squid Domain list 管理ドメインの単一化
 • ワークスペースのドメインを許可
 ◦ Databricks の各サービスを 利用可能
 →メンテナンスフリー
 →Privatelinkで安心

  10. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI Squid Domain list Databricksの用途 データ利用の最適化 NotebookをDatabricksで管理
 • ユーザ自身でNotebookを自由に
 ◦ 作成
 ◦ 共有
 ◦ 秘匿
 • またクラスタのRestart権限を付与 することで、使う時間帯だけ立ち上 げる運用が効率化

  11. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI Squid Domain list Databricksの用途 チューニングされた Sparkによるパフォーマンス向上 ETLをマネージドSpark
 • バッチ処理が2~3時間 から1時間以内に
 
 • Delta化処理が簡単 に
 

  12. AWS account AWS Cloud AWS account Control Plane Data Plane

    Notebook : : Source DB VDI 閉塞環境下での工夫 移行後
  13. AWS Cloud AWS account Control Plane Data Plane Notebook :

    閉塞環境下での工夫 git連携 Push Github actions Git管理を実現
 • Notebook
 • ETL
 

  14. AWS account AWS Cloud Control Plane Data Plane Notebook :

    VDI 閉塞環境下での工夫 クラスタ管理 SSO Division A Division B Common クラスタ最適化
 • ユーザをチーム単位でグ ループ化
 • グループ毎にクラスタを 用意 
 • ユースケースに沿って 調整
 ◦ ライブラリ
 ◦ インスタンスタイプ
 ◦ スケール数
 • Jobクラスタの利用

  15. 今後の展望 first scope 閉塞環境からのMLOps → MLflowで生成したモデルをsagemakerエンドポイントでホスティング second scope 全環境でのML環境の提供 →

    Databricks on GCPでノウハウを引き継ぎつつ汎用化していく 泥臭い部分はDatabricksをフル活用してユーザ側に滲み出ないように スマートでセキュアなML環境構築の実現を目指しています