Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Search
Databricks Japan
May 10, 2024
Technology
0
400
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Databricks Japan
May 10, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
Databricks連携で実現する DWHモダナイゼーション
databricksjapan
0
83
[2025年7月版] AI/BI 最新機能アップデート / AIBI update on July
databricksjapan
0
140
AIもデータも、もっと身近に。Databricksで広がる金融業界の可能性 / FDUA-Study
databricksjapan
0
220
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
databricksjapan
0
250
[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates
databricksjapan
0
270
DatabricksとPower BIの連携メリット / Databricks PowerBI Integration Merits
databricksjapan
1
320
[2025年4月版] Databricks Academy ラボ環境 利用開始手順 / Databricks Academy Labs Onboarding
databricksjapan
2
560
Lakeflow Connectのご紹介
databricksjapan
1
330
MLflowの現在と未来 / MLflow Present and Future
databricksjapan
1
860
Other Decks in Technology
See All in Technology
エンジニアが主導できる組織づくり ー 製品と事業を進化させる体制へのシフト
ueokande
1
110
Evolución del razonamiento matemático de GPT-4.1 a GPT-5 - Data Aventura Summit 2025 & VSCode DevDays
lauchacarro
0
210
Aurora DSQLはサーバーレスアーキテクチャの常識を変えるのか
iwatatomoya
1
1.2k
人工衛星のファームウェアをRustで書く理由
koba789
15
8.3k
2025/09/16 仕様駆動開発とAI-DLCが導くAI駆動開発の新フェーズ
masahiro_okamura
0
140
株式会社ログラス - 会社説明資料【エンジニア】/ Loglass Engineer
loglass2019
4
65k
実践!カスタムインストラクション&スラッシュコマンド
puku0x
0
550
Claude Code でアプリ開発をオートパイロットにするためのTips集 Zennの場合 / Claude Code Tips in Zenn
wadayusuke
5
2.5k
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
10
75k
Rustから学ぶ 非同期処理の仕組み
skanehira
1
150
機械学習を扱うプラットフォーム開発と運用事例
lycorptech_jp
PRO
0
680
品質視点から考える組織デザイン/Organizational Design from Quality
mii3king
0
210
Featured
See All Featured
Designing Experiences People Love
moore
142
24k
Statistics for Hackers
jakevdp
799
220k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.5k
Into the Great Unknown - MozCon
thekraken
40
2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
GraphQLとの向き合い方2022年版
quramy
49
14k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
The Cult of Friendly URLs
andyhume
79
6.6k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.6k
Agile that works and the tools we love
rasmusluckow
330
21k
Become a Pro
speakerdeck
PRO
29
5.5k
Transcript
Databricksによる セキュアで効率的なデータエ ンジニアリングの実現
山崎 隼也 Yamazaki Junya 株式会社マネーフォワード データ戦略室 データエンジニアリング部 2021年2月にマネーフォワードに入社、全社横 断分析基盤のリプレイスを実施、現在の分析基 盤を作成。 最近は社内のRAG環境のインフラ構築に従事
しています。
目次 - 分析基盤イントロダクション - Databricksの用途 - 前環境の課題点 - セキュリティ要件への対応
- データ利用の最適化 - チューニングされたSparkによるパフォーマンス向上 - 閉塞環境下での工夫 - DevOpsの改善とコード管理 - 効果的な権限管理とリソースの最適化 - 今後の展望 - まとめと要望
分析環境 イントロダクション
分析基盤 全体像 3つの分析環境 - AWS databricks - セキュアな分析環境 - GCP Bigquery
in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境
3つの分析環境 - AWS databricks - セキュアな分析環境 - 論文 - 管理会計
- MLモデル開発 - GCP Bigquery in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境 分析基盤 全体像
Databricksの用途
注釈 https://www.databricks.com/jp/customers/moneyforward ここで触れてます
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点
AWS Cloud AWS account AWS account VDI : : Source
DB Squid Domain list Databricksの用途 前環境の課題点 プロキシサーバの管理が大変 • 疎通可能なドメインをホワイトリスト管理 ◦ サービス追加のたびに確認が必要 ◦ 意図しないドメイン変更なども発生
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 データフローが煩雑 • 論文執筆用途で過去断面への 参照用途がある • 煩雑ゆえエラー対応の 工数も多くかかっていた
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 ユーザ環境の管理コストが高い • Jupyter on EMRとAthenaで構築 ◦ リソースとユーザごとの権限管理が必 要 ◦ 単一クラスタのため、各用途最適の環 境を用意することが難しい
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 移行後
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 セキュリティ要件への対応 Squid Domain list 管理ドメインの単一化 • ワークスペースのドメインを許可 ◦ Databricks の各サービスを 利用可能 →メンテナンスフリー →Privatelinkで安心
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 データ利用の最適化 NotebookをDatabricksで管理 • ユーザ自身でNotebookを自由に ◦ 作成 ◦ 共有 ◦ 秘匿 • またクラスタのRestart権限を付与 することで、使う時間帯だけ立ち上 げる運用が効率化
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 チューニングされた Sparkによるパフォーマンス向上 ETLをマネージドSpark • バッチ処理が2~3時間 から1時間以内に • Delta化処理が簡単 に
Databricksの用途 移行後 • セキュリティ要件への対応 • データ利用の最適化 • チューニングされたSparkによ るパフォーマンス向上 • クラウドベンダーからの分離によ
るポータビリティ向上
https://www.databricks.com/jp/customers/moneyforward ここで触れてます Databricksの用途 移行後
閉塞環境下での 工夫
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI 閉塞環境下での工夫 移行後
AWS Cloud AWS account Control Plane Data Plane Notebook :
閉塞環境下での工夫 git連携 Push Github actions Git管理を実現 • Notebook • ETL
AWS account AWS Cloud Control Plane Data Plane Notebook :
VDI 閉塞環境下での工夫 クラスタ管理 SSO Division A Division B Common クラスタ最適化 • ユーザをチーム単位でグ ループ化 • グループ毎にクラスタを 用意 • ユースケースに沿って 調整 ◦ ライブラリ ◦ インスタンスタイプ ◦ スケール数 • Jobクラスタの利用
今後の展望
今後の展望 first scope 閉塞環境からのMLOps → MLflowで生成したモデルをsagemakerエンドポイントでホスティング second scope 全環境でのML環境の提供 →
Databricks on GCPでノウハウを引き継ぎつつ汎用化していく 泥臭い部分はDatabricksをフル活用してユーザ側に滲み出ないように スマートでセキュアなML環境構築の実現を目指しています
まとめと要望
まとめと要望 まとめ • セキュアな分析、ML環境を低運用コストで • ユーザの声を聞く時間ができた • 浮いた時間でユーザビリティの向上 • クラウドベンダーとの依存が切れてポータビリティ向上
要望 • サーバレスのprivate link対応 • unity catalogへの移行を簡単に
We are hiring!