Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Search
Databricks Japan
May 10, 2024
Technology
0
470
Databricksによるセキュアで効率的なデータエンジニアリングの実現
Databricks Japan
May 10, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
Microsoft Tech Brief : Microsoft Fabric × Databricks × Microsoft Foundry が切り拓く Agentic Analytics 革命 ― Microsoft Ignite & Databricks 社 主催 DATA+AI World Tour Tokyo 最新アップデート総括
databricksjapan
0
33
Money Forwardにおける Databricks利⽤の現状と今後の展望
databricksjapan
0
48
Databricks Lakeflow クイックワークショップ / lakeflow-workshop
databricksjapan
0
64
NEXT弥⽣を⽀えるAI‧データ基盤構想 とシルバー構築について
databricksjapan
0
46
世界をつなぐ、SEGAのグローバルデータメッシュ 〜Databricksで進化する基盤とゲーム運営〜
databricksjapan
0
93
JEDAI認定プログラム JEDAI Order 2026 エントリーのご案内 / JEDAI Order 2026 Entry
databricksjapan
0
200
評価駆動開発で不確実性を制御する - MLflow 3が支えるエージェント開発
databricksjapan
2
260
MLflowで始めるプロンプト管理、評価、最適化
databricksjapan
1
340
JEDAI Meetup! Data + AI World Tour Tokyo 2025
databricksjapan
1
60
Other Decks in Technology
See All in Technology
Agent Skillsがハーネスの垣根を超える日
gotalab555
7
5k
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
3
240
MySQLのSpatial(GIS)機能をもっと充実させたい ~ MyNA望年会2025LT
sakaik
0
190
TED_modeki_共創ラボ_20251203.pdf
iotcomjpadmin
0
190
Introduce marp-ai-slide-generator
itarutomy
0
170
テストセンター受験、オンライン受験、どっちなんだい?
yama3133
0
200
Oracle Cloud Infrastructure:2025年12月度サービス・アップデート
oracle4engineer
PRO
0
150
Knowledge Work の AI Backend
kworkdev
PRO
0
340
アプリにAIを正しく組み込むための アーキテクチャ── 国産LLMの現実と実践
kohju
1
270
[2025-12-12]あの日僕が見た胡蝶の夢 〜人の夢は終わらねェ AIによるパフォーマンスチューニングのすゝめ〜
tosite
0
230
AWSの新機能をフル活用した「re:Inventエージェント」開発秘話
minorun365
2
530
Cloud WAN MCP Serverから考える新しいネットワーク運用 / 20251228 Masaki Okuda
shift_evolve
PRO
0
130
Featured
See All Featured
エンジニアに許された特別な時間の終わり
watany
106
220k
Prompt Engineering for Job Search
mfonobong
0
130
How STYLIGHT went responsive
nonsquared
100
6k
What does AI have to do with Human Rights?
axbom
PRO
0
1.9k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Why Our Code Smells
bkeepers
PRO
340
58k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
37
Getting science done with accelerated Python computing platforms
jacobtomlinson
0
85
The Pragmatic Product Professional
lauravandoore
37
7.1k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
1k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
270
Transcript
Databricksによる セキュアで効率的なデータエ ンジニアリングの実現
山崎 隼也 Yamazaki Junya 株式会社マネーフォワード データ戦略室 データエンジニアリング部 2021年2月にマネーフォワードに入社、全社横 断分析基盤のリプレイスを実施、現在の分析基 盤を作成。 最近は社内のRAG環境のインフラ構築に従事
しています。
目次 - 分析基盤イントロダクション - Databricksの用途 - 前環境の課題点 - セキュリティ要件への対応
- データ利用の最適化 - チューニングされたSparkによるパフォーマンス向上 - 閉塞環境下での工夫 - DevOpsの改善とコード管理 - 効果的な権限管理とリソースの最適化 - 今後の展望 - まとめと要望
分析環境 イントロダクション
分析基盤 全体像 3つの分析環境 - AWS databricks - セキュアな分析環境 - GCP Bigquery
in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境
3つの分析環境 - AWS databricks - セキュアな分析環境 - 論文 - 管理会計
- MLモデル開発 - GCP Bigquery in tokyo - フォーマルな分析環境 - GCP Bigquery in US - カジュアルな分析環境 分析基盤 全体像
Databricksの用途
注釈 https://www.databricks.com/jp/customers/moneyforward ここで触れてます
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点
AWS Cloud AWS account AWS account VDI : : Source
DB Squid Domain list Databricksの用途 前環境の課題点 プロキシサーバの管理が大変 • 疎通可能なドメインをホワイトリスト管理 ◦ サービス追加のたびに確認が必要 ◦ 意図しないドメイン変更なども発生
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 データフローが煩雑 • 論文執筆用途で過去断面への 参照用途がある • 煩雑ゆえエラー対応の 工数も多くかかっていた
AWS Cloud AWS account AWS account VDI : : Source
DB Databricksの用途 前環境の課題点 ユーザ環境の管理コストが高い • Jupyter on EMRとAthenaで構築 ◦ リソースとユーザごとの権限管理が必 要 ◦ 単一クラスタのため、各用途最適の環 境を用意することが難しい
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 移行後
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Databricksの用途 セキュリティ要件への対応 Squid Domain list 管理ドメインの単一化 • ワークスペースのドメインを許可 ◦ Databricks の各サービスを 利用可能 →メンテナンスフリー →Privatelinkで安心
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 データ利用の最適化 NotebookをDatabricksで管理 • ユーザ自身でNotebookを自由に ◦ 作成 ◦ 共有 ◦ 秘匿 • またクラスタのRestart権限を付与 することで、使う時間帯だけ立ち上 げる運用が効率化
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI Squid Domain list Databricksの用途 チューニングされた Sparkによるパフォーマンス向上 ETLをマネージドSpark • バッチ処理が2~3時間 から1時間以内に • Delta化処理が簡単 に
Databricksの用途 移行後 • セキュリティ要件への対応 • データ利用の最適化 • チューニングされたSparkによ るパフォーマンス向上 • クラウドベンダーからの分離によ
るポータビリティ向上
https://www.databricks.com/jp/customers/moneyforward ここで触れてます Databricksの用途 移行後
閉塞環境下での 工夫
AWS account AWS Cloud AWS account Control Plane Data Plane
Notebook : : Source DB VDI 閉塞環境下での工夫 移行後
AWS Cloud AWS account Control Plane Data Plane Notebook :
閉塞環境下での工夫 git連携 Push Github actions Git管理を実現 • Notebook • ETL
AWS account AWS Cloud Control Plane Data Plane Notebook :
VDI 閉塞環境下での工夫 クラスタ管理 SSO Division A Division B Common クラスタ最適化 • ユーザをチーム単位でグ ループ化 • グループ毎にクラスタを 用意 • ユースケースに沿って 調整 ◦ ライブラリ ◦ インスタンスタイプ ◦ スケール数 • Jobクラスタの利用
今後の展望
今後の展望 first scope 閉塞環境からのMLOps → MLflowで生成したモデルをsagemakerエンドポイントでホスティング second scope 全環境でのML環境の提供 →
Databricks on GCPでノウハウを引き継ぎつつ汎用化していく 泥臭い部分はDatabricksをフル活用してユーザ側に滲み出ないように スマートでセキュアなML環境構築の実現を目指しています
まとめと要望
まとめと要望 まとめ • セキュアな分析、ML環境を低運用コストで • ユーザの声を聞く時間ができた • 浮いた時間でユーザビリティの向上 • クラウドベンダーとの依存が切れてポータビリティ向上
要望 • サーバレスのprivate link対応 • unity catalogへの移行を簡単に
We are hiring!