Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
45億!増え続けるデータセットと基盤と私
Search
Databricks Japan
April 26, 2024
3
640
45億!増え続けるデータセットと基盤と私
Databricks Japan
April 26, 2024
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
[2024年12月版] Unity Catalogセットアップガイド / Unity Catalog Setup Guide
databricksjapan
0
150
[2024年12月版] Databricks Express Setup手順 / Databricks Express Setup
databricksjapan
1
63
Azure Databricksの最新機能アップデート
databricksjapan
1
70
Databricks Appのご紹介
databricksjapan
1
1.1k
Databricks AI/BI Genie 自然言語を用いたインテリジェンスなデータ分析
databricksjapan
0
280
生成AIとレイクハウス・ガバナンス
databricksjapan
1
160
データプロダクトにおけるCI/CD: Databricks Asset Bundleとは?
databricksjapan
0
240
Databricks クリーンルームについてのご紹介
databricksjapan
0
290
Unity Catalog データ分離設計ガイド / Unity Catalog Data Isolation Design Guide
databricksjapan
1
870
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Become a Pro
speakerdeck
PRO
26
5k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
0
97
How GitHub (no longer) Works
holman
311
140k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Raft: Consensus for Rubyists
vanstee
137
6.7k
Optimizing for Happiness
mojombo
376
70k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
5
450
Music & Morning Musume
bryan
46
6.2k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.9k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Transcript
Copyright © 2024 Looop Inc. 45億︕増え続けるデータセットと 基盤と私 ⼤堀 元 株式会社Looop
システム統括部 エキスパート 2024年4⽉25⽇
Copyright © 2024 Looop Inc. 2 ⾃⼰紹介
Copyright © 2024 Looop Inc. 3 名前 ⼤堀 元 所属
株式会社Looop システム統括部 エキスパート 役割 部付きのエンジニアとして、技術責任者をやっています。 今回ご紹介するデータチームの⽴ち上げとDatabricksの導⼊にも携わり、 現在は、データ分析チームとインフラ基盤チームを主管しています。 好きなもの ・Laravel ・ダイビング ・プログラミング(⼩学⽣のころにN88-BASICに触れてからずっと) ・DatabricksのLakeviewダッシュボード ⾃⼰紹介
Copyright © 2024 Looop Inc. 4 会社名 株式会社Looop 設⽴ 2011年4⽉4⽇
所在地 東京都台東区上野三丁⽬24番6号 従業員数 272名(2023/2/28現在、派遣社員除く) 代表者 代表取締役社⻑ CEO 森⽥卓⺒ 資本⾦ 4,094百万円(資本準備⾦3,773百万円)※2023年3⽉末現在 売上⾼ 67,282百万円 ※2023年3⽉期連結 事業内容 電⼒⼩売、電⼒⼩売事業に関わる各種業務委託業 太陽光発電所システムの開発・販売・⼯事・管理・保守、他 会社概要
Copyright © 2024 Looop Inc. 5 1. ⾃⼰紹介 2. 45億とは︖
3. 導⼊期 4. どのように活⽤しているか︖ 5. 導⼊後の苦労 6. 今後の展望 7. 最後に ※本資料中における表やグラフなどの数字は、実態と異なる場合があり ますのであらかじめご了承ください。 アジェンダ
Copyright © 2024 Looop Inc. 6 早速ですが、45億の話
Copyright © 2024 Looop Inc. 7 本セッションのタイトルである 45億 という数字は何だと思いますか︖
Copyright © 2024 Looop Inc. 8 正解は・・・
Copyright © 2024 Looop Inc. 9 当社の電⼒事業における 1年間に増えるデータの個数です
Copyright © 2024 Looop Inc. 10 当社は⼤きく2つのビジネスを⾏っています。 • 電⼒事業 •
to C、to B向けに、電気の仕⼊れと販売 • 再エネ事業 • 太陽光、⾵⼒などの再⽣可能エネルギーの発電所建設 • 部材販売、運⽤と保守、発電所の保有 当社のビジネスモデル
Copyright © 2024 Looop Inc. 11 当社は⼤きく2つのビジネスを⾏っています。 • 電⼒事業 →
使⽤量データが45億/年ずつ増加 • to C、to B向けに、電⼒の仕⼊れと販売 • 再エネ事業 → 発電量データが19億/年ずつ増加 • 太陽光、⾵⼒などの再⽣可能エネルギーの発電所建設 • 部材販売、運⽤と保守、発電所の保有 当社のビジネスモデル
Copyright © 2024 Looop Inc. 12 当社は⼤きく2つのビジネスを⾏っています。 • 電⼒事業 →
使⽤量データが45億/年ずつ増加 • to C、to B向けに、電⼒の仕⼊れと販売 • 再エネ事業 → 発電量データが19億/年ずつ増加 • 太陽光、⾵⼒などの再⽣可能エネルギーの発電所建設 • 部材販売、運⽤と保守、発電所の保有 合わせると、1年に64億ずつデータが増加しています 当社のビジネスモデル
Copyright © 2024 Looop Inc. 13 すみません︕タイトル間違っていました︕
Copyright © 2024 Looop Inc. 45 64 億︕増え続けるデータセットと 基盤と私 ⼤堀
元 株式会社Looop システム統括部 エキスパート 2024年4⽉25⽇
Copyright © 2024 Looop Inc. 15 • ⼀ヶ⽉あたり3.8億件、年間45億件のデータが増加。(2023年実績) • 電⼒事業の開始から現在までのトータルデータセット数は300億件にもなる。
※こんな集計が数秒で処理完了︕Databricksは凄い︕︕ 電⼒事業の1⽉あたりのデータ件数と累計
Copyright © 2024 Looop Inc. 16 導⼊期
Copyright © 2024 Looop Inc. 17 Databricks導⼊前は、社内の⼀部メンバー向けにデータベースへの直接アクセスの権限を付与し、個々 ⼈で分析業務を⾏っていた。それぞれが分析環境を構築したりCPUリソースを調達していたため、分析環境、 コード、データが分断し、サイロ化が進み課題となっていた。 ⼯数に対する⾮効率
•データ利⽤と前処理の⾮効率 •データ取得はIT部⾨が対応 •データ前処理が毎回⼿間 •開発環境不統⼀、属⼈化 •マシン毎にPythonバージョン やライブラリが異なる •コード管理が属⼈化 CPUリソースとコスト⾮効率 •計算リソースの硬直性 •ダイナミックに変動するCPU需 要に対して硬直的なリソース •⼤規模計算をするために⼤ 容量のサーバを契約するとリソ ースが余り⾮効率 セキュリティとガバナンス •アクセス制御の問題 •DB直接アクセスのリスク •アクセス情報使いまわし •個⼈情報へのアクセス •分析者が⾮マスクの個⼈情 報データにアクセスできてしまう Databricks導⼊前の課題
Copyright © 2024 Looop Inc. 18 Databricks導⼊前の課題 オンプレ 共有PC 共有EC2
計算マシン1 Google Colaboratory 共有EC2 計算マシン2 社内DB 社外データ Excel分析者 インフラ担当者 Python分析者 システム部⾨ CSV ダウンロード データ抽出依頼 リモート接続 ブラウザでアクセス Databricks導⼊前はこのような状態 他部署 データ 抽出依頼 ファイルで 報告 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC 経営層・マネージャ RDPで アクセス Excelで 連携
Copyright © 2024 Looop Inc. 19 Databricks導⼊前の課題 オンプレ 共有PC 共有EC2
計算マシン1 Google Colaboratory 共有EC2 計算マシン2 社内DB 社外データ システム部⾨ CSV ダウンロード リモート接続 ブラウザでアクセス データ抽出の ⾮効率 ローカルPCでの ⾮効率な分析 開発環境の不統⼀ ソースコードの 属⼈管理 データ取得の ⾮効率 同時ログインの問題 データ前処理の ⾮効率 他部署 Excel分析者 インフラ担当者 Python分析者 ファイルで 報告 情報鮮度の低さ データ抽出依頼 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC 経営層・マネージャ データ 抽出依頼 計算リソースの 硬直性 RDPで アクセス Excelで 連携 Excel分析 の限界 Databricks導⼊前はこのような状態 →データのサイロ化が問題
Copyright © 2024 Looop Inc. 20 Databricks導⼊後の姿 個⼈貸与PC 社内DB 社外データ
システム部⾨ 個⼈貸与PC 他部署 パイプライン 構築・管理 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC SQL分析者 ML分析者 経営層・マネージャ Python分析者 個⼈貸与PC ノートブックで ⼤量データ処理 と分析 MLモデルを作り 予測・評価、事業部 にフィードバック SQLで抽出・集計し ダッシュボード構築 ダッシュボード構築 数字をもとに⽇々判断 BIに直接 アクセス
Copyright © 2024 Looop Inc. 21 Databricks導⼊後の姿 個⼈貸与PC 社内DB 社外データ
システム部⾨ 個⼈貸与PC 他部署 パイプライン 構築・管理 個⼈貸与PC 個⼈貸与PC 個⼈貸与PC SQL分析者 ML分析者 経営層・マネージャ Python分析者 個⼈貸与PC 全てのデータを⼀箇所に集約 迷わない、探さない 全員がブラウザでアクセス 開発環境と実⾏環境を統⼀ オートスケールするクラスター による、柔軟な計算リソース データパイプラインで処理、監視 ⾮整形データをそのまま取り込み 前処理を統⼀ ユーザ部⾨が⾃分達で 分析できるように SQLやPythonを使って分析 ダッシュボードを直接参照 情報鮮度が⾼い ノートブックで ⼤量データ処理 と分析 MLモデルを作り 予測・評価、事業部 にフィードバック SQLで抽出・集計し ダッシュボード構築 ダッシュボード構築 数字をもとに⽇々判断 BIに直接 アクセス
Copyright © 2024 Looop Inc. 22 現在
Copyright © 2024 Looop Inc. 23 ダッシュボード数、Databricks格納データ数 スキーマ数 55 テーブル数
772 レコード数 494億 データ数 3兆以上 Databricks格納データ数 ※2024.04.20現在 総数 73 1年以内に作成 40 3ヶ⽉以内に作成 32 ダッシュボード数 Databrick導⼊から約2年が経過した時点での利⽤実態をまとめました。 • 導⼊後1年間は、データエンジニア2⼈、データアナリスト4⼈体制で利⽤。 • 直近半年は、⼀部の事業部メンバー向けにSQLを開放し、ダッシュボードを⾃由に作成。
Copyright © 2024 Looop Inc. 24 どのように活⽤しているか︖
Copyright © 2024 Looop Inc. 25 Databricksの活⽤例 1/3 当社が保有する発電所の発電量実績をダッシュボード化
Copyright © 2024 Looop Inc. 26 Databricksの活⽤例 2/3 スマホアプリのユーザ動向をダッシュボード化 新規・累計ユーザ数推移
ユーザごとのアプリバージョンの推移 MAU/WAU/DAU推移
Copyright © 2024 Looop Inc. 27 Databricksの活⽤例 3/3 0 10000
20000 30000 40000 50000 60000 70000 2/1/2023 2/15/2023 3/1/2023 3/15/2023 4/1/2023 4/15/2023 5/1/2023 5/15/2023 6/1/2023 6/15/2023 7/1/2023 7/15/2023 8/1/2023 8/15/2023 9/1/2023 9/15/2023 初回ダウンロード数(累積実績) 新規ダウンロードキャンペーンを実施した際に、アプリのダウンロード数にどの程度影響するのかを検証 • 時系列データ予測ライブラリ Prophet を利⽤し、機械学習と予測を⾏った。 ①︓2/1〜8/21の累積数を学習し、8/21〜8/28の累積数を予測するよう、 モデルのハイパーパラメータをチューニング ②:①で抽出したパラメータで2/1 〜8/28の累積数を学習させ(キャ ンペーン期間) 、8/29〜9/30の 累積数を予測 4/24︓⼤規模リリース (持続7⽇間) 5/19及び5/26︓メール通知 ①(持続3⽇間) 7/14、8/19、8/28、9/13、9/28 メール通知 ②(持続3⽇間)
Copyright © 2024 Looop Inc. 28 Databricksの活⽤例 その他にも、多数のダッシュボードがあるのですが、お⾒せできない数字も多く・・・
Copyright © 2024 Looop Inc. 29 定着のために⾏っていること
Copyright © 2024 Looop Inc. 30 Databricksさんのトレーニング受講の感想を報告し合うチャンネル • データチームのコアメンバーにトレーニングを受講して頂き、Slackでまとめをお願いしています。 •
お互いに刺激となり、モチベーションアップに繋がっています。
Copyright © 2024 Looop Inc. 31 Slackヘルプチャンネルの様⼦(1/2) • ユーザ追加・権限付与の申請はSlackで受け付け •
その他、以前はDatabricksの使い⽅に関する相談が多かったが・・・ • データそのものに関する各種相談が届くようになり・・・ • 最近ではかなり込み⼊った質問が増えてきました → よろず相談窓⼝はあったほうが良いです︕
Copyright © 2024 Looop Inc. 32 Slackヘルプチャンネルの様⼦(2/2) さらに・・・ 当初はユーザ部⾨の開発者からIT部⾨への問い合わせ⽤ ↓
ダッシュボードのユーザが問い合わせるようになる ↓ (⾃発的に)ダッシュボードの開発者が答えるようになる ↓ さらにユーザ部⾨同⼠で意⾒交換が始まる・・・︕ ↓ IT部⾨は関わることなく問い合わせがクローズ︕︕ ダッシュボード利⽤者(マーケティング担当) ダッシュボード開発者(⾮エンジニア) 別のダッシュボード開発者(⾮エンジニア)
Copyright © 2024 Looop Inc. 33 Slackヘルプチャンネルの様⼦(2/2) さらに・・・ 当初はユーザ部⾨の開発者からIT部⾨への問い合わせ⽤ ↓
ダッシュボードのユーザが問い合わせるようになる ↓ (⾃発的に)ダッシュボードの開発者が答えるようになる ↓ さらにユーザ部⾨同⼠で意⾒交換が始まる・・・︕ ↓ IT部⾨は関わることなく問い合わせがクローズ︕︕ データはIT部⾨のモノではなく、 ⾃分達(事業部)のモノである という意識変⾰が起き始めている(と思う) これがデータの⺠主化か・・・︖︕ ダッシュボード利⽤者(マーケティング担当) ダッシュボード開発者(⾮エンジニア) 別のダッシュボード開発者(⾮エンジニア)
Copyright © 2024 Looop Inc. 34 導⼊後の苦労話
Copyright © 2024 Looop Inc. 35 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 36 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題 ⼀つずつお話していきます。
Copyright © 2024 Looop Inc. 37 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 38 テーブル数 772 Databricks格納データ数 ※2024.04.20現在
• • 導⼊後の苦労話 ①データ連携依頼が多すぎる問題
Copyright © 2024 Looop Inc. 39 テーブル数 772 Databricks格納データ数 ※2024.04.20現在
• • 「Databricksが便利らしい」と認知度向上 ⾊々なデータを取り込みたいと要望が増加 都度データ連携の設定を追加 導⼊後の苦労話 ①データ連携依頼が多すぎる問題
Copyright © 2024 Looop Inc. 40 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 41 • AWS DMS(Database Migration
Service)+CDCを使ってデータ取り込みをすると、Op列、 OpTimestamp列が⾃動付与されるので、これらの列を⾮表⽰にしたい。 • データベースの全項⽬だと多すぎるので、よく使う主要項⽬のみに絞って欲しい。 • 個⼈情報をマスクしたい。(これはガバナンス上必須) → データ取り込み後の様々な加⼯が必要。 メダリオンアーキテクチャを採⽤し、Databricks上でデータパイプラインを構築していくことで対応。 https://www.databricks.com/jp/gl ossary/medallion-architecture ELT(not ETL) ⾮マスク マスク ⼀般ユーザには⾮開放 ブロンズ DBデータを何も加⼯せ ずに全量取り込み シルバー 不要なカラムを削除 最低限のクレンジング ゴールド 分析し易い形へ加⼯ データの⾮正規化も⾏う 導⼊後の苦労話 ②連携後の加⼯依頼が多すぎる問題
Copyright © 2024 Looop Inc. 42 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 43 様々なデータをDatabricksに取り込むようになると、 もっと⾊々な⾓度から分析したい︕ というニーズが増えてきた。 とはいえ、IT部⾨のリソースも分析エンジニアの数もそれほど多くなく、全てに対応することが難しい・・・
であれば、⾃分たちで分析できるように、SQL勉強会を実施して広めていこう︕ ということになりました。 導⼊後の苦労話 ③データ分析依頼が多すぎる問題
Copyright © 2024 Looop Inc. 44 導⼊後の苦労話 ③データ分析依頼が多すぎる問題 ①SQLとは︖ ②Excelと関連付けて説明
③中盤にはJOIN などちょっと⾼度な話も
Copyright © 2024 Looop Inc. 45 全社員の30%がSQL勉強会に参加していることに︕ データの⺠主化が加速しています︕︕ 期 参加者数
FY23 下期 約 30 ⼈ FY24 上期 約 50 ⼈ 導⼊後の苦労話 ③データ分析依頼が多すぎる問題
Copyright © 2024 Looop Inc. 46 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 47 利⽤部⾨拡⼤と、中途⼊社社員への開放のため、逐次ユーザ追加依頼が届く。 Slack WFで依頼が届くため、GUIでポチポチ追加する必要がある。 現在は、Workspace管理者のみアカウント追加が出来るため、⼀部の管理者(私)に若⼲の負担あり。
→ Databricksさん、アカウント改廃の権限をユーザにつけられるようにして欲しいです︕(相談済み) 今後はID管理を外部のIdPに寄せていき、SSO認証にすれば、負担はかなり減る・・・はず。 ただ、ユーザごとの権限(ワークスペースへのアクセス、クラスター作成の権限)の管理は課題。 導⼊後の苦労話 ④アカウント追加・権限付与が多すぎる問題
Copyright © 2024 Looop Inc. 48 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 49 利⽤が拡⼤することにより、作ったダッシュボードが間違っているのでは︖と指摘されることが増えてきた。 システム部⾨が管理しているデータパイプラインに問題があることもあるが、 ユーザ部⾨が作成したSQLに問題があることもある。 BIは試⾏錯誤しながら改善していくものですし、何よりチャレンジしている姿勢を評価したい︕
とはいえ、データパイプラインとBIの品質をどのように上げていくのかは今後の課題。 (対応⽅針検討中) 導⼊後の苦労話 ⑤分析結果の妥当性検証が⼤変
Copyright © 2024 Looop Inc. 50 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 51 導⼊後の苦労話 ⑥インポート元のデータベースが破損してダッシュボードが停⽌ 当社はインフラ基盤としてAWSを採⽤、データベースの標準はAurora MySQL
とあるDB AWS DMS (Database Migration Service) S3 S3 社外アカウント とあるDB 社内アカウント Databricksアカウント BIユーザ
Copyright © 2024 Looop Inc. 52 とあるDB AWS DMS (Database
Migration Service) S3 S3 社外アカウント とあるDB 社内アカウント Databricksアカウント BIユーザ ︖︖︖ 以後、全てのデータが破壊、ダッシュボードが異常となった 当社はインフラ基盤としてAWSを採⽤、データベースの標準はAurora MySQL 先⽇⾏われたAuroraのマイナーバージョンアップによって、DBのインポート時に実⾏される「カラム⼀覧取得ク エリ」の結果が仕様変更され、DBの中⾝が破損する問題が発⽣した。 カラム⼀覧を取得するクエリの 結果が変更 導⼊後の苦労話 ⑥インポート元のデータベースが破損してダッシュボードが停⽌
Copyright © 2024 Looop Inc. 53 当社はインフラ基盤としてAWSを採⽤、データベースの標準はAurora MySQL 先⽇⾏われたAuroraのマイナーバージョンアップによって、DBのインポート時に実⾏される「カラム⼀覧取得ク エリ」の結果が仕様変更され、DBの中⾝が破損する問題が発⽣した。
とあるDB AWS DMS (Database Migration Service) S3 S3 社外アカウント とあるDB 社内アカウント Databricksアカウント カラム⼀覧を取得するクエリの 結果が変更 BIユーザ ︖︖︖ → Databricksに取り込む際のデータ異常検知の実装課題が浮き彫りに︕ 以後、全てのデータが破壊、ダッシュボードが異常となった 導⼊後の苦労話 ⑥インポート元のデータベースが破損してダッシュボードが停⽌
Copyright © 2024 Looop Inc. 54 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題
Copyright © 2024 Looop Inc. 55 導⼊後の苦労話 ⑦エンジニアが⾜りない問題 増え続ける 分析依頼とデータ連携依頼・・・
データアナリストだけではなく、データエンジニアも⾜りない・・・ 優先度をつけて対応はしているものの、圧倒的エンジニア不⾜・・︕ SQLを書ける社員を増やすだけではなく、 パイプラインも実装できるPythonエンジニアを社内で増やしていく︖ 中途採⽤と、既存社員のリスキリングをどのように強化・推進していくのか︖ (SQL勉強会とは別に、Python勉強会も開始。⻑期の対応⽅針は検討中)
Copyright © 2024 Looop Inc. 56 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コスト増加問題
Copyright © 2024 Looop Inc. 57 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 導⼊後の苦労話 ⑧コスト増加問題
Photonが早くて良さそう 早いけど⾼い︕ やっぱりPhotonやめました Photonアクセラレータ
Copyright © 2024 Looop Inc. 58 AWSアカウントを組織に⼊れ、 監査対象としたことで コストが増⼤ 同じタイミングでユーザが増え、
実⾏されるノートブックも増加 EC2使⽤量が増⼤ ・クラスターのワーカー数を調整 ・定期実⾏をジョブランに変更 EC2とConfigの急激な増加 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 導⼊後の苦労話 ⑧コスト増加問題
Copyright © 2024 Looop Inc. 59 急激な増加 微増 S3の急激な増加 →原因はI/Oではなくストレージ
新たに連携開始した巨⼤テーブルが原因か まだ結果は出ていないが、 VACUUMを定期実⾏するように 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 導⼊後の苦労話 ⑧コスト増加問題
Copyright © 2024 Looop Inc. 60 順調に増加 なんとか削減 横ばい 唐突な⾼騰
さらに頑張って削減 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 導⼊後の苦労話 ⑧コスト増加問題 Databricksコスト、AWSコスト全体の推移
Copyright © 2024 Looop Inc. 61 導⼊後の苦労話 利⽤が拡⼤することによりコストが増⼤ 定期的に⾒直しをしているが、ユーザ数とデータが増えることでコストは上昇 •
Databricksでコストを可視化し、定期的に⾒直しをしましょう。 • 当社では運⽤チームでコストダッシュボードを⽉に2回以上確認し、⾒直しを図っています。 • トータルコストだけではなく、AWSのサービスごとにコストを⾒ていきましょう。 • 時間帯ごと・曜⽇ごと・クラスターごとに⾒ていくと、回りっぱなしのジョブが⾒つかったりします。 定期的なコストの観察は⾮常に重要。 さらに、将来の利⽤拡⼤を加味して、頑張って予算を確保しましょう︕
Copyright © 2024 Looop Inc. 62 導⼊後の苦労話 • データ連携依頼 が多すぎる問題
• 連携後の加⼯依頼 が多すぎる問題 • データ分析依頼 が多すぎる問題 • アカウント・権限付与依頼 が多すぎる問題 • 分析結果の妥当性検証が⼤変 • インポート元のデータベースが破損してダッシュボードが停⽌ • エンジニアが⾜りない問題 • コストが積み上がってきている問題 どれも利⽤者が増えてくれたことに起因。有り難い話︕ チーム体制を強化して対応してまいります︕
Copyright © 2024 Looop Inc. 63 今後の展望
Copyright © 2024 Looop Inc. 64 今後の展望 • 社内の全てのデータを連携したい •
直近ではSalesforceのデータに対する分析ニーズあり • 将来的には社内のあらゆるデータを分析できるようにしていく • どんどんダッシュボード化していきたい • Excelやスプシでの分析は、1回だけで済む業務のみにしていく • 2回以上⾏う分析はSQLを書いていき、どんどん⾃動化していく • データの⺠主化推進 • SQL勉強会の開催拡⼤ • 現在はレベルを統⼀した画⼀的な勉強会のみ。中級〜上級者向けを作っても良さそう • Databricks社のトレーニングをもっと取り⼊れたい • さらなる普及活動(全社利⽤への拡⼤) • データ利活⽤ • ノーコード・ローコード開発基盤との連携(Fivetranでデータ連携、Workatoでノーコード開発) • MLを作って将来予測するだけではなく、サービングして社内外にサービスを提供 → MLOps︕︕
Copyright © 2024 Looop Inc. 65 最後に宣伝させてください︕
Copyright © 2024 Looop Inc. 66 Looopでんき、いかがですか︖ ⽇中は太陽光発電量が多く、電気が余りやすいため、市場単価が安い。 この安い電気をたくさん使っていただける「市場連動型」プランをご⽤意しました。 グッドデザイン賞を受賞したスマホアプリとともに、ぜひご利⽤ください︕
0 2 4 6 8 10 12 14 16 0:00 0:30 1:00 1:30 2:00 2:30 3:00 3:30 4:00 4:30 5:00 5:30 6:00 6:30 7:00 7:30 8:00 8:30 9:00 9:30 10:00 10:30 11:00 11:30 12:00 12:30 13:00 13:30 14:00 14:30 15:00 15:30 16:00 16:30 17:00 17:30 18:00 18:30 19:00 19:30 20:00 20:30 21:00 21:30 22:00 22:30 23:00 23:30 JEPXスポット価格 (2023.10.15 九州) 最安値0.01円 最⾼値13.49円 円/kWh (税抜き) Looopでんきアプリは 2023年度グッドデザイン賞を受賞しました︕ https://looop-denki.com/
Copyright © 2024 Looop Inc. 67 データエンジニアさん・データアナリストさん⼤募集 現在Looopでは、データエンジニア職、データアナリスト職を積極的に採⽤しています。 ビッグデータを扱うパイプラインの構築、データ分析、機械学習モデルを⽤いた事業への貢献に興味がある⽅、 ぜひ⼀緒に働きませんか︖募集要項は以下をご確認ください。
まずはお話を聞いてみたい⽅は、カジュアルにお話しましょう︕ 募集要項 カジュアル⾯談はこちらから︕
Copyright © 2024 Looop Inc. 68 ご清聴、誠にありがとうございました