Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
COMETAを用いたデータ品質管理と業務標準化への取り組み
Search
Kazuya Mori
September 05, 2024
1
980
COMETAを用いたデータ品質管理と業務標準化への取り組み
Kazuya Mori
September 05, 2024
Tweet
Share
Featured
See All Featured
Optimising Largest Contentful Paint
csswizardry
33
3k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
66k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.3k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Side Projects
sachag
452
42k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
The Cost Of JavaScript in 2023
addyosmani
45
7k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
Transcript
0 COMETAを用いた データ品質管理と 業務標準化への取り組み 2024.08.28 Data Engineering Study #25 株式会社サミーネットワークス
ゲーム事業本部 マーケティング部 デジタルリサーチ分析課 森 和也
1 1 発表者 名前:森 和也 所属:株式会社サミーネットワークス 所属:ゲーム事業本部 マーケティング部 デジタルリサーチ分析課 業務:データ分析・レポーティング・BIダッシュボード作成
業務:データ基盤の整備と改善 業務:機械学習モデリングを用いた事業への利益貢献 2019年にサミーネットワークスに入社 2020年データ基盤の再構築プロジェクトに立ち上げより参加
2 2 会社紹介 社名:株式会社サミーネットワークス 設立:2000年3月 社員:171名(2024年4月現在) 事業:PC・スマートフォン向けゲーム関連コンテンツの企画・開発・運営 777Real スマートフォン向け パチンコ・パチスロアプリ
777TOWN.net PC向け パチンコ・パチスロゲームサイト 777CON-PASS スマートフォン向け ホール入場抽選アプリ GAPOLI PC・スマートフォン向け オンラインゲームセンター
3 3 内容 ・データ基盤の変遷 ・データカタログ(COMETA)導入に至った理由 ・メタデータの整備をどのように進めたか ・COMETAを導入した効果 データ品質管理と業務標準化にどう寄与したのか
4 4 データ分析基盤の変遷 データ レイク DWH ETL ツール ~2016 2017
2021 2022 2023~
5 5 変遷の背景 ・データ分析によって課題解決や意思決定を支援する組織として誕生 データアナリストとして分析やレポーティング、提案を行うことが役割 ・BIツールの導入と共にデータ基盤をクラウド化 サービスの規模や数が増えるにつれてExcelやAccessでの管理に限界 ・データ収集はインフラチームに大きく依存 必要な都度、インフラチームに依頼してデータ分析用ログの送信を依頼 メイン業務ではなかったので繁忙期は後回しになりがちだった
自部署でデータ基盤を再構築するべくプロジェクト化
6 6 課題の解決 スケーラビリティの不足 適時性の低さ ユーザビリティの低さ 複雑化したデータフロー データ品質保証が未確立 BigQueryを自部署で導入 各サービスのDBからBQにログを直接送信
集計処理をBQ上に統一 当時は課題であることに 気付けていなかった
7 7 新たに生まれた課題 ・データフローの追跡が困難 BQのスケジュールクエリを利用⇒誰が何をやっているのか管理できず ・サービス側DB以外からのデータ取得がボトルネックに データエンジニアがいないので出来る人が時間をつくって対応するしかなかった ・シンプルに時間が足りない SQLを学びながらGUIベースのワークフローをSQLクエリに書き換え 分析やレポーティングも平行してやらなくてはいけない
問題を解決するためにTROCCOを導入
8 8 現在のデータ分析基盤
9 9 未解決の課題に気付く ・データ基盤の整備が終わりBIも刷新してTableauを導入 BI利用者を大幅に増やし、データ活用の推進に成功 新しいデータ分析需要が生まれ、サービス間を横断した集計や分析が増えた ・担当していないサービスのデータがわからない 各サービス単位で1~2人が専属して分析を担当するという体制 共有する必要性が低かったのでメタデータが整備されていなかった ・他部署とのコミュニケーションが増加
開発やCSなど運営チーム以外ともデータ基盤や分析で関わるようになった 業務効率化と属人化解消のためにメタデータの整備が必要 データカタログの導入を検討
10 10 データカタログの導入 データカタログに求めたもの ・メタデータをGUI上で入力できる メタデータを入力、利用するのは非データエンジニア ・ER図やデータリネージが自動で作成される データ相関図やカラムの関係性を可視化するのは大変 TROCCOからシームレスで利用できる COMETAの利用を開始
利用開始時点では「あったほうがいいよな」という程度の認識
11 11 データカタログ活用への道筋 まずは自分から 整備ルールを決める 〆切を設定 都度の進捗確認 ・まずは自担当サービスのメタデータを整備 ・サービスのアプデに伴うログ変更時にリネージを活用 ・自部署に事例紹介をしてアピール
・メタデータ整備の重要性を共通理解 ・メタデータの入力ルールを統一 ・自分が作ったものを自分で整備 ・入力完了の〆切を設定 ・Tableauダッシュボードで進捗を可視化
12 12 メタデータ管理ダッシュボード
13 13 データカタログ活用への道筋 ・メタデータ整備の過程でデータの棚卸、品質管理の重要性に気付く 中間テーブルとして作成したが全く使われていないテーブル データチェックを行ったらと記載必須の注意事項が多々あった (過去の復元不可なデータの欠損など) 潜在していたリスクを発見することができた データ品質管理プロセスを定めなくてはいけない
14 14 COMETA導入による効果 ユーザビリティの低さ データ品質保証が未確立 COMETAの導入によって未解決の課題に対処できた データカタログの導入で解消 これから取り組んでいく課題
15 15 COMETA導入による効果 ・業務標準化を進めることができた 担当外のサービスでもデータカタログを確認すれば集計できるようになった 分析チームとしてメタデータの重要性を認識できた 自分以外の「使う人」を意識するようになり共有される情報が増えた (メタデータのほかにもSQLの可読性など) ・データ品質管理の必要性に気付けた メタデータの整備がデータ品質管理に目を向けるきっかけになった
GUI上でデータ品質をチェックできるので敷居が低い クエリディタで集計結果の要約統計情報を確認できるのもよい
16 16 データカタログ導入による効果 ・サービス側DBの変更による分析DBへの影響がひと目でわかるようになった 開発チームに分析DBを考慮してもらいやすくなった サービスの担当エンジニアとの距離が近くなったことで 変更に伴う集計処理の修正対応漏れを抑止できている
17 17 今後の課題 ・データ品質管理プロセスの構築 各サービスの担当エンジニアともっと連携を強化して進めていきたい ・メタデータ整備の継続 メタデータ整備を根付かせるために取り組みを継続していく ・データモデリングの改善 学びながら段階的にデータ分析基盤を構築を進めているので 過去に作成したものには改善点が多々ある
18 18 おわりに ・データカタログは重要性を理解していない時こそ導入するべきかもしれない 導入を決めた時点では「いざという時の保険」程度の認識だった メタデータ整備の過程で初めて認識した課題があった 属人化しているとユーザビリティの問題に気づきにくい ・最短経路ではないけれど少しずつデータ基盤を進歩させられている データ基盤の知識が豊富なデータエンジニア不在の中で構築を進めてきた 試行錯誤を繰り返しながら社内のデータ活用範囲を広げられている
非エンジニアにも使いやすく、かつブラックボックスでもないツールはありがたい
19