Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データマネジメント研修【MIXI 23新卒技術研修】

データマネジメント研修【MIXI 23新卒技術研修】

23新卒技術研修で実施したデータマネジメント研修の講義資料です。

動画:https://youtu.be/94U_sMinA8Q

資料の利用について
公開している資料は勉強会や企業の研修などで自由にご利用頂いて大丈夫ですが、以下の形での利用だけご遠慮ください。
・受講者から参加費や授業料などを集める形での利用(会場費や飲食費など勉強会運営に必要な実費を集めるのは問題ありません)
・出典を削除または改変しての利用

MIXI ENGINEERS

May 22, 2023
Tweet

More Decks by MIXI ENGINEERS

Other Decks in Technology

Transcript

  1. ©MIXI Speaker Deck (など) でご覧の⽅へ ご覧いただきありがとうございます。 年々データ利活⽤の需要は⾼まっています。データ利活⽤には、その前提となる ⾼品質なデータ‧⾼品質なデータ環境 が鍵となっています。 ここで重要となるのは、これらの品質を⾼く保つためにはいわゆるデータエンジニアだけでは

    なく、関係者全員が気を配らなければならない点です。 以上のような背景を受け、MIXI では今年度より新卒研修に「データマネジメント」トピックを 新設し、特に「データ品質」にフォーカスして講義を⾏いました。 l 専⾨ではない⽅にはデータマネジメントやデータ品質を考えるきっかけとなれば幸いです l 専⾨の⽅には、組織的にデータマネジメントの考え⽅を広めるために、参考にできる点が 少しでも⾒つかれば幸いです(そのような取り組みがよりオープンになることを願っています!) 2
  2. ©MIXI ⾃⼰紹介 開発本部 > CTO 室 > データグループ ⾓⽥ 孝昭(つのだ

    たかあき) l MIXI でのおしごと • データ利活⽤に関する知⾒を全社的に布教(本研修もその⼀環) • ⼩規模プロダクト‧バックオフィスなど、専任のデータ系エンジニアがいない組織への技術的⽀援 (データ基盤構築‧データ分析‧ダッシュボード整備などデータ周りをフルスタックでやっています) l 前職では… • データ分析によるレコメンド改善⼿法の提案、機械学習を⽤いた不正利⽤対策など 3 猫を飼っています
  3. ©MIXI 5 データ = 第四の資産 ヒト‧モノ‧カネに次ぐ第四の経営資産としてデータの重要性が⾼まっている → データの活⽤によって強⼒なビジネス価値を創出できるため l データ分析による現状把握、業務プロセス‧意思決定プロセスの改善

    • 経営に必要な指標(KGI, KPI, etc.)の把握 • ⽇常業務(マーケティング、カスタマーサービスなど)の⽀援 • ユーザー理解‧市場理解による意思決定の舵取りや精緻化 • 実⾏した施策による効果の定量的検証(→ A/B テスト研修) l 機械学習による将来予測、新たな機能‧付加価値の提供 • 時系列予測、異常検知 • 推薦(レコメンデーション) • ⾃然⾔語処理: テキスト分類‧機械翻訳‧テキスト⽣成(チャットボット含む) • 画像処理: 画像分類‧顔/物体検出/認識‧画像⽣成 • ⾳声処理: ⾳声認識‧⾳声合成
  4. ©MIXI 6 データ = 資産 → 正しく管理して初めて活⽤が可能になる ヒト‧モノ‧カネ、どれも正しく管理しないと価値が毀損する‧価値を引き出せない恐れがある 例: 誰が何をやっているのか‧何がどこにあるのか分からない、いつの間にかなくなってる、効率よく利⽤できていない、etc.

    → 資産の価値を維持‧向上させ、価値を引き出せるようにするための取り組みが必要。例: l ⼈材管理 (human resource management) l 資産管理 (asset management) l 管理会計 (management accounting) データもこれらの資産と同様、先スライドのような活⽤のためには正しい管理を要する データマネジメント (data management) データの価値を維持‧向上させ、価値を最⼤限に引き出せるようにするための取り組み
  5. ©MIXI 9 データ活⽤の流れ: +活⽤⽬的の設定 +データ基盤の構築 (1/2) ★ データ基盤の構築もデータマネジメントの取り組みの⼀環と⾔えますが、データマネジメントが対象としている スコープはもう少し抽象的かつ広いです(詳しくは後のスライドにて説明) 活

    ⽤ 前 処 理 分析 機械学習 評価 データの 収集‧蓄積‧加⼯‧提供 提 供 蓄 積 収 集 処理 ⽬ 的 設 定 経 営 戦 略 策 定 ※最初に⽴てたビジネス⽬的と対応する必要がある このような仕組みを実現するシステムを データ基盤と呼ぶことがある
  6. ©MIXI 10 データ活⽤の流れ: +活⽤⽬的の設定 +データ基盤の構築 (2/2) 問いの設定 データの収集‧管理 分析‧機械学習⼿法の適⽤ 活

    ⽤ 前 処 理 分析 機械学習 評価 データの 収集‧蓄積‧加⼯‧提供 提 供 蓄 積 収 集 処理 ⽬ 的 設 定 経 営 戦 略 策 定
  7. ©MIXI 11 良いデータ活⽤のために重要な要素とは? l 良い問いが必要な理由 • データ活⽤による成果(意思決定をサポートする知⾒‧機械学習システムなど)は最初の「問い」に制約される • ましてや「データとツールはあるから取り敢えず分析」でビジネス活⽤に繋がる成果が出ることはほぼない l

    良いデータが必要な理由 • そもそも問いに対応するデータが無ければ問いに答えられない • データがあっても質が低ければ⾼度な⼿法をいくら適⽤しても無意味(Garbage In, Garbage Out) • データ分析の⼯数のうち、相当の時間がデータを探す‧品質を検証する‧前処理を⾏うことに費やされる 良い問い 良いデータ 良い分析‧機械学習⼿法 こちら側が圧倒的に重要! ※⼗分に良い問いとデータが 揃えばこちらも重要になる 各段階で良いものが必要。その中でも重要なのは?
  8. ©MIXI 12 オープンな AI の躍進でデータはどうでも良くなったか? l ⾼度な「⼿法」を誰でも採⽤可能になった(なってしまった) • データ活⽤によって競合優位性を⽣み出すために「問い」や「データ」での差別化が重要になった l

    オープンな AI(ChatGPT 含む)はそのままでは「どこ/誰にでも当てはまる」出⼒しか得られない • ⾃社の状況や⾃社プロダクトに特化した出⼒を得るためにはそれらに合わせたデータが必要 → 質の良いデータをすぐに出せる企業が新技術を利⽤して優位性を確⽴している きっと ChatGPT が何とかしてくれるから、⾃分たちで頑張って データを集めたりしなくても良いんじゃないの? むしろ逆! ⾃社データの重要性はかつてなく⾼まった
  9. ©MIXI 13 良いデータのためのデータマネジメント ……では、データがどうなっていればビジネス要求に答えられるのか? l 質の良いデータをすぐに出せる環境が整っている 前スライドより 「質の良い」とは? どのような環境だとすぐに出せるのか? l

    考えるべきことは他にも⾊々 セキュリティは確保できているか? データベースシステムの信頼性は⼗分か? etc. 良いデータ = ビジネス要求(問い)に応えられるデータ データマネジメントはこのように ビジネス要求に応えられる「良いデータ」「良いデータ環境」とは何か? を考え、それを実現する様々な取り組みの総称とも⾔える
  10. ©MIXI データマネジメントの不備による問題 (3/3) ★ 「Aiken のピラミッド」を和訳の上改変‧注釈を付与。引⽤元 ▼ https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ 必要な時に必要なデータが取れない データ同⼠を結合できない

    データ利⽤者が利⽤の度にそれぞれ ⼿元で⽣データを加⼯する必要がある ⾒てはいけないデータが⾒れてしまう サービス利⽤規約‧プライバシー ポリシーに従っていない データ利⽤を⾏ってしまう 仕様を調査するコストが発⽣する ビジネス要求に対応した データが存在しない ビジネス要求と紐付かない 冗⻑なデータが発⽣する アーキテクチャの 変更に⼿が出せない 必要なタイミングで データが揃ってない データが正しいかの 確認に時間が掛かる 誤集計に伴う業務ミス‧ 意思決定ミスが発⽣する 計画書‧仕様書がどこにあるか不明 どれが最新のものか不明 分析⼿法が共有されていない 分析⼿法が⼈によってまちまち データ マネジメントが ⾏われない 不要なダッシュボードができる ダッシュボード間の数値が⾷い違う 仕様上あるべきでない データが混⼊している 不備が引き起こす個々の具体的な問題(の⼀例) 17
  11. ©MIXI 19 データ品質三領域に注⽬ 時間の都合上、本研修では特にデータの品質に関わる三領域を取り上げます 良いデータ‧良いデータ環境から 得られる恩恵を⽣かしたデータ活⽤ 参考: AI 研修, A/B

    テスト研修 データ管理‧利⽤の統制に基づく戦略的取り組み ⼟台領域の整備とガバナンスの実施が前提 データを扱うためのシステム‧技術 いわゆるデータエンジニアリングの主戦領域 参考: DB 研修, セキュリティ研修 データの品質を担保するための取り組み ← データマネジメントの⼟台となる重要な領域 データ管理‧利⽤の統制と監督
  12. ©MIXI 20 データ品質三領域をなぜ取り上げるのか? データ品質はデータライフサイクルの全てに関係する = ほぼ全員に関係するため ★ ⼀般的には「データライフサイクル」という場合「データの廃棄」も含む。本スライドでは省略している ⽣成 収集

    蓄積 処理 活⽤ フロントエンド‧クライアント 例: ユーザー情報‧⾏動などのデータを サーバーに送る インフラ‧バックエンド 例: 受け取ったデータを保存する 利⽤しやすい形に転送‧加⼯して提供する データサイエンス‧機械学習‧AI 例: データ分析により運営‧開発に必要な知⾒を得る ML/AI 技術を適⽤して新たな機能を開発する ※ここで挙げていない技術領域の⼈も、おそらくはどこかには関わることになるはず
  13. ©MIXI 21 データをめぐるすれ違い (1/2) データライフサイクルには様々な⼈が関わるため、データをめぐるすれ違いが発⽣しがち l 利活⽤に必要なデータ‧データ品質に対する理解の不⼀致 l データの仕様変更で起こる影響の誤解 l

    データの中⾝に対する認識の齟齬 l データの問題を⾒つけられる⼈‧解決できる⼈が異なることによる対処の遅れや 優先順位付けの対⽴ ★ ⼀般的には「データライフサイクル」という場合「データの廃棄」も含む。本スライドでは省略している それぞれで「⾒えている景⾊や得意なスキルセットが異なる」という前提を受け⼊れることが重要
  14. ©MIXI 22 データをめぐるすれ違い (2/2) データ A は iOS しか 取れないけど問題は

    ないはず このデータに個⼈ 情報は無いはず データ A は即時に 提供できるように 整備しよう データ B は次の アップデートから 送らないようにしよう データ B の増加に 耐えられるよう サーバーを強化しよう 全デバイスのデータ A が 重要数値の計算に必要になる ただし⽇に⼀回の参照で良い データ B は必要だが 軽量化した B’ でも ⽬的は達成できそう データ C は個⼈ 情報に該当する すれ違いの⼀例
  15. ©MIXI 24 データ品質三領域: 概要 ビジネス⽬的達成のために必要なデータとデータ品質を定義‧合意する → ①, ② データがどのようなものでどのような状況かを記述‧測定する →

    ①, ③ 1 2 データ品質管理 データの質はどうなっているか? そもそも質の良いデータとは? データの品質を定義‧測定‧監視して、より品質を⾼める取り組み 3 データアーキテクチャ どのデータがどの⽤途‧⽬的で使われているのか? データとビジネスがどのように繋がっているかを記述‧整理する取り組み メタデータ管理 このデータは何のデータなのか? データに関するデータ「メタデータ」を作成‧維持する取り組み
  16. ©MIXI 25 データ品質管理: ⾼品質なデータとは? 以下の評価軸などがあるが、これがどの程度満たされるべきかはデータと要求によって異なる ★ DMBOK2 表29「データ品質の⼀般的な評価軸」に⽰す8つの評価軸。説明は本発表⽤に要約したもの 良いデータ =

    ビジネス要求に応えられるデータ = データ利⽤者の期待と要求を満たすデータ 評価軸/ 測定指標 説明 正確性 データが現実世界を正しく表している か? 完全性 必要なデータが全て存在するか? ⼀貫性 データの値がデータセット内で⼀貫して いるか? 整合性 データ間の関係に⽭盾は無いか? 評価軸/ 測定指標 説明 妥当性 データパターンが我々の想定する前提を 満たしているか? 適時性 データが利⽤可能になるまでどのぐらい 掛かるか? ⼀意性/ 重複排除 同じデータが重複して存在していない か? 有効性 データ値は定義域の範囲内か?
  17. ©MIXI 26 データ品質管理: 必要な取り組み 全ての品質項⽬が⾼ければ⾼いほど良い…というものではない l 例: ユーザーの年齢データの「正確性」を限りなく⾼めるなら本⼈確認⼿続きなどが必要 • お⾦を取り扱うサービスや、マッチングサービスなどでは必要

    • ソーシャルゲームサービスなどでは明らかにオーバーな対応 重要なのは、ビジネス⽬的から逆算して必要な品質項⽬を定義‧合意すること その上でデータ品質を継続的に測定‧監視‧改善すること データは毎⽇のレポートに 必要なので、毎⽇午前5時 までに前⽇分のデータが 参照可能なようにして下さい 承知しました! 合意内容はドキュメントに 記録しておく データ活⽤者は品質項⽬の定義を 確認しながら利⽤できる (品質状況も確認できるとより理想)
  18. ©MIXI 27 データ品質管理: keypoint と action hint KEYPOINT l データ品質はビジネス⽬的から逆算して定義‧合意し、継続的に測定‧監視することが重要

    ACTION HINT l ⾃分が扱う(⽣成‧蓄積‧加⼯‧利⽤する)データが満たすべき品質を相談‧合意してみよう l 品質を満たすためにできること‧品質を測定する⽅法を考えてみよう ※測定が難しい評価軸もあります • 例えば「データが NULL ではないこと(完全性)」を担保したければ、クライアント‧サーバサイドでの バリデーションや DB での NOT NULL 制約の導⼊などがある(制約を導⼊する場合は違反時の動作に注意が必要) • この場合、品質の測定は「NULL であったデータの個数‧割合」を数えることで可能 KEYPOINT ACTION HINT
  19. ©MIXI 28 データアーキテクチャとは? 全てのデータは(少なくとも将来的には)何らかのビジネス⽬的のために収集‧蓄積されているはず この「データ」と「ビジネス」間がどのように繋がっているかを⽰すもの データアーキテクチャが正しく検討‧記述されていないと…… l ビジネス要求に対応したデータが存在しないことに後から気付く ↓ l

    ビジネス要求と紐付かない冗⻑なデータが存在 l データアーキテクチャの変更に⼿が出せなくなる 機能 X の利⽤状況と 課⾦ユーザー割合の関係を ⽐較したいのですが…… えぇっ! 機能 X の利⽤ログは不要かと 思って取ってませんでしたよ! ◀ 検討が不⼗分だとこのような事態が発⽣する しかも必要なデータが存在しないことに気付くのは 往々にして活⽤の段階に⼊ってから = 相当時間が経ってから その間に取りそこねたデータは取り直すことも往々にしてできない
  20. ©MIXI 30 データアーキテクチャ: keypoint と action hint KEYPOINT l データとビジネスとの対応が明確で、データの変更による影響が分かっていることが重要

    ACTION HINT l ⾃分が⽣成するデータが何に‧どのように利⽤されるかを明らかにしてみよう l ⾃分が実装する機能がどのデータに依存しているかを明らかにしてみよう KEYPOINT ACTION HINT Y Google Analytics RDB ユーザー情報 A ユーザー⾏動 B ユーザー⾏動 C ︙ データレイク層 ユーザー情報 同期テーブル Google Analytics ⽣テーブル データウェアハウス層 ユーザー情報 クレンジング済 ユーザー⾏動 クレンジング済 データマート層 機能 X ⽤加⼯ 済みテーブル レポート Y ⽤加 ⼯済みテーブル … 【発展】ビジネス要件を明確にできたら、要件を踏まえた上でより具体的な実現⽅法も検討する ※アーキテクチャ図の 簡単なイメージ図
  21. ©MIXI 31 メタデータ管理: メタデータとは? あるデータがどのようなものかを説明するデータ メタデータが無いとデータの調査コストに相当の時間を要する 最悪、データが完全に使い物にならなくなったり、集計ミスを引き起こしたりするリスク 架空の課⾦記録テーブル time のタイムゾーンは

    ⽇本で良い? マイナスの price は どういう意味? 何かの間違い? code の数字は何を 意味している? transaction_id time price code ... 515215928 2023/05/22 16:15:00 24.99 2 ... 515215929 2023/05/22 16:15:22 -11.99 7 ... 515215930 2023/05/22 16:17:13 5.00 2 ... これらの疑問が解決しないと データを利⽤できなかったり 誤集計が発⽣したりする ▶
  22. ©MIXI 32 メタデータ管理: メタデータの恩恵 データの説明があればデータを安⼼して利⽤できる transaction_id time price code ...

    515215928 2023/05/22 16:15:00 24.99 2 ... 515215929 2023/05/22 16:15:22 -11.99 7 ... 515215930 2023/05/22 16:17:13 5.00 2 ... 架空の課⾦記録テーブル 架空の課⾦記録テーブルのカラム説明 • transaction_id: 課⾦記録の ID (unique) • time: 課⾦時刻 (UTC) • price: 課⾦額 (USD)。消費税を含む。マイナスの場合は返⾦額を表す • code: 2: クレジットカードによる課⾦, ..., 7: 返⾦ • ...
  23. ©MIXI 33 メタデータ管理: メタデータの種類 l ビジネスメタデータ データセット‧テーブル‧カラムの定義と説明(値の範囲、計算⽅法含む)、個⼈情報の有無、データオーナー、etc. l テクニカルメタデータ アクセス権、キー‧インデックス、データリネージ(データの上流‧下流に関する情報)、etc.

    l オペレーショナルメタデータ バッチプログラムのジョブ実⾏ログ、エラーログ、アクセスパターン、バックアップ規定、廃棄基準、etc. メタデータの種類は多いが、最初はテーブル‧カラムの説明と個⼈情報の有無が分かれば良い 記述すべきメタデータが多すぎて頓挫するよりは、最⼩限でも書かれている⽅が圧倒的に良い
  24. ©MIXI 34 メタデータ管理: keypoint と action hint KEYPOINT l 少なくともテーブル‧カラムの説明と個⼈情報の有無が分かることが重要

    ACTION HINT l ⾃分が⽣成するデータの説明をデータベースシステム and/or ドキュメントに書いてみよう • ほとんどのデータベースシステムでテーブルやカラムの説明が書けるはず(下図) l ⽤語集を作ってみよう • メタデータがあっても、業界/社内/チーム/プロダクト⽤語が分からないと結局データが理解できないケースも • 現場では⾃然に使ってしまっている⽤語を、新卒のまっさらな⽴場で指摘してもらえると助かります KEYPOINT ACTION HINT ◀ 例: BigQuery の「スキーマ」画⾯ カラムの説明を書くことができる これが無いと有るとではデータ管理者‧利⽤者の⼿間が 天と地ほども異なってくる
  25. ©MIXI 35 まとめ データマネジメント = 良いデータ‧良いデータ環境とは何かを考え実施する取り組み このうちデータ品質に関わる三領域は以下の通り: l データ品質管理 •

    keypoint: データ品質はビジネス⽬的から逆算して定義‧合意し、継続的に測定‧監視することが重要 • action: ⾃分が⽣成‧蓄積‧加⼯‧利⽤するデータが満たすべき品質とその測定⽅法を考えてみよう l データアーキテクチャ • keypoint: データとビジネスとの対応を明確にして、データの変更による影響が明らかになっていることが重要 • action (1): ⾃分が⽣成するデータがどのように利⽤されるかを明らかにしてみよう • action (2): ⾃分が実装する機能がどのデータに依存しているかを明らかにしてみよう l メタデータ • keypoint: 少なくともテーブル‧カラムの説明と個⼈情報の有無が分かることが重要 • action (1): ⾃分が⽣成するデータの説明をデータベースシステム and/or ドキュメントに書いてみよう • action (2): ⽤語集を作ってみよう
  26. ©MIXI 参考⽂献‧読書案内: 次に読むべき! いずれも今回扱わなかったデータマネジメント領域について簡単に説明しています データマネジメントへの理解を深めるため、次に読むべき資料としてオススメです! l [発表] データマネジメントなき経営は、破綻する。 #dl_guild /

    20200419 - Speaker Deck hWps:/ /speakerdeck.com/yuzutas0/20200419 l [発表]データマネジメントなきMLは、破綻する。 - MLCT / 20200528 - Speaker Deck hWps:/ /speakerdeck.com/yuzutas0/20200528 • 機械学習に携わる⼈は2つ⽬、それ以外の⼈は1つ⽬がオススメ l [書籍] ゆずたそ 編著‧はせりょ‧株式会社⾵⾳屋(2020)『データマネジメントが30分で分かる本』 • ¥500(本研修時点)でデータマネジメントの取り組みがざっくり理解できる良書 実際の業務で使われるような図表が多数含まれているのも⾮常に参考になります 37
  27. ©MIXI 参考⽂献‧読書案内: データマネジメントについて データマネジメントの本質は「組織的に取り組むこと」なので、体系的な解説書は責任的⽴場の⼈向け ⼊社したての時点だと少し分かりにくいかも l [書籍] ⼤川真輝(2023)『DX 時代のデータマネジメント⼤全 DX、データドリブン経営、データ利活⽤

    から理解する』翔泳社. • この中では⽐較的読みやすいと思います データマネジメントの詳細な説明が後半なので⼀⾒遠回りですが、データマネジメントは経営戦略を受けて 実施するものなので、それぞれの取り組みが「どうして必要なのか?」が分かりやすいです l [書籍] データ総研‧⼩川康⼆‧伊藤 洋⼀(2021)『DXを成功に導くデータマネジメント データ資産価 値向上と問題解決のための実務プロセス75』翔泳社. l [書籍] DAMA International (2017). DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition. (DAMA ⽇本⽀部‧Metafind コンサルティング株式会社訳 (2018). データマネジメント知識体系ガイド 第⼆版. ⽇経BP) • 通称 DMBOK2。データマネジメントのバイブル的な位置付け 電話帳サイズなのでまずは解説書から⼊るのがオススメ(ここから読み始めると 100% 挫折する) 38
  28. ©MIXI 参考⽂献‧読書案内: データエンジニアリング∕データ分析 l [書籍] ゆずたそ‧渡部徹太郎‧伊藤 徹郎(2021)『実践的データ基盤への処⽅箋〜 ビジネス価値創出の ためのデータ‧システム‧ヒトのノウハウ』技術評論社. •

    3章構成のうち、新卒には1〜2章のデータ‧データ基盤整備の話が実践的でオススメ 本研修では盛り込みきれなかった「具体的な取り組み」について、実務経験を踏まえてまとめられています l [発表] DXの本丸は「データ」にあり 「問い」からはじめるデータ分析とその活⽤法 - ログミーBiz https://logmi.jp/business/articles/326745 • 本研修で触れなかった「良い問い」とは何かを分かりやすく解説。ビジネス思考として有⽤なので全員にオススメ l [書籍] 株式会社ブレインパッド他(2018)『失敗しない データ分析‧AIのビジネス導⼊:プロジェクト進 ⾏から組織づくりまで』森北出版. • 本研修ではとてもカバーしきれない「データ分析プロジェクトにありがちな落とし⽳」を、 AI‧データ分析の コンサルを⼿掛ける著者陣の経験から幅広く網羅、回避⽅法を解説。AI/ML/分析職にオススメ 39