Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DMBOKを参考にしたデータマネジメントの取り組み

 DMBOKを参考にしたデータマネジメントの取り組み

データマネジメントチームのマネジメントの方が難しかった話 のイベント登壇用
https://timeedev.connpass.com/event/299088/

Toshiki Tsuchikawa

November 16, 2023
Tweet

More Decks by Toshiki Tsuchikawa

Other Decks in Technology

Transcript

  1. 2023/11/16 土川稔生
    DMBOKを参考にしたデータマネジメントの取り組み
    @tvtg_24
    データマネジメントチームのマネジメントの方が難しかった話

    View full-size slide

  2. 目次
    ● DMBOKとは?
    ● DMBOKに取り掛かる順番
    ● 13章 データ品質

    View full-size slide

  3. 土川 稔生 (Tsuchikawa Toshiki)
    株式会社タイミーに2020年入社
    DRE (Data Reliability Engineering) チーム
    1人目データエンジニアとしてデータ基盤を構築
    現在はプロダクトオーナーとして、データ基盤プロダクト作りに
    励む
    3
    自己紹介

    View full-size slide

  4. DMBOKとは?
    「Data Management Body Of Knowledge」の略で、「データマネジメント知識体系ガイド」と訳される。
    データマネジメントプロフェッショナルにとって有益な資料かつ指針となることを目指し、
    データ管理のもっとも信頼できる入門書となるよう編集される。
    2nd editionであるDMBOK 2は全17章からなり、
    データマネジメントの知識領域を定義した
    DAMAホイール図で元に説明される。

    View full-size slide

  5. DMBOKとは?
    https://www.dama-japan.org/Introduction.html より画像引用

    View full-size slide

  6. どれからやったらいいの???

    View full-size slide

  7. DMBOKピラミッド (Aiken)
    Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用
    フェーズ1
    フェーズ2
    フェーズ3
    フェーズ4

    View full-size slide

  8. そんな順序よく進まなかった...

    View full-size slide

  9. タイミー初期 (2020年ごろ)
    💡様々なデータを統合したデータ分析ニーズ
    Redashがプロダクトのデータベースに接続されていて、データ分析・可視化業務がされていた。
    少し経つとユーザー行動ログ、広告、
    CRMツールなどのデータが溜まり、データの統合ニーズが出てきた。

    この頃はエンタープライズなデータウェアハウス製品がすでにあった。
    embulk, digdagなどの収集ツールを利用しながらデータを統合する。
    データをひたすら収集しながら社内データ利用ユーザーのニーズをひたすら叶えていくフェーズ。
    収集 活用
    ・・・

    View full-size slide

  10. DMBOKピラミッドでみると...?
    Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用
    フェーズ1
    フェーズ2
    フェーズ3
    フェーズ4
    取り組めていそうな項目
    ● Data Storage & Operations
    データストレージ周りは、データソース管理者であるプロダ
    クト側などで多く運用されていた。
    一部のログなどのデータについてはデータを利用可能にする
    ため、データの生成・収集なども行った。
    ● Data Integration & interoperability
    ETL、オーケストレーションツールを用いて、データ
    ソースごとに転送頻度、変換・マスキング要件を適用。
    ● Data warehousing / Business intelligence
    統合データの分析環境・可視化ツールなどを準備した。
    ● Data Security
    マスキングなどにより一部取り組めた。

    View full-size slide

  11. データパイプラインの増加によって...
    🔥特にデータ品質周りにおいてたくさんの問題が起こった
    データソースの抽出しているツールがバラバラだったため、たくさんのパイプラインができる。
    当時は選択肢も少なく仕方がなかった
    ...
    自分たちでインフラ管理していることもあり、色々なパイプラインで障害が発生する。
    データエンジニアも少なかった (ほぼ1人) ため、必死の対応が続く。
    収集 活用
    ・・・
    🔥
    🔥
    🔥
    🔥

    View full-size slide

  12. 他のデータマネジメント領域に取り
    組む余裕がない...

    View full-size slide

  13. 早めにデータ品質に取り組んだ!

    View full-size slide

  14. データ品質 (Data Quality) における取り組み
    フェーズ1
    フェーズ2
    フェーズ3
    フェーズ4
    💡データ品質とは...データ利用者の期待と要求を満たす度合い
    データパイプラインに何か障害が発生した際の即対応により、
    品質が高いデータが保守できていそう。
    しかし、品質高いデータは分析ユーザーにとって本当に必要なのか
    ?
    必死に守っている品質の高さは分析のその先にあるビジネス価値に
    繋がっているのだろうか?

    View full-size slide

  15. データ品質 (Data Quality) とは??
    一意性
    データに重複はないか
    THE SIX PRIMARY DIMENSIONS FOR DATA QUALITY ASSESSMENT より
    適時性
    一意性
    完全性
    一貫性
    正確性
    有効性

    View full-size slide

  16. データ品質 (Data Quality) における取り組み
    適時性の定義と保守
    データが日々の業務での意思決定に利用されることが多かった。
    その時点で利用しているデータが、いつ時点のデータを示すかが大事な指標とな
    るため、適時性を最初に保守対象に選定した。
    正確に測ると、1つの行データごとに
    (ユーザーにデータが届いた時刻 - データが生成された時刻)
    を比較して計測を行うことになる。
    工数軽くするために、BigQueryの最終更新日時メタデータと現在時刻を比較する
    ことで、適時性の保守を試みた。
    SLI, SLO, SLAを分析ユーザーと定義、公開し保守・改善を行った
    適時性
    元データが更新されてからどの
    くらいの遅延で分析可能になる

    View full-size slide

  17. 20
    Service Level Indicator
    データパイプラインの適時性 (データソースの更新からど
    のくらい遅れて転送先で実用可能になるか)
    SLI
    SLA
    SLO
    Service Level Agreement
    データソースごとにデータ使用者と結ばれた適時性
    に関する契約
    破った場合はポストモーテムを実施
    例: データソースAは1日の適時性での転送
    Service Level Objective
    DREチーム内で決定されたデータソースごとの適
    時性の目標
    例: データソースAは2hourの適時性での転送
    データ品質 (Data Quality) における取り組み

    View full-size slide

  18. 21
    データ品質 (Data Quality) における取り組み
    SLAを決める際、気をつけたこと。
    ユーザーが求める品質と、こちら側が提供できる品質で時間を調整する必要がある。
    ユーザーは基本的に品質が高ければ高いほど嬉しくはあるので、データを利用したビジネスの目的を把握し、
    こちらから品質を提案しにいくことが大切そう。
    またSLAはデータ利用ユーザからアクセスしやすい場所においておき、データ利用の目的やデータの種類に
    よってアップデートしていくことが必要。 (難しい...)

    View full-size slide

  19. 22
    データ品質 (Data Quality) における取り組み
    こうして、DRE (データ基盤開発チーム) は障害対応を計画的に行うことができるようになった。
    空いた余力で、他の開発に取り組む時間の確保にも成功した。
    また、データ品質が可視化されたことにより、品質改善への取り組みも多く発生した。
    データ利用ユーザーもどれくらいの期待値でデータが利用できるのか把握できるし、改善が回っていくので、
    信頼してデータを利用できるようになる。
    → 早めにデータ品質に取り組んでよかった
    !!!

    View full-size slide

  20. 現在やっている取り組みの紹介
    Aikenのピラミッド https://blogs.sap.com/2020/07/09/why-hr-data-management-strategy-is-important-in-your-hr-transformation/ より画像引用
    フェーズ1
    フェーズ2
    フェーズ3
    フェーズ4
    データサイエンス・MLOps
    利用者アセスメントレベル測定
    ・向上
    dbtによるデータモデリング
    Lookerによる
    BIユーザービリティ向上

    View full-size slide

  21. まとめ
    DMBOKはデータマネジメントの知識や、取り組むべき順番などがまとめられている。
    しかし、順番通りこなすのは難しかった
    ...
    タイミーでは障害が頻発していた関係で、
    13章のデータ品質に早急に取り組まざるをえなかった。
    結果としては、データ基盤開発側もデータ利用ユーザー側にもポジティブなことは多く、
    とても良い取り組みになった。
    そのおかげで、その他のデータマネジメント関連の取り組みを行う余裕が生まれ、
    データマネジメントの向上ができている
    !!

    View full-size slide

  22. まだまだ道半ばなのでお力を貸してください!!!
    https://hrmos.co/pages/timee/jobs/1682251404118319115
    積極的に採用中です!!!

    View full-size slide