なく、関係者全員が気を配らなければならない点です。 以上のような背景を受け、MIXI では今年度より新卒研修に「データマネジメント」トピックを 新設し、特に「データ品質」にフォーカスして講義を⾏いました。 l 専⾨ではない⽅にはデータマネジメントやデータ品質を考えるきっかけとなれば幸いです l 専⾨の⽅には、組織的にデータマネジメントの考え⽅を広めるために、参考にできる点が 少しでも⾒つかれば幸いです(そのような取り組みがよりオープンになることを願っています!) 2
ACTION HINT l ⾃分が扱う(⽣成‧蓄積‧加⼯‧利⽤する)データが満たすべき品質を相談‧合意してみよう l 品質を満たすためにできること‧品質を測定する⽅法を考えてみよう ※測定が難しい評価軸もあります • 例えば「データが NULL ではないこと(完全性)」を担保したければ、クライアント‧サーバサイドでの バリデーションや DB での NOT NULL 制約の導⼊などがある(制約を導⼊する場合は違反時の動作に注意が必要) • この場合、品質の測定は「NULL であったデータの個数‧割合」を数えることで可能 KEYPOINT ACTION HINT
ACTION HINT l ⾃分が⽣成するデータが何に‧どのように利⽤されるかを明らかにしてみよう l ⾃分が実装する機能がどのデータに依存しているかを明らかにしてみよう KEYPOINT ACTION HINT Y Google Analytics RDB ユーザー情報 A ユーザー⾏動 B ユーザー⾏動 C ︙ データレイク層 ユーザー情報 同期テーブル Google Analytics ⽣テーブル データウェアハウス層 ユーザー情報 クレンジング済 ユーザー⾏動 クレンジング済 データマート層 機能 X ⽤加⼯ 済みテーブル レポート Y ⽤加 ⼯済みテーブル … 【発展】ビジネス要件を明確にできたら、要件を踏まえた上でより具体的な実現⽅法も検討する ※アーキテクチャ図の 簡単なイメージ図
l オペレーショナルメタデータ バッチプログラムのジョブ実⾏ログ、エラーログ、アクセスパターン、バックアップ規定、廃棄基準、etc. メタデータの種類は多いが、最初はテーブル‧カラムの説明と個⼈情報の有無が分かれば良い 記述すべきメタデータが多すぎて頓挫するよりは、最⼩限でも書かれている⽅が圧倒的に良い