Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DTD_メタデータ管理とデータ品質管理の具体化

Avatar for BrainPad BrainPad
October 30, 2025

 DTD_メタデータ管理とデータ品質管理の具体化

Avatar for BrainPad

BrainPad

October 30, 2025
Tweet

More Decks by BrainPad

Other Decks in Technology

Transcript

  1. 2 ©BrainPad Inc. Strictly Confidential 自己紹介 所属 データエンジニアリングユニット プラットフォーム開発領域 永田

    大樹 (ながた だいき) 経歴 2023年にデータプラットフォームエンジニアとしてブレインパッドへ新卒入社。 入社後はデータパイプラインの設計・開発を中心に担当。現在はインフラ構築・ 運用を通じ、データ基盤の拡張性確保と開発プロセス改善に従事。 その他 趣味:映画・ドラマ鑑賞、デジタルゲーム、ボードゲーム 最近気になるサービス:GCP Conversational Analytics API
  2. 3 ©BrainPad Inc. Strictly Confidential 1. 本発表の背景・趣旨 2. データマネジメントとは 3.

    メタデータ管理 4. データ品質管理 5. データカタログ製品調査 6. まとめ Agenda
  3. 4 ©BrainPad Inc. Strictly Confidential 本発表の背景・趣旨 弊社のデータエンジニアリングユニットにて、有志を集めて「データマネジメント」をテーマにした研究活動を行いまし た。 データマネジメントには複数の知識領域(DAMAホイール図)が含まれている為、すべてを網羅することは困難です。 そこでDMBOKフレームワークの「基礎的なアクティビティ」内のメタデータ管理とデータ品質管理に着目して調査を実

    施しました。 本発表では、メタデータ管理・データ品質管理を行う上での簡単なガイドラインを共有します。 また主要なデータカタログ製品の機能調査の実施概要と、それを踏まえた製品の比較・選定ポイントをお伝えします。 DAMAホイール図[1] DMBOKフレームワーク[1]
  4. 6 ©BrainPad Inc. Strictly Confidential データガバナンスはデータをどう扱うかという『方針』を定め、データマネジメントはその方針に基づき『実行』を担う 関係です。 データマネジメントとデータガバナンスとは データマネジメント データガバナンスで決められたルールに従い、

    データを戦略的に正しく管理・活用すること データを活用する為の「監視・仕組み化・ ルール作り」のこと データガバナンス メタデータ管理 データ品質 データセキュリティ データアーキテクチャ 手段提供 統制
  5. 7 ©BrainPad Inc. Strictly Confidential DMBOKとは、国際的なデータ専門家で組織された非営利団体DAMA Internationalによって作成された、データマネジメ ントに関する知識を体系立てて纏めた書籍です。現在(2025/10時点)は第2版が出版されています。 DMBOKってなに? DMBOKには11個の知識領域と6つのトピックが定義されており、

    包括的なデータマネジメントの知識が含まれています。 但し本書を読むうえで幾つかの注意点も存在します。 • 理論的・網羅的ではあるが、ガイドラインが分からない • 具体的にどのような製品(ツール)を選定すべきかに迷う • 純粋に量が多い(672ページ!) DMBOK 第二版[1]
  6. 8 ©BrainPad Inc. Strictly Confidential そこでDMBOKに含まれる11個の知識領域(DAMAホイール図)の中でも、基礎的かつ開発者目線でイメージの容易な「メ タデータ管理」と「データ品質管理」に関して、具体的な方法論を考えることにしました。 「メタデータ管理」と「データ品質管理」 DAMAホイール図[1] データ品質管理

    データ品質管理とは、データがどれだけ信頼できるかを評価して改 善していく継続的な活動です。 品質基準からデータの「信頼性」を測定し、問題があれば改善計画 を立てます。 メタデータ管理 メタデータ管理とは、「データのデータ」を整理する活動です。 データの「定義」「出所」「構造」などを明確にすることで、デー タの透明性や再利用性を高めます。
  7. 10 ©BrainPad Inc. Strictly Confidential DMBOKで定義されているメタデータ管理の定義とゴールは以下の通りです[1]。 メタデータ管理:定義とゴール 定義 高品質な統合されたメタデータを利用できるようにするためにアクティビティを計画し、導入し、統制する ゴール

    1. 業務用語とその利用法に関する組織の理解を提供する 2. 様々なソースのメタデータを収集し統合する 3. メタデータにアクセスするための標準的な方法を提供する 4. メタデータの品質とセキュリティを確保する
  8. 12 ©BrainPad Inc. Strictly Confidential DMBOKでは以下の3つの種類にメタデータが分類されています。 Appendix:メタデータ分類定義 テクニカルメタデータ ビジネスメタデータ オペレーショナルメタデータ

    ✓ データの技術的な仕様や物理的 な構造に関するメタデータ ✓ 主な利用者 ✓ IT部門 ✓ システムエンジニア ✓ 具体例 ✓ テーブル名 ✓ データ型 ✓ 作成日時 ✓ ファイル形式 ✓ サイズ ✓ データが持つ業務上の意味やコ ンテキスト ✓ 主な利用者 ✓ ビジネスユーザ ✓ データアナリスト ✓ 具体例 ✓ データの論理名 ✓ ビジネス用語の定義 ✓ データの所有者 ✓ 業務ルール ✓ セキュリティ分類 ✓ システムの運用過程で生成され るメタデータ ✓ 主な利用者 ✓ システム運用担当者 ✓ システム管理者 ✓ 具体例 ✓ ジョブ実行履歴 ✓ 作成者 ✓ 作成日時 ✓ 更新日時 ✓ 保管期間
  9. 14 ©BrainPad Inc. Strictly Confidential メタデータ管理:メタデータ標準の作成手順(2/3) テクニカルメタデータを収集する システムから各項目のテクニカルメタデータを収集します。 可能であればデータカタログやETLツールなどを利用して、データの自動収集を行います。 テーブル

    カラム データ型 備考 tbl_invoice total_amount Decimal(10,2) 税抜売上 テクニカルメタデータの例 1 ビジネスメタデータを含めた用語辞典を整備する 「売上」「顧客」「支店」など、業務で使う主要用語を列挙します。 それぞれに定義、算出ルール、所有部門、単位、注意事項などの必要なビジネスメタデータを付記します。 用語 定義 所有者 備考 売上高 商品販売により発生した総利益(税込み) 営業本部 月末締め 用語辞典の例 2
  10. 17 ©BrainPad Inc. Strictly Confidential DMBOKで定義されているデータ品質管理の定義とゴールは下記の通りです[1]。 データ品質管理:定義とゴール 定義 品質管理技術をデータに適用するアクティビティを計画し、実施し、制御する。 これによって、データが様々な目的で利用されて、データ利用者の要求に合致することを保証する。

    ゴール 1. データ利用者の要件に基づいて目的に合ったデータを生成する為に、統制されたアプローチを開発する 2. データライフサイクルの一環としてデータ品質統制の標準、要件、仕様を定義する 3. データ品質レベルを測定し、監視し、報告書を作成する為のプロセスを定義し実施する 4. プロセスやシステムの改善により、データの品質を向上させる機会を特定し提唱する
  11. 18 ©BrainPad Inc. Strictly Confidential データの品質管理を行う上で、最初に決定すべき指標として「品質基準」が存在します。 「品質基準」とは、「各データ項目が遵守すべき最低限のルール」です。 データ品質管理:品質基準 データ項目 品質特性

    ルール 顧客ID 一意性 重複不可 妥当性 8桁の半角数字であるこ と 完全性 空欄不可 売上日 正確性 実際の売り上げ発生日と 一致すること 一貫性 関連するシステムの日付 と一致すること 顧客メール 一意性 重複不可 機密性 アクセス制限があること ✓ 「品質基準」ではデータ項目ごとに「品質 特性」と「ルール」を決定します。 ✓ 品質基準によりデータの信頼性を高め、高 品質なデータによる作業プロセスの軽量化 が望めます。 ✓ ただし過剰なルール設定をしてしまうと作 業効率が低下する可能性があります。ルー ルを取捨選択することも重要です。 品質基準の例
  12. 19 ©BrainPad Inc. Strictly Confidential データ品質特性はDMBOKの他に、内閣府から発表されている「データの品質管理ガイドブック[2]」にも記載されています。 これらを参考にしつつ、プロジェクトごとに独自で評価軸を設定することも重要です。 Appendix:データ品質特性 品質特性 評価項目

    問題となる例 正確性 データが正しいかどうか • 住所が実際には存在しない • 在庫数が物理的な在庫と一致しない 完全性 データに抜け漏れが無いか • 必須項目に欠損値がある 一貫性 データに矛盾が無いか • 外部参照に間違いがある 機密性 データにアクセス制限があるか • データ提供時のソフトウェアに脆弱性 がある 適時性 データが常に最新であるか • 発注データが更新されていない 妥当性 データがフォーマットやルールに従っている か • 郵便番号が所定の桁数でない よく利用される品質特性
  13. 21 ©BrainPad Inc. Strictly Confidential データ品質管理:品質評価指標の作成手順(2/3) 1 課題を明確にする どんな課題を可視化したいのかを明確にします。 ✓

    課題例1:「売上伝票の入力漏れが多い」 ✓ 課題例2:「マスタデータの更新遅延が発生している」 指標候補を整理する 2 品質特性を参考にして、課題を評価可能な指標を考えます。 品質特性 代表的な指標例 単位 評価例 完全性 欠損率(null率) % 3%以下 妥当性 ルール違反件数 件 月5件未満 正確性 手修正発生率 % 月5%未満 適時性 遅延登録率 % 24時間以内に95%以上 指標候補の例
  14. 25 ©BrainPad Inc. Strictly Confidential 「メタデータ」や「データ品質」の基準やルールを策定したうえで、これらを管理して仕組み化するツールが必要です。 そこで一般的に「データカタログ」製品と呼ばれるものの、基本的な機能の調査を実施しました。 データカタログ製品一覧 三大クラウド製品 その他製品

    製品名 AWS Glue Data Catalog GCP Dataplex Catalog Microsoft Purview DataHub 備考 ✓ AWS Glueサービス 群の一部であり、 ETLプロセスに深く 組み込まれている ✓ 2025年10月現在は "Dataplex Universal Catalog"に統合され た ✓ マルチクラウドやハ イブリッド環境に対 応 ✓ OSSデータカタログ ツール ✓ Great Expectationsと組 み合わせることでデー タ品質管理を可能とす る 主要なデータカタログ製品 上記以外のデータカタログ製品も多く存在しますが、下記点からDataHubを選出しています。 ✓ 代表的に利用されているOSSである。 ✓ 対抗馬のOpenMetadataは以前社内で一部の機能調査を行っていた。(本資料スコープ外)
  15. 26 ©BrainPad Inc. Strictly Confidential 前頁に記載したデータカタログ製品の基本的な機能調査を実施しました。 60以上の評価項目を機能要件・非機能要件に分け、公式ドキュメントの参照および実機での検証結果を踏まえて〇/△/✕ で要件に対する評価を行いました。 各製品の評価一覧 #

    要件分類 項目 AWS Glue Data Catalog GCP Dataplex Catalog Microsoft Purview DataHub + Great Expectations 1 機能要件 データプロファイリング 〇 〇 〇 〇 2 データ品質評価ルール(カ スタム) △ SQLに似た言語 で実装可能 〇 SQLで実装可能 △ 独自の文法で実装可 能 〇 SQL及びPythonで 実装可能 3 非機能要件 監査ログの取得 〇 〇 Cloudloggingとの連 携 〇 Azure Event Hubs との連携 ✕ Cloud版は存在 4 メタデータ履歴管理 ✕ ✕ ✕ 〇 評価項目の一例
  16. 29 ©BrainPad Inc. Strictly Confidential ➢ データマネジメントとは o データガバナンスで決められたルールに従い、データを戦略的に正しく管理・活用すること。 ➢

    メタデータ管理のガイドライン o 管理対象となる「メタデータ項目一覧」を洗い出す。 o これらを"テクニカルメタデータ"・"ビジネスメタデータ"・"オペレーショナルメタデータ"に分類わけして、 紐づける。 ➢ データ品質管理のガイドライン o 各データ項目が遵守すべき最低限の指標である「品質基準」を策定する。 ▪ DMBOKにも記載のある"データ品質特性"を参考にすること。 o 品質の良し悪しを判断する基準となる「品質評価指標」を策定する。 ▪ KPIを用いて評価したい課題を予め明確にしておく。 ➢ データカタログ製品の選び方 o 調査対象のデータカタログ製品に関しては基本的な機能に大きな違いは無い。 ▪ 但し特徴や管理上の考え方が製品ごとに異なるため、把握が必要。 o 3rdParty製品の場合は他データソースとの連携が可能かなど注意するべき点がある。 o 製品の評価結果はアップグレードと共に陳腐化するが、設定した評価項目は汎用的な選定基準として利用可能 である。 まとめ
  17. 30 ©BrainPad Inc. Strictly Confidential 出典 1. 『データマネジメント知識体系ガイド 第二版』 DAMA

    International編著、DAMA日本支部、Metafindコンサル ティング株式会社 監訳、日経BP 2. 内閣府国家戦略特区 2023年9月 内閣府地方創生推進事務局「データ連携基盤を通して提供される データの品質管理ガ イドブック」 出典・使用素材 使用素材 • AWS Glue Datacatalog:https://aws.amazon.com/jp/architecture/icons/ • GCP Dataplex Catalog:https://cloud.google.com/icons?hl=ja • Microsoft Purview:https://learn.microsoft.com/ja-jp/azure/architecture/icons/ • DataHub icon:https://github.com/datahub-project/datahub/blob/master/datahub-web- react/public/assets/logos/datahub-logo.png • いらすとや:https://www.irasutoya.com ※本資料に記載されている各社のサービス名、ロゴは、各社の商標または登録商標です。 本資料における商標の使用は、各社による本資料の内容の推奨、後援、提携を示すものではありません。