Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Compliance Data Lab --Making Compliance Closer

Compliance Data Lab --Making Compliance Closer

<講師>
JDMC会員
コンプライアンス・データラボ株式会社 CTO兼CDO
ウオリック・マセウス(Warwick Matthews

<アジェンダ>
1. データマネジメントの進化
- 企業や行政に必要なもの
- データマネジメントの進化
- ツールやニーズがどのように変化しているのか
2. ケーススタディ– 米国大手企業におけるDM, DQ 及びIDR について
- 背景、出発点
- 「スピードの必要性」vs 適切なDM
- データフリクション vs 一貫性
- アジャイルデータ
- 高度なエッジデータマネジメント
3. アイデンティティ・レゾリューション
- どこで活用され、その重要性について
- IDR: 神話と現実
- 予測性とデータ量(多 vs 少)
4. アジア言語・IDR
- 課題、アプローチ
- 翻字
- ベストプラクティ

<関連サイト>
※研究会ページ
https://japan-dmc.org/?p=21771
※JDMC「MDMとデータガバナンス研究会」主催のオープン研究会にて発表
https://jdmc.connpass.com/event/284036/

More Decks by Japan Data Management Consotrium

Other Decks in Business

Transcript

  1. JDMC Presentation 2 0 2 3 年 0 5 月

    2 6 日 Compliance Data Lab Making Compliance Closer © C D L . C O M M E R C I A L I N C O N F I D E N C E . D O N O T R E D I S T R I B U T E . V1 CDL WWW COMPLIANCE STATION
  2. agenda 1. データマネジメントの進化 - 企業や行政に必要なもの - データマネジメントの進化 - ツールやニーズがどのように変化しているのか 2.

    ケーススタディ– 米国大手企業におけるDM, DQ 及びIDR について - 背景、出発点 - 「スピードの必要性」vs 適切なDM - データフリクション vs 一貫性 - アジャイルデータ - 高度なエッジデータマネジメント 3. アイデンティティ・レゾリューション - どこで活用され、その重要性について - IDR: 神話と現実 - 予測性とデータ量(多 vs 少) 4. アジア言語・IDR - 課題、アプローチ - 翻字 - ベストプラクティス
  3. 視点を保つ – 我々がここにいる理由 企業や政府は、より良いIDRやより多くのデータを必要とするのではなく、データに よって推進されるより良い結果が必要なのです。 我々はデータに溺れてしまっています- より速くより多くのデータで仕事を行う必要があります。 People don't want

    to buy a quarter-inch drill. They want a quarter-inch hole! “ ” THEODORE LEAVITT, HARVARD BUSINESS SCHOOL 人々は四分の一インチのドリルを買いたいわけではありません。彼らは四分の一インチの穴が欲しいのです!
  4. データとアナリティクスの進化 1995 2000 2005 2010 2015 2020 次は? データ ウェアハウジング

    MDM の台頭 データレーク “エッジデータ” “データ ファブリック” ナレッジ グラフ クラウド データサイエンスとアナリティクスの台頭 ビッグ データ 2023
  5. リレーショナル NOSQL (ドキュメント) グラフ バーチャル - 冗長なデータを避けることができる - 伝統的なテクノロジー -

    ACID - 長い歴史がある - 設計とメンテナンスが複雑 - オペレーショナル・オーバーヘッド • 柔軟 • 拡張性が高い • ACIDではない (通常) • 高速 in/out • 複雑な統合には不向き • 殆どの物を接続可能 • 高度なグラフクエリやアナリティクス をサポート • 全く異なるパラダイム • 大規模なデータの「ペイロード」に対 して最適ではない(「膨張」のリスクが ある) • 大規模運用ではコストが嵩む可能性 がある • ETLなしでデータの恩恵を受けられる • ベンダーのエコシステム手動になる 傾向がある • 複雑なセキュリティ体制を必要とする 場合がある (e.g. VPC ピアリング等). e.g. PostgreSQL, MSSQL e.g. MongoDB, DynamoDB e.g. Neo4J, TigerGraph, Neptune e.g. Snowflake データ処理、キュレーション、および統合のオプション { ☰ } MSSQL MONGODB NEO4J / AWS NEPTUNE AMPERITY SAP GIGYA ACXIOM SNOWFLAKE 注意: これは非常に簡 略化されたリストで す!
  6. ケーススタディの前に…チャタムハウスルールについて When a meeting, or part thereof, is held under

    the Chatham House Rule, participants are free to use the information received, but neither the identity nor the affiliation of the speaker(s), nor that of any other participant, may be revealed. このルールの目的は、会議室の壁の内側で話をする人々に匿名性を保証し、より良い国際関係が達成されることにある。現在、 このルールは国際的に使用され自由な議論を支援している。1927年当初の規則は、1992年10月と2002年に改訂された。 チャタムハウスルールに基づいて会合が開催された場合、参 加者は受け取った情報を自由に使用することができますが、 発言者や他の参加者の身元や所属を明らかにすることはで きません。.
  7. ケーススタディ:スポーツリーグ • 北米の主要スポーツリーグ • 倶楽部、リーグ、スポンサー、パートナーとの複雑なステークホルダー関係 • 1億4千万人以上のファン/顧客 • 3-4千万件の更新/日(~20億件の更新/月)12か月で10倍の増加 •

    データは日次フルファイル、差分、重複が混在 • 20以上のサプライヤー、10以上のフォーマット • 非常に急速な有機的成長 • 常に、より多くのデータを追い求めている(特にサードパーティ) • 日々、データの種類、信ぴょう性、量が大きく変化する • 短期的成果のみ追い求める 「今日は何をしてくれたの?」という思考 • 2022年までデータ戦略がない • 大規模なサイロ式文化 • アップグレードする余地がない:まるで走行中のバスのタイヤを交換するような感覚 課題:
  8. • ファイルベースのアーキテクチャ • 100以上の S3 Bucket • 1000以上のフォルダ • 何度もコピーされたデータ

    • 「真実の情報源」がない(MDM) • ガバナンスがない • 一貫性がない • ドキュメント化されていない ケーススタディ:出発点
  9. 次のスライド:ケーススタディーからさらに戦略的な学びを得る 1. スタンダードビューの作成及び ドキュメント化 2. MDMの導入 3. 柔軟なユースケースビュー • データサイロの競合は、品質を低下させ、

    信頼性を損なわせる • 情報の順位付け • 最適なものを選択する • それらをスタンダードビューとして使用 • 素早く実装でき、優先順位ルールも不要 • 「箱から出してすぐ使える」MDM ソリューション の導入 • 構築は推奨せず:技術的能力がないため • 完全に搭載する必要がなく、データのクラスタリ ングが可能なシステムを利用する • 主要なステークホルダ(デジタルチーム、クラブ、マー ケティングチーム)と実際に何が必要かを検討する • 完全なレコードは必要ない:通常はSuper 6(主 要6項目)で対応可 • ソース及びキュレーションデータを使用し、「目的に 合った」ビューを作成 • 標準的な品質ルールとフィードバックサイクルについて、 上流ソースと連携 ケーススタディ:段階的な解決策
  10. リーグの主な課題: スピードの必要性 vs. 適切な DM どのようにしてボリュームを指数関数的に増やし、同時にレイテンシーを削減するか、一貫性のないデータが不統一 なデータサイロに流れ込むことなく、制御された状態を保つことができますか? データフリクションはデータを迅速に使用可能な状態にすることを妨げます。しかし、データ処理には障壁が存在し なければならない理由があります: •

    Identity Resolution(アイデンティティの解決) • 標準化/データクリーニング • コンプライアンスの必要性 • 構造的課題 (例:データサプライチェーンを通じた複数の手続きや再設計を必要とする、複雑なデータ処理) If you need to be able to action data daily, you can’t have a data supply chain that takes 72 hours to deliver it. 日次でデータ処理をする必要がある場合、72時間かけてデー タを届けるようなサプライチェーンはありえない
  11. スピードの必要性 – リスク: データフリクションvs一貫性 • データフリクションを減らすとデータはより簡 単に、より速く流れるようになります。 • しかし、矛盾が増える危険性があります。 •

    つまり、データが無秩序に環境内で拡散し てしまうのです。 • 結果、企業の様々な場所で、同一企業の 一貫性のないビューが多く存在することに なります。 リスク: フリクションが減っても、不整合が増える… フリクション 不整合
  12. スピードの必要性 – アジャイルデータ 「データレイク」や「レイクハウス」は非常にトレンディなバズワードですが、従来のデータウェハウスを新しいクラウド 技術で構築しただけのものであることがあります。 しかし、アジャイルデータ処理はリアルで非常に価値のあるものです。このアプローチは以下のことを保証しま す: • データを残しません(すべてがレイクハウスに流れます) •

    処理(フリクション)はユースケースに見合ったものです(例:目的に合ったDM) • DM チームは、ユースケース(ステークホルダ)毎に異なるSLAを提供できます FRAUD CUSTOMER SERVICE MARKETING IDR “データレイクハウ ス” 利用可能になるまでの時間➔ データクリーニング
  13. なぜ、今、IDRが重要なのか 1:1 大規模な範囲での関与 • 消費者は、マーケティングとエンゲージメントが高 度にパーソナライズされ、適切であることを期待し ます。 • .最適なリーチを保証するため、消費者が誰なの か知る必要があります。

    コンプライアンス、同意、プライバシー • 消費者規制の体制が「プライバシーファーストになりつつ あります:GDPR(EU)、CCPA(カリフォルニア)、CPA (コロラド)」等。 • 対象者が誰なのかわからなければ、データを適切に管 理することはできません。 • 法律は、消費者の視点から(受動的に)書かれてい ます。企業が、その人が誰であるかを知っていると仮定 します。 • 積極的なコンプライアンスには、効果的なIDRだけでなく、 継続的な活動関しが必要です。
  14. 21

  15. IDRの成果を表現する 良いアプローチ: 「80%の信頼度で、60%のマッチ率を得ることができた」 これにより、より強力で有用なステートメントを作成することができるようになります 例: 次のような「マッチ率」を受け取りました: 「次のようなマッチ率を受け取りました: • ファイルの25%を100%の信頼度で算出しました –

    これらを「A」マッチと呼びます • ファイルの25%を70%の信頼度で算出しました – これらを「B」マッチと呼びます • ファイルの40%を50%の信頼度で算出しました – これらを「D}マッチと呼びます - 実際に欲しい結果はどれだけありますか? A B D 0% 25% 50% 75% 100%
  16. 「ゴールデンレコード」が必ずしもゴールデンでない理由 • 「ゴールデンレコード」や「ベストビュー」の作成はごく当たり前の事です。 • 多くのMDMシステムがこれを実現しています。 • 進化するDMの世界では、最適な方法とは言えなくなってきています – 多くの異なるソースに基づくスーパーセットのレコードを維持することは非 常に困難です(複雑な優先順位ルール)

    – ゴールデンレコード制度は、サードパーティデータを試金石として最適に機 能することが多く、このデータの取得が問題になってきています(同意とプ ライバシー規制) – 高速(低摩擦)なデータサプライチェーン(DSC)のニーズは、非常に 迅速に処理する必要があります。複数の「目的に適した」ビューは単一 のゴールデンレコードに代わる、実用的な選択肢です。 – つまり、ユースケースごとに異なるビューを作成することです。
  17. 非参照クラスタリング FILE 1 F1-1 WILLIAM SMITH F1-2 RICHIE DAVIES F1-3

    DAVID SMITH F1-4 SARAFINA NICKELBY F1-5 DR RAJIV SUBRAMANIAN F1-6 DAVE SMITH FILE 2 F2-1 WILLIAM SMITH F2-2 RISHI DAVE F2-3 SMITH DAVID F2-4 JOHN GLEESON F2-5 RAJIV SUBRAMANIAN MATCHED FILE F1-1 WILLIAM SMITH F2-1 WILLIAM SMITH F1-3 DAVID SMITH F1-6 DAVE SMITH F2-3 SMITH DAVID F1-4 SARAFINA NICKELBY F2-4 JOHN GLEESON F1-5 DR RAJIV SUBRAMANIAN F2-5 RAJ SUBRAMANIAN 一致 一致 ?? 不一致?? F2-2 RISHI DAVE F1-2 RICHIE DAVIE 34 孤立レコード?? 孤立レコード??
  18. 参照マッチング IDR 環境 マッチ参照ファイル FanID 1 WILLIAM SMITH FanID 2

    JOHN GLEESON FanID 3 SMITH, DAVID ★ DAVE SMITH FanID 4 DAVID SMITH FanID 5 SARAFINA NICKELBY FanID 6 RICHIE DAVIES ★ RISHI DAVE FanID 7 RAJIV SUBRAMANIAN F1-1 FanID 1 WILLIAM SMITH F2-1 FanID 1 WILLIAM SMITH F2-3 FanID 3 SMITH DAVID F1-6 FanID 3 DAVE SMITH F1-2 FanID 6 RICHIE DAVIES F2-2 FanID 6 RISHI DAVE ! F2-5 FANID 7 RAJIV SUBRAMAN F1-5 FANID 7 DR RAJIV SUBRAMANIAN F1-3 FanID 4 DAVID SMITH ! • 独立してキュレーションされている • 独立した更新プロセス FILE 1 F1-1 WILLIAM SMITH F1-2 RICHIE DAVIES F1-3 DAVID SMITH F1-4 SARAFINA NICKELBY F1-5 DR RAJIV SUBRAMANIAN F1-6 DAVE SMITH FILE 2 F2-1 WILLIAM SMITH F2-2 RISHI DAVE F2-3 SMITH DAVID F2-4 JOHN GLEESON F2-5 RAJIV SUBRAMAN 36
  19. ? ? ? ? ? Allison Bojanski Ally Bojarski Allison

    Bojarski Alison Bojarski A L Bojarski ? 名前には何があるのか? Q: 名前のデータしかなく、「 Allison Bojarski 」に似た名 前を持つ人物が他にいた場合、同一人物であるか特 定できますか? A: NOです! © 2022 WARWICK MATTHEWS. ALL RIGHTS RESERVED. 40 予測性:名前のみ
  20. Geekタイム:名前 X X ✓ ✓ ! Allison Bojanski Paul Ballew

    Ally Bojarski Caleb Bojarski Allison Bojarski Paul Ballew Joseph Ruggiero Alison Bojarski Joe Ruggiero A L Bojarski ? 隣接する名前も見てみるとどうでしょうか? 一つの名前だけでは不十分でも、いくつかの共通で隣接する名前を 見ることでリンクが生まれます… © 2022 WARWICK MATTHEWS. ALL RIGHTS RESERVED. 41 名前には何かあるのか? Q:名前のデータしかなく、「 Allison Bojarski 」に似た名 前を持つ人物が他にいた場合、同一人物であるか特 定できますか?
  21. 表意文字の一致に関するアプローチ 従来のIDRシステムの中には、日本語に不向きなものもあります: • レーベンシュタイン (編集距離) • ジャロウ・ウィンクラー / メタフォン (同音異義語多し)

    代わりとして以下を使えます: • 画数 • カナベースの音声比較 – m:m 比較内臓で • 表音文字 (部首) • 意味論 効果的なイデオグラムマッチングは、アルファベットベースのマッチ ング(アルゴリズムに基づく傾向あり)よりも、辞書に基づくこと が多いです。 辞書はファジー検索をサポートすることができます: • 地域データ:道路、近隣地域、都道府県 • 名前:苗字、名前 • 種類:役職、業種
  22. 音訳 – 大きな課題 「日本」 • Japan • Nippon • Japon

    (🇫🇷) • Japón / Japona (🇪🇸) • Riben (transliteration from Chinese) 「和牛」 • “Wagyu Beef” (tautological) • “Japanese-style Beef” • 和牛ビーフ 「Chris」➔ 「 クリス 」 • Chris (男, 女) • Christopher (男) • Kris (男, 女) • Chrissy (女) • Christina (女) 「Matthews, Warwick」 • ワーウィック・マシューズ • ウオリック・マセウス • ワリク・マテウス ファーストネームは どっち?
  23. グローバルデータ - ベストプラクティス • 全てをユニコードに • タイプを明示的に設定します!(UTF8 BOM 等) •

    ビジネスデータの受渡では、エクセルやノートパッドは避けましょう! • 「受領した状態」で保存、マッチ (低摩擦 / データレイクハウスコンセプト) • 可能な限り辞書を整備する • データモデルが複数のバリアントを扱えるようにする • 優先的な名前、受領した名前、推定された名前等に分類 • 言語にとらわれない、またはアジア言語に最適化されたIDR/MDMシステムを 使用する • ベンダーにフィードバックについて確認 – Yes/Noだけではない • 実際に使用されるアルゴリズムについて確認 • Soundex ❌ • Levenshtein ❌ • Metaphone 🔶 • Fellegi-Sunter🔶 • 文字カウント🔶 • ローカルウェブサービス検索✅ ✅
  24. MEASURED ACCURACY MATCH SCORE Monotonic: Good MEASURED ACCURACY MATCH SCORE

    Multimodal: VERY VERY BAD What % of the time the matched answer is correct Confidence score returned by the system “Accuracy” in Identity Resolution.
  25. MEASURED ACCURACY MATCH SCORE ① False negative ② False positive

    “Accuracy” in Identity Resolution (2) ① ②
  26. 0 25 50 75 100 COUNT SCORE Should quality be

    expected to fit a normal distribution (bell curve)? ? A B C D Quality Distribution in Matching
  27. IDR Feedback Maturity Pyramid Indicia-level Scores Match Score “YES /

    NO” Custom Rules MATCH FEEDBACK: Advanced, Powerful
  28. Indicia-level Scores Match Score “YES / NO” IDR Feedback Maturity

    Pyramid Custom Rules Easy, Simplistic Advanced, Powerful MATCH FEEDBACK:
  29. Planetary accretion model of clustering. The indicia that we bring

    together to make a “person” ... …come together and generate their own kind of “gravity”, like a planet… SPOUSE NAME TITLE DOB ADDRESS ZIP PHONE WWW SOCIAL MEDIA EMAIL
  30. Planetary accretion model of clustering. The more “mass” (indicia) the

    planet accretes, the bigger it gets… …and the bigger it gets the more mass it attracts…
  31. Planetary accretion model of clustering. Eventually our “planet” gets so

    big (has so many indicia) that it can eat up just about anything (because anything will match to it). This is runaway accretion, and something we have to watch out for.
  32. Thank You J D M C 2 0 2 3

    年 0 5 月 2 6 日 Compliance Data Lab Making Compliance Closer 【お問合せ先】 コンプライアンス・データラボ株式会社 東京都千代田区丸の内3-2-2 丸の内二重橋ビル2F E-mail: [email protected] Tel: 03-6837-9665 Web: https://www.c-datalab.com