Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アセスメントで紐解く、10Xのデータマネジメントの軌跡

10xinc
April 16, 2025

 アセスメントで紐解く、10Xのデータマネジメントの軌跡

datatech-jp Casual Talks #7 での発表資料です

https://datatech-jp.connpass.com/event/347574/

10xinc

April 16, 2025
Tweet

More Decks by 10xinc

Other Decks in Technology

Transcript

  1. ©2023 10X, Inc. 自己紹介 • 吉田 康久 ◦ Twitterやはてなidは@syou6162 /

    id:syou6162 • 株式会社10Xでデータエンジニア ◦ 2022/09に入社 ◦ エンジニアリング本部 データサイエンス&エンジニアリング部に所属 ◦ データマネジメント / データガバナンスの仕事をしてます ◦ 京都から働いてます • これまでの職歴としては研究者(NLP & ML) => Webアプリケーションエンジニア, MLエンジニア => データエンジニ ア, Analytics Engineer • datatech-jpの運営の一人です。Casual Talksの全主催および#1, #3, #5, #7で発表しました ◦ ニッチな勉強会を開催するのが趣味です 2
  2. ©2023 10X, Inc. アジェンダ • 背景: 10XとStailerについて • なぜデータマネジメント成熟度アセスメントを実施したか? ◦

    データにまつわる課題例 ◦ アセスメント実施の3ステップ • なぜ去年 / 今年もアセスメントを連続して行なったか? ◦ データセキュリティ ◦ データ品質 ◦ メタデータ ◦ データウェアハウジングとビジネスインテリジェンス ◦ ドキュメントとコンテンツ管理 • 全体の課題感の推移 ◦ 10Xのデータマネジメントの軌跡 • まとめ 3
  3. ©2023 10X, Inc. アジェンダ • 背景: 10XとStailerについて • なぜデータマネジメント成熟度アセスメントを実施したか? ◦

    データにまつわる課題例 ◦ アセスメント実施の3ステップ • なぜ去年 / 今年もアセスメントを連続して行なったか? ◦ データセキュリティ ◦ データ品質 ◦ メタデータ ◦ データウェアハウジングとビジネスインテリジェンス ◦ ドキュメントとコンテンツ管理 • 全体の課題感の推移 ◦ 10Xのデータマネジメントの軌跡 • まとめ 4
  4. ©2023 10X, Inc. 提供プロダクト お客様アプリ • 数万SKUから商品からスムーズにカゴを作成できるUX • キーワード・カテゴリ検索・お気に入り・注文変更・ 購入履歴といった基本機能

    • 商品の受け取り方法を選択 • 注文状況・配達状況の確認や通知 • Web(オプションにて提供) 数万点のSKUから スムーズにお買い物ができるUXを提供 主な機能 5
  5. ©2023 10X, Inc. 提供プロダクト スタッフアプリ • ピッキングリストを自動生成 • 移動距離最短化、複数スタッフに並行作業可能 •

    バーコード照合でのヒューマンエラー防止をサポート • 多様な受け取り方法に対応 ミスが少なく効率的な 業務オペレーションシステムを提供 主な機能 6
  6. ©2023 10X, Inc. 提供サービス 商品・在庫ロジック 構築 マスタの半自動生成 店舗でのお買い物に限りなく近い品揃えを実現 半自動の商品在庫マスタ生成プロセスを提供し 欠品と運用コストを削減

    データソース特定 データI/F開発 アルゴリズム開発 日別店別 在庫マスタ生成 発注データ 販売データ 廃棄データ 販促データ 店舗A 店舗B 店舗C 店舗D Stailerと つなぐ I/Fの開発 アルゴリズムの 開発 販促情報 発注周期 品揃除外 etc. 7
  7. ©2023 10X, Inc. 8 Stailer Flywheel w/Lever - 事業成長のはずみ車とレバー パートナー

    シップ締結 Engagement Accessibility Capacity Accessibility Selection Discovery Growth 投資リソース の最大化 More Capacity More Order More AOV 初回利用者の獲得 キャパシティの最大化 品揃え/価格最適 化 ディスカバリー最大化 関係の強化 店舗/エリア/アクセ スの開設 スロットキャパシティの増加 満便率の増加 継続利用者の増加 利用頻度の増加 かご単価の増加 再投資
  8. ©2023 10X, Inc. アジェンダ • 背景: 10XとStailerについて • なぜデータマネジメント成熟度アセスメントを実施したか? ◦

    データにまつわる課題例 ◦ アセスメント実施の3ステップ • なぜ去年 / 今年もアセスメントを連続して行なったか? ◦ データセキュリティ ◦ データ品質 ◦ メタデータ ◦ データウェアハウジングとビジネスインテリジェンス ◦ ドキュメントとコンテンツ管理 • 全体の課題感の推移 ◦ 10Xのデータマネジメントの軌跡 • まとめ 9
  9. ©2023 10X, Inc. データにまつわる課題例: 必要なデータはどれ?!問題 11 分析には正しいデータを使うことが必須...だけど現実は厳しい BigQueryにはOrderって名前のテーブ ルがたくさんあるけど、自分の用途に 合っているのはどのテーブル

    ...? このテーブルな気がするけど、カラム AとカラムBの違いが分からな い...微妙に数字が違うけど、どっちを使えばいいの ... そもそもこのテーブルを管理しているの は誰なの... よく分からないけど、今回はこのテーブ ルで分析してみるか (案の定用途に 合ってないテーブルで手戻り発生 ) BizDevやアナリスト
  10. ©2023 10X, Inc. データにまつわる課題例: データ品質が低い 12 聞いてるだけで胃が痛い... やっとのことでそれっぽいテーブル が見つかったぞ... 分析に使いたいカラム、

    20%くらい 欠損してるけど、なんで ... どうも去年の10月分までのデータ しか入ってないんだが ... えっ、そもそもデータ更新のバッチ が先月から止まってるの ?! こんな品質のデータではパート ナーの信用は勝ち取れないよ ... BizDevやアナリスト
  11. ©2023 10X, Inc. データにまつわる課題例: このデータどうやって作られてるの問題 13 エンジニアの悩み...データがどうやって作られているかの謎を解き明かすために我々はアマゾンの奥地に FireStore GCS BigQuery(ローデータ)

    BigQuery上で 様々な加工... スプレッドシート上で 様々な加工... BI上で 様々な加工... 品質に問題があるって言われたか ら、このデータどうやって作られて るか見てみるか... 構成図もないから、 コードを読み解くしか ない。このテーブルを 作っているのはどこ だ... いくつもの層で加工されていて頭 が混乱してきた... この作り(アーキテク チャ)で求められてる 品質を満たすの無 理じゃないか... 元データもそういう 用途で使われること を想定していなかっ たらしい エンジニアやアナリスト
  12. ©2023 10X, Inc. データにまつわる課題例: 全体をいい感じに回さないといけない問題 14 各所からくる要望が溢れていて、困り果てる担当者 メタデータが整備されない と、分析するまで大変です !

    データ品質が高くないと業務 に支障が出ます! データアーキテクチャちゃん としないと要求に答えられな いです! データセキュリティ、ちゃんと してください! とにかく色んな要望があること だけは分かる。それ以外は何 も分からない... どれが本当に重要度が高く て、どういう順番でアプローチ すればいいんだ...
  13. ©2023 10X, Inc. 第一段階: 部内でのアセスメント 15 参考: https://speakerdeck.com/yuzutas0/20200528 • 成熟度レベルを5段階で評価

    • レベル感が低いこと自体はここ では問題ではなく、レベル感の 認識を合わせるのが目的 • 社内での暫定的な優先順位も 付ける • アセスメントをすることで「この項 目にはあの課題も含まれる か...」という共通認識を持てたの もアセスメントを実施してよかっ たこと
  14. ©2023 10X, Inc. 第二段階: 社内へのヒアリング 16 データ利用者以外へのヒアリングも重要 • 社内のかなりの職種にヒアリング(計10回) ◦

    BizDev / アナリスト / リーガル / データエンジニア / コーポレートストラテジー / SRE / CorpIT / PdM / 開 発 • それぞれの職種に対してどういう観点のことを聞きたいかを事前に明らかにしてヒアリングに望む • 注意: ヒアリングの場では問題解決は目指さない • 参考: データ活用の関係者に課題感のヒアリングをする時の型を紹介する - yasuhisa's blog 様々な職種に毎年聞くのは大変。初回 や大きな組織変更などがあった際に実 施するのがオススメ。 10Xの場合は初回のみ実施。
  15. ©2023 10X, Inc. 第三段階: 社内へのヒアリングを受けて再度優先度付け 17 取り組む順番を依存関係のDAGとして定義 • 社内へのヒアリングの結果、部 内とそれほど大きなズレがないこ

    とが分かった • データセキュリティとデータ品質 は特に優先して進めたい • しかし、それを効率的に進めるた めには先にやる必要がある項目 がある • 何をどういう順序で解くとデータ ガバナンスとしてよさそうか、依 存関係を決めた 特に優先して進めたい項目 !
  16. ©2023 10X, Inc. アジェンダ • 背景: 10XとStailerについて • なぜデータマネジメント成熟度アセスメントを実施したか? ◦

    データにまつわる課題例 ◦ アセスメント実施の3ステップ • なぜ去年 / 今年もアセスメントを連続して行なったか? ◦ データセキュリティ ◦ データ品質 ◦ メタデータ ◦ データウェアハウジングとビジネスインテリジェンス ◦ ドキュメントとコンテンツ管理 • 全体の課題感の推移 ◦ 10Xのデータマネジメントの軌跡 • まとめ 18
  17. ©2023 10X, Inc. なぜ去年 / 今年もアセスメントを連続して行なったか? • 2年目(去年): データマネジメント成熟度アセスメントを実施しました(2024年版) -

    10X Product Blog ◦ 昨年に優先度が高いと定義した項目が意図通りに進められているか ◦ 昨年からの進化をチーム内で正しく認識するため ◦ ボトルネックを把握し、正しくリソースの配分は戦略を練るため • 3年目(今年): ◦ 組織や事業が大きく変化したこともあり、データ基盤チームにも少なからず影響はあった ◦ スタートアップということもあり、ボトルネックは急速に移り変わっていく • 1年目とやり方を少し変えた ◦ ほぼ全部門に行なっていた社内へのヒアリングは中断 ◦ 理由: 実施コストが非常に大きいため ◦ ただ、組織が大きく変化してしばらくした来年は再度ヒアリングを行なってもよいかもとは思っている 19
  18. ©2023 10X, Inc. データセキュリティ • 優先度の推移: 5 => 3.5 =>

    3.5 • レベル感の推移: 1.5 => 3.5 => 4 • 当初: データに対する権限は広すぎる & 強すぎる権限付与、権限付与も手動によるオペレーション ◦ Stailerの利用拡大に伴ない、パートナー数が増加。パートナー毎の権限管理の強化の必要性も増加 • やったこと: 地道な改善 ◦ 誰がどのデータにアクセスしてよいかのポリシーを整備 ◦ IaCによるコード管理、レビューの必須化、機械による権限付与 ▪ Conftestによる必要な項目の入力必須化の基盤構築をSREが行なってくれた ▪ 特にBigQueryに関してリソースに関してdescriptionやownerなどのlabelsの情報の入力必須化の実施 ▪ 新規の権限付与はTerraformで行なうことを徹底 ▪ terraform importを使って、既存の権限付与もIaCで管理に取り込む ◦ データエンジニア / アナリティクスエンジニア向けのTerraformを使った権限管理の勉強会の開催し、 Terraformに対する敷居を下げる ◦ 個人データをより安全に取り扱えるようにするため、仮名加工化の実施 ▪ 法務担当や外部の法律事務所の先生のアドバイスをもらいながら進行 • 初期は整備に大きな工数をかけたが、基礎を固めた後は一定水準以下の工数で守りを固められるようになった ◦ 他の項目に工数をかけやすいサイクルができたのが非常によかった! 21
  19. ©2023 10X, Inc. データ品質 • 優先度の推移: 4.5 => 3.5 =>

    4 • レベル感の推移: 1.5 => 3 => 3.5 • 当初: データに関する問い合わせが特に多く、対応工数がかかっていた ◦ 何が担保できているかが明らかではない状況 ◦ メンテナンスがきちんとできていない古いデータパイプラインによって生成されるデータが参照され続けてい ることも多かった ◦ DWHでは管理されていないBIによるカスタムクエリも多数存在 • やった取り組み ◦ データ関連の負債の解消 ▪ 古いデータパイプラインの撤退 ▪ カスタムクエリの撲滅 ◦ データ品質を定義や可視化 ◦ 何をどのデータ品質で提供するか(Data Reliability Level)を定義 ◦ データに対する期待値とData Reliability Levelのズレを埋める 22
  20. ©2023 10X, Inc. データ品質: 指標の定義 • DAMAやデータ品質管理ガイドブックなどデータ品質の定義はよく知られたものがある ◦ しかし、指標の定義が10以上あり、スタートアップがデータ品質に取り組むにはちょっと重い... •

    チーム内の認知負荷を上げないためにも、大雑把に4つに分類 ◦ Data Quality Score: The next chapter of data quality at Airbnbを参考にさせてもらった 利用性については dbt-osmosisを使ったメタ データ管理で大部分でき ていた dbtを使っていれば自然 とリネージが可視化でき るため、大部分できてい た 23
  21. ©2023 10X, Inc. データ品質: 正確性の可視化の例 24 コード含めた詳細はこちらを 参照してください 「データセットA /

    B / Cは特にテストが 多いが、データセットCはvalidity(妥当 性)に関するテストが圧倒的に少ない」
  22. ©2023 10X, Inc. データ品質: 分析向けのデータに対する期待値(Data Reliability Level)を定義する • 元々はGitLabのData Developmentを参考にしており、10Xに合った形で定義しなおした

    • Trusted / Business Insight / Adhocの3つのレベルを定義 ◦ それぞれのレベルに応じて、どういった観点や開発プロセスを満たしている必要があるかを明示する • Trusted: ◦ ビジネスの重要な意思決定に使われるデータ ◦ 代表例: 経営向けのダッシュボード、CRMなどで使われるテーブル • Business Insight: ◦ 定常的な観測用のダッシュボードなどに使われるデータ ◦ 代表例: ファネル分析のダッシュボード、ディメンショナルモデリングを提供しているテーブル • Adhoc: ◦ アドホックやPoCで利用するデータ ◦ 代表例: 特定店舗用の未精査の指標が使われている分析 25
  23. ©2023 10X, Inc. データ品質: Data Reliability Levelの代表的な観点 • Speficication ◦

    ビジネスオーナーが記載されているか ◦ (adhocであれば)削除期限が記載されているか • Data Catalog ◦ テーブルやカラムのdescriptionは記載されているか • Test Development ◦ テストのカバレッジは十分か、項目毎に必須のテストが通っているか • SLO ◦ どの程度の可用性が要求されているか • Information Mart ◦ 適切なモデリングを経て、テーブルが生成されているか • Manual Data Usage(手動で作成されたデータが使われていないか) ◦ 精査されていないスプレッドシートなどを参照していると品質が担保できない • Direct Source Usage(データソースを直接参照していないか) ◦ 適切にモデリングされ、テストされたコンポーネントを参照しないと品質が担保できない 26
  24. ©2023 10X, Inc. Data Reliability Levelの現在地 27 Data Reliability Levelに関連する各項目をAsIsをdbt

    のyamlファイルに記載。 dbtの成果物(manifest.json)を利用しスクリプトで記 入したり、気合で全ファイル記入。 必要な項目を人間がチェックするのは大変なので、CI 上でJSON Schemaを回して治安を守る。 記入したAsIsと実際のToBeにどれくらい距離があるかLooker Studioで可視化(elementaryを利用)。 重点的に強化したほうがいい項目を洗い出したり、レベルを下げ れるテーブルがないか、などを検討しやすくなった。
  25. ©2023 10X, Inc. メタデータ • 優先度の推移: 2 => 1.5 =>

    1.5 • レベル感の推移: 1 => 4 => 4 • 経緯: ◦ 元々の優先度は低かったが、データセキュリティの進捗に伴ない、データディスカバリーが課題となった • 解決策 ◦ データカタログ(Dataplexの導入)とメタデータ管理の強化(dbt-osmosisの導入)を行なった(過去の発表資料) ◦ 特にdbt-osmosisによる効果は大きく、カラムのdescriptionがほぼ入っていない状況(1割未満)からデータカタ ログが機能できる状況(5~8割)までカラムのdescriptionに持っていけた ◦ メタデータの拡充(メタデータの伝播)を自動化できた点も大きく、メタデータの所在をSSoTにしつつ、カバ レッジを上げる環境を作ることができた • 今後の課題 ◦ データソース側のメタデータの入力は手動による転記ではなく、今後はData Contractに切り替えていきたい ◦ 他チームとの動きの兼ね合いもあるため、優先度は少し低い 28
  26. ©2023 10X, Inc. データウェアハウジングとビジネスインテリジェンス • 優先度の推移: 4 => 4 =>

    3.5 • レベル感の推移: 2 => 3 => 3.5 • 負債の撤廃 ◦ 古いデータパイプラインの撤廃。使われていないテーブルの撤退 ◦ 属人的ではなく、チーム誰でも取り組めるようになったのもよかった • Dimensional Modeling / Business Vaultの普及 ◦ 作る側の基礎知識を揃える: ディメンショナルモデリング勉強会を実施しました - 10X Product Blog ◦ その結果、ディメンショナルモデリング / business vaultのパーツが揃ってきた ▪ インターフェイスなども統一できて、使ってもらいやすくなった ◦ データ活用社向けの説明会を行ない、PdMや経営層もダッシュボードなどで活用してくれている ▪ プロダクトマネージャー向け野良ダッシュボードの活用方法 - 10X Product Blog • 高い品質が求められる可視化についてはBIでの表示ではなく管理画面でプロダクトとして提供できる体制になった ◦ 例: データ基盤側で生成したData Contractを使って、プロダクトサイドのコードを自動生成 • 今後: 一方、BIの手動でのオペレーションコストが引き続き高い ◦ Semantic LayerやDashboad As Codeなど運用負荷を下げる形を探っていきたい 29
  27. ©2023 10X, Inc. ドキュメントとコンテンツ管理 • 優先度の推移: 1 => 1.5 =>

    4 • レベル感の推移: 1.5 => 2 => 1.5 • 管理の対象: GCSやGoogle Drive、Notionなど • 元々の優先度設定の理由 ◦ 社外に出るデータを優先的に整備する必要があった ◦ ドキュメントやスプレッドシートなどはコーポレートITなどとも一緒に取り組む必要がある • 優先度が急上昇した理由: 生成AI / LLMの台頭 ◦ mcpやRAGを通じて、データ管理に必要なドキュメントをどう生成AI / LLMに提供するかが急務となってきた ◦ Devin AIの商品データパイプラインへの適用 - 10X Product Blog ▪ 20-30%程度の消化StoryPointへの貢献 ◦ Devin AI / Copilot Agent / Clineなどをチーム内でも試しており、チーム内外でドキュメントをどう管理するか を議論している真っ最中 30
  28. ©2023 10X, Inc. アジェンダ • 背景: 10XとStailerについて • なぜデータマネジメント成熟度アセスメントを実施したか? ◦

    データにまつわる課題例 ◦ アセスメント実施の3ステップ • なぜ去年 / 今年もアセスメントを連続して行なったか? ◦ データセキュリティ ◦ データ品質 ◦ メタデータ ◦ データウェアハウジングとビジネスインテリジェンス ◦ ドキュメントとコンテンツ管理 • 全体の課題感の推移 ◦ 10Xのデータマネジメントの軌跡 • まとめ 31
  29. ©2023 10X, Inc. 全体の課題感の推移: 初期 32 データパイプライン ダッシュボード / 各分析のユースケース

    データソース 初期はデータにまつわる課題が多すぎて、社 内で何が優先度が高い課題か分からない状態 だった...
  30. ©2023 10X, Inc. 全体の課題感の推移: 一年目 33 データパイプライン ダッシュボード / 各分析のユースケース

    データソース アセスメントの結果「データセキュリティ」「データ品質」「データウェ アハウジングとビジネスインテリジェンス」を優先的に取り組むの がよいことが分かった!
  31. ©2023 10X, Inc. 全体の課題感の推移: 二年目 34 データパイプライン ダッシュボード / 各分析のユースケース

    データソース IaC化などによるデータセキュリティの向上、可視化によるデータ 品質観点での課題の把握、レガシーなデータパイプラインの撤退 などにより、一年目の課題が着実に改善された! データディスカバリーの課題が新規に出てきたが、データカタログ やdbt-osmosisによりメタデータを強化し、改善できた!
  32. ©2023 10X, Inc. 全体の課題感の推移: 三年目 35 データパイプライン ダッシュボード / 各分析のユースケース

    データソース 可視化によるデータ品質観点での課題の把握 ができるようになったため、ボトルネックを改善 し、データ品質を実際に向上できた!
  33. ©2023 10X, Inc. 全体の課題感の推移: 三年目 36 データパイプライン ダッシュボード / 各分析のユースケース

    データソース データパイプラインの品質が向上してきたことに より、データソース側にボトルネックが移ってきつ つあった 活用側との期待値のギャップが出てきた
  34. ©2023 10X, Inc. 全体の課題感の推移: 三年目 37 データパイプライン ダッシュボード / 各分析のユースケース

    データソース Data Contractを導入し、データソース側との仕 様に関するコミュニケーションをスムーズにする 取り組みを開始 活用側と適切に期待値を握るため、 Data Reliability Levelを設定
  35. ©2023 10X, Inc. 全体の課題感の推移: 三年目 38 データパイプライン ダッシュボード / 各分析のユースケース

    データソース 生成AI / LLMを生かしながら、DWH / データ マートを品質を守りながら運用コストをいかに減 らすかが課題。ドキュメントとコンテンツ管理を頑 張っていきたい
  36. ©2023 10X, Inc. 全体の課題感の推移: 三年目 39 データパイプライン データパイプライン データパイプライン データパイプライン

    データ分析基盤以外にもデータメッシュ的にドメイン毎にデータパ イプラインが繋がるケースが出てきた
  37. ©2023 10X, Inc. 全体の課題感の推移: 三年目 40 データパイプライン データパイプライン データパイプライン データパイプライン

    二年目までのデータ分析基盤で培ってきた「データ セキュリティ」「データ品質」「メタデータ」の知見は大 部分生かせている! データの仕様をData Contractで展開する活 動を本格化したい
  38. ©2023 10X, Inc. まとめ • データマネジメント成熟度アセスメントは以下のような状況で特に有用だった ◦ データにまつわる課題が多すぎて、社内で何が優先度が高い課題か分からないため、優先度を整理したい ◦ 状況や優先度を把握した上でデータガバナンスを効かせ、トップダウンで動いたり、他部署との連携を強める

    ◦ 普段は一個一個の課題に向き合っているため、データ文脈における事業や組織全体の課題の優先度やレベル感 を把握したい • 10Xでの事例を紹介。事業状況に合わせて、単年ではなく複数年でどうデータマネジメントが変化したかも紹介 ◦ データセキュリティ ◦ データ品質 ◦ メタデータ ◦ データウェアハウジングとビジネスインテリジェンス ◦ ドキュメントとコンテンツ管理 41 注意: 他社のアセスメント結果を見て「うちのほうが勝ってる」「う ちは低い」と比べるのはあまり意味がないです。 自社の過去と相対的に比較したり、自社の今後のデータ戦略を 考える道具として、うまくデータマネジメント成熟度アセスメントを 活用しましょう!