Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ基盤の負債を生まない技術と技術以外の話

 データ基盤の負債を生まない技術と技術以外の話

2024.08.20 大規模データの負債解消への道のり Lunch LT の登壇資料です。

Ikki Miyazaki

August 18, 2024
Tweet

More Decks by Ikki Miyazaki

Other Decks in Technology

Transcript

  1. 背景:負債解消に役立つ技術の発展と普及 *1: Infrastructure as Codeの略称 データ基盤に関する技術・ツールは、日進月歩で発展しており、 データ負債の解消に大きく貢献している。 カテゴリ ツール例 負債解消への寄与

    データウェアハウス BigQuery, Snowflake ・計算性能向上に伴い、あらゆる処理がシンプルに ・周辺機能との連携が進み、使いやすくなった データ加工ツール dbt, Dataform ・SQLでほとんどのデータ加工が行えるようになった ・リネージが可視化され、パイプラインが管理しやすく ・テストやメタデータ管理など、データ品質も向上 データ転送ツール Fivetran, TROCCO ・SaaSによって、ノーコードでデータ転送が可能に ・障害対応や保守運用コストが大幅に削減 IaC*1ツール Terraform ・インフラがコード管理され、手作業が不要に Copyright stable, inc. All rights reserved. 2
  2. 自己紹介 W 宮﨑 一輝(Miyazaki Ikki8 W 略歴4 ) コンサル(データアナリスト9 )

    スタートアップ(データアナリスト・データエンジニア9 ) フリーランス(データエンジニア9 ) stable株式会社 創業 ▼正社員募集中! Copyright stable, inc. All rights reserved. 4
  3. 会社説明 企業のデータ活用に関する、あらゆる領域で支援を行っている会社です。 データ基盤 データチーム Y ログ基盤の構P Y ELTパイプラインの構築 Y DWHの構P

    Y Airflow→dbtへの移“ Y ディメンショナルモデリング導入 データ発生側 データ活用側 Y 開発環境(Terraform, CI/CD等)の整q Y コスト管理体制の構築 Y データ分’ Y KPIダッシュボード作成 Copyright stable, inc. All rights reserved. 5
  4. 課題:データ負債によって生じる問題 データ負債が蓄積することにより、あらゆる箇所で、あらゆる問題が発生。 ダッシュボード間の
 数値が一致しない 前に集計したものと
 数値が変わった 「データ抽出依頼の 対応が遅い...」 「どこに何のデータが
 あるか分からない...」

    サイロ化したデータ基盤 集計ミスに気付けない 障害が発生して
 データが利用不可に アプリログの
 形式がバラバラ データ転送処理の
 メンテナンスが大変 Copyright stable, inc. All rights reserved. 7
  5. 課題1:戦略がない データに関する戦略がないと局所最適で短期志向のデータ基盤が生まれやすい。 £ データに関する戦略がないことは、データ負債の要因とな„ £ 俯瞰的かつ中長期的な視点で理想像を持たないと、 で のデータ基盤が生まれ„ £ 「局所最適」になることは、データ基盤にとって大きな問y

    £ 最も大きな問題として、 という問題が発生す„ £ 少しぐらい... と思うかもしれないが、データ基盤の複雑化に伴い、少しのずれが各所に伝播し、
 やがて大きな問題を引き起こすかもしれな| £ 「短期志向」もまた、負債の大きいデータ基盤を生み出す要‡ £ 短期志向でデータ基盤を作ると、 £ そして、 £ なぜなら、ユーザーの要望はその場の思いつきであったり、日々変化するものだから 局所最適 短期志向 「各所で数値の定義がズレる」 ユーザーの要望を打ち返すことにほぼ全ての時間を使 多種多様なユーザーの要望に応え続けた結果、負債が積み上がっていÀ Copyright stable, inc. All rights reserved. 10
  6. Tips1 「リーダーシップを持って全体最適を図る」 — 俯瞰的かつ中長期的な視点を持つためには、リーダシップを持つ/持たせることが必要不可 中長期的な戦略から逆算して、タスクの優先順位をつけることが重‡ — なお、局所最適は必ずしも悪ではなv — 局所最適は、全体最適に比べて短期的なスピードを早めることがあd —

    だが、 — リーダシップとは、肩書きを意味しなv 1日15分でも、全体最適や中長期的に効く取り組みを増やす ê リーダシップを持たずに基盤開発をすると、「タスク打ち返し型」から抜け出せな¹ ê 「スピードが重要」という言葉を盾にして、
 全体最適から目を逸らしてはいけな¹ ê 受動的にタスクを打ち返す時間を減らし、
 能動的な取り組みを増やすところから始まÉ ê Copyright stable, inc. All rights reserved. 11
  7. Tips2 「周辺チームとの関係性を築く」 Q データの戦略を周りと共有し、周辺チームとの理解を得て、関係性を築いておくのが重要 上流側(データ発生側U Q データベースやログの設計から 見直してもらうように依頼すp Q データ発生の段階で、


    負債となりうる要因を排除する 下流側(データ活用側U Q 集計の定義の修正や変更があることを 理解してもらƒ Q 安定的に数値提供するためには、
 データ品質の取り組みに、工数がかか ることを理解してもらう データ基盤 Copyright stable, inc. All rights reserved. 12
  8. 課題2:知見がない データに関する知見がなく、戦略を立てるのが難しい...。 Š そもそも、戦略を立てようにも何をどの順番でやるべきなのかが分からない..™ Š dbtなどのツールも、まだ普及して数年なので、誰もが経験を持っているわけではなn Š そもそも、データ人材が社内にいなn Š データ活用の特徴として、

    という特徴があ‘ Š なので、バックエンドエンジニアや、SQLの書けるマーケターなどが、
 Š (これ自体は素晴らしいことだが、) 「何となく出来てしまう」 本職の片手間でデータ基盤を運用しているケースも多— 結果として負債化してしまう可能性は高い Copyright stable, inc. All rights reserved. 14
  9. Tips3 「早期のデータ人材採用」 R 最初は、バックエンドエンジニアや、SQLの書けるマーケター等 の人材がデータを管理することも多% R 場合によっては、外部パートナーや副業人材も検討する  しかし、中長期的に負債化を防ごうと思うと、
 やはりデータの専門人材の採用が重要にな‰

     リーダシップを持つという観点でも、専門人材の価値は高„ R 当然サービス内容にもよるが、 R データを顧客提供している場合、より早期からデータに関する課題は発生しやすい 会社規模15-30人ぐらいからデータに関する課題は各地で発生す‰ Copyright stable, inc. All rights reserved. 15
  10. Tips4 「作らない」 g リソースを増やす前に、タスクを減らすことを考えu g 単純に、依頼を断るだけではダメ(嫌われるだけH g 依頼が来たときにQ g などの項目をちゃんとヒアリングすu

    g その結果、  最もインパクトが大きいのは、「作らない」こr  「背景と目的  「そのデータが見られるようになったら何をするのか  「いつ、どこで、どれぐらいの頻度で使うのか 依頼者の目的が、他の解決策や、
 以前すでに集計したデータを使って解決できるかもしれない Copyright stable, inc. All rights reserved. 18
  11. Tips5 「作る。でも言われた通りに作らない」  作るとしても、より簡単に作ることを考えR  データ集計の依頼が来た際に{ の順番に実装の工数は高くなR  我々がプロダクトマネジメントから学ぶことは多C のであって、


    ユーザーの要望を答えることが目的ではなC また、1人のユーザーの要望だけ答えればいいのではなく、
 Ð 言われた要件をそのまま作るだけではなÌ Ð アドホック集計 → データマート → ダッシュボード
 Ð より簡単な解決策で、依頼者の目的を達成することを考えÂ Ð ユーザーにとって価値のあるものを作る Ð 社内全体のデータに関する要望に応える必要がある Copyright stable, inc. All rights reserved. 19
  12. Tips6 「一定の割合を負債解消や改善にあてる」 • いわゆる のようなもw • 負債解消や改善系のタスクに取り組む時間を優先的に確保す‘ • 具体的には、 や、

    といった感じで、
 チームで集まって、もくもく会のようにやると良˜ • 日々、データ抽出などの依頼にスピーディに応えていると、
 データ基盤は確実に荒れてく‘ のような感覚で、
 一定時間をリファクタリングに充てると良い 「Googleの20%ルール」 1日30分 週に2時間 › 使った後の片付け Copyright stable, inc. All rights reserved. 20