Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ペタバイト、30プロダクトを超えて成長を続けるデータ基盤の歴史

 ペタバイト、30プロダクトを超えて成長を続けるデータ基盤の歴史

2023/03/14 に開催された
「【DeNA/PayPay/マネーフォワード】波乱万丈伝から学ぶ!成長企業におけるデータマネジメントの勘所~大規模データ分析基盤の変遷~」
での データ本部データ基盤部データエンジニアリング第一グループ 長谷川 了示の登壇資料です。

イベントページ:https://techplay.jp/event/892180

DeNA_Tech

March 15, 2023
Tweet

More Decks by DeNA_Tech

Other Decks in Technology

Transcript

  1. © DeNA Co., Ltd. 2 長谷川 了示 コンサルティングファーム、分析系SaaS ベンダを経て2016年に DeNA

    に入社。 以後、一貫して全社のデータ分析基盤の設 計・構築・運用に従事。 直近は、 pococha を始めとしたライブ ストリーミング事業のデータ基盤を担当。 データ本部データ基盤部 データエンジニアリング第一グループ グループリーダー ryoji.hasegawa@dena.com © DeNA Co., Ltd. 自己紹介
  2. © DeNA Co., Ltd. 3 これからお話する内容 • DeNA のデータ基盤の歴史は「勃興 ->

    浸透 -> 拡散」というフェーズを辿ってきた • データ基盤の形に合わせ、組織の形も変えてきた • それぞれのフェーズでどのような課題に直面し、どう対処してきたかお話します ※ 実際はもっと紆余曲折あったところを、分かりやすく単純化してお伝えしてます
  3. © DeNA Co., Ltd. 4 DeNA 略史 1 DeNA データ基盤史

    データエンジニア組織の歴史 残る課題とこれからのチャレンジ 4 3 2 目次
  4. © DeNA Co., Ltd. 6 ネットオークションに始まり、ゲーム、エンタメからスポーツ、ヘルスケアまで様々な事業 にチャレンジを続けている 沿革 インターネット オークション開始

    1999 ショッピング モール開始 2002 モバイル オークション 「モバオク」開始 2004 ゲーム & SNSサイト 「モバゲータウン」 開始 2006 ソーシャルゲーム 「怪盗ロワイヤル」 開始 2009 ライブ ストリーミング 事業開始 2013 オートモーティブ 事業開始 2015 東証マザーズ 上場 2005 東証一部上場 2007 プロ野球参入 2011 ヘルスケア 事業開始 2014 プロバスケット ボール クラブの承継 2018
  5. © DeNA Co., Ltd. 9 分析の専門組織や大規模分析基盤を立ち上げる以前 から、データに基づきプロダクトを改善する文化は 存在していた。ただし... • RDBやExcelによる分析

    • プロダクト分析は、専任スタッフではなく、企 画スタッフ・エンジニアが実施 • マーケティングチーム用には分析専用のデータ マートが存在し、プロダクト横断的な分析を 行っていたが、MySQLで実行できる規模 有史前 Log Server … DB Server … App Server App Server Batch Server DB Server Marketing Data Mart (MySQL) … データ基盤が「データ基盤」と呼ばれるようになる以前
  6. © DeNA Co., Ltd. 10 ゲーム事業の急成長と共にデータ基盤が必要となった • 怪盗ロワイヤルに代表されるモバイルゲームの大ヒット ◦ 事業が急成長するのに伴い、分析に基づいたプロダクト改善の重要性も高まる

    • ゲーム事業部内で、アナリストと分析基盤エンジニアが一体となった組織を構成し、大 規模データを分析できる基盤と専門組織を立ち上げた • 大規模データを分析可能にするために分散処理基盤(Hadoop)の運用を開始 データ基盤の勃興
  7. © DeNA Co., Ltd. 11 • オンプレミスの hadoop • Pig,

    Hive, MapReduce による処理 • 重要なKPIについては MySQLとBI ツールで可視化 • 単一事業のデータ基盤: 利用部門 はゲーム事業のみ • 2010年の話 ◦ "Hadoop: The Definitive Guide" (いわゆる象本)の初版の日本語 版が出版された年。 分散処理基盤の導入 勃興期のデータ基盤 プロダクト環境 App Server DB Server データ基盤 DeNA On-Premises Hadoop Batch Server Jenkins Hue Analytics DB (MySQL) BI Tool (Pentaho)
  8. © DeNA Co., Ltd. 13 • 全ての事業/プロダクトのデータを 一つの基盤に同居させる • 権限管理の導入

    ◦ 担当範囲のデータのみ参照できる ように設定 • 生産性向上 ◦ 使い勝手のよいツールの内製 BIツール (Argus)等 ◦ Vertica 導入によるレスポンス向上 共通基盤へ拡張 浸透期のデータ基盤 Product A App Server DB Server データ基盤 Product B Product C ・・・ DeNA On-Premises Hadoop Argus (内製BIツール) Batch Server Jenkins Hue 改善点 プロダクト環境
  9. © DeNA Co., Ltd. 14 システムが肥大化し、運用のつらみが顕在化 • 大規模かつマルチテナントの難しさ ◦ 大規模分散処理システムの安定運用には高い専門性を持った人材を多数アサイン

    する必要がある ◦ 一人のユーザが入れた重い処理が、最悪、全利用者に影響 ◦ 個別の「こんなツールを使いたい」という要望に応えづらい ◦ 自由度を与えすぎたことによるトラブル(ユーザが意図せず環境を壊してしまう等) • 後から増改築したことによる技術的負債 ◦ 権限管理可能な環境を構築するためにHadoop クラスタを追加 (ゲーム用とそれ以外用の2つのクラスタを運用) データ基盤浸透に伴う課題
  10. © DeNA Co., Ltd. 15 多結晶型 基本構成は共通だがカスタマイズ可能 な多数の環境を構成 • クラウド上にデータ基盤を再構築

    ◦ 分散処理基盤の運用はクラウド ベンダに任せる • 事業・プロダクト毎に環境を分割 • 更にコンテナ技術を活用し、利用 者の自由度を担保しつつ統制を効 かせる • IaC により環境を金太郎飴化し、 管理のスケール化を図る データ基盤拡散期へ BI Tools Product A プロダクト環境 App Server DB Server データ基盤 Product A GKE digdag batch web app Argus Product B Product C Product B Product C ・・・ ・・・ Cloud Storage BigQuery Looker 「多結晶型」データ基盤として再構築 改善点
  11. © DeNA Co., Ltd. 16 詳細が気になった方はこちらもご覧下さい (3年前の登壇ではありますが)データ基盤再構築について詳しく紹介しています。 Cloud Data Platform

    Day #2 Google Cloud を使ったデータプラットフォームへの変革と最新の活用状況について https://www.youtube.com/watch?v=FsFHuXkBl8U
  12. © DeNA Co., Ltd. 18 横断組織化 単一事業部門内組織 データ基盤の進化に合わせ、データエンジニア組織も形を変えてきた 有史前〜浸透期のデータエンジニア組織 有史前

    浸透期 勃興期 専門組織は存在せず 各事業部門のエンジニアがMySQL や サーバ上のログがら直接取得・加工 ゲーム事業部門内にデータエンジニア・ アナリスト一体の組織が立ち上がる(当 時「データエンジニア」という言葉はな かったが) ゲーム事業以外にデータ基盤の利用が広 がるのに伴い、データエンジニアは全社 横断組織化 更に内部で機能別に組織化 ゲーム事業 データエンジニア データアナリスト A事業 B事業 開発エンジニア 開発エンジニア ・ ・ ・ データエンジニア ゲーム事業 ライブストリー ミング事業 ヘルスケア事業 メディカル事業 ・ ・ ・ C事業 開発エンジニア 分 散 処 理 基 盤 デ | タ パ イ プ ラ イ ン ツ | ル 開 発 ク ラ イ ア ン ト 環 境
  13. © DeNA Co., Ltd. 19 横断部門のつらみ • 高い認知負荷 ◦ 把握しておくべきことが事業の数に比例して増える

    • コンテキストスイッチ ◦ 事業の数に比例 • コンテキストの喪失 ◦ 「事業側から依頼されたことに対応する」という関係 になりがちで、それが事業にどう価値をもたらすのか が見えづらくなる 浸透期の課題 データエンジニア ゲーム事業 ライブストリー ミング事業 ヘルスケア事業 メディカル事業 ・ ・ ・
  14. © DeNA Co., Ltd. 20 データ基盤再構築に伴い、データエンジニア組織も再編 • 「チームトポロジー」の考え方を活用 • ビジネスの価値の流れ(ストリーム)にそってチームを

    配置 ◦ ストリーム・アラインド・チーム (長いので以下、SATと略記) • SATをサポートするためのチームも配置 ◦ テクノロジー・イネイブリング(技術支援) ◦ ツール開発 拡散期のデータエンジニア データエンジニア ゲーム事業 ライブストリー ミング事業 ヘルスケア事業 メディカル事業 ・ ・ ・ ツール開発 ゲーム支援 ライブストリー ミング支援 ヘルスケア& メディカル支援 技術支援 ストリーム・アラインド・チーム(SAT) は各事業のデータ基盤整備を支援 SATを支援するチームも配置
  15. © DeNA Co., Ltd. 21 滑り出しは順調 客観面 • 「組織状況に関するアンケート」の結果が大幅改善 ◦

    社員が組織に対して思ってることを、半期毎に全社でアンケートしている 個人的主観面 • 担当アナリストや事業側メンバとのコミュニケーションが密になり、コンテキストが把 握しやすくなった • データが意思決定に活用されるナマの現場に触れる機会が増え、モチベーションも向上 チームトポロジーの効果
  16. © DeNA Co., Ltd. 24 • 横のゆるいつながりの促進 • 「これ、どのチームの担当だっけ?」問題 •

    新しいツール・技術の活用 今日は以下の3点についてお話します
  17. © DeNA Co., Ltd. 25 チームトポロジー化により、それぞれのチームの課題に集中しやすくなった しかし、横のつながりは意識的に作らないと希薄になりがち 横のゆるいつながりを持つことで以下のような効果が期待できる • ノウハウの共有

    • 課題の共有 ◦ 横断で取り組むべき共通課題が見えてくる 以前から輪読会やコーヒーブレイク(雑談会)などは実施してきたが、今後、更に横のつなが りを意識した施策を実施していくべき時期かもしれない 横のゆるいつながりの促進
  18. © DeNA Co., Ltd. 26 「これ、どのチームの担当だっけ?」問題 役割分担にまだ調整の余地あり • 共通的に利用しているツールがある •

    インフラは、IaC で金太郎飴化している都合上、集中管理したほうがよい? • 重点的に支援している事業ドメインはSAT化したが、それ以外の事業のサポートは? ◦ 基盤だけ利用し、データマネジメント等は事業側で自活しているケース チームトポロジーの考え方だと「プラットフォーム化せよ」となるが、プラットフォーム化 すべきものと、SATで自活すべきものの見極めが必要 • 有効なプラットフォームを作り上げるには優れたプロダクトマネジメントが必要 • 何でもプラットフォーム化すると開発リードタイムのためにアジリティが下がる
  19. © DeNA Co., Ltd. 27 Modern Data Stack など、データエンジニアリング周りの変化はますます速い 使いこなせば、分析業務の生産性向上やデータの信頼性向上等のメリットが享受できそう

    データ基盤を多結晶化したおかげで、個別に最適な技術を試しやすくなった 例えばこのような取り組みを進めている 新しいツール・技術の活用 VOC分析を支えるデータ基盤とモダンデータスタックの取り組み https://techcon2023.dena.dev/session/session12/
  20. © DeNA Co., Ltd. 29 多結晶型基盤 そしてこれからも進化を続けて行く! データ基盤と組織を勃興期・浸透期・拡散期に合わせて進化させてきた 勃興期 拡散期

    浸透期 データ基盤 データ エンジニア 横断組織 単一事業部門内組織 ゲーム事業 データエンジニア データアナリスト データエンジニア 事業 ・ ・ ・ 機 能 組 織 チームトポロジー 事業 ・ ・ ・ 事業支援(SAT) SAT支援 共通基盤 分散処理基盤の導入 プロダクト環境 データ基盤 プロダクト環境 データ基盤 プロダクト環境 プロダクト環境 ・ ・ ・ プロダクト環境 プロダクト環境 プロダクト環境 ・ ・ ・ ・ ・ ・ SAT支援 ?
  21. © DeNA Co., Ltd. 30 TECH PLAY Data Conference 2023

    ーTech組織が考えるデータエンジニアリング・データ分析基盤・データ利活用ー https://techplay.jp/event/892259 来週 3/22(木)に、弊社でゲーム事業支援のSATに所属しているメンバーがイベントに登壇し ます。ご興味ある方、是非ご参加下さい! 告知 DeNA からは、渡辺と濱田が 「ディメンショナルモデルの実導入と実装について」 というタイトルでお話させていただきます
  22. © DeNA Co., Ltd. 31 We are Hiring!!! DeNAではデータ活用の課題を共に解決に導く仲間を募集しています •

    チームは変革期 • 様々なデータ活用の課題を共に解決しませんか? DeNA データエンジニア TEAMの紹介ページにアクセス可能です ↓検索はこちら QRコードはこちら