５兆レコードを超える DMMデータ基盤の開発と運用のリアル

５兆レコードを超える DMM データ基盤の開発と運用のリアル 2025.05.28 Data & AI Summit '25
Spring 合同会社DMM.com 高橋慶

Table of Contents はじめに DMM 全社データ基盤を支える技術開発と運用のリアルおわりに 01 02
03 04

はじめに 01

Place Image Here 合同会社 DMM.com 開発統括本部データ基盤開発部高橋　慶　@takaha4k DMM は２社目（社歴１年ちょっと）
双子（長男）元大学ゴルフ部（いまはテニス）

Place Image Here 数字でみる DMM 自社コーポレートサイトから抜粋

なんでもやっている DMM 自社コーポレートサイトから抜粋

数字でみる DMM のデータ基盤（ BigQuery） 2025.05.27 時点保存レコード数 5.3 兆件直近
180 日間実行クエリ数 1,600 万回以上

レコード数などは、 INFORMATION_SCHEMA.TABLE_STORAGE ジョブ数などは、 INFORMATION_SCHEMA.JOBS_BY_PROJECT BigQuery では簡単に統計情報を取得できる -- データ基盤のレコード数を取得する例 SELECT
table_schema, SUM(TOTAL_ROWS) FROM `region-us`.INFORMATION_SCHEMA.TABLE_STORAGE GROUP BY 1

DMM 全社データ基盤を支える技術 02

Vertex AI Dataﬂow Pub/Sub Composer BigQuery Datastream Looker Dataplex Cloud
Build Cloud Storage Cloud Functions データ基盤を支える主な技術

データパイプラインの全体像（簡易版）

人物役割内容 Airflow の管理人 Airflow をクラウド上で安定運用してくれる指揮者何をどの順で動かすか決める Embulk
のエンジン Embulk をクラウド上で実行する環境作業員データを取り出して運ぶデータパイプラインの主要登場人物

事業部 DB とのデータパイプラインのアーキテクチャ例（バッチ処理）

CloudBuild のステップ構成 1. 踏み台サーバ IP を取得するためにトークン取得 2. 踏み台サーバ IP
取得 3. SSHトンネルで、MySQL 接続 4. Embulk を実行 MySQL → BigQuery データ取り込み steps: - name: gcr.io/cloud-builders/gcloud script: |- gcloud auth print-identity-token \ --impersonate-service-account="***@***.gserviceaccount.com" \ > /workspace/token.txt; - name: 'docker.pkg.dev/★/★/embulk-container' script: |- token=$(cat /workspace/token.txt); ip_address=$(~/get_ec2_ip_address.sh ${token}); echo "${SSH_PRIVATE_KEY}" > /workspace/private.key; chmod 600 /workspace/private.key; ssh -i /workspace/private.key -p 10022 \ -o StrictHostKeyChecking=no \ -o ServerAliveInterval=60 \ -o TCPKeepAlive=yes \ -f -N -4 \ -L 3306:${MYSQL_DB_HOST}:${MYSQL_DB_PORT:-3306} \ ec2-user@${ip_address}; embulk run ${EMBULK_CONF:-~/configs/in_mysql_out_bq.yml.liquid}; ※一部簡略化しています cloudbuild.yaml

事業部 DB とのデータパイプラインの実装例（各 DB との設定） dags/entities に DB 種別ごとにディレクトリ
データセット毎に yaml を用意。 yaml には、データを取り込む設定を記述。

事業部 DB とのデータパイプラインの実装例（ mysql） Dag ディレクトリに、Python ファイルを用意。先ほどの yaml
ファイルのデータを読み込み、DAG および Task を作成している。

AWS データソース（ S3）とのデータパイプラインの例

データマートのパイプライン（バッチ更新） BigQuery (Scheduled Query) A.sql A.json データマート開発者 1. SQL とスケジュールのファイル作成
2. ブランチを作って、push push/pull_request 時の挙動 1. sqlfulff コマンドで、lint を実行。 2. gcloud コマンドで、dry run を実行本番ブランチにマージ時の挙動 1. terraform apply で、BigQuery のリソースを作成 REPLACE または MERGE などのクエリが、スケジュール実行される。

データマートのパイプライン（ニアリアルタイム更新）データリネージを API経由で取得。テーブルの依存関係を整理した ymlファイルを作成して、ストレージ保存。

開発と運用のリアル 03

開発組織の体制検索基盤チーム４名 ML 基盤チーム５名
データマネージメントグループ高橋慶 (Manager) データ基盤開発部藤井亮太 (部長) アクティベーションチーム４名インテグレーションチーム４名カスタマーデータプラットフォームグループ (兼)藤井亮太データアプリケーショングループ伊藤明大 (Manager) アナリティクスチーム 3 名アーキテクトチーム 4 名開発統括本部大久保寛 (本部長)

データ基盤開発組織のカルチャー透明性検査適応やさしさ • Slack で作業ログ • GitHub
Issue で管理 • サーベイツール • 定期的にふりかえり • 労力と効果の軸で判断 • 効果なかったら辞める • 技術マウント取らない • 困っている人を助ける

GitHub で、かんばん管理。何やるか・なぜやるか・どうやるかを明確に全タスクを可視化。朝会で、優先度やアサインを設定各 Issue には、背景・目的・手段を記載

BigQuery の利用状況を Looker → Slack で可視化（平日 9:00配信）過去のジョブを分析して、500スロット時間で閾値を設定ユーザやジョブ情報（いつ誰が何を参照した）を表示。閾値超過したジョブは、赤背景にしている。

自動キャンセル後、クエリチューニングなどをサポートすることも

サーベイツールを活用。やりがいを高めるワークショップを企画

キャッチアップしたスキルを還元して、学び合う

新しい技術は、スモールに運用（ Devin の導入例）

顧客データプラットフォームの ChatBot を提供

他部署に作業を依頼した時に協力してくれるマテリアライズドビューとして連携したいため、参照元テーブルに設定を依頼外部テーブルは ALTER のクエリが実行できないから、REPLACE でご提案いただく。データエラー。S3
の元データを入れ替え中なのが起因とすぐに判明。

全社員対象としたデータ基盤ウェビナーを定期開催（100~200 名が参加）

おわりに現場の取り組みで感じたこと 06

任せてくれるトップがいると、その信頼に応える形で、現場が思い切って動けるし、ものづくりに集中できる。現場は裁量と責任を引き受けながら、チームの在り方から技術選定、運用改善まで、自分たちで選び、動き、やり切る。トップは、現場を信じて任せる現場は、トップの信頼に応える

Thank you.

５兆レコードを超える DMMデータ基盤の開発と運用のリアル

５兆レコードを超える DMMデータ基盤の開発と運用のリアル

Kei

More Decks by Kei

Featured

Transcript