Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20250325_ABEMAのセマンティックレイヤーへの挑戦の1年を振り返る.pdf

calderarie
March 25, 2025
310

 20250325_ABEMAのセマンティックレイヤーへの挑戦の1年を振り返る.pdf

calderarie

March 25, 2025
Tweet

Transcript

  1. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    1 ABEMAのセマンティックレイヤーへの挑 戦の1年を振り返る 2025/03/25 
 ABEMAの事例とともに学ぶ! セマンティックレイヤーで変わるデータエンジニアリングの世界 #data_findytools 株式会社AbemaTV Sotaro Tanaka Kazuya Ozawa
  2. AbemaTV, Inc. All Rights Reserved
 今日お話すること 2 ABEMAではこの1年間、(汎用)セマンティックレイヤーの導入・構築に 挑戦してきました。 導入に際して、課題定義からツール比較、ソリューション検証、データモデルの再設

    計、運用体制の刷新 など様々な動きがあった1年間でした。 今日は、その1年間を振り返りながら、ABEMAがどのようにセマンティックレイヤー導 入を進めてきたか をご紹介します。
  3. AbemaTV, Inc. All Rights Reserved
 Sotaro Tanaka 株式会社AbemaTV 開発本部 Data

    div. Data Enabling Team Mgr • 2023/04~ ABEMAでデータマネジメント • Data Management & BI • Data Engineering • Like: コンテナ技術 / dbt / 小倉唯さん • Hobby: 🏂 / 🎮 / ⚽ / 小倉唯さん 3 Profile X(旧Twitter) @__sotaron__
  4. AbemaTV, Inc. All Rights Reserved
 汎用セマンティックレイヤー導入前の ABEMAのデータ基盤構成 オーソドックスな レイク・DWH・マートの3層 +

    BIツール(Tableauやスプシ)という構成 9 データレイク DWH / データマート レポーティング Tableau Server BigQuery Cloud Strage DWH データマート
  5. AbemaTV, Inc. All Rights Reserved
 従来型BIツールにおけるセマンティックレイヤーの課題 10 データマート側で事前計算しきらず、 BIツール側でメジャー /ディメンション定義

    -> BIツール内/間のメジャー・ディメンション定義のガバナンス維持が大変(民主化と相反) -> 定義分散の課題(特にシンプルでない指標計算の場合に顕著) DWH データマート メジャー ディメンション メジャー ディメンション
  6. AbemaTV, Inc. All Rights Reserved
 メジャー/ディメンションの定義サイロ化を防ぐためのレイヤが必要に BIレポート DWH … メジャー/ディメンション

    BI レポート DWH … セマンティック レイヤー メジャー/ディメン ション BI レポート BI レポート BIレポート BIレポート メジャー/ディメンション メジャー/ディメンション メジャー/ディメン ション メジャー/ディメン ション … 現状 セマンティックレイヤー導入
  7. AbemaTV, Inc. All Rights Reserved
 株式会社AbemaTV DHQ Data div. DataEnabling

    Team • 経歴
 ◦ 2016年 データ分析コンサル企業に新卒入社 
 ◦ 2020年 AbemaTVにアナリストとして中途入社 
 ◦ 2023年 アナリティクスエンジニアへ 
 • スキ ◦ ❤ 早見沙織さん ◦ 📕 漫画 / 🪑 インテリア / 🐧 ペンギン ◦ 🏋 筋トレ / 🍽 グルメ / 😇 サウナ Kazuya Ozawa 14 Profile
  8. AbemaTV, Inc. All Rights Reserved
 • 弊社で扱うディメンション、メジャーについ て管理可能 ◦ 自由度の高いモデリング

    • 弊社環境との連携⭕ ◦ DWHとしてBigQuery対応 ◦ Tableau接続用のコネクタ提供 ◦ 他スプレッドシート連携等 • キャッシュ等、クエリ高速化機能 • 他ツールにない機能優位性 ◦ データテストや充実した監査ログ ◦ Gemini統合 ツールに関する調査・検証 カタログスペック上で機能を確認した上で、Lookerを候補として検証した。 検証の結果、致命的な課題もなく、Looker導入を判断。 ツールの選定については、昨年公開した資料により詳細な情報あり 20240903_セマンティックレイヤー導入に向けた ABEMAのツール選定 https://speakerdeck.com/calderarie/20240903-semanteitukureiyadao-ru-nixiang-ketaabemanoturuxuan-ding
  9. AbemaTV, Inc. All Rights Reserved
 Looker-Tableau接続の思わぬ落とし穴 (1/2) • 「Looker-Tableau間のコネクタ接続」と「集約テーブル」 単体での動作は確認していたが、組み合わせで発生した

    “落とし穴” • 特にLooker-Tableauコネクタは24年リリースで情報がほとんどなかった 導入に向けた設計の中で、 Looker-Tableau間をコネクタで接続する場合、 集約テーブルの自動認識が効かず、パフォーマンスを改善できないと判明。
  10. AbemaTV, Inc. All Rights Reserved
 Looker-Tableau接続の思わぬ落とし穴 (2/2) ABEMAで分析は以下のように、集計コストが高い特徴がある • データ量が多い

    ◦ 数千万規模のWAU、多彩なジャンルのコンテンツを提供 • 視聴以外にもデータの種類が多く、発生するテーブル結合も多い ◦ 各セマンティックレイヤーツールは、 ディメンショナルモデリングを推奨している印象 ◦ セマンティックレイヤーの管理コストの点からも、 冗長なディメンション管理は避けたい • ディメンションの種類が多く、取り扱うセグメントも複雑 ◦ 様々なユーザが色々な場面で利用されており、網羅すべき定義が多い ABEMAがBI上で利用するクエリは、基本的に事前集計が必須。 何らかの対応策を講じないと、 Lookerの利用は非現実的。
  11. AbemaTV, Inc. All Rights Reserved
 【補足】Lookerの集約テーブルとは • Lookerの集約テーブルとは 指定のディメンション・メジャーで 事前に集計したロールアップテーブル

    • Lookerは、クエリ内容に応じて、 利用可能な集約テーブルを選択し、 クエリを効率的に実行する(自動認識) • 例えば、注文明細に対して、 日次の売上の集約テーブルを用意すれば、 対応可能な日次の売上や週次・月次の売上で、 自動的に集約テーブルを活用した集計実施 Lookerは、事前に集約テーブルを構築することで、 特定のクエリパターンに対してパフォーマンス改善が可能になっている。
  12. AbemaTV, Inc. All Rights Reserved
 コネクタ接続と比較した特徴を下記に整理 󰢏 良い点 ◦ 集約テーブルを参照するため、

    パフォーマンス良好 ◦ Looker-Tableauコネクタの制約を回避 ▪ コネクタはパーティションと相性❌ • 弊社でBigQuery-Tableau接続の実績あり 󰢃 悪い点 ◦ 対応可能なクエリは、 集約テーブルで対応可能なパターンのみ ◦ 管理機構の構築・運用コスト Tableau利用時の集約テーブル参照方式の特徴について ABEMAは、パフォーマンス等の制約から集約テーブルを参照したが、 基本的にはコネクタ利用が望ましいと考えられる。
  13. AbemaTV, Inc. All Rights Reserved
 ツール調査・検証 まとめ • 自社に合うセマンティックレイヤーとして、Lookerを採用した ◦

    セマンティックレイヤーは、集計定義管理以外にも多くの機能を持ち、様々な 観点で自社のニーズに合うか判断する必要がある • 検討段階で、自社のユースケースに対応可能か細かく検証すべき ◦ 変化が大きい領域のため、ツール仕様も変動している ◦ ドキュメントには載ってない仕様が存在する可能性もある
  14. AbemaTV, Inc. All Rights Reserved
 分析者に分析する上の課 題をヒアリング ユーザ分析の中で 不十分な機能を整理 ・何の行動

    ・何の要素 ・何のため必要なのか Lookerで社内の分析を扱うためには、データモデルから見直す必要あり。 利用状況や課題を収集した上で、データモデルを設計。 その実現の障壁についても対応し、理想モデル実現に向けて動いている。 Lookerで扱うデータモデルを設計 データ利用状況整理 利用上の課題整理 データモデル設計 実現への障壁解消 社内の利用状況を確認 (重要レポートの参照等) ・主要なファクトと  ディメンション ・対応するメジャー ・結合パターン ・各テーブルの利用数  ≒ 重要度, 対応優先度 利用状況と課題から データモデル定義 ・構築するファクトと  ディメンション ・また、結合関係 ・設計上の課題 ・対応スケジュール データモデル実現での 障壁について対応 特に収集データ仕様に 変更を実施
  15. AbemaTV, Inc. All Rights Reserved
 現状のデータ利用状況整理 モデリングにあたって、現状の活用状況を整理する。 ここは、自分のアナリストとしての業務経験が大きく活きた点。 ファクト 視聴、サブスクや広告等、

    ABEMA内のデータ領域別に以下を整理 • 各テーブルの整備状況 ◦ 社内の重要度・対応優先度 • 集計されるメジャー定義 • データ間の組み合わせ(結合)パターン ディメンション 結合パターン マート 対応するテーブルと関連情報 利用時の結合関係
  16. AbemaTV, Inc. All Rights Reserved
 データ利用上の課題ヒアリング 社内のDSに対して利用上の課題も実施。 ユーザ体験フローを使って、不足している要素を整理。 (データエンジニアはデータモデル図で対話できるが、 DSは活用の文脈で話す

    ) ABEMAのサービス流入から視聴に至るまでの 一連の流れを図に 分析上の課題を各行動 &対応データにマッピング サービスのユーザフローに、 対応するデータを整理し可視化 利用における課題について、 図にまとめながら議論 • 何の行動(≒ファクト) • 何の要素(≒ディメンション) • 何のために(≒対応優先度)
  17. AbemaTV, Inc. All Rights Reserved
 目指すデータモデル設計 ヒアリングした内容を踏まえ、データモデルの理想形を設計。 設計の中で見えてきた障壁についても書き出す。 理想のデータモデルと 実現の障壁について、図上で整理

    現状の実態 + 利用上の課題から、 目指すデータモデル図を設計 • データ • データ間の関係 • 実現上の障壁 また、各データについての 実装時期を段階的に整理
  18. AbemaTV, Inc. All Rights Reserved
 実現への障壁の解消 データモデル実現の障壁を整理すると大きく分けて 2つ。 理想実現にあたって、収集データの見直しは避けられなかった。 •

    ETL/ELT上で未対応のデータ処理 ◦ DWHに必要な情報は揃っているが、目的の対象に追加されていない ▪ 例えば、ABEMAで閲覧したコンテンツのプレミアム限定判定 ◦ 利用時の加工の手間を削減するため、データフロー上で実現 ◦ 我々のチームでの解決が比較的容易 • 収集データの仕様 ◦ DWHに情報がなく、データ処理で対応が困難 or 精度上の課題 ◦ サービス利用のクライアント側で収集すべき情報 ▪ 後述のセッション情報等 ◦ 解決にあたっては、収集データ仕様から見直す必要アリ
  19. AbemaTV, Inc. All Rights Reserved
 理想の分析に対する収集データの課題 ABEMA内の分析における重要部分、 特に流入・回遊経路・視聴における収集データの課題へ対処を行った。 • 流入

    ◦ 形骸化していたメディアのutmパラメータ運用を整理 ◦ -> 流入時のパラメータから、どのメディア経由かの判定を可能に • 回遊経路 ◦ 閲覧セッションと前PV時の閲覧セッションの収集実装を開発依頼 ◦ -> ユーザがどのページからどのページへ移動したか追跡可能に • 視聴 ◦ 視聴セッション情報の仕様を見直し修正実装依頼 ◦ -> 分析上、適切な単位で視聴を追跡できるように
  20. AbemaTV, Inc. All Rights Reserved
 データモデリングへの取り組み まとめ • セマンティックレイヤーで扱うデータモデリングを見直しを試みている ◦

    現状整理の上で理想のモデルを定義し、その障壁に対処 • 現状整理時には、利用実態のファクトや実際の利用上の声を参考にした • 理想のデータモデル実現に向け、大きな課題である収集データ仕様を見直し
  21. AbemaTV, Inc. All Rights Reserved
 Looker導入による社内レポートへの影響 Lookerを導入を進めることで、既存のTableau利用に一部影響。 導入にあたって、各方面への影響に対する調整を進めていく。 集計内容への影響 •

    ディメンション・メジャー内容の変化 ◦ データモデルの変更に伴い発生 ◦ 具体的な影響を調査の上で、各方面に確認 • 利用者視点では、特に変わらずTableauUIで利用可 ◦ パフォーマンス等への影響確認は実施予定 • 前述の集約テーブル参照方式の導入は レポート作成者の業務に大きく影響 閲覧体験への影響 作成業務への影響
  22. AbemaTV, Inc. All Rights Reserved
 非機能面の変化 機能面の変化 レポート閲覧体験への影響 38 •

    閲覧時のUIは変わらず、 これまでと同じTableauを利用 • ダッシュボード上のフィルター等機能 に対する影響なし • 基本的なユーザビリティに変化はない • 集約テーブル参照方式の採用で、 抽出接続からライブ接続へ • 表示パフォーマンスについて、 レポート置換時にチェック Looker導入で生じる、Tableau体験の変化をケアする必要がある。
  23. AbemaTV, Inc. All Rights Reserved
 レポート影響に対する調整 まとめ • セマンティックレイヤー導入で発生する影響に対して、事前に調整 ◦

    集計内容 / 閲覧体験 / 作成業務 に対する影響 • 弊社の場合、特に集計内容への変化や作成業務への変化が大きい ◦ レポート置き換えによる業務影響についてヒアリング ◦ レポート作成チームに役割分担を調整の上、必要なスキトラ実施
  24. AbemaTV, Inc. All Rights Reserved
 まとめ • ここ1年のABEMAのセマンティックレイヤーへの挑戦を振り返り ◦ 導入ツールの調査・検証

    ◦ データモデリングへの取り組み ◦ レポート影響に対する調整 • 次の1年では、本格的にLooker導入を進め、 生成AI連携を取り入れたセルフ分析環境の提供を目指す