Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ABEMAはなぜセマンティックレイヤーに挑戦しているのか?
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Sotaro Tanaka
April 26, 2024
Technology
1.3k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
ABEMAはなぜセマンティックレイヤーに挑戦しているのか?
Sotaro Tanaka
April 26, 2024
More Decks by Sotaro Tanaka
See All by Sotaro Tanaka
データエンジニアリング 4年前と変わったこと、 4年前と変わらないこと
tanakarian
4
1k
データ基盤の○層構造を独り歩きさせない データモデリング設計 Data Ops Night #1
tanakarian
3
5.8k
dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
tanakarian
8
16k
データ分析基盤の障害を未然に防ぐためのチェックリスト / checklist for preventing incidents of data management system
tanakarian
1
14k
データの価値を失わないためのData Reliability
tanakarian
7
12k
building-evolutionary-data-warehouse
tanakarian
2
11k
Other Decks in Technology
See All in Technology
ロボティクスの技術 / Robotics Technology
ks91
PRO
0
130
アジャイルな経理と Claude Code と経営の未来
kawaguti
PRO
3
190
iOS アプリの「これって不具合ですか?」を AI に調べてもらう
miichan
0
140
Deep Data Security 機能解説
oracle4engineer
PRO
2
110
SteampipeとExcel Power QueryでAWS構成定義書の作成を自動化する
jhashimoto
0
180
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
430
Claude Codeをどのように キャッチアップしているか
oikon48
13
8.8k
フィジカル版Github Onshapeの紹介
shiba_8ro
0
320
5分でわかるDuckDB Quack
chanyou0311
3
250
週末にループ・エンジニアリングの理解を深めるためのスライド
nagatsu
0
190
AWS Security Hub CSPMの成功・失敗体験
cmusudakeisuke
0
540
本当の”仕事”を手放せる未来が見えた
mu7889yoon
0
130
Featured
See All Featured
The untapped power of vector embeddings
frankvandijk
2
1.8k
The B2B funnel & how to create a winning content strategy
katarinadahlin
PRO
1
400
Evolving SEO for Evolving Search Engines
ryanjones
0
220
Speed Design
sergeychernyshev
33
1.9k
Utilizing Notion as your number one productivity tool
mfonobong
4
330
Paper Plane
katiecoart
PRO
1
52k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
From π to Pie charts
rasagy
0
220
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
540
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Site-Speed That Sticks
csswizardry
13
1.2k
Transcript
AbemaTV, Inc. All Rights Reserved 1 ABEMAは なぜ セマンティックレイヤー に挑戦しているのか?
2024/04/25 #MTS 株式会社AbemaTV Sotaro Tanaka @__sotaron__
AbemaTV, Inc. All Rights Reserved Sotaro Tanaka 株式会社AbemaTV 開発本部 Data
div. DataManagement Team Mgr • 2023/04~ ABEMAでデータマネジメント • Data Management & BI • Data Engineering • Like: コンテナ技術 / dbt / 小倉唯さん • Hobby: 🏂 / 🎮 / ⚽ / 小倉唯さん 2 Profile X(旧Twitter) @__sotaron__
AbemaTV, Inc. All Rights Reserved 今日お話すること 3 ABEMAでは今、セマンティックレイヤーの導入・構築に挑戦しています。 大規模なプロダクト・組織だからこそ、その効用が大きいと感じる セマンティックレイヤーについて
ABEMAにおける前提の背景や課題とあわせて、その導入プロジェクトをご紹介します。
AbemaTV, Inc. All Rights Reserved 4 ABEMAのご紹介
AbemaTV, Inc. All Rights Reserved 5 ※ 投資家向け資料 より
AbemaTV, Inc. All Rights Reserved ABEMA 紹介 6 複数デバイス対応・多彩なチャンネルラインナップ
AbemaTV, Inc. All Rights Reserved ABEMA 紹介 7
AbemaTV, Inc. All Rights Reserved 8 ※ 投資家向け資料 より
AbemaTV, Inc. All Rights Reserved 9 ※ 投資家向け資料 より
AbemaTV, Inc. All Rights Reserved 10 セマンティックレイヤーとは?
AbemaTV, Inc. All Rights Reserved その前に:ABEMAのデータ基盤の現状構成 現状はオーソドックスなレイク・ DWH・マートの3層 + BIツール(Tableauやスプシ)という構成
11 データレイク DWH / データマート レポーティング Tableau Server BigQuery Cloud Strage DWH データマート
AbemaTV, Inc. All Rights Reserved セマンティックレイヤー は「データ」と「ビジネスの概念」を繫ぐ層 12 BIツール /
レポートA DWH メジャー ディメンション BIツール / レポートA DWH 汎用 セマンティック レイヤー メジャー BIツール / レポートB BIツール / レポートC BIツール / レポートB BIツール / レポートC メジャー … Tableauの機能制限で 過去期間データや集計軸を変えただけ のデータ出しにも依頼・作業が必要 ビジ 開発 Eng 参照 クエリ 発行 結果返却 キャッシュ メジャー ディメンション メジャー ディメンション ディメンション ディメンション 集計 データ 閲覧 現状構成 汎用セマンティックレイヤーを導入した構成
AbemaTV, Inc. All Rights Reserved ABEMAでは 従来型BIツールの制約を超えたセマンティックレイヤーの構築に挑戦 13 BIツール /
レポートA DWH メジャー ディメンション BIツール / レポートA DWH 汎用 セマンティック レイヤー メジャー BIツール / レポートB BIツール / レポートC BIツール / レポートB BIツール / レポートC メジャー … Tableauの機能制限で 過去期間データや集計軸を変えただけ のデータ出しにも依頼・作業が必要 ビジ 開発 Eng 参照 クエリ 発行 結果返却 キャッシュ メジャー ディメンション メジャー ディメンション ディメンション ディメンション 集計 データ 閲覧 現状構成 汎用セマンティックレイヤーを導入した構成
AbemaTV, Inc. All Rights Reserved 14 なぜ セマンティックレイヤー?
AbemaTV, Inc. All Rights Reserved ABEMAの状況1⃣:大規模ゆえのデータを求める人の多さ、多様さ 15 大規模な組織・プロダクトゆえに各プレイヤーのデータ習熟度や求めるデータのばらつきが大きい。 依頼ベースで「今回はこの定義でデータ出して」 がコントロールしきれない。
AbemaTV, Inc. All Rights Reserved ABEMAの状況2⃣:プロダクトの「歴史」 16 サービスの成長・時流に合わせて、 UI/UXも変わっていく。 仕様が変更されても、当時のログ、データは残る。
同じ「指標」を算出するにも 5年前と今とでは、集計定義を変えな ければいけない、というケースも多々ある。 ログやマスタへの変更が、予想もしていなかった 古のレポートに影響したりもする。 そして、そういうレポートは偉い人が見ていたりする。
AbemaTV, Inc. All Rights Reserved ABEMAの状況3⃣:データモデルの複雑さ 17
AbemaTV, Inc. All Rights Reserved あなたならこの画面でどんなログをとりますか? (権利関係でダミー画面です ) 18
AbemaTV, Inc. All Rights Reserved 「視聴」は状態のあるイベント 19 「59:00あるコンテンツの14:36時点」のように、状態のあるイベントをどうログとして表現するか? ログ送信クライアント側の実装も離散的なイベントよりも難しい。 ←
→ 14:36時点から戻ることも進めることもできる
AbemaTV, Inc. All Rights Reserved 指標化の難しさ:ユーザーが「見た」ことをどう定義・表現するのか? 20 そのコンテンツにおいて、重要なシーンを通過したことを「見た」と捉えるのか? それとも単純にコンテンツに触れていた時間が一定以上であることを「見た」と定義するのか? 遠藤航選手のプレミア初ゴールシーン
ここから重要シーン 14分36秒視聴
AbemaTV, Inc. All Rights Reserved 「視聴」の指標化は難しい 21 ABEMAのコアドメインである「視聴」の指標化は、特にデータモデリングの腕が試されます。 ここで話しただけでも以下のようなことを考えたモデル化が必要。 一つの単純な指標では表現しきれない「視聴」という概念の捉え難さ。
視聴形態 コンテンツジャンル ユーザーステータス テレビ / ビデオ / ライブという複数の視聴形態 スポーツとアニメでは、「見た」として捉えるべき ユーザー行動が異なるのでは?など ユーザーの課金ステータスによっては、 広告再生時点まで視聴しているかどうか、が重要
AbemaTV, Inc. All Rights Reserved 課題整理:ビジネス指標と ABEMAのデータモデルの翻訳が難しい 22 DWH /
データマート レポーティング Tableau Server BigQuery DWH データマート ABEMAのデータモデルは そもそも難しい(視聴ログとか) こんなデータも 追加でみたい な。。 一部の人しか集計ができず、 ちょっとしたデータ出しにも 依頼と待ちが発生 歴史あるプロダクトのデータ定義は 難しい(仕様変更・機能追加/削除) 「見たい数字」と 「ABEMAのデータモデル」 の翻訳が難しい 活用の現場 課 題 社内ユーザー 集計担当
AbemaTV, Inc. All Rights Reserved 23 セマンティックレイヤーで どう変えるか?
AbemaTV, Inc. All Rights Reserved 社内ユーザーは翻訳された「指標」にアクセスできるように 24 DM管理 BIツール /
レポートA DWH 汎用 セマンティック レイヤー メジャー BIツール / レポートB BIツール / レポートC メジャー … 参照 クエリ 発行 結果返却 キャッシュ ディメンション ディメンション 従来型のBIツール内ワークブックごとの指標定義の分散を避け、 統一した定義 で、 ABEMAデータモデル⇔ビジネス指標の翻訳をセマンティックレイヤーを介して実現。 データマネジメント チーム 社内ユーザー 専門職として、データモデルの難 しさを吸収したセマンティックレ イヤーの構築 翻訳された「指標」を活用し、迅 速にレポート作成
AbemaTV, Inc. All Rights Reserved 25 これからの話
AbemaTV, Inc. All Rights Reserved ABEMAのデータマネジメントがこれから目指すデータ基盤 26 データレイク DWH /
データマート レポーティング BigQuery Cloud Strage DWH データマート 論理モデル dbt 汎用セマンティックレイヤーの導入 dbt(データ変換ツール)の導入 生成AI✖BI
AbemaTV, Inc. All Rights Reserved dbtの運用事例 27 セマンティックレイヤー導入の前段として、 DWHのデータモデリング、パイプラインに dbtを導入。
Airflow上で大きめかつ複数のワークフローを dbtと組み合わせて運用する面白い事例ができてきています。 詳細は、弊チームメンバーからいずれ発表なり、テックブログなりでお伝えできると思います。 また、中身のデータモデリングはまだまだこれから が面白い領域にもなっています。 Airflow-likeなオペレーション セマンティックレイヤーと繋げる データモデリング dbt単体では構築しにくい、失敗時の部分リトライなどを考慮した Airflow + dbtの構成 先述したドメイン特性により難易度の高いデータモデリングを 後段の汎用セマンティックレイヤーとの相性も考慮して構築
AbemaTV, Inc. All Rights Reserved セマンティックレイヤーのこれから 28 汎用セマンティックレイヤーの実際の導入に関しては、まさにこれから。 生成AIの発展は、データ基盤領域や BI領域にも影響があり、特にセマンティックレイヤー周辺はこれから業
界としても面白い技術な予感。 下記がキーワード。 生成AI×BI 既存BIツールとの統合性を 考慮したアーキテクチャ セマンティックレイヤーは生成 AIと相性が良さそう あるいはセマンティック自体を生成 AIで作っていくことも…? ABEMAの場合だと、既存Tableau Serverとの統合性を意識した アーキテクチャや運用を考える必要がある
AbemaTV, Inc. All Rights Reserved 一緒にやりませんか? これらの仕事を 2000万に迫る WAU規模のプロダクト でやることに興味を感じた方は、
ぜひ X(旧Twitter): @__sotaron__ までDMください! カジュアルにお話することから始めましょう。情報交換だけでも 👌 or 次スライドにある QRコードからカジュアル面談申込 or エントリー いただいても大丈夫です! 29
AbemaTV, Inc. All Rights Reserved 『ABEMA』では 一緒に挑戦する仲間を募集中です! ✔オンラインでカジュアル面談実施中 ✔今すぐ転職を考えていなくてもOK! 応募はこちら👉
カジュアル面談は こちらから👉
None
AbemaTV, Inc. All Rights Reserved 定義できる場所が複数ある、データ量の問題 32 Tableauレポート DWH …
ビジネスロジック Tableauレポート Tableauレポート ビジネスロジック ビジネスロジック DM管理 ADT管理 「59:00あるコンテンツの14:36時点」のように、状態のあるイベントをどうログとして表現するか? ログ送信クライアント側の実装も離散的なイベントよりも難しい。