Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
Search
Hiroka Zaitsu
March 17, 2022
Technology
1
610
データサイエンティストの仕事紹介 / Data Scientist Job Introduction
2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』を大公開!
https://pepabo.connpass.com/event/239293/
Hiroka Zaitsu
March 17, 2022
Tweet
Share
More Decks by Hiroka Zaitsu
See All by Hiroka Zaitsu
GMOペパボのデータ基盤とデータ活用の現在地 / Current State of GMO Pepabo's Data Infrastructure and Data Utilization
zaimy
3
240
ビジネス職が分析も担う事業部制組織でのデータ活用の仕組みづくり / Enabling Data Analytics in Business-Led Divisional Organizations
zaimy
1
550
Vertex AI Matching Engine と CLIP を使って EC サービスの類似画像検索機能を作る / Development of similar image search function for EC services using Vertex AI Matching Engine and CLIP
zaimy
0
740
BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI
zaimy
1
5.9k
GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 / Inside Story of Data Infrastructure Supporting GMO Pepabo's Services and R&D
zaimy
1
1.8k
正則化とロジスティック回帰/machine-learning-lecture-regularization-and-logistic-regression
zaimy
0
8.7k
ECサイトにおける閲覧履歴を用いた購買に繋がる行動の変化検出 / Change Detection in Behavior Followed by Possible Purchase Using Electronic Commerce Site Browsing History
zaimy
1
940
trinity で Cloud Composer に ワークフローを簡単デプロイ / Easy workflow deployment to Cloud Composer with trinity
zaimy
0
880
ハンドメイド作品を対象としたECサイトにおける大量生産品の検出 / Detection of Mass-produced Goods at EC Site to Trade Handmade Goods
zaimy
3
4.8k
Other Decks in Technology
See All in Technology
Figma + Storybook + PlaywrightのMCPを使ったフロントエンド開発
yug1224
4
270
モダンフロントエンド 開発研修
recruitengineers
PRO
2
260
Goss: Faiss向けの新しい本番環境対応 Goバインディング #coefl_go_jp
bengo4com
0
1.4k
AIエージェント就活入門 - MCPが履歴書になる未来
eltociear
0
440
Amazon Bedrock AgentCore でプロモーション用動画生成エージェントを開発する
nasuvitz
6
420
ソフトウェア エンジニアとしての 姿勢と心構え
recruitengineers
PRO
2
610
退屈なことはDevinにやらせよう〜〜Devin APIを使ったVisual Regression Testの自動追加〜
kawamataryo
1
130
どこで動かすか、誰が動かすか 〜 kintoneのインフラ基盤刷新と運用体制のシフト 〜
ueokande
0
180
Understanding Go GC #coefl_go_jp
bengo4com
0
1.1k
7月のガバクラ利用料が高かったので調べてみた
techniczna
3
250
小さなチーム 大きな仕事 - 個人開発でAIをフル活用する
himaratsu
0
120
攻撃と防御で実践するプロダクトセキュリティ演習~導入パート~
recruitengineers
PRO
1
140
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
56
5.8k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
570
Site-Speed That Sticks
csswizardry
10
780
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
131
19k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Building Adaptive Systems
keathley
43
2.7k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Producing Creativity
orderedlist
PRO
347
40k
Docker and Python
trallard
45
3.5k
Fireside Chat
paigeccino
39
3.6k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
Transcript
データサイエンティストの 仕事紹介 財津大夏 / GMO PEPABO inc. 2022.03.17 GMOペパボのエンジニア・データサイエンティストの『リアル』 を大公開!
1
2 自己紹介 技術部 データ基盤チーム 2012年 入社 • データサイエンティスト • ペパボのデータ基盤「Bigfoot」の開発/運用
• Bigfoot を使ったデータ分析/活用 • Twitter : @HirokaZaitsu #データ基盤 #DataOps #MLOps #Python #SQL # 統計学 #機械学習 財津 大夏 Hiroka Zaitsu
3 専門性 データサイエンス力、データエンジニアリング力をベースに データから価値を創出し、ビジネス課題に答えを出すプロフェッショナル データサイエンティスト データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf
4 データサイエンティストに求められるスキルセット ビジネス力 データ サイエンス力 データ エンジニア リング力 データサイエンスを意味のある形に 使えるようにし、実装、
運用できるようにする力 情報処理、人工知能、 統計学などの情報科学系の 知恵を理解し、使う力 背景課題を理解した上で、 ビジネス課題を整理し、 解決する力 データサイエンティスト協会、データサイエンティストのミッション、スキルセット、定義、スキルレベルを発表 http://www.datascientist.or.jp/files/news/2014-12-10.pdf より再構成
5 データサイエンティストに求められるスキルセット ビジネス力 • ビジネスとデータの理解 • データ倫理の理解 • データ活用の アプローチ設計
• ビジネスへの実装 etc... データサイエンス力 • 統計や機械学習に関連する 基礎的な数学 • データ加工, 可視化 • 統計モデルや 機械学習モデルの理解と使用 etc... データエンジニアリング力 • データ収集, 統合システムの設 計, 実装, 運用 • データセット, テーブル設計 • 分析パイプラインの実装 • 機械学習パイプラインの実装 etc... 一般社団法人データサイエンティスト協会 スキルチェックリスト https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf より一部引用・再構成
6 データ駆動の実現に向けて 具体的な仕事内容の前に ...
• 日本 CTO 協会が作成したアセスメントツール • DX の進捗度を自己診断できる • 5 つのテーマのうちの
1 つが「データ駆動」 7 DX Criteria とデータ駆動 日本CTO協会 DX Criteria ver.201912 https://github.com/cto-a/dxcriteria/blob/master/asset/image/dxcriteria201912.pdf データ駆動の実現に向けて DX Criteria の実践とその活用について | ペパボテックブログ https://tech.pepabo.com/2020/02/19/dx-criteria/
• マーケティング自動化 • データを元にサービスの振る舞いを変える • 例)ECサイトのカゴ落ちメール • 自動的な意思決定 • 決定に必要な指標を計測可能・非属人的にして自動化可能にする
• 例)統計的な判断 • 決定後のシステム挙動の変更を自動化する • 例)データに基づいてテストパターンを競わせるバンディットアルゴリズム 8 データ駆動によって目指すもの データ駆動の実現に向けて
9 提供するサービスを データ駆動によって より良くしていきたい
• 実現を阻む一般的な課題 • データを集める仕組みがない • そもそも保存していない • 保存しているけど Google Analytics,
広告ツール, データベースなどに分散している • 集めたデータを分析する仕組みやスキルがない • 分析したデータを活用する仕組みがない • いきなりデータ駆動にはなれないので ... 10 データ駆動になるぞ!!! データ駆動の実現に向けて
• 各セルの要素を揃えていくことでデータ駆動を目指す • Bigfoot は青いセルの要素を扱いやすくしてデータ駆動化をサポート 11 データ駆動までの道のりを3つの段階と2つのレイヤに整理 収集 分析 活用
システム リテラシ データ駆動 DWH Logger BI / Dashboard ワークフロー データ連携 データ集計 統計知識 事業価値の理解 統計的な判断 機械学習基盤 適応的改善機構 情報推薦 機械学習 サービスの動的改善 自動的な意思決定 + = 段階 データ駆動の実現に向けて
12 データ駆動を全社的に実現するために データサイエンティストの仕事内容 • データの収集・分析・活用を行うためのデータ基盤 Bigfoot の開発・運用 • Bigfoot を使ったデータ収集・分析・活用
➡ 解像度を上げてイメージしていただけるように直近の取り組みを具体的に紹介します
• サービスの DB から Bigfoot へのパイプラインの改善 • データエンジニアがサービスに適したバッチジョブを設計・実装 • データサイエンティストがワークフローでの制御を設計・実装
• DB の完全なコピーを BigQuery*1 で利用可能 ➡ 半日掛かるクエリが1秒に 🚀 13 取り組みの例 データ基盤の開発・運用① データサイエンティストの仕事内容 *1) Google が提供するマネージドデータウェアハウスサービス。 SQL を使ってビッグデータを高速に分析できる。 データエンジニアリング ビジネス
• 機械学習基盤の構築 • バラバラに実装されている既存のモデルを統合して効率的に管理可能に • 既存のモデルの移行を順次実施 • ローカル環境では実施できない処理をクラウドの Jupyter 環境で実施できるようにする
➡ エンジニアや研究者やデータサイエンティストがモデルに集中できるように 🚀 14 取り組みの例 データ基盤の開発・運用② データサイエンティストの仕事内容 データエンジニアリング データサイエンス
• ワークフロー中のコンテナの扱いの改善 • コンテナを使う処理がいくつかの GCP*1 サービスに跨っていて運用が難しかった ➡ コンテナ単位の処理を GKE*2 に集約してワークフローに組み込めるように
🚀 • データ収集の仕組みの改善 • ログ収集を GraphQL*3 を使った API に対応 ➡ エンジニアがログ設計を意識しなくてもデータ収集できるように 🚀 15 取り組みの例 データ基盤の開発・運用③ *1) Google Cloud Platform の略。前出の BigQuery を含む Google のクラウドサービス群の総称。 Bigfoot は GCP サービスを中心に構成されている。 *2) Google Kubernetes Engine の略。コンテナ化されたアプリケーションを実行するためのマネージドサービス。 Google Cloud Platform に含まれる。 *3) API 向けのクエリ言語。従来 Bigfoot は、これまでサービスで多く使われていた REST を使った API を前提にデータ収集を行っていた。 データサイエンティストの仕事内容 データエンジニアリング データエンジニアリング ビジネス
• ECサービスAの商品検索機能の改善 • 施策の評価に必要なデータの設計と収集 • 収集したデータの集計・可視化 • パイプライン化 ➡ いつでも最新のデータで施策を評価可能に
🚀 • ECサービスBのユーザー行動分析 • Bigfoot の導入から、必要なデータの設計と収集 • 行動ログに付与する utm パラメータ*1 の設計と運用 • DB, 広告プラットフォーム , アプリストアから同期したデータと統合・セッション化 ➡ ユーザー行動や属性を統合して分析・ビジネスに反映可能に 🚀 16 取り組みの例 基盤を使ったデータ収集・分析・活用① データサイエンティストの仕事内容 *1) Google Analytics で参照元を判別するために URL に付与するパラメータ。 Bigfoot も utm パラメータを使って参照元を判別している。 ビジネス データエンジニアリング データエンジニアリング データサイエンス ビジネス データサイエンス
• GitHub Enterprise のデータから全社の生産性指標を定量化、 インタラクティブなダッシュボードで参照可能に 🚀 17 取り組みの例 基盤を使ったデータ収集・分析・活用② データサイエンティストの仕事内容 エンジニアの活動情報から
Four Keysを集計、可視化した話 | ペパボテックブログ エリート DevOps チームであることを Four Keys プロジェクトで確認する | Google Cloud Blog ビジネス データエンジニアリング データサイエンス
• 社内向け機械学習研修 • ペパボ研究所とデータ基盤チームで担当 • 機械学習を当然にサービスに導入していく時代になっている • ビジネス理解, データサイエンス, データエンジニアリングの一通りの流れを体験
➡ 新卒エンジニアが全員 BigQuery で機械学習モデルが作れる状態に 🚀 18 取り組みの例 その他① データサイエンティストの仕事内容 https://github.com/pepabo/training/blob/master/data-and-machine-learning/day5_machine_learning_hands_on.pdf
• 社内外向けにブログ記事や OSS の公開, 登壇 • データサイエンティストだけではなくペパボのパートナーとしての働き方の紹介です • 個人ブログやペパボテックブログ •
業務課題を解決するツールの OSS 化 • zaimy/trinity: A tool to synchronize workflows (DAGs) between Codebase, Cloud Storage and Airflow metadata. - GitHub • イベントの登壇 • GMOペパボのサービスと研究開発を支えるデータ基盤の裏側 - Speaker Deck ➡ 「ファンを増やすこと」「アウトプットすること」を大切に 🚀 19 取り組みの例 その他② データサイエンティストの仕事内容
• ペパボは多数のサービスを開発・運用している • 全サービスで「意思決定の自動化」「マーケティング自動化」に近づけていく • 各セグメントにデータサイエンティストを配置できるよう組織化を進める • 基盤チーム所属のデータサイエンティストとして 3つのスキル領域を伸ばす •
エッジな取り組みを各サービスで進めていく 20 全サービスでデータ駆動が当たり前の状況を実現する 今後やっていくこと