Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accel...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
chck
October 08, 2021
Research
180
0
Share
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab
PRMU #202110
での発表資料です
chck
October 08, 2021
More Decks by chck
See All by chck
Research Engineerという仕事 / Research Engineering: Bridging Research and Business
chck
0
31
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
6
4.4k
CyberAgent AI Lab研修 / Container for Research
chck
1
2.3k
CyberAgent AI Lab研修 / Code Review in a Team
chck
3
2.3k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
120
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
3
6k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
78
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
56
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
58
Other Decks in Research
See All in Research
Dual Quadric表現を用いた動的物体追跡とRGB-D・IMU制約の密結合によるオドメトリ推定
nanoshimarobot
0
360
ICCV2025参加報告_採択されやすいワークショップの選び方
kobayashi31
0
160
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
210
Apache Gravitinoで実現する Icebergカタログ統合とアクセスの一元化
matsumooon
0
100
2026年度 生成AI を活用した論文執筆ガイド/ワークショップ / 2026 Academic Year Guide to Writing Papers Using Generative AI - Workshop
ks91
PRO
0
140
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
710
Cross-Media Information Spaces and Architectures
signer
PRO
0
280
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
260
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
270
AY 2026 Guide to Academic Writing Using Generative AI - Workshop
ks91
PRO
0
110
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
160
The mathematics of transformers
gpeyre
0
270
Featured
See All Featured
Everyday Curiosity
cassininazir
0
210
Done Done
chrislema
186
16k
Technical Leadership for Architectural Decision Making
baasie
3
360
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
200
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
550
Marketing to machines
jonoalderson
1
5.3k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
190
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.9k
Google's AI Overviews - The New Search
badams
0
1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.6k
Paper Plane (Part 1)
katiecoart
PRO
0
7.6k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
250
Transcript
Web系企業研究所における 研究開発を加速させるエコシステム PRMU研究会 20211008 Yuki IWAZAKI@chck / CyberAgent AI Lab
Hello! I am Yuki IWAZAKI@chck ◦ 2014...Backend Engineer in DSP
└2018-...Research Engineer in AI Lab ◦ Ad x Multimedia (Vision & Language) 2
CyberAgentの事業領域 3
AI Labの立ち位置 4
CyberAgent AI Labについて 2016年に設立された研究組織 30名以上のResearch Scientist, Engineerが在籍 今年の論文投稿数99件 (acceptance: 31.3%)
https://cyberagent.ai/ailab/ 5
組織体制 AI Lab Creative Group Human-computer interaction Econ & Optimization
Creative Research NLP Applied ML Algorithms Graphics Audio Media Fundamentals Econ Research Econ Social Implementation Reinforcement Learning 6
AI LabにおけるR&Dの進め方 • 学術貢献 -> 論文投稿, 学会発表, 特許 ◦ Proposal
first, Bottom up ▪ 会社の事業領域に関連する基礎, 応用研究 • 事業貢献 -> コンサル, EDA, Modeling ◦ Task first, Top down ▪ プロダクトと連携して課題解決 7
AI LabにおけるR&Dの進め方 • 学術貢献 -> 論文投稿, 学会発表 ◦ Proposal first,
Bottom up ▪ 会社の事業領域に関連する基礎, 応用研究 • 事業貢献 -> コンサル, EDA, Modeling ◦ Task first, Top down ▪ プロダクトと連携して課題解決 8
共通のML基盤を持たないAI事業本部 広い事業領域 - over 20 products 少数精鋭の開発チーム - 5-15名/product 裁量権は各チームに
- 技術選定からプロセスまでメ ンバーで決定 9
プロダクトとの連携例 タスク相談 モデル実装 データ提供 実験レポート共有 プロダクトA AI Lab 専門的なFeedback 産学連携先
研究室 データ提供 タスク相談 専門的なFeedback モデル実装 実験レポート共有 10
プロダクトとの連携例2 タスク相談 モデル実装 データ提供 実験レポート共有 プロダクトB AI Lab 専門的なFeedback 途中から参戦
データ提供 専門的なFeedback AI Lab 11
研究組織における3つの課題 1. データ管理 2. モデル管理 3. 実験管理 12
1. データ管理
課題: データ管理 • データ形式がProduct/Project毎に違う ◦ CSV, JSON, S3, RDB, BigQuery,
etc… ◦ Domain知識フル動員な鬼Query • 前処理の共有や冪等性担保が困難 ◦ 属人的で難解なREADME ◦ 先人の実験時とレコード数が違う ◦ リーダブルコーディングが浸透しづらい ◦ 新メンバーやインターンの学習コスト高 preprocess preprocess preprocess product_a dataset_c product_b 14
解決: tensorflow-datasets • Public/Private Dataset loader ◦ 社内GitHubからpip installで利用 •
特徴 ◦ データの読込, 追加が簡単 ◦ ProductやProjectの単位でVersioning ◦ Apache Beamによる並列分散処理 product_a product_b dataset_c product_a dataset_c product_b ailab-datasets 15
tensorflow-datasets: load tf.dataやnumpy, pandas形式でloadできる 16
tensorflow-datasets: load tf.dataやnumpy, pandas形式でloadできる 17 Datasetを指定 Iterationの定義
tensorflow-datasets: load tf.dataやnumpy, pandas形式でloadできる 18 tf.data numpy pandas
tensorflow-datasets: create tfds cliからtemplateを生成 19
20
21 Versioning Metadata. カラムの型の定義 データの説明文 引用論文のURL データのダウンロード 分割方法の指定 前処理含むGenerator
22
23 前処理含むGenerator (apache-beam pipeline)
ailab-datasets: list product_a product_b ailab_datasets/ ┣products/ ┃┣product_a ┃┗product_b ┣image_classification/ ┃┗imagenet
┗text_generation/ https://www.tensorflow.org/datasets/catalog/overview 25
2. モデル管理
課題: モデル管理 • モデルの再発明が多発 ◦ 似たタスク前に誰かがやっていたような ◦ benchmark取りたいが再実装した方が早そう • 研究者間でモデルの重みシェアしたい
◦ 既にどんなモデルがあるか把握しづらい ◦ Aさんの学習済モデルはBさんのテーマで応用できるかも • Public pre-trained modelのprivate版がほしい ◦ ResNet(on imagenet)やBERT(on jawiki)の社内データ版 27
解決: AI Hub tensorflow-hubのManaged版であるAI Hub(GCP)を利用 学習済モデルやNotebookがPrivateに共有可能 28
AI Hub 実体はuploadしたobjectの検索service Metadataを入力し共有したいobjectをupload tf.hubのself-hostingも可能だが 現状はCloud版であるAI Hubで必要十分 tensorflow/hub/issues/266 29
AI Hub 検索機能付きで管理しやすく,Downloadして利用 30 Public model Private model
3. 実験管理
課題: 実験管理 Teamや個人で実験管理がしたい Free: MLflow, Keepsake, TensorBoard SaaS: Neptune.ai, Comet.ml,
Wandb MLflowはServer構築が面倒 SaaS系は個人の無料枠を超えると高い 32
課題: 実験管理 MLflow Serverを1つ立てて使い回しでもよいが, Experiments枠で各Userの実験を混ぜると煩雑 個人やチーム単位で1MLflowあるとBetter 33 ▪ Write ▪
Read
解決: MLflow Cluster • AI Lab共通のMLflow Clusterを構築 • 特徴 ◦
実験管理は各人独立したendpointを提供 ◦ OSSのMLflow Tracking ServerをLab PrivateでHosting ◦ GCP Resourceで各ユーザはCost/Server管理要らず ◦ Google Account Whitelistで共同研究先との利用にも 34
35
36
37
38
Cloud IAPによるユーザ認証 39 Not Authorized
利用の流れ 1.利用希望者の$user endpointを作成 2.Training codeからOAuth Token発行 3.Serverに向けて実験ログを飛ばす 4.${MLFLOW_HOST}/${USER}にアクセス 5.実験結果を自由に管理 40
MLflow Cluster構築ハンズオン Blog公開したのでぜひ https://cyberagent.ai/blog/research/15272/ 41
Summary - 実験の流れ - Data (tensorflow-datasets) - -> Preprocess (tft,
tf.data, numpy, pandas) - -> Training (ai platform training) - -> Save model (AI Hub) - -> Report (MLflow) OSSを上手くwrapすることで メンテコストを抑えた実験サポート環境を実現 42
We’re Hiring! (学生の方向け) 44
We’re Hiring! (学生の方向け) 45
We’re Hiring! (社会人の方向け) 46
We’re Hiring! (社会人の方向け) 47
48 Thanks! Any questions? You can find me at: ◦
github.com/chck ◦
[email protected]