Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIの血肉となるアノテーションデータのために大事にしている事
Search
CyberAgent
PRO
November 14, 2024
2
66
AIの血肉となるアノテーションデータのために大事にしている事
CyberAgent
PRO
November 14, 2024
Tweet
Share
More Decks by CyberAgent
See All by CyberAgent
Unity6世代のアップデートをサラッとまとめ
cyberagentdevelopers
PRO
0
92
Unity6の新機能 STPについての話
cyberagentdevelopers
PRO
0
55
Unity 6 シェーダーWarmupガイド
cyberagentdevelopers
PRO
0
87
Unity6 の Android周辺の アップデートについて
cyberagentdevelopers
PRO
0
57
ジャンプTOONにおけるサイトマップの自動生成手法について
cyberagentdevelopers
PRO
0
53
ABEMA スマートテレビアプリケーションのパフォーマンス改善: 業界トップクラスを目指して / Muddy Web #10 ~Special Edition~ 【ゲスト: pixiv】
cyberagentdevelopers
PRO
0
36
未来のテレビを形づくる ABEMAのグロース戦略:ユーザー体験と品質向上のアプローチ
cyberagentdevelopers
PRO
1
480
IBC 2024 動画技術関連レポート / IBC 2024 Report
cyberagentdevelopers
PRO
1
260
生成AIは安心・安全に貢献できるのか
cyberagentdevelopers
PRO
0
60
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
Thoughts on Productivity
jonyablonski
69
4.5k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
Facilitating Awesome Meetings
lara
51
6.2k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
Gamification - CAS2011
davidbonilla
80
5.1k
The Language of Interfaces
destraynor
156
24k
Adopting Sorbet at Scale
ufuk
74
9.2k
The Invisible Side of Design
smashingmag
299
50k
Measuring & Analyzing Core Web Vitals
bluesmoon
6
240
How STYLIGHT went responsive
nonsquared
98
5.4k
Transcript
CA DataNignt AIの血肉となるアノテーションデータの ために大事にしている事 AI事業本部 極事業部 小林 拓磨 1
Agenda 1. 自己紹介・やっていること 2. 今回話す領域について 3. 弊社でのアノテーション体制について 4. アノテーションサイクルの概観 5.
現実は… 〜タスクや粒度の具体的なケーススタディ〜 6. まとめ 2
自己紹介・やっていること
今日の担当 4 小林 拓磨 所属: 極事業部 新規プロダクトチーム 役割: ML/DS→開発責任者 &
技術組織の盛上げ [普段の仕事 ] - ロードマップ・事業戦略・フロー設計 - 画面・システム設計 - PoC設計・バックログ管理 - バックエンド・インフラ実装 [趣味] - 旅行/ご飯/ワーケーション - 仕事 - 猫 @cat_to_love 自己紹介・やっていること
5 自己紹介・やっていること 広告予測エンジンの開発 生成系サービスの開発
弊社でのアノテーション体制について
アノテーションセンター アノテーター データ エンジニア マネジメント 7 アノテーション 依頼 データ 納品
全事業 AI活用を全社で 加速させる IP 弊社でのアノテーション体制について
今日のテーマ
アノテーションの ブレを無くしたい!! ※ ※基準とか認識とかとか
今回話す領域について
11 アノテーション このサイクルはどのように回るか? その中でブレを無くす上で 何が大事にしたか? 何が壁だったか? 何ができるのか? 今回話す領域について ? ?
? ? ? ?
アノテーションサイクルの概観
13 アノテーション まずはサイクルの概観について アノテーションサイクルの概観 ? ? ? ? ? ?
14 アノテーション まずはサイクルの概観について 設計 テスト 実行 運用 再設計 評価 FB・改善
アノテーションサイクルの概観
15 アノテーションの設計 設計 テスト 実行 運用 再設計 評価 FB・改善 アノテーションの設計
16 アノテーションの設計 この小林実家ねこすけの画像に アノテーションする
17 ・目的に合わせてタスク選定 を行う →同じ画像でもタスクは様々 セグメンテーション 物体検知 キャプション スコアリング 姿勢 タグつけ
ねこすけ “可愛い茶色のねこが顔を洗っている” 可愛さ:100点 <猫><可愛い><スコティッシュ> アノテーションの設計
18 ・目的に合わせて粒度設計を行う →同じタスクでも粒度/基準は様々 セグメンテーション 物体検知 キャプション ねこすけ “可愛い茶色のねこが顔を洗っている” ・セグメンテーションの粒度
・体のパーツ分けはする? ・毛などの周辺領域は? ・背景領域は? などなど ・BBoxの粒度 ・顔のみなのか ・隠れている領域は? ・BBoxにラベルもつける? ・キャプションの粒度 ・表情まで入れ込むか? ・主体物についてのみ? ・背景等の周辺も? ・主観は入れる?( 可愛い など) アノテーションの設計
19 ・目的に合わせてタスク選定 を行う →同じタスクでも粒度/基準は様々 スコアリング 姿勢 タグつけ 可愛さ:100点 <猫><可愛い><スコティッシュ>
・スコアリングの基準 ・可愛さの基準は? ・具体何があったら可愛いの か?→主観でいい? などなど ・線や点の基準 ・手首までなのか指先までか ・隠れている領域は? ・部位ラベルもつける? などなど ・タグの粒度 ・選択肢に制約はある? ・主体物についてのみ? ・背景等の周辺も? ・主観は入れる?(可愛いなど) などなど アノテーションの設計
20 タスク x 粒度 x 基準 = ♾
明確なアノテーション設計書と 入念なオリエンテーション = めちゃくちゃ ブレる アノテーションの設計
21 アノテーションのテストと再設計 設計 テスト 実行 再設計 評価 FB・改善 アノテーションのテストと再設計
22 アノテーションのテストと再設計 数百件程 のテスト 実行 再設計 本番のアノテーションを行う前に 数百件ほどのテストのアノテーションと再設計を行う アノテーター
チームメンバー ・アノテータごとに基準 /分布のブレが出ないか ・疑問として質問 /ミスが多発する場所はないか ・認識の齟齬がないか ここの部分が無くなるまで再設計のサイクルを回す (数千件・数万件やる前に ブレを少なくしておくこと)
23 アノテーションの実行と評価 設計 テスト 実行 再設計 評価 FB・改善 アノテーションの実行と評価
24 アノテーションの実行と評価 数万件の アノテー ション アノテーション アノテーター チームメンバー どうする?
明確な基準で 対応! 迷う… ? 成果物 アノテーションの実行
25 アノテーションの実行と評価 数万件の アノテー ション アノテーション アノテーター チームメンバー PASSする!!
明確な基準で 対応! 迷う… 質問 シート 成果物 ブレを無くす一環、実行しながら運用していく 事前にどれだけテストしていてもここは 出てくる→数ヶ月かかることも…! アノテーションの実行
26 アノテーションの実行と評価 成果物 アノテーションの評価 ・アノテーションの分布の評価 ・複数人アノテーションの一致率
・認識の齟齬があった所はないか? などなど、ここの評価の仕方は事前に決めておけると ⭕ ここもやりたい事は同じ→ ブレを確認する
27 アノテーションのFB・改善 設計 テスト 実行 再設計 評価 FB・改善 アノテーションのFB・改善
28 ・アノテーションの分布の評価 →該当アノテーション精度の高い(得意な)方を優先アサインする →ブレが少ない方を選定する ・自動化できるアノテーションはないか?
・設計で改善できる所はないか? ・アノテーションのためのvalidation機構は必要か? などなど 継続的に行うアノテーションの場合は、 運用・評価から FBループを回す アノテーションのFB・改善 FBできること
現実は… ~タスクや粒度の具体的なケーススタディ~
事業 要求 最先端 研究 この社内データ 貴重だから いい感じにして!
最先端モデル 出たぞ! こういうの やりたいから いい感じに! 但し こういうデータ が必要! 事業要求や 外部要因に そもそもブレ (不確実性)が生じ得る これにどう対応 していくか? 現実は… 30
• すでに使いたい・やりたいタスクが明確な場合 • 使い方は明確でないが、貴重なデータなので アノテーションしたい場合① • 使い方は明確でないが、貴重なデータなので アノテーションしたい場合② 31
32 現実は… すでに使いたい やりたいタスクが明確な場合 ねこすけ 顔 手 体 粗く 細かく
より特定のタスクに より汎用的に よりスペシフィック からうまく行ったら追 加で汎用的に
33 使い方は明確ではないが 貴重なデータなのでアノテーションしておきたい場合① →段階的に粒度を細かくしていくパターン ねこすけ 顔 手 体
粗く 細かく より特定のタスクに より汎用的に より抽象・汎用的 にアノテーション してから具体に ※後ほど追加でアノテーションを するのを前提に設計する 現実は…
34 使い方は明確ではないが 貴重なデータなのでアノテーションしておきたい場合② →段階的にタスクを増やしてリッチにしていくパターン ねこすけ 粗く 細かく より特定のタスクに
より汎用的に より簡単なものから やりたいこと明確になったら増やす ※後ほど追加でアノテーションを するのを前提に設計する “可愛い茶色のねこが顔を洗っている” 現実は…
35 ねこすけ 顔 手 体 粗く 細かく より特定のタスクに より汎用的に 最終的な
使い方や事業フェーズに合わせて 上手くバランスする 現実は…
まとめ
37 まとめ ブレを無くすためには ほぼ全ての工程に工夫点がある! せっかく付けたアノテーションが 無駄にならないように丁寧に。
目的や段階に合わせて 粒度やタスクを柔軟にリッチにしていく。
Tips/Appendix
39 Tips/Appendix
40 Tips/Appendix アノテーションの効率化するために アノテーションツールを選定したり 開発することも時にもあり
41 ねこすけ “可愛い茶色のねこが顔を洗っている” 現実は… 確認・修正・追加するのみ 基本の自動アノテーション
42 そもそ通常の体験のフローや 業務内に組み込めないか? 概要:ユーザーが一発目に入れる検索で本当に欲しいものを「言語化」されているのか? →マルチモーダルな Active Feedbackを活用して本当に欲しいものへの到達を助ける Goal-Oriented
Multi-Modal Interactive Recommendation with Verbal and Non-Verbal Relevance Feedback Visual?Item? Active Feedback Textual Active Feedback Tips/Appendix
43 アノテーションやフロー・評価運用のための知識体系/書籍 Tips/Appendix