Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIの血肉となるアノテーションデータのために大事にしている事
Search
CyberAgent
PRO
November 14, 2024
2
82
AIの血肉となるアノテーションデータのために大事にしている事
CyberAgent
PRO
November 14, 2024
Tweet
Share
More Decks by CyberAgent
See All by CyberAgent
The Composable Architecture (TCA) を用いたAmebaのリアーキテクチャ
cyberagentdevelopers
PRO
0
37
SwiftUI導入から1年、SwiftUI導入とVueFluxライクな状態管理
cyberagentdevelopers
PRO
0
26
大規模プロジェクトにおける段階的な技術刷新
cyberagentdevelopers
PRO
0
34
SwiftUI移行のためのインプレッショントラッキング基板の構築
cyberagentdevelopers
PRO
0
18
Unity6世代のアップデートをサラッとまとめ
cyberagentdevelopers
PRO
0
500
Unity6の新機能 STPについての話
cyberagentdevelopers
PRO
0
240
Unity 6 シェーダーWarmupガイド
cyberagentdevelopers
PRO
0
300
Unity6 の Android周辺の アップデートについて
cyberagentdevelopers
PRO
1
280
ジャンプTOONにおけるサイトマップの自動生成手法について
cyberagentdevelopers
PRO
0
77
Featured
See All Featured
Optimising Largest Contentful Paint
csswizardry
35
3.2k
The Cost Of JavaScript in 2023
addyosmani
48
7.6k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
12k
Git: the NoSQL Database
bkeepers
PRO
429
65k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
28
1.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Mobile First: as difficult as doing things right
swwweet
223
9.5k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.3k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.3k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
8
700
Transcript
CA DataNignt AIの血肉となるアノテーションデータの ために大事にしている事 AI事業本部 極事業部 小林 拓磨 1
Agenda 1. 自己紹介・やっていること 2. 今回話す領域について 3. 弊社でのアノテーション体制について 4. アノテーションサイクルの概観 5.
現実は… 〜タスクや粒度の具体的なケーススタディ〜 6. まとめ 2
自己紹介・やっていること
今日の担当 4 小林 拓磨 所属: 極事業部 新規プロダクトチーム 役割: ML/DS→開発責任者 &
技術組織の盛上げ [普段の仕事 ] - ロードマップ・事業戦略・フロー設計 - 画面・システム設計 - PoC設計・バックログ管理 - バックエンド・インフラ実装 [趣味] - 旅行/ご飯/ワーケーション - 仕事 - 猫 @cat_to_love 自己紹介・やっていること
5 自己紹介・やっていること 広告予測エンジンの開発 生成系サービスの開発
弊社でのアノテーション体制について
アノテーションセンター アノテーター データ エンジニア マネジメント 7 アノテーション 依頼 データ 納品
全事業 AI活用を全社で 加速させる IP 弊社でのアノテーション体制について
今日のテーマ
アノテーションの ブレを無くしたい!! ※ ※基準とか認識とかとか
今回話す領域について
11 アノテーション このサイクルはどのように回るか? その中でブレを無くす上で 何が大事にしたか? 何が壁だったか? 何ができるのか? 今回話す領域について ? ?
? ? ? ?
アノテーションサイクルの概観
13 アノテーション まずはサイクルの概観について アノテーションサイクルの概観 ? ? ? ? ? ?
14 アノテーション まずはサイクルの概観について 設計 テスト 実行 運用 再設計 評価 FB・改善
アノテーションサイクルの概観
15 アノテーションの設計 設計 テスト 実行 運用 再設計 評価 FB・改善 アノテーションの設計
16 アノテーションの設計 この小林実家ねこすけの画像に アノテーションする
17 ・目的に合わせてタスク選定 を行う →同じ画像でもタスクは様々 セグメンテーション 物体検知 キャプション スコアリング 姿勢 タグつけ
ねこすけ “可愛い茶色のねこが顔を洗っている” 可愛さ:100点 <猫><可愛い><スコティッシュ> アノテーションの設計
18 ・目的に合わせて粒度設計を行う →同じタスクでも粒度/基準は様々 セグメンテーション 物体検知 キャプション ねこすけ “可愛い茶色のねこが顔を洗っている” ・セグメンテーションの粒度
・体のパーツ分けはする? ・毛などの周辺領域は? ・背景領域は? などなど ・BBoxの粒度 ・顔のみなのか ・隠れている領域は? ・BBoxにラベルもつける? ・キャプションの粒度 ・表情まで入れ込むか? ・主体物についてのみ? ・背景等の周辺も? ・主観は入れる?( 可愛い など) アノテーションの設計
19 ・目的に合わせてタスク選定 を行う →同じタスクでも粒度/基準は様々 スコアリング 姿勢 タグつけ 可愛さ:100点 <猫><可愛い><スコティッシュ>
・スコアリングの基準 ・可愛さの基準は? ・具体何があったら可愛いの か?→主観でいい? などなど ・線や点の基準 ・手首までなのか指先までか ・隠れている領域は? ・部位ラベルもつける? などなど ・タグの粒度 ・選択肢に制約はある? ・主体物についてのみ? ・背景等の周辺も? ・主観は入れる?(可愛いなど) などなど アノテーションの設計
20 タスク x 粒度 x 基準 = ♾
明確なアノテーション設計書と 入念なオリエンテーション = めちゃくちゃ ブレる アノテーションの設計
21 アノテーションのテストと再設計 設計 テスト 実行 再設計 評価 FB・改善 アノテーションのテストと再設計
22 アノテーションのテストと再設計 数百件程 のテスト 実行 再設計 本番のアノテーションを行う前に 数百件ほどのテストのアノテーションと再設計を行う アノテーター
チームメンバー ・アノテータごとに基準 /分布のブレが出ないか ・疑問として質問 /ミスが多発する場所はないか ・認識の齟齬がないか ここの部分が無くなるまで再設計のサイクルを回す (数千件・数万件やる前に ブレを少なくしておくこと)
23 アノテーションの実行と評価 設計 テスト 実行 再設計 評価 FB・改善 アノテーションの実行と評価
24 アノテーションの実行と評価 数万件の アノテー ション アノテーション アノテーター チームメンバー どうする?
明確な基準で 対応! 迷う… ? 成果物 アノテーションの実行
25 アノテーションの実行と評価 数万件の アノテー ション アノテーション アノテーター チームメンバー PASSする!!
明確な基準で 対応! 迷う… 質問 シート 成果物 ブレを無くす一環、実行しながら運用していく 事前にどれだけテストしていてもここは 出てくる→数ヶ月かかることも…! アノテーションの実行
26 アノテーションの実行と評価 成果物 アノテーションの評価 ・アノテーションの分布の評価 ・複数人アノテーションの一致率
・認識の齟齬があった所はないか? などなど、ここの評価の仕方は事前に決めておけると ⭕ ここもやりたい事は同じ→ ブレを確認する
27 アノテーションのFB・改善 設計 テスト 実行 再設計 評価 FB・改善 アノテーションのFB・改善
28 ・アノテーションの分布の評価 →該当アノテーション精度の高い(得意な)方を優先アサインする →ブレが少ない方を選定する ・自動化できるアノテーションはないか?
・設計で改善できる所はないか? ・アノテーションのためのvalidation機構は必要か? などなど 継続的に行うアノテーションの場合は、 運用・評価から FBループを回す アノテーションのFB・改善 FBできること
現実は… ~タスクや粒度の具体的なケーススタディ~
事業 要求 最先端 研究 この社内データ 貴重だから いい感じにして!
最先端モデル 出たぞ! こういうの やりたいから いい感じに! 但し こういうデータ が必要! 事業要求や 外部要因に そもそもブレ (不確実性)が生じ得る これにどう対応 していくか? 現実は… 30
• すでに使いたい・やりたいタスクが明確な場合 • 使い方は明確でないが、貴重なデータなので アノテーションしたい場合① • 使い方は明確でないが、貴重なデータなので アノテーションしたい場合② 31
32 現実は… すでに使いたい やりたいタスクが明確な場合 ねこすけ 顔 手 体 粗く 細かく
より特定のタスクに より汎用的に よりスペシフィック からうまく行ったら追 加で汎用的に
33 使い方は明確ではないが 貴重なデータなのでアノテーションしておきたい場合① →段階的に粒度を細かくしていくパターン ねこすけ 顔 手 体
粗く 細かく より特定のタスクに より汎用的に より抽象・汎用的 にアノテーション してから具体に ※後ほど追加でアノテーションを するのを前提に設計する 現実は…
34 使い方は明確ではないが 貴重なデータなのでアノテーションしておきたい場合② →段階的にタスクを増やしてリッチにしていくパターン ねこすけ 粗く 細かく より特定のタスクに
より汎用的に より簡単なものから やりたいこと明確になったら増やす ※後ほど追加でアノテーションを するのを前提に設計する “可愛い茶色のねこが顔を洗っている” 現実は…
35 ねこすけ 顔 手 体 粗く 細かく より特定のタスクに より汎用的に 最終的な
使い方や事業フェーズに合わせて 上手くバランスする 現実は…
まとめ
37 まとめ ブレを無くすためには ほぼ全ての工程に工夫点がある! せっかく付けたアノテーションが 無駄にならないように丁寧に。
目的や段階に合わせて 粒度やタスクを柔軟にリッチにしていく。
Tips/Appendix
39 Tips/Appendix
40 Tips/Appendix アノテーションの効率化するために アノテーションツールを選定したり 開発することも時にもあり
41 ねこすけ “可愛い茶色のねこが顔を洗っている” 現実は… 確認・修正・追加するのみ 基本の自動アノテーション
42 そもそ通常の体験のフローや 業務内に組み込めないか? 概要:ユーザーが一発目に入れる検索で本当に欲しいものを「言語化」されているのか? →マルチモーダルな Active Feedbackを活用して本当に欲しいものへの到達を助ける Goal-Oriented
Multi-Modal Interactive Recommendation with Verbal and Non-Verbal Relevance Feedback Visual?Item? Active Feedback Textual Active Feedback Tips/Appendix
43 アノテーションやフロー・評価運用のための知識体系/書籍 Tips/Appendix