Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIの血肉となるアノテーションデータのために大事にしている事

CyberAgent
November 14, 2024
44

 AIの血肉となるアノテーションデータのために大事にしている事

CyberAgent

November 14, 2024
Tweet

More Decks by CyberAgent

Transcript

  1. 今日の担当 4 小林 拓磨 所属: 極事業部 新規プロダクトチーム 役割: ML/DS→開発責任者 &

    技術組織の盛上げ [普段の仕事 ] - ロードマップ・事業戦略・フロー設計 - 画面・システム設計 - PoC設計・バックログ管理 - バックエンド・インフラ実装 [趣味] - 旅行/ご飯/ワーケーション - 仕事 - 猫 @cat_to_love 自己紹介・やっていること
  2. アノテーションセンター アノテーター データ エンジニア マネジメント 7 アノテーション 依頼 データ 納品

    全事業 AI活用を全社で 加速させる IP 弊社でのアノテーション体制について
  3. 17 ・目的に合わせてタスク選定 を行う
  →同じ画像でもタスクは様々
 セグメンテーション 物体検知 キャプション スコアリング 姿勢 タグつけ

    ねこすけ
 “可愛い茶色のねこが顔を洗っている” 
 可愛さ:100点 
 <猫><可愛い><スコティッシュ> 
 アノテーションの設計
  4. 18 ・目的に合わせて粒度設計を行う
  →同じタスクでも粒度/基準は様々
 セグメンテーション 物体検知 キャプション ねこすけ
 “可愛い茶色のねこが顔を洗っている” 
 ・セグメンテーションの粒度

    
  ・体のパーツ分けはする? 
  ・毛などの周辺領域は? 
  ・背景領域は? 
  などなど
 ・BBoxの粒度 
  ・顔のみなのか 
  ・隠れている領域は? 
  ・BBoxにラベルもつける? 
 ・キャプションの粒度 
  ・表情まで入れ込むか? 
  ・主体物についてのみ? 
  ・背景等の周辺も? 
  ・主観は入れる?( 可愛い など)
 アノテーションの設計
  5. 19 ・目的に合わせてタスク選定 を行う
  →同じタスクでも粒度/基準は様々
 スコアリング 姿勢 タグつけ 可愛さ:100点 
 <猫><可愛い><スコティッシュ>

    
 ・スコアリングの基準 
  ・可愛さの基準は? 
  ・具体何があったら可愛いの か?→主観でいい? 
  などなど
 ・線や点の基準 
  ・手首までなのか指先までか 
  ・隠れている領域は? 
  ・部位ラベルもつける? 
   などなど
 ・タグの粒度 
  ・選択肢に制約はある? 
  ・主体物についてのみ? 
  ・背景等の周辺も? 
  ・主観は入れる?(可愛いなど) 
   などなど
 アノテーションの設計
  6. 20 タスク x 粒度 x 基準 = 
 ♾ 


    明確なアノテーション設計書と 
 入念なオリエンテーション 
 = めちゃくちゃ ブレる アノテーションの設計
  7. 22 アノテーションのテストと再設計 数百件程 のテスト 実行 再設計 本番のアノテーションを行う前に 
 数百件ほどのテストのアノテーションと再設計を行う アノテーター

    
 チームメンバー ・アノテータごとに基準 /分布のブレが出ないか ・疑問として質問 /ミスが多発する場所はないか ・認識の齟齬がないか ここの部分が無くなるまで再設計のサイクルを回す 
 (数千件・数万件やる前に ブレを少なくしておくこと)
  8. 25 アノテーションの実行と評価 数万件の アノテー ション アノテーション アノテーター 
 チームメンバー PASSする!!

    明確な基準で 
 対応! 迷う… 質問 シート 成果物 ブレを無くす一環、実行しながら運用していく 
 事前にどれだけテストしていてもここは 
 出てくる→数ヶ月かかることも…! アノテーションの実行
  9. 26 アノテーションの実行と評価 成果物 アノテーションの評価 ・アノテーションの分布の評価 
 
 ・複数人アノテーションの一致率 
 


    ・認識の齟齬があった所はないか? 
 
 などなど、ここの評価の仕方は事前に決めておけると ⭕
 ここもやりたい事は同じ→ ブレを確認する
  10. 28 ・アノテーションの分布の評価 
  →該当アノテーション精度の高い(得意な)方を優先アサインする 
  →ブレが少ない方を選定する 
 
 ・自動化できるアノテーションはないか? 


    
 ・設計で改善できる所はないか? 
 
 ・アノテーションのためのvalidation機構は必要か? 
 
 などなど 
 継続的に行うアノテーションの場合は、 運用・評価から
 FBループを回す アノテーションのFB・改善 FBできること
  11. 事業
 要求
 最先端
 研究
 この社内データ 
 貴重だから 
 いい感じにして! 


    最先端モデル
 出たぞ!
 こういうの
 やりたいから
 いい感じに!
 但し
 こういうデータ
 が必要!
 事業要求や 
 外部要因に 
 そもそもブレ
 (不確実性)が生じ得る 
 
 これにどう対応 
 していくか? 
 現実は… 30
  12. 32 現実は… すでに使いたい
 やりたいタスクが明確な場合
 ねこすけ
 顔
 手
 体
 粗く 細かく

    より特定のタスクに より汎用的に よりスペシフィック からうまく行ったら追 加で汎用的に
  13. 33 使い方は明確ではないが
 貴重なデータなのでアノテーションしておきたい場合① 
 →段階的に粒度を細かくしていくパターン 
 ねこすけ
 顔
 手
 体


    粗く 細かく より特定のタスクに より汎用的に より抽象・汎用的 にアノテーション してから具体に ※後ほど追加でアノテーションを 
  するのを前提に設計する 現実は…
  14. 34 使い方は明確ではないが
 貴重なデータなのでアノテーションしておきたい場合② 
 →段階的にタスクを増やしてリッチにしていくパターン 
 ねこすけ
 粗く 細かく より特定のタスクに

    より汎用的に より簡単なものから やりたいこと明確になったら増やす ※後ほど追加でアノテーションを 
  するのを前提に設計する “可愛い茶色のねこが顔を洗っている” 
 現実は…
  15. 35 ねこすけ
 顔
 手
 体
 粗く 細かく より特定のタスクに より汎用的に 最終的な

    使い方や事業フェーズに合わせて 上手くバランスする 現実は…