Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ゼロショット物体検出の研究動向

 ゼロショット物体検出の研究動向

2021.12.3 Fri 開催の【SenseTime Japan × Sansan】画像処理勉強会資料です。
https://sansan.connpass.com/event/230636/

title:ゼロショット物体検出の研究動向
speaker: 飯田啄巳(Takumi IIDA)
株式会社センスタイムジャパン(SenseTime Japan Ltd.)

株式会社センスタイムジャパンの公式アカウントです。
外部向け発表資料を公開しております。
TECH blog: https://tech.sensetime.jp/
会社web: https://www.sensetime.jp/
TW: https://twitter.com/SensetimeJ
FB: https://www.facebook.com/sensetimejapan

SenseTime Japan

December 03, 2021
Tweet

More Decks by SenseTime Japan

Other Decks in Technology

Transcript

  1. ©2021 SenseTime. All Rights Reserved. 1 自己紹介 Confidential 飯田啄巳(たくみ) センスタイムジャパン@京都ラボ

    2020年新卒入社 • 業務 [Now] 自動運転向けの(広い意味での)異常検知 • 好きなこと アニメ、読書 ARIAが好きでベネチアに行きました ちょうど今日新作映画が公開されたので、みんな見よう! 今回の発表内容をテックブログにまとめました センスタイム テックブログ 『Zero-Shot Detectionの研究まとめ』
  2. ©2021 SenseTime. All Rights Reserved. 2 アジェンダ Confidential • Zero-Shot

    Detection入門 • Zero-Shot Detectionとは • Zero-Shot Detectionへのロードマップ • Zero-Shot Learning • 物体検出 • Zero-Shot Detection • Zero-Shot Detectionの難しさ • 論文紹介 1. Zero-Shot Object Detection 2. BLC 3. Zero-Shot Instance Segmentation 4. OVD • おわりに テーマ 『ゼロショット物体検出の研究動向』
  3. ©2021 SenseTime. All Rights Reserved. 3 Zero-Shot Detectionとは 馬 馬

    訓練データ 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection
  4. ©2021 SenseTime. All Rights Reserved. 4 Zero-Shot Detectionとは 馬 馬

    訓練データ 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection
  5. ©2021 SenseTime. All Rights Reserved. 5 Zero-Shot Detectionとは これも馬! 馬

    馬 訓練データ 馬 馬 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection
  6. ©2021 SenseTime. All Rights Reserved. 6 Zero-Shot Detectionとは これも馬! 馬

    馬 訓練データ 馬 馬 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection
  7. ©2021 SenseTime. All Rights Reserved. 7 Zero-Shot Detectionとは これも馬! 馬

    馬 訓練データ × これも馬! 馬 馬 馬 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection
  8. ©2021 SenseTime. All Rights Reserved. 8 Zero-Shot Detectionとは これも馬! 馬

    馬 訓練データ × これも馬! ◯ 本当はシマウマ 馬 馬 馬 シマウマ 学習時には存在しないクラスの物体検出を行う技術 通常の物体検出 Zero-Shot Detection
  9. ©2021 SenseTime. All Rights Reserved. 9 Zero-Shot Detectionへのロードマップ Zero-Shot Learning

    物体検出 × Zero-Shot Learning 物体検出 start goal word2vec Zero-Shot Detection Zero-Shot Detection 未学習のクラスを認識可能にする 画像中の物体の位置とそのクラス名を認識する
  10. ©2021 SenseTime. All Rights Reserved. 10 Zero-Shot Detection Zero-Shot Detectionへのロードマップ

    Zero-Shot Learning 物体検出 × 物体検出 Zero-Shot Learning start goal word2vec まずはクラス分類から! Zero-Shot Detection
  11. ©2021 SenseTime. All Rights Reserved. 12 Zero-Shot Learning(クラス分類) word2vec コーパスから学習済

    シマウマ=縞柄の馬 縞 柄 馬 耳が2つ 目が横 茶色 単語空間 馬 縞柄 単語ベクトルを利用して未知のクラスを補間する シマウマ word2vecからの事前知識
  12. ©2021 SenseTime. All Rights Reserved. 13 Zero-Shot Learning(クラス分類) Encoder 画像特徴

    訓練データ パラメータ固定 馬 縞 柄 単語 画像 NN 画像ー単語間の橋渡し 学習可能 耳が2つ 目が横 茶色 馬 word2vec コーパスから学習済 シマウマ=縞柄の馬 縞 柄 馬 単語空間 単語ベクトルを利用して未知のクラスを補間する シマウマ word2vecからの事前知識 アライメント済み 馬の単語ベクトルが取れたから馬! 縞柄の単語ベクトルが取れたから縞柄! 縞柄
  13. ©2021 SenseTime. All Rights Reserved. 14 Zero-Shot Learning(クラス分類) Encoder 画像特徴

    訓練データ パラメータ固定 馬 縞 柄 単語 画像 NN 画像ー単語間の橋渡し 学習可能 耳が2つ 目が横 茶色 馬 word2vec コーパスから学習済 シマウマ=縞柄の馬 縞 柄 馬 単語空間 word2vecからの事前知識 アライメント済み 単語ベクトルを利用して未知のクラスを補間する シマウマ 馬の単語ベクトルが取れたから馬! 縞柄の単語ベクトルが取れたから縞柄! 縞柄
  14. ©2021 SenseTime. All Rights Reserved. 15 Zero-Shot Learning(クラス分類) Encoder 画像特徴

    訓練データ パラメータ固定 馬 縞 柄 word2vec コーパスから学習済 単語 画像 NN 画像ー単語間の橋渡し 馬の単語ベクトルが取れたから馬! 縞柄の単語ベクトルが取れたから縞柄! 馬+縞柄の単語ベクトルが取れたからシマウマ? 学習可能 シマウマ=縞柄の馬 縞 柄 馬 耳が2つ 目が横 茶色 馬 単語空間 単語ベクトルを利用して未知のクラスを補間する word2vecからの事前知識 アライメント済み 縞柄 シマウマ
  15. ©2021 SenseTime. All Rights Reserved. 16 Zero-Shot Learning(クラス分類) Encoder 画像特徴

    訓練データ パラメータ固定 馬 縞 柄 word2vec コーパスから学習済 単語 画像 NN 画像ー単語間の橋渡し 学習可能 シマウマ=縞柄の馬 縞 柄 馬 耳が2つ 目が横 茶色 馬 単語空間 • Zero-Shot Learningでは、画像特徴と単語特徴のマッピングを行う。 • 単語空間を使うことで、データ点の補間ができる。 ポイント 縞柄 シマウマ 単語ベクトルを利用して未知のクラスを補間する word2vecからの事前知識 アライメント済み 馬の単語ベクトルが取れたから馬! 縞柄の単語ベクトルが取れたから縞柄! 馬+縞柄の単語ベクトルが取れたからシマウマ?
  16. ©2021 SenseTime. All Rights Reserved. 17 Zero-Shot Detection word2vec Zero-Shot

    Detectionへのロードマップ Zero-Shot Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Faster R-CNNを解説します Zero-Shot Detection
  17. ©2021 SenseTime. All Rights Reserved. 18 Zero-Shot Learning x 物体検出

    Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。
  18. ©2021 SenseTime. All Rights Reserved. 19 Zero-Shot Learning x 物体検出

    CNN CNN FC FC RPN stage 1 物体? 背景? 座標 (x, y, w, h) Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。 物体らしければ領域提案 ※ Faster R-CNNの場合
  19. ©2021 SenseTime. All Rights Reserved. 20 Zero-Shot Learning x 物体検出

    CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬 シマウマ 背景 Zero-Shot Detectionでは、2ステージの物体検出モデルが主流になっている。 分類ヘッド 回帰ヘッド 物体らしき箇所を検出 → クラス分類 ポイント 物体らしければ領域提案 ※ Faster R-CNNの場合
  20. ©2021 SenseTime. All Rights Reserved. 21 word2vec Zero-Shot Detectionへのロードマップ Zero-Shot

    Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection 2つの技術の合わせ方について説明します
  21. ©2021 SenseTime. All Rights Reserved. 22 Zero-Shot Learning x 物体検出

    CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬 シマウマ 背景 物体検出のクラスを単語ベクトルにしてやれば良い 分類ヘッド 回帰ヘッド 背景
  22. ©2021 SenseTime. All Rights Reserved. 23 Zero-Shot Learning x 物体検出

    CNN CNN FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) 犬 猫 背景 物体検出のクラスを単語ベクトルにしてやれば良い 犬 シマウマ 背景 word2vec 犬、シマウマなどに対応した 単語ベクトルを引っ張ってくる 分類ヘッド 回帰ヘッド 背景 Zero-Shot Detectionになると 分類ヘッドをセマンティックヘッドと言ったりする
  23. ©2021 SenseTime. All Rights Reserved. 24 Zero-Shot Detectionのむずかしさ CNN CNN

    FC FC FC FC 座標 (x, y, w, h) 固定サイズ化 RoI Pooling RPN stage 1 stage 2 物体? 背景? 座標 (x, y, w, h) word2vec 犬 猫 背景 「背景」の単語ベクトル なんてしらない… 背景 物体検出では、必ずしも候補領域に対象クラスが含まれていない →「背景」として、検出結果を破棄する必要がある →「背景」の単語ベクトルがない 分類ヘッド 回帰ヘッド Zero-Shot Detectionになると 分類ヘッドをセマンティックヘッドと言ったりする 犬 シマウマ 背景 背景の単語ベクトルは別途対応が必要 ポイント
  24. ©2021 SenseTime. All Rights Reserved. 25 word2vec Zero-Shot Detectionへのロードマップ Zero-Shot

    Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection 論文紹介!
  25. ©2021 SenseTime. All Rights Reserved. 26 Zero-Shot Object Detection Step

    1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬 縞 柄 300 Step 2: 背景クラスのロバスト化 ResNet 馬 縞 柄 300 背景 𝐶𝑠𝑒𝑒𝑛 𝑂 パラメータ固定 学習可能 𝐶𝑠𝑒𝑒𝑛 FC 𝐶𝑢𝑛𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 “馬” = “背景” = (固定値) “馬” = “時計” = “ピアノ” = “すべり台” = 224x224 既知クラス𝐶𝑠𝑒𝑒𝑛 検出したい未知クラス𝐶𝑢𝑛𝑠𝑒𝑒𝑛 検出しないつもりの未知クラス𝑂 • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。
  26. ©2021 SenseTime. All Rights Reserved. 27 Zero-Shot Object Detection Step

    1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬 縞 柄 300 パラメータ固定 学習可能 𝐶𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 “馬” = “背景” = (固定値) • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。
  27. ©2021 SenseTime. All Rights Reserved. 28 Zero-Shot Object Detection Step

    1: 既知クラスの特徴紐付け(アライメント)をきっちり行う ResNet 224x224 FC 馬 縞 柄 300 “馬” = “背景” = (固定値) Step 2: 背景クラスのロバスト化 ResNet 224x224 馬 縞 柄 300 “馬” = “時計” = “ピアノ” = 背景 𝐶𝑠𝑒𝑒𝑛 𝑂 パラメータ固定 学習可能 𝐶𝑠𝑒𝑒𝑛 FC 既知クラス𝐶𝑠𝑒𝑒𝑛 検出したい未知クラス𝐶𝑢𝑛𝑠𝑒𝑒𝑛 検出しないつもりの未知クラス𝑂 “すべり台” = 𝐶𝑢𝑛𝑠𝑒𝑒𝑛 [Ankan Bansal+, "Zero-shot object detection", ECCV, 2018] Zero-Shot Detectionの火付け論文 ※ R-CNNを利用 • BBoxのついていないところを、検出する予定のない未知クラスの単語ベクトルに割り当てる。
  28. ©2021 SenseTime. All Rights Reserved. 29 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル

    1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造(多段)にしたことで、緩やかな候補領域の破棄(背景クラスへの分類)ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] RPN I backbone pool pool S1 R1 pool S2 R2 S3 R3 Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool 別で学習 前景・背景の2値分類 背景 人 馬 … 車 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景 背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身 Background aware
  29. ©2021 SenseTime. All Rights Reserved. 30 pool R1 S1 BLC

    背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造(多段)にしたことで、緩やかな候補領域の破棄(背景クラスへの分類)ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] pool pool S2 R2 S3 R3 Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool RPN Background aware 別で学習 前景・背景の2値分類 backbone I 背景 人 馬 … 車 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景 背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身
  30. ©2021 SenseTime. All Rights Reserved. 31 S2 R2 S3 R3

    BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル 1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造(多段)にしたことで、緩やかな候補領域の破棄(背景クラスへの分類)ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] pool pool Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool RPN Background aware 別で学習 前景・背景の2値分類 backbone I pool R1 S1 Semantic Branchの出力 𝑎𝑟𝑔𝑚𝑎𝑥 class 𝑖 前景 背景 𝑋𝑏𝑏𝑜𝑥 𝑎𝑟𝑔𝑚𝑎𝑥 0 or 1 学習可能な単語ベクトル RPNの中身 背景 人 馬 … 車
  31. ©2021 SenseTime. All Rights Reserved. 32 BLC 背景の単語ベクトルを学習可能にしたカスケード構造のモデルを提案 • 学習可能な背景単語ベクトル

    1. RPNの部分で前景と背景に対応した単語ベクトルを学習する 2. 学習した背景の単語ベクトルを分類ヘッドの背景単語ベクトルとして利用する。 • カスケード構造(多段)にしたことで、緩やかな候補領域の破棄(背景クラスへの分類)ができる [Ye Zheng+, "Background Learnable Cascade for Zero-Shot Object Detection", ACCV, 2020] RPN I backbone pool pool S1 R1 pool Semantic information flow S Semantic Branch R BBox Regression RoI Align Pool 別で学習 前景・背景の2値分類 前ステージで出力したセマンティック情報を後段に伝える Semantic information flowの中身 Background aware S2 R2 S3 R3
  32. ©2021 SenseTime. All Rights Reserved. 33 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文

    • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景-背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身 ピクセルごとに単語 ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]
  33. ©2021 SenseTime. All Rights Reserved. 34 Semantic Mask Headの中身 ピクセルごとに単語

    ベクトルを推論 Sync-bg Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。 • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 Zero-Shot Detector Semantic Mask Head Visual feature backbone RPN 前景-背景の二値分類器 word vector = trainable background word-vector [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]
  34. ©2021 SenseTime. All Rights Reserved. 35 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。

    • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature background word-vector 前景-背景の二値分類器 word vector = trainable Sync-bg Semantic Mask Headの中身 ピクセルごとに単語 ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]
  35. ©2021 SenseTime. All Rights Reserved. 36 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。

    • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景-背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身 ピクセルごとに単語 ベクトルを推論 [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]
  36. ©2021 SenseTime. All Rights Reserved. 37 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。

    • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景-背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身 既知/未知クラスの単語ベクトルで 初期化1x1 Conv [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]
  37. ©2021 SenseTime. All Rights Reserved. 38 Zero-Shot Instance Segmentation Zero-Shotのインスタンスセグメンテーションを行った初の論文。

    • BLCと同様に背景の単語ベクトルを学習可能なRPNを利用(同じ作者) • Mask R-CNNの構造を採用 • (RoI特徴の)ピクセルごとに単語ベクトルを推論して、セグメンテーションを可能にしている。 backbone RPN Zero-Shot Detector Semantic Mask Head Visual feature 前景-背景の二値分類器 word vector = trainable Sync-bg background word-vector Semantic Mask Headの中身 単語ベクトルから画像特徴を復元できるか [Ye Zheng+, Zero-Shot Instance Segmentation", CVPR, 2021]
  38. ©2021 SenseTime. All Rights Reserved. 39 OVD [Alireza Zareian+, "Open-Vocabulary

    Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 Region Proposal Network V2L
  39. ©2021 SenseTime. All Rights Reserved. 40 OVD [Alireza Zareian+, "Open-Vocabulary

    Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 対応した画像特徴 𝑒𝑗 𝐼と単語特徴𝑒𝑗 𝐶 との類似度を高める Groundingでやるイメージ [Aishwarya Kamath+, “MDETR - Modulated Detection for End-to-End Multi-Modal Understanding”, ICCV, 2021]より引用して作成 person
  40. ©2021 SenseTime. All Rights Reserved. 41 OVD [Alireza Zareian+, "Open-Vocabulary

    Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 “A horse playing at a park” Image-Text Matching (ITM) “A student studying at school” 画像ーテキストが 対応 → 類似度を上げる↗ 無関係 → 類似度を下げる↘ person
  41. ©2021 SenseTime. All Rights Reserved. 42 OVD [Alireza Zareian+, "Open-Vocabulary

    Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 “A horse playing at a park” Image-Text Matching (ITM) “A student studying at school” 画像ーテキストが 対応 → 類似度を上げる↗ 無関係 → 類似度を下げる↘ Masked Language Model (MLM) [CLS] a [MASK] is holding a dog [SEP] person [MASK]
  42. ©2021 SenseTime. All Rights Reserved. 43 OVD [Alireza Zareian+, "Open-Vocabulary

    Object Detection Using Captions", CVPR, 2021] Step 1: 画像ーキャプションデータを使って事前学習 Step 2: Fine-tuning キャプションデータを使って事前学習することでZero-Shot Detectionの性能を改善 • 弱教師ありのGrounding(テキスト中の名詞と画像特徴を紐付ける)で事前学習 • 対照学習を利用して、学習を安定化した。 ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス(Base Classes)で学習 2. 推論 1. 未知(Target Classes)のクラスで推論 2. すべてのクラス(All Nouns) Region Proposal Network V2L ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス(Base Classes)で学習 ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス(Base Classes)で学習 2. 推論 1. 未知(Target Classes)のクラスで推論 ダウンストリームタスクでZero-Shot Detectionの学習を行う。 1. 既知のクラス(Base Classes)で学習 2. 推論 1. 未知(Target Classes)のクラスで推論 2. すべてのクラス(All Nouns)
  43. ©2021 SenseTime. All Rights Reserved. 44 word2vec Zero-Shot Detectionへのロードマップ Zero-Shot

    Learning 物体検出 × start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Zero-Shot Detection
  44. ©2021 SenseTime. All Rights Reserved. 45 おわりに Zero-Shot Learning 物体検出

    × Zero-Shot Detection word2vec start goal Zero-Shot Learning 物体検出 Zero-Shot Detection Grounding Referring Expression Comprehension 興味を持たれた方は、ビジョン×言語を更に組み合わせたこの分野を見てみると面白いかもしれません。 Visual Grounding Referring Expression Comprehension(REC)