Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第64回コンピュータビジョン勉強会「The PanAf-FGBG Dataset: Under...

第64回コンピュータビジョン勉強会「The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition」

Avatar for Tatsuya Suzuki

Tatsuya Suzuki

July 13, 2025
Tweet

More Decks by Tatsuya Suzuki

Other Decks in Technology

Transcript

  1. © DeNA Co., Ltd. 1 論文紹介「The PanAf-FGBG Dataset: Understanding the

    Impact of Backgrounds in Wildlife Behaviour Recognition」 2025/7/13 第64回 コンピュータビジョン勉強会@関東(前編) 株式会社ディー・エヌ・エー 鈴木達哉
  2. © DeNA Co., Ltd. 2 鈴木達哉 / Suzuki Tatsuya •

    2020.4~ DeNA AIエンジニア ◦ DeNAで各種CV系案件を担当 ◦ GO株式会社へ出向しドライブレコーダー 映像の画像認識 • Data-Centric AI勉強会運営メンバー © DeNA Co., Ltd. 自己紹介 https://dcai-jp.connpass.com/
  3. © DeNA Co., Ltd. 3 [paper] [arXiv] [プロジェクトページ] • 概要

    ◦ 野生動物の行動認識モデルにおける背景の影響を分析 ◦ 独自のPanAf-FGBGデータセットを構築 ◦ TransformerがCNNよりも背景バイアス耐性が強いことを確認 ◦ 背景との差をとり行動に注目させることで精度向上させる手法を提案 • Best Paper Award Candidate どんな論文? 論文Figure 1
  4. © DeNA Co., Ltd. 5 行動認識タスクでは学習データとテストデータが • 同じ分布(場所)→高精度 • 異なる分布(場所)→精度大幅低下

    異なる場所で使えないのは実応用上困る.... 人間行動認識の研究では背景で判断してしまうshortcut learningが原因だと知られている →動物行動認識でもデータセットを作り同様か検証&解決策を提案 課題:行動認識タスクにおける背景バイアスの存在
  5. © DeNA Co., Ltd. 6 • チンパンジーの行動認識タスク • 5070組の前景(foreground)&背景(backgroud)動画 •

    14種類の行動ラベル • 1動画は15秒で、動画全体にマルチラベルを付与 PanAf-FGBGデータセット Figure 1 概要 Figure 2 行動ラベル14種類の比率 ロングテールな分布 先行研究だとマスキングなどで合成し作成していた 背景動画を実データで用意! Figure 3 森林/湿地/ サバンナの割合 & 場所毎の件数(例:道/果物の木)
  6. © DeNA Co., Ltd. 7 PanAf-FGBGデータセット Figure 4 データセット構成例 分割方法が異なる2つのデータセット構成が存在

    Doverlap:学習/テストデータは同じ場所の映像 Ddisjoint:学習/テストデータは異なる場所の映像(森林とサバンナ) 最初に紹介した この課題を検証する目的 ちなみに... • クラス分布は揃えてある • メタデータでカメラIDが付くので 今後新しい構成の作成も可能
  7. © DeNA Co., Ltd. 8 補足資料 Figure 6 データセット例 補足資料

    Figure 3 ペアの撮影時間間隔 約9割は1時間以内のペアになっている
  8. © DeNA Co., Ltd. 11 •  :前景のみ •  :背景のみ •

     :合成背景のみ •    :前景+背景のDual-Stream Fusion Model                 (詳細は後述) 実験1:背景依存の検証 Table1 実験結果 uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 行動認識の判断が背景に依存しているかを検証 モデル・学習データの種類・構成を変えて実験 • Dummy:比較用に視覚情報を入力しない • ResNet-50 2D / 3D conv:CNN系 • MViT-V2:Transformer系 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価 ペアになっている前景動画の 行動ラベルを使う 【Model】 【Data】
  9. © DeNA Co., Ltd. 12 実験1:背景依存の検証 結果1:行動認識が背景に依存してしまっている 「背景学習時精度/前景学習時精度」比率が根拠 どの実験でもuAPで0.70/mAPで0.65以上 背景のみを学習しても

    精度があまり下がらなかった Table1 実験結果 uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価
  10. © DeNA Co., Ltd. 13 Table1 実験結果 uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 実験1:背景依存の検証

    結果1:行動認識が背景に依存してしまっている 「背景学習時精度/前景学習時精度」比率が根拠 どの実験でもuAPで0.70/mAPで0.65以上 背景のみを学習しても 精度があまり下がらなかった 学習時と異なる場所で評価しても比率は高い 特に2D R50は1.0前後と精度差が小さい 場所が変わっても背景を見るだけで認識できることも多い 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価
  11. © DeNA Co., Ltd. 14 実験1:背景依存の検証 結果2:Transformer系の方が背景依存度低い 「異なる場所で評価時に精度低下が少ない」が根拠 前景のみを学習した時、MViT-V2は3D R50よりも

    異なる場所で評価した際の精度低下が少なかった 一方、背景のみを学習した時はMViT-V2も下がった Table1 実験結果 uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 画像分類タスクでは先行研究でこのことが確認されていて、同様の傾向が見られた Moayeri, Mazda, et al. "A comprehensive study of image classification model sensitivity to foregrounds, backgrounds, and visual attributes." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価
  12. © DeNA Co., Ltd. 15 実験1:背景依存の検証 結果3:ResNetでは背景の学習も有益 「Dual-Stream Fusion Modelの精度の高さ」が根拠

    Dual-Stream Fusion Modelは300エポック学習した 前景のみモデルと背景のみモデルが出す特徴量を 結合して分類するモデル ResNet系は前景のみで学習した時よりも 前景+背景のDual-Stream Fusion Modelの精度が高い MViT-V2では逆の傾向 Table1 実験結果 uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価
  13. © DeNA Co., Ltd. 16 実験1:背景依存の検証 結果3:ResNetでは背景の学習も有益 「Dual-Stream Fusion Modelの精度の高さ」が根拠

    Dual-Stream Fusion Modelは300エポック学習した 前景のみモデルと背景のみモデルが出す特徴量を 結合して分類するモデル ResNet系は前景のみで学習した時よりも 前景+背景のDual-Stream Fusion Modelの精度が高い MViT-V2では逆の傾向 Table1 実験結果 uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価 3D R50のFusion ModelはDoverlapでは最も精度が高い ややこしい手法だが条件次第では選択肢になるかも
  14. © DeNA Co., Ltd. 17 動物が映っていない背景フレームが 学習データに入り込む影響を検証 モデル・背景フレーム量・データ構成を変えて実験 • ResNet-50

    2D / 3D conv:CNN系 • MViT-V2:Transformer系 データはフレーム数Tの前景動画の後に λT枚の背景フレームを繋いだ上で T枚をサンプリングすることで作成する 実験2:背景フレーム量の影響検証 【Model】 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価 Figure5 実験結果 横軸右ほど背景比率が高い uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) =実験1の前景のみ/背景のみの間を見る
  15. © DeNA Co., Ltd. 18 実験2:背景フレーム量の影響検証 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価

    Figure5 実験結果 横軸右ほど背景比率が高い uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 結果:背景フレーム量が増えるほど精度低下 当然背景のみモデルの精度に近づいていく モデルごとに低下の仕方は異なり、 特に3D R50は量が増えるとすぐに精度が下がった (論文中ではもう少し細かく考察しているが省略)
  16. © DeNA Co., Ltd. 19 背景フレームを活用し性能向上する2種類の学習手法を提案・検証 1. 入力空間での背景差分 前景動画から背景動画をピクセル単位で 引くことで動物の動画を抜き出す

    2. 埋め込み空間での背景差分 前景動画と背景動画それぞれを特徴抽出した後に 係数α分だけ引くことで動物の特徴量を抜き出す (αは学習過程で0から1へと変化させ、徐々に背景も使う) 実験3:背景バイアスの緩和手法の検証 Figure 6 埋め込み空間での背景差分
  17. © DeNA Co., Ltd. 20 入力空間での背景差分での結果 • 2D R50では効果あり •

    3D R50とMViT-V2では効果なし 実験3:背景バイアスの緩和手法の検証 Table2 実験結果 uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価
  18. © DeNA Co., Ltd. 21 埋め込み空間での背景差分での結果 • 2D R50では効果なし •

    3D R50とMViT-V2では効果あり αを学習時に変化させる方法はLinearがベスト (線形に0から1へと変化) MViT-V2に本手法適用がDoverlap, Ddisjoint双方で最高精度 実験3:背景バイアスの緩和手法の検証 Table2 実験結果 uAP:マイクロ平均(クラス無視) mAP:マクロ平均(クラス考慮) 同じ場所の 前景動画で評価 異なる場所の 前景動画で評価 None, Linear, Exponentialは 学習時のαの変化方法
  19. © DeNA Co., Ltd. 22 • 前景・背景をペアにした動物行動認識データセットPanAf-FGBGを提案 • 条件を変えた多数の実験により、背景の影響を研究 行動認識の実応用を考えると得られた知見としては...

    • 学習時と異なる場所で使うには背景バイアスに強いTransformer系を選ぶ(実験1) • 背景のみのフレームが学習データに混ざらないようにする(実験2) • 背景のみのフレームも区別してうまく使うと精度を上げられる(実験3) まとめ 所感:これだけのデータセットと比較実験があると理解が深まる!