Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

メタ動画データセットによる動作認識の現状と可能性

 メタ動画データセットによる動作認識の現状と可能性

第74回産総研人工知能セミナー「日常生活知識とAI」での講演スライドです。

Yuya Yoshikawa

January 23, 2024
Tweet

More Decks by Yuya Yoshikawa

Other Decks in Research

Transcript

  1. ⾃⼰紹介 2 最近の研究トピック • 説明可能AI (解釈可能な機械学習) • 動作認識 吉川 友也

    (よしかわ ゆうや) 千葉⼯業⼤学 ⼈⼯知能・ソフトウェア技術研究センター 上席研究員 博⼠(⼯学) − 2015年 奈良先端科学技術⼤学院⼤学
  2. ⼈物動作認識 (Human Action Recognition) 動作認識器!! を⽤いて動画中の⼈物の動作を分類 3 動作認識器 !! 動作ラベル

    動画 学習に⽤いるデータセットを⼯夫 して動作認識器の精度を改善することを⽬指す shaking_hands 研究の⽬的 ⾼精度の動作認識器!"を学習 本講演における研究⽅針
  3. 動作認識モデルを学習するためのデータセットの例 • ⼤規模・⼀般動作データセット (事前学習にも使われる) • Kinetics-700 • ActivityNet • ベンチマークデータセット

    (⼿頃なサイズ) • UCF101 • HMDB51 • ドメイン特化 • EPIC-KITCHENS:料理作業動作 • Sports-1M:スポーツの種類 4 データ数 クラス数 Kinetics-700 530K 700 ActivityNet 21K 200 UCF101 13K 101 HMDB51 5K 51 EPIC- KITCHENS 90K (action segments) 97 verbs 300 nouns Sports-1M 1133K 487
  4. 課題のまとめ • 単⼀データセット • 他のデータセットの動画に対する認識性能がわからない • 独⾃データセット • データ作成コストが⾼く、⼤規模データが作れない •

    ドメインが限定的になりやすい • 複数データセット • 訓練コストが⾼い • モデルの最終層のみの学習では精度向上に繋がらない可能性 8
  5. MetaVD (Meta Video Dataset) 既存の動作認識データセットの間で動作ラベルの関係性を⼈⼿アノテーション 9 UCF101 Kinetics700 “exercising_arm” “BenchPress”

    動作ラベルA 動作ラベルB • 6種類のデータセットから構成 • UCF101 (101クラス) • HMDB51 (51クラス) • ActivityNet (200クラス) • STAIR Actions (100クラス) • Charades (157クラス) • Kinetics-700 (700クラス) 今後、更に追加予定 [Yoshikawa+ 2021]
  6. MetaVD (Meta Video Dataset) 既存の動作認識データセットの間で動作ラベルの関係性を⼈⼿アノテーション 10 UCF101 Kinetics700 全 て

    の 動 作 ラ ベ ル ペ ア に ア ノ テ . シ 0 ン https://metavd.stair.center/visualizer.html “exercising_arm” “BenchPress” 動作ラベルA 動作ラベルB [Yoshikawa+ 2021]
  7. 関係の種類による拡張される動画の違い 12 equal hypernym (is-a) similar Biking Ride_bike Biking BMX

    Doing motocross Brushing_teeth brush_hair Gargling mouthwash 拡張 拡張 拡張 動画の増え⽅ 動画のバリエーション ⼩ ⼤ 低 ⾼
  8. 関係の種類による拡張される動画の違い 13 動作ラベルA similarで拡張 動作ラベルA 拡張前 動作ラベルA equalで拡張 動作ラベルB hypernymで拡張

    動作ラベルB similarで拡張 動作ラベルB equalで拡張 動作ラベルB 拡張前 動作ラベルA hypernymで拡張 動作ラベルA, Bが拡張されたときの⼊⼒空間の分布のイメージ
  9. 課題に対するMetaVDを⽤いた解決策 • 単⼀データセット • 他のデータセットの動画に対する認識性能がわからない • 独⾃データセット • データ作成コストが⾼く、⼤規模データが作れない •

    ドメインが限定的になりやすい • 複数データセット • 訓練コストが⾼い • モデルの最終層のみの学習では精度向上に繋がらない可能性 16 他のデータセットにある関係する動作ラベルの動画を⽤いて認識性能を評価可能 他のデータセットから、多様なドメインの動画を多数取り込むことが可能 ⽬的データセットに必要な動画のみを取り込むことで訓練コストを抑え 各ラベルの動画を増やして精度向上に繋げる
  10. 認識性能 17 UCF101のテスト精度 UCF101のみ 拡張 (equal) 拡張 (equal + is-a)

    拡張 (equal + similar) 91.38 91.14 90.99 90.46 UCF101のみとほぼ変わらず 拡張UCF101のテスト精度 訓練データ 拡張 (equal) 拡張 (equal + is-a) 拡張 (equal + similar) UCF101のみ 72.89 63.11 28.66 拡張UCF101 82.43 76.69 33.92 UCF101のみよりも⼤幅に精度が向上 ! = 0.5の場合 テストデータ 多様な動画に対する認識性能が向上していることが⽰唆される
  11. 認識結果の例 18 bowling (Kinetics-700) fencing (HMDB51) Archery (UCF101) 動作認識器 !!

    UCF101のみで学習 MoppingFloor SalsaSpin PlayingViolin UCF101でのテスト精度 91.38% 拡張UCF101でのテスト精度 72.89% 〜 UCF101のみで学習した場合 〜
  12. 認識結果の例 19 bowling (Kinetics-700) fencing (HMDB51) Archery (UCF101) 動作認識器 !!

    Bowling Fencing Archery UCF101でのテスト精度 91.14% → 拡張UCF101でのテスト精度 82.43% ↑ equal関係で拡張した UCF101で学習 〜 拡張したUCF101で学習した場合 〜
  13. 動作ラベルの関係予測の性能 ラベル⽂字列のみ 動画集合のみ 両⽅ ランダム 0.711 0.442 0.746 0.006 23

    関係の有無を予測するタスクの予測性能 (Average Precision) ラベル⽂字列のみ 動画集合のみ 両⽅ ランダム 0.785 0.715 0.794 0.522 関係の種類を予測するタスクの予測性能 (Accuracy) UCF101が新たにMetaVDに含めたいデータセットと仮定して、 それ以外の5つのデータセットで関係予測モデルを学習
  14. ⼤規模⾔語モデル(LLM)で動作ラベル関係予測 24 関係分類精度 (全データセット平均) GPT-3.5 (finetuned) 0.914 GPT-4 (zero-shot) 0.878

    GPT-3.5 (zero-shot) 0.565 You are an AI that answers the relationship between given two action classes. The relationships between action classes and their definition are as follows: - "equal": action class 1 and action class 2 are the same meaning. - "similar": action class 1 and action class 2 are similar meaning. - "is-a": action class 1 is a superordinate concept of action class 2 Answer the relationship between the following action classes: "eat" and "Having_an_ice_cream" ユーザ is-a 関係の種類を予測するタスク
  15. 発展の⽅向性 • 深く広い知識の活⽤ • 現状は直接関係する動作ラベルのみを考慮しているが、間接的に関係する動作ラベル の影響も考慮した⽅がいいのではないか? • 動作以外にもその動作と関連する物体等の情報も⼀緒に扱えるようにした⽅がいいの ではないか? 29

    知識グラフを活⽤した動作認識 • 訓練コストの削減 • 転移元のデータセットではなく、学習済みモデルを利⽤できれば もっと軽量な計算でターゲットデータセットの動作認識器が作れるのではないか? Model Zooを活⽤した動作認識
  16. Model Zooからの転移 31 [Shu+ 2021] Model Zoo (学習済みモデル置き場)にある異なるデータセットで学習されたモデル (ResNet)を ターゲットデータセットのみを⽤いて転移させる

    Convolution層のパラメータ ※ ソース(転移元)モデルもターゲットモデルも同じネットワーク構造を仮定 Adaptive Aggregation サンプルごとにソースの重要度を変えられる ように、ターゲットモデルの中間状態に 依存して決まるアテンション'! " を⽤いて Convolution層のパラメータを⾜し込む ( )" = * !#$ % '! " + )! "
  17. まとめ • メタ動画データセットによる動作認識の現状 • 動作認識データセットの動作ラベル間の関係をアノテーションした Meta Video Dataset (MetaVD)を紹介 •

    MetaVDを⽤いたデータセット拡張による動作認識器の学習法 • 独⾃データセットをMetaVDに取り込むための関係予測 • MetaVD研究の発展の⽅向性 • 知識グラフを活⽤した動作認識 • Model Zooを活⽤した動作認識 32 https://metavd.stair.center MetaVDのダウンロード・可視化ツール・更新情報は以下からアクセスできます 「メタ動画データセットによる動作認識の現状と可能性」
  18. 参考⽂献 • [Yoshikawa+ 2021] Yoshikawa, Yuya, et al. “MetaVD: A

    Meta Video Dataset for Enhancing Human Action Recognition Datasets.” Computer Vision and Image Understanding: CVIU, vol. 212, Nov. 2021, p. 103276. • [Yoshikawa+ 2023] Yoshikawa, Yuya, et al. “Action Class Relation Detection and Classification across Multiple Video Datasets.” Pattern Recognition Letters, vol. 173, Sept. 2023, pp. 93‒100. • [Yamamoto+ 2023] Yasunori Yamamoto, Shusaku Egami, Yuya Yoshikawa, Ken Fukuda, “Towards Semantic Data Management of Visual Computing Datasets: Increasing Usability of MetaVD,” Proceedings of the ISWC 2023 Posters, Demos and Industry Tracks co-located with 22nd International Semantic Web Conference (ISWC2023), Athens, Greece, Nov. 2023. • [Ghosh+ 2020] Ghosh, Pallabi, et al. “All About Knowledge Graphs for Actions.” arXiv [cs.CV], 28 Aug. 2020, http://arxiv.org/abs/2008.12432. arXiv. • [Wang+ 2018] Wang, Xiaolong, et al. “Zero-Shot Recognition via Semantic Embeddings and Knowledge Graphs.” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018, https://doi.org/10.1109/cvpr.2018.00717. • [Shu+ 2021] Shu, Yang, et al. “Zoo-Tuning: Adaptive Transfer from A Zoo of Models.” Proceedings of the 38th International Conference on Machine Learning, edited by Marina Meila and Tong Zhang, vol. 139, PMLR, 18--24 Jul 2021, pp. 9626‒37. 33