メタ動画データセットによる動作認識の現状と可能性

メタ動画データセットによる動作認識の現状と可能性千葉⼯業⼤学⼈⼯知能・ソフトウェア技術研究センター吉川友也 https://yuya-y.com 産総研AIセミナー

⾃⼰紹介 2 最近の研究トピック • 説明可能AI (解釈可能な機械学習) • 動作認識吉川友也
(よしかわゆうや) 千葉⼯業⼤学⼈⼯知能・ソフトウェア技術研究センター上席研究員博⼠（⼯学） − 2015年奈良先端科学技術⼤学院⼤学

⼈物動作認識 (Human Action Recognition) 動作認識器!! を⽤いて動画中の⼈物の動作を分類 3 動作認識器 !! 動作ラベル
動画学習に⽤いるデータセットを⼯夫して動作認識器の精度を改善することを⽬指す shaking_hands 研究の⽬的⾼精度の動作認識器!"を学習本講演における研究⽅針

動作認識モデルを学習するためのデータセットの例 • ⼤規模・⼀般動作データセット (事前学習にも使われる) • Kinetics-700 • ActivityNet • ベンチマークデータセット
(⼿頃なサイズ) • UCF101 • HMDB51 • ドメイン特化 • EPIC-KITCHENS：料理作業動作 • Sports-1M：スポーツの種類 4 データ数クラス数 Kinetics-700 530K 700 ActivityNet 21K 200 UCF101 13K 101 HMDB51 5K 51 EPIC- KITCHENS 90K (action segments) 97 verbs 300 nouns Sports-1M 1133K 487

単⼀のデータセットの限界 • 多くの論⽂では単⼀のデータセット内で訓練・テストを⾏いモデルの性能を評価 • しかし、動画のドメインが変わったときに認識できるのかが不明 5 定量評価のためにはラベルの対応関係が必要
NTU RGB+Dより STAIR Actionsより

独⾃データセットでモデルを学習したい場合 • 独⾃の動作を認識できるようにしたい場合、⾃ら動画収集・ラベル付けを⾏う必要がある 6 • データ作成コストが⾼く⼤規模な教師データを作れない • ドメインが限定的になりやすい
• 例：動画撮影⽅法が限られる、登場⼈物が限られる、等難しいポイント学習不⾜ (underfitting) で汎化しない可能性

複数データセットで学習すれば解決？ • 多様なドメイン、⼤量のデータで学習することで良い表現学習ができる 7 メリット • モデル全体を更新して表現学習までしようとすると訓練コストが⾼い • 各ラベルのデータは増えていないので、モデルの最終層のみの学習では精度向上に繋がらない可能性
デメリットデータセットX データセットY データセットXY ラベルA ラベルB ラベルC ラベルD ラベルA ラベルB ラベルC ラベルD (独⾃データセット)

課題のまとめ • 単⼀データセット • 他のデータセットの動画に対する認識性能がわからない • 独⾃データセット • データ作成コストが⾼く、⼤規模データが作れない •
ドメインが限定的になりやすい • 複数データセット • 訓練コストが⾼い • モデルの最終層のみの学習では精度向上に繋がらない可能性 8

MetaVD (Meta Video Dataset) 既存の動作認識データセットの間で動作ラベルの関係性を⼈⼿アノテーション 9 UCF101 Kinetics700 “exercising_arm” “BenchPress”
動作ラベルA 動作ラベルB • 6種類のデータセットから構成 • UCF101 (101クラス) • HMDB51 (51クラス) • ActivityNet (200クラス) • STAIR Actions (100クラス) • Charades (157クラス) • Kinetics-700 (700クラス) 今後、更に追加予定 [Yoshikawa+ 2021]

MetaVD (Meta Video Dataset) 既存の動作認識データセットの間で動作ラベルの関係性を⼈⼿アノテーション 10 UCF101 Kinetics700 全て
の動作ラベルペアにアノテ . シ 0 ン https://metavd.stair.center/visualizer.html “exercising_arm” “BenchPress” 動作ラベルA 動作ラベルB [Yoshikawa+ 2021]

MetaVDを⽤いたデータセット拡張 11 MetaVD内の1つのデータセット (⽬的DS) をその他のデータセット (転移DS) で拡張転移DSの動作ラベルBの動画を⽬的DSの動作ラベルAの動画として追加

関係の種類による拡張される動画の違い 12 equal hypernym (is-a) similar Biking Ride_bike Biking BMX
Doing motocross Brushing_teeth brush_hair Gargling mouthwash 拡張拡張拡張動画の増え⽅動画のバリエーション⼩⼤低⾼

関係の種類による拡張される動画の違い 13 動作ラベルA similarで拡張動作ラベルA 拡張前動作ラベルA equalで拡張動作ラベルB hypernymで拡張
動作ラベルB similarで拡張動作ラベルB equalで拡張動作ラベルB 拡張前動作ラベルA hypernymで拡張動作ラベルA, Bが拡張されたときの⼊⼒空間の分布のイメージ

MetaVDでデータセット拡張後のサイズ 14 ※ ()内の数字は拡張された動作クラスの数注意：すべての動作ラベルで動画が増えるわけではない表. MetaVDにより拡張した各データセットの訓練データ数クラス分布が変わり、精度を下げる要因になる

訓練時のミニバッチ構築の戦略クラス分布を変えず、転移データセットの割合を調整できるようにするため通常通り⽬的データセットでミニバッチを作った後、確率"で関係する動作ラベルが付いた転移データセットの動画に置き換える 15 例：動作ラベルA,Bがequalの関係にあるとき

課題に対するMetaVDを⽤いた解決策 • 単⼀データセット • 他のデータセットの動画に対する認識性能がわからない • 独⾃データセット • データ作成コストが⾼く、⼤規模データが作れない •
ドメインが限定的になりやすい • 複数データセット • 訓練コストが⾼い • モデルの最終層のみの学習では精度向上に繋がらない可能性 16 他のデータセットにある関係する動作ラベルの動画を⽤いて認識性能を評価可能他のデータセットから、多様なドメインの動画を多数取り込むことが可能⽬的データセットに必要な動画のみを取り込むことで訓練コストを抑え各ラベルの動画を増やして精度向上に繋げる

認識性能 17 UCF101のテスト精度 UCF101のみ拡張 (equal) 拡張 (equal + is-a)
拡張 (equal + similar) 91.38 91.14 90.99 90.46 UCF101のみとほぼ変わらず拡張UCF101のテスト精度訓練データ拡張 (equal) 拡張 (equal + is-a) 拡張 (equal + similar) UCF101のみ 72.89 63.11 28.66 拡張UCF101 82.43 76.69 33.92 UCF101のみよりも⼤幅に精度が向上 ! = 0.5の場合テストデータ多様な動画に対する認識性能が向上していることが⽰唆される

認識結果の例 18 bowling (Kinetics-700) fencing (HMDB51) Archery (UCF101) 動作認識器 !!
UCF101のみで学習 MoppingFloor SalsaSpin PlayingViolin UCF101でのテスト精度 91.38% 拡張UCF101でのテスト精度 72.89% 〜 UCF101のみで学習した場合〜

認識結果の例 19 bowling (Kinetics-700) fencing (HMDB51) Archery (UCF101) 動作認識器 !!
Bowling Fencing Archery UCF101でのテスト精度 91.14% → 拡張UCF101でのテスト精度 82.43% ↑ equal関係で拡張した UCF101で学習〜拡張したUCF101で学習した場合〜

動作ラベルの関係予測 • 独⾃データセットをMetaVDに含めて、独⾃データセットを拡張 • 新たに既存データセットをMetaVDに追加する際の⽀援 20 2つの動作ラベルの間にどのような関係があるかを予測関係の有無を予測するタスク関係の種類を予測するタスク役に⽴つ場⾯
[Yoshikawa+ 2023]

動作ラベルの関係予測動作クラス", $のラベル⽂字列と動画集合から特徴抽出し、得られた特徴ベクトルからMLPを介して関係の検出・分類を⾏う 21 [Yoshikawa+ 2023]

22 ラベル⽂字列エンコーダ (BERT) 動画集合エンコーダ (SlowFast)

動作ラベルの関係予測の性能ラベル⽂字列のみ動画集合のみ両⽅ランダム 0.711 0.442 0.746 0.006 23
関係の有無を予測するタスクの予測性能 (Average Precision) ラベル⽂字列のみ動画集合のみ両⽅ランダム 0.785 0.715 0.794 0.522 関係の種類を予測するタスクの予測性能 (Accuracy) UCF101が新たにMetaVDに含めたいデータセットと仮定して、それ以外の5つのデータセットで関係予測モデルを学習

⼤規模⾔語モデル(LLM)で動作ラベル関係予測 24 関係分類精度 (全データセット平均) GPT-3.5 (finetuned) 0.914 GPT-4 (zero-shot) 0.878
GPT-3.5 (zero-shot) 0.565 You are an AI that answers the relationship between given two action classes. The relationships between action classes and their definition are as follows: - "equal": action class 1 and action class 2 are the same meaning. - "similar": action class 1 and action class 2 are similar meaning. - "is-a": action class 1 is a superordinate concept of action class 2 Answer the relationship between the following action classes: "eat" and "Having_an_ice_cream" ユーザ is-a 関係の種類を予測するタスク

発展の⽅向性 • 深く広い知識の活⽤ • 現状は直接関係する動作ラベルのみを考慮しているが、間接的に関係する動作ラベルの影響も考慮した⽅がいいのではないか？ • 動作以外にもその動作と関連する物体等の情報も⼀緒に扱えるようにした⽅がいいのではないか？ 25
知識グラフを活⽤した動作認識

知識グラフを利⽤したゼロショット動作認識 • ノードが動作ラベル（訓練とテストで異なる動作ラベル） • 各ノードの特徴量は、動作ラベルから得た⽂埋め込みベクトル • エッジは特徴量の類似度に基づいて定義 26 UCF101+Kinetics400の動作ラベルの知識グラフを構築グラフニューラルネット(GNN)で動作ラベルの表現学習
各ノードの最終層が動作認識器の最終層の重みと同じになるように学習図: [Wang+ 2018] [Ghosh+ 2020] 動作認識器の最終層の重み

知識グラフを利⽤したゼロショット動作認識 27 グラフニューラルネット(GNN)で動作ラベルの表現学習各ノードの最終層が動作認識器の最終層の重みと同じになるように学習 [Ghosh+ 2020] 動作認識器の最終層の重み GNNの最終層と動画から得られる特徴量で動作認識動作
認識器動作認識器にとって未知の動作クラスであっても認識可能 # ∈ ℝ# 動画特徴量 &$ ∈ ℝ# 未知の動作クラス%の推定重み内積動作クラス& のスコア

MetaVDを知識グラフに接続 28 [Yamamoto+ 2023] 知識グラフ (CommonSense Knowledge Graph; CSKG)のノードにMetaVD内の動作を対応付け CSKGの膨⼤な知識を活⽤した動作認識性能の向上が期待できる

発展の⽅向性 • 深く広い知識の活⽤ • 現状は直接関係する動作ラベルのみを考慮しているが、間接的に関係する動作ラベルの影響も考慮した⽅がいいのではないか？ • 動作以外にもその動作と関連する物体等の情報も⼀緒に扱えるようにした⽅がいいのではないか？ 29
知識グラフを活⽤した動作認識 • 訓練コストの削減 • 転移元のデータセットではなく、学習済みモデルを利⽤できればもっと軽量な計算でターゲットデータセットの動作認識器が作れるのではないか？ Model Zooを活⽤した動作認識

Model Zooからの転移 30 [Shu+ 2021] Model Zoo (学習済みモデル置き場)にある異なるデータセットで学習されたモデル (ResNet)をターゲットデータセットのみを⽤いて転移させる
Convolution層のパラメータ ※ ソース（転移元）モデルもターゲットモデルも同じネットワーク構造を仮定

Model Zooからの転移 31 [Shu+ 2021] Model Zoo (学習済みモデル置き場)にある異なるデータセットで学習されたモデル (ResNet)をターゲットデータセットのみを⽤いて転移させる
Convolution層のパラメータ ※ ソース（転移元）モデルもターゲットモデルも同じネットワーク構造を仮定 Adaptive Aggregation サンプルごとにソースの重要度を変えられるように、ターゲットモデルの中間状態に依存して決まるアテンション'! " を⽤いて Convolution層のパラメータを⾜し込む ( )" = * !#$ % '! " + )! "

まとめ • メタ動画データセットによる動作認識の現状 • 動作認識データセットの動作ラベル間の関係をアノテーションした Meta Video Dataset (MetaVD)を紹介 •
MetaVDを⽤いたデータセット拡張による動作認識器の学習法 • 独⾃データセットをMetaVDに取り込むための関係予測 • MetaVD研究の発展の⽅向性 • 知識グラフを活⽤した動作認識 • Model Zooを活⽤した動作認識 32 https://metavd.stair.center MetaVDのダウンロード・可視化ツール・更新情報は以下からアクセスできます「メタ動画データセットによる動作認識の現状と可能性」

参考⽂献 • [Yoshikawa+ 2021] Yoshikawa, Yuya, et al. “MetaVD: A
Meta Video Dataset for Enhancing Human Action Recognition Datasets.” Computer Vision and Image Understanding: CVIU, vol. 212, Nov. 2021, p. 103276. • [Yoshikawa+ 2023] Yoshikawa, Yuya, et al. “Action Class Relation Detection and Classification across Multiple Video Datasets.” Pattern Recognition Letters, vol. 173, Sept. 2023, pp. 93‒100. • [Yamamoto+ 2023] Yasunori Yamamoto, Shusaku Egami, Yuya Yoshikawa, Ken Fukuda, “Towards Semantic Data Management of Visual Computing Datasets: Increasing Usability of MetaVD,” Proceedings of the ISWC 2023 Posters, Demos and Industry Tracks co-located with 22nd International Semantic Web Conference (ISWC2023), Athens, Greece, Nov. 2023. • [Ghosh+ 2020] Ghosh, Pallabi, et al. “All About Knowledge Graphs for Actions.” arXiv [cs.CV], 28 Aug. 2020, http://arxiv.org/abs/2008.12432. arXiv. • [Wang+ 2018] Wang, Xiaolong, et al. “Zero-Shot Recognition via Semantic Embeddings and Knowledge Graphs.” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018, https://doi.org/10.1109/cvpr.2018.00717. • [Shu+ 2021] Shu, Yang, et al. “Zoo-Tuning: Adaptive Transfer from A Zoo of Models.” Proceedings of the 38th International Conference on Machine Learning, edited by Marina Meila and Tong Zhang, vol. 139, PMLR, 18--24 Jul 2021, pp. 9626‒37. 33

メタ動画データセットによる動作認識の現状と可能性

メタ動画データセットによる動作認識の現状と可能性

Yuya Yoshikawa

More Decks by Yuya Yoshikawa

Other Decks in Research

Featured

Transcript