Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VideoMamba: State Space Model for Efficient Vid...

CHOU
November 16, 2024

VideoMamba: State Space Model for Efficient Video Understanding

第62回 コンピュータビジョン勉強会@関東の発表資料です。

CHOU

November 16, 2024
Tweet

Other Decks in Technology

Transcript

  1. 1 第62回 コンピュータビジョン勉強会@関東 VideoMamba: State Space Model for Efficient Video

    Understanding 2024/11/16 周 玲 (@ZLing500) セーフィー株式会社
  2. 2 • 周 玲 (@ZLing500) ◦ セーフィー株式会社 ▪ 開発本部第3開発部 Ai

    Vision G グループ ▪ クラウドカメラ向けの画像認識のプロダクト開発 • 略歴 ◦ キオクシア(1社目) ▪ SSDのプリント配線板の要素技術の開発 自己紹介
  3. 4 この論文での問い 2023年12月に、Albert Guらが新しいネットワークアーキテクチャMamba [25]を発表した 特徴: • 高速な推論性能(Transformerの約5倍) • 言語、音声など複数の分野において、Transformerに匹敵する性能

    Can Mamba work well for video understanding?      ⇒ VideoMamba [25] Gu, A., Dao, T.: Mamba: Linear-time sequence modeling with selective state spaces. ArXiv abs/2312.00752 (2023)
  4. 5 Transformerの二次的な複雑さ 
 
 
 研究者たちは、Transformerの代替アーキテクチャを模索しており、
 SSM(State Space Model)もその候補の一つである Mamba

    は、よりシンプルな SSM アーキテクチャを採用し、ハードウェア認識アルゴリズムと 入力情報の選択的処理メカニズムを追加したモデルである Mambaが生まれた背景
  5. 7 Mamba をビデオドメインに適応させた結果、 優れた性能を示していることがわかった Video Mambaによる改善結果 ※ TimeSformer [4] が2021年にFacebook

    AIによって提案され、ビデオ理解タス ク向けに設計されたトランスフォーマーベースのモデル [4] Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? In: ICML (2021)
  6. 9 SSM Image from A Visual Guide to Mamba and

    State Space Models SSM(State Space Model)は、時系列データの解析や予測のために提案された数学 的モデルである。観測データと潜在変数の関係を状態空間上で表現し、複雑な動的シ ステムの内部状態をモデル化することができる。
  7. 13 SSMの改良としてのMamba • 離散化 ◦ SSMは入力と出力を連続信号として扱っているが、言語や画像などでは離 散化された値を扱う必要がある ◦ zero-order hold

    (ZOH) method • Selective Scan Mechanism ◦ 行列B, C, 及びΔの値を動的に変化させ、異なる入力データに応じて自動的 に調整され、異なる重みを持つようになる ◦ 入力データの重要な情報に選択的に注目できる Image from A Visual Guide to Mamba and State Space Models
  8. 17 VideoMamba Overview vanilla ViT [15]のアーキテクチャを利用し、B-Mamba blockを3D video sequencesに適応させる [15]

    Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: An image is worth 16x16 words: Transformers for image recognition at scale. In: ICLR (2021)
  9. 21 Masked Modeling UTM (Unmasked Teacher Model) [43] [43] Li,

    K., Wang, Y., Li, Y., Wang, Y., He, Y., Wang, L., Qiao, Y.: Unmasked teacher: Towards training-efficient video foundation models. In: ICCV (2023) UMTに着想を得て、マスク付きのアライメント手法を採用する
  10. 24 Image tasks(実験条件) • データセット:ImageNet-1K ◦ training images:1.28M, validation images:

    50K • 学習手法 ◦ stochastic depth ratio ▪ VideoMamba-Ti/S/M => 0/0.15/0.5 ◦ self-distillation ▪ VideoMamba-Mモデルは、事前学習済みのVideoMamba-Sモデルを「教 師」として使用し、最終的な特徴マップをL2損失を通じて整列させることでト レーニングされる
  11. 27 Short-term Video Understanding(実験条件) • データセット: • 学習手法 ◦ supervised

    training ▪ ImageNet-1Kで事前学習させたモデルをVideoMAE [74]と同じトレーニング戦略で学習する ◦ self-supervised training ▪ UMTと同様のトレーニングレシピを採用し、CLIP-ViT-B [60]を使用してVideoMamba-Mを800エ ポックで蒸留する dataset average video length train valuation Kinetics-400 10s 234619 19761 Something-SomethingV2 4s 168913 24777 [74] Tong, Z., Song, Y., Wang, J., Wang, L.: VideoMAE: Masked autoencoders are data-efficient learners for self-supervised video pre-training. In: NeurIPS (2022) [60] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I.: Learning transferable visual models from natural language supervision. In: ICML (2021)
  12. 29 Long-term Video Understanding(実験条件) • データセット: ◦ Breakfast:1,712本の動画、10種類の複雑な調理活動、総再生時間77時間 ◦ COIN:11,827本の動画、180種類の独自の手順タスク、平均再生時間2.36分

    ◦ LVU:約30,000本の映画クリップ、再生時間1~3分、9つのタスク、3つの主要カテゴリ(コ ンテンツ理解、メタデータ予測、ユーザーエンゲージメント)を含む • 学習手法 ◦ エンドツーエンドの訓練 (short-term video understandingのと同様) ▪ Kinetics-600で訓練されたSwin-B [51]のような事前訓練済みビデオモデルを使用し ない [51] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. In: ICCV (2021)
  13. 31 Multi-modality Video Understanding(実験条件) • データセット: ◦ 学習 ▪ WebVid-2M

    videotextpairs、CC3M image-textpairs ◦ 評価 ▪ MSRVTT、DiDeMo、ActivityNet、LSMDC、MSVD • 学習手法 ▪ 事前学習 • 画像トークンの50%とビデオトークンの80%をマスクし、8フレームで10エポックに わたって行う ▪ unmasked tuning • 1エポック
  14. 34 VideoMamba 効率的なビデオ理解を実現する純SSMベースモデルの提案 広範な実験により、以下の特性が実証されている: • 視覚領域でのスケーラビリティ • 短期間の動作認識に対する敏感性 • 長期間のビデオ理解における優位性

    • 他のモダリティとの互換性 まだ完全に行われていない検証: • より大規模なモデルへの拡張(例:VideoMamba-g) • 追加のモダリティの統合(例:音声) • 数時間のビデオ理解のための大規模言語モデルとの統合