Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
CVPR2022論文読み会スライド- IntentVisor
Search
yo_itz
August 21, 2022
Technology
0
220
CVPR2022論文読み会スライド- IntentVisor
インタラクティブなビデオ要約フレームワーク: IntentVizorの紹介
yo_itz
August 21, 2022
Tweet
Share
Other Decks in Technology
See All in Technology
2025advance01
minamizaki
0
130
AIの電力問題を概観する
rmaruy
1
210
AIに実況させる / AI Streamer
motemen
3
1.4k
Houtou.pm #1
papix
0
660
Azure Developer CLI と Azure Deployment Environment / Azure Developer CLI and Azure Deployment Environment
nnstt1
1
130
ITエンジニアを取り巻く環境とキャリアパス / A career path for Japanese IT engineers
takatama
4
1.5k
“⾞が通れるほど⼤きな”セキュリティーホールを抑えながらログインしたい
taiseiue
0
160
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
5
38k
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
12k
RDRA3.0を知ろう
kanzaki
2
430
CSSDay, Amsterdam
brucel
0
120
Javaアプリケーションの配布とパッケージング / Distribution and packaging of Java applications
hogelog
1
150
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
21k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Building Applications with DynamoDB
mza
95
6.4k
KATA
mclloyd
29
14k
Unsuck your backbone
ammeep
671
58k
Optimizing for Happiness
mojombo
378
70k
Making the Leap to Tech Lead
cromwellryan
134
9.3k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.6k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
A Tale of Four Properties
chriscoyier
159
23k
Become a Pro
speakerdeck
PRO
28
5.4k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Transcript
第11回 全日本コンピュータビジョン勉強会(後編) CVPR2022読み会(後編) IntentVizor: Towards Generic Query Guided Interactive Video Summarization
2022/08/21 @yo_itz
アジェンダ 自己紹介 どんな論文か 背景・目的 手法の説明 評価 まとめ 所感
自己紹介 @yo_itz 某AIベンチャーのエンジニア 主に受託で画像認識系の DLモデルや 関連するシステム開発に従事 最近動画を撮りためる機会が増えてきて動画要約に興味が湧いてきたところ 今回の論文紹介は所属企業の業務・見解とは無関係です
どんな論文か IntentVizor: Towards Generic Query Guided Interactive Video Summarization Guande
Wu, Jianzhe Lin, Claudio T. Silva; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 10503-10512 動画要約について、ユーザの意図の反映を目指していること UIも併せて提案されている面白そうだった Vision & XカテゴリのPoster論文、Dataset contibutions*に挙げられている *データセットへの 貢献を主張する か、データセットへの貢献があると審査過程で確認されたもの 動画自体はオリジナル UTEに依存。 https://drive.google.com/file/d/13xbo-T1MFtlWAgtGHkujiDq_5KXtw-wA/view?usp=sharing
背景・目的 動画要約はテキストの概念でクエリを表現し、動画中の各ショットと それを紐づける形で抽出していた。 既存のクエリ駆動要約はたとえば ”テーブル”というテキストのみを クエリとすると、食卓か作業台か区別できないままテーブルの映っ たシーンを拾ってしまう。 また実用上はユーザのフィードバックを反映させることが重要と考 えられるようになってきた。 この対処として異なるモダリティからのクエリに対応する汎用的なモ
デルを提案し、要約プロセスにおいてユーザが対話できるようにす るために、IntentVizorと名付けた新しいフレームワークを提案す る。
ItentVizorフレームワーク (1)ビデオ要約プロセスの インタラクティブな制御 (2)汎用的なマルチモダリティクエ リのサポート、を目標としている。 マルチモダリティクエリを統一的かつ対話的なユーザインテントとしてモデル化すること により、この2つの要求を満たすことが できることを示す マルチモダリティクエリをより適切に扱うために設計されたGSE-GCNについて説明しま す
統一的で対話的なユーザインテント ユーザインテントζ i は基底の値を仮定し、ビデオvに対するクエリqから暗黙に予測できるものとする η s はζiを条件とするベルヌーイ分布からサンプリングされるものとする あるクエリqに対してショットsが要約に選択される事象η s の確率は(2)式となる
インテントモジュールとサマリモジュールを次の様に設計する θ g , θ h はパラメータでGT y t が与えられたとき次のように最適化することができる インテントモジュール サマリモジュール
GSE-GCN: Granularity-Scalable Ego-Graph Convolutional Networks GS-Pathways:フレーム数の多い動作やイベントと少ないもので粒度を分けて処理する Ego-Graph CN:意図エッジで意味頂点と意図頂点を結ぶグラフを作り GNNを使う。時間が離れたセグメントの内容は相関が低いと考え、計算量を抑えるため ローカル
GCN モジュールを利用してショットレベルの特徴を生成し、この特徴を用いてショット選択確率を予測する
Granularity-Scalable Pathways (GS-Pathways) 時間的な長さや移動速度の異なる動作は、異なる時間粒度の特徴量で処理する必要があることがわかった。 時間粒度スケーラブルなモデルが必要となる粒度の異なる 2つの経路を持つ柔軟な構造を提案する。
評価 評価は 推論動画とGT動画の意味的な類似性をIoUでマッチングした上で、精度・再現率・ F-1スコア で評価する。F1で最高性能(表2) ビジュアルクエリで結果も示す(表 3)各アノテーションされた要約に 対して、 固有ベクトル中心度を基準として最も代表的なショットを クエリショットとして選択する。
評価- Ablation Analysis 1 Ego-GCNはいずれかのモジュールを Transformerに変え た場合よりよい性能を示す (表4) 2 Local GCN はアップアンプリングや転置畳込みより優れ
ている(表5) 3 GS-Pathway4パターン試したがFullモデルがベスト(表6) 表4 表5 表6
評価- Ablation Analysis 4 異なる経路の特徴を融合するタイミング Middle、LateはそれぞれMLPの前後。Earlyがベスト(表7) 5 Itentモジュールに動画の入力はいるか →なくても既存の手法よりはよい(表8) 6 サマリモジュールは別のデータセットに転移可能か まずテキストクエリ
データセットで要約モジュールを学習し次に、この事前に学習し た要約モジュールを再利用しビジュアルクエリタスクのために意図モジュールのみ を学習する。その結果は表9 に示すとおりである。この実験結果から、転送された モデル は正規の設定で学習したモデルを上回っており、サマリモジュ ールがマル チモダリティに対して交換可能(表9) 表7 表8 表9
評価(定性,GUI) 図4 video-3に対して "Food "と "Room "をクエリした際のプロトタイプのイメージではモデルが料理と部屋のシナリオをうまく捉えている。また、食品調理と食品貯蔵という2種類 の食品シナリオが識別されている スコアや要約箇所を確認しながらクエリを切り替えられるということがポイント
まとめ ・インタラクティブなビデオ要約フレームワーク: IntentVizorを提案 ・ユーザインテントを導入したマルチモダリティのクエリ表現 ・対話的なUI ・UTEビデ オに基づくビジュアルクエリーガイド付きビデオ要約のためのデータセッ トをつかってSOTA
所感 ・要約には作業者の主観が入ると思えば、意図を反映させる取り組みは面白い ・タスクに対してGUIもセットで解決にいくというのはCVのアプローチとして ありなのかなという印象(Vision & X枠ではありなのかも。実用上は嬉しい) ・CVPR2022でVideo Summerization を扱っている論文自体が少ない 2019にランダム抽出と大差ないという指摘があったが...
Thank you for your attention.