Harnessing Large Language Models for Training-free Video Anomaly Detection

1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
Harnessing Large Language Models for Training-free Video Anomaly Detection 2024/7/7 Acroquest Technology株式会社⼭本⼤輝

⼭本⼤輝（@tereka114） 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記
http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① SenNet + HOA Hacking the Human Vasculature in 3D 9th ② Predict Student Performance from Game Play ③ Amazon KDD Cup2023 Track2 9th 4. CQ出版 Interface ML／AI関連記事を複数寄稿 Kaggle Grandmaster

Acroquestの事業内容クラウド＆デジタルテクノロジーでビジネス進化を探求する IoT⾰新事業⼈々の⽣活基盤を変⾰する事業あらゆるモノからリアルタイムなデータ分析を実現するデジタルデータ活⽤事業企業のビジネスを変⾰する事業
あらゆるデータをビジネス活⽤し新たな価値創造を実現する AIソリューション事業業務のありかたを変⾰する事業あらゆる産業でAIを活⽤して業務の⾃動化・効率化を実現するクラウドサービス開発事業クラウド／データ分析／AIなどの統合的な活⽤で迅速なサービス開発を実現し、お客様のDX／DevOps推進をサポートする

機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
4 Acroquest社内で発⾜したデータサイエンスチームYAMALEX プロジェクトの⾼度な問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーのパートナーとして認定されています。様々な分野・規模での、AI/MLを活⽤した開発・導⼊実績があります <⼩売> <農業> <製造業> AI/ML分野での実⼒を、対外的にも認められています多種多様な課題をAIで解決するデータサイエンティストチーム

会社における取組や社⾵に関して多数の賞を頂いております Copyright © Acroquest Technology Co., Ltd. All rights
reserved. 5

組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.
6 会社を元気にする「いきいき実践勉強会」を開催し、多くの経営者様にご参加いただいております。

⽬次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.
7 1. 本⽇の論⽂ 2. 関連研究 3. 論⽂⼿法紹介 4. 実験 5. まとめ

1. 本⽇の論⽂

1. 本⽇の論⽂今回読む論⽂の動機 Copyright © Acroquest Technology Co., Ltd. All
rights reserved. 9 2022年から爆発的にChatGPTをはじめとしたLLMサービスやローカルLLMが展開されてきている。 ChatGPT（GPT-4o）やGeminiでは画像を解析できるようになり、活⽤の幅も広がっている。しかし、動画を解析するのは⾼い、もしくは、公開されていない。「Harnessing Large Language Models for Training-free Video Anomaly Detection」を読んで、動画の異常検知をLLMを活⽤して実施するところに⾯⽩さを感じた。

Copyright © Acroquest Technology Co., Ltd. All rights reserved. 10
Harnessing Large Language Models for Training-free Video Anomaly Detection 論⽂のポイント • LLMを利⽤して訓練なしによる動画異常検知を実施した。 • 同系統従来⼿法よりも精度が⾼い。個⼈的に⾯⽩いと思ったポイント • 学習をすれば、異常検知を可能だが、コストが⾼いのでその回避策として利⽤できるのでは︖ • LLMで時系列情報扱える。 1. 本⽇の論⽂今回の論⽂のポイント

2. 関連研究

CLIPを利⽤して動画をEncodingし、Temporal Self-Attentionで時系列特徴を解析するモジュールを提案した。（教師あり） 3. 関連研究関連研究① CLIP-TSA: CLIP-ASSISTED TEMPORAL SELF-ATTENTION FOR WEAKLY-SUPERVISED VIDEO ANOMALY DETECTION

RGBのストリームとOptical Flowのネットワークを利⽤し、疑似ラベルを作成し、後段処理の結果に基づいて再マッピングする。 3. 関連研究関連研究② DyAnNet: A Scene Dynamicity Guided Self-Trained Video Anomaly Detection Network

3. 論⽂⼿法紹介

Harnessing Large Language Models for Training-free Video Anomaly Detection 論⽂のポイント • LLMを利⽤して訓練なしによる動画異常検知を実施した。 • 同系統従来⼿法よりも精度が⾼い。個⼈的に⾯⽩いと思ったポイント • 学習をすれば、異常検知を可能だが、コストが⾼いのでその回避策として利⽤できるのでは︖ • LLMで時系列情報扱える。 3. 論⽂⼿法紹介今回の論⽂のポイント

3. 論⽂⼿法紹介従来⼿法との違い VLM/LLMを利⽤して「学習をしない」（図右）ことが最⼤の特徴

3. 論⽂⼿法紹介 LAVAD⼿法概要 Text Encoder Image Encoder Video Encoder 提案⼿法LAnguage-based VADの⼿法概要 ③動画情報を利⽤したスコア修正

3. 論⽂⼿法紹介 LAVAD⼿法概要（フレームベクトル⽣成処理） ①各フレームごとに説明⽂とベクトルを⽣成 ②フレーム画像埋め込み処理を利⽤したテキストクリーニング処理 Text Encoder Image Encoder Video Encoder

①各フレームごとに説明⽂とベクトルを⽣成する。 Image Captionのモデルを利⽤して、説明⽂を⽣成する。そのあとで説明⽂をベクトルに変換する。 3. 論⽂⼿法紹介フレームベクトル⽣成処理 ②フレーム画像埋め込み処理を利⽤したテキストクリーニング処理 ①で⽣成したものはノイズが含まれているものがある。そのため、Textに対応するImage Embeddingのモデルを利⽤して、⽣成したキャプションを近傍で最も近いものと置き換え、ノイズを除去する。動画中のフレーム説明⽂⽣成処理

3. 論⽂⼿法紹介 LAVAD⼿法概要（スコア作成） ①LLMを⽤いて時間情報を考慮した⽂章を⽣成する。 ②⽣成した⽂章からスコアを作成する。 Text Encoder Image Encoder Video Encoder

LLMを利⽤した異常検知スコアの作成 ①LLMを⽤いて時間情報を考慮した⽂章を⽣成する。時系列情報が⽋けているので、複数フレームのキャプションから次のプロンプトで⽣成する。 ②⽣成した⽂章からスコアを作成する。 Please summarize what happened in few sentences, based on the following temporal description of a scene. Do not include any unnecessary details or descriptions. If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities? 3. 論⽂⼿法紹介スコア作成

3. 論⽂⼿法紹介 LAVAD⼿法概要（動画情報を利⽤したスコア修正）動画情報を利⽤したスコア修正 Text Encoder Image Encoder Video Encoder

動画情報を利⽤したスコア修正 3. 論⽂⼿法紹介動画情報を利⽤したスコア修正動画情報を利⽤し、異常度スコアに該当するフレームの近傍（K）の情報を利⽤してスコアを補正する。動画とシーケンスの Embeddingの⽐較異常スコア補正後スコア

4. 実験

1．データセットは街のカメラで撮影され、犯罪⾏為が含まれているUCF-Crime/XD-Violenceの2つを利⽤している。（犯罪⾏為を検出する。 2．評価はAUC、Average Precision（AP）を利⽤している。 3．その他実装詳細は次の通り 4. 実験実験内容 No. 項⽬値 1 Caption Model BLIP-2 2 LLM LLaMA-2-13b-chat 3 Video Encoder Image Bind 4 K 10

計1900 、Untrimmedなデータ。動画中の犯罪時間を特定する 4. 実験データセット① UCF-Crime

巨⼤な暴⼒的なシーンを検出するデータセット（4754動画） 4. 実験データセット② UCF-Crime

同系統過去⼿法と⽐較して、最も精度が⾼い（SoTA） Traniningには劣るが、OneClass,学習なしの類で最も精度が⾼い 4. 実験他⼿法との⽐較

異常ではない箇所は低く、異常の箇所は⾼く出る。また、描写としても正しいものが出⼒されていることが確認できる。 4. 実験動画異常検出例

⼿法それぞれに効果はあるが、特にTemporal Summary （LLM Based AnomalyScorering）Score Refinementの効果が⾼い。 4. 実験分析︓⼿法のAblation Study

base：How would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities? Anomaly Prior︓suspicious activities or potentially criminal activities Impersonation： If you were a law enforcement agency 警察の物まねを⼊⼒することのみ精度向上に貢献した →異常の前提を書くことで、異常の検出を制限させたのでは︖（仮説） 4. 実験分析︓Task Prior（プロンプト）

Kの値を増やすと、検出精度向上に貢献する。（＝ある程度の補正に効果がある）ただし、9程度で伸びなくなる。 4. 実験分析︓Effictive K

No. 項⽬説明 1 他⼿法との⽐較 LAVADの学習なし⼿法は学習済モデルに匹敵し、かつ、他のOne Classが学習なし⼿法よりも⾼精度を達成した。 2 主な精度貢献ポイント Temporal SummaryとScore Refinementによる時系列補正の⼿法が⼤きく貢献している。 3 プロンプト Impersonation（模倣）の⼿法が最も精度が⾼く、異常検知の⽅向性を⽰すプロンプトは貢献しなかった。 4. 実験実験まとめ

5. まとめ

1. VADの⼿法であるLAVADを提案し未学習⼿法の中で、 UCF- Crime/XD-ViolenceのデータセットでSoTAを達成した。 2. ⼿法として特に貢献があったのはノイズの多いデータ処理、時系列⽅向の集約処理、近傍を利⽤した異常スコア修正処理がある。 5. まとめ本論⽂のまとめ

1. LLMを利⽤して学習なしで精度が教師あり学習と概ね近しいのは⾯⽩いポイント。 2. ただし、SaaS系のLLM（GPT-4O、Claudeなど）を利⽤するにはフレーム解析数の都合で、料⾦の⾯から難しいように⾒えるので、⼯夫が必要になる。 3. SaaS系のLLMでも集約処理など、参考にはできるとは思うので、アイデアを要所要所で使いたい。 5. まとめ感想

Harnessing Large Language Models for Training-f...

Harnessing Large Language Models for Training-free Video Anomaly Detection

More Decks by tereka114

Other Decks in Programming

Featured

Transcript