Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Harnessing Large Language Models for Training-f...

Harnessing Large Language Models for Training-free Video Anomaly Detection

CV勉強会第61回

tereka114

July 07, 2024
Tweet

More Decks by tereka114

Other Decks in Programming

Transcript

  1. 1 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    Harnessing Large Language Models for Training-free Video Anomaly Detection 2024/7/7 Acroquest Technology株式会社 ⼭本 ⼤輝
  2. ⼭本 ⼤輝 (@tereka114) 1. Acroquest Technology株式会社 ① 画像処理・⾃然⾔語処理の研究開発 2. のんびりしているエンジニアの⽇記

    http://nonbiri-tereka.hatenablog.com/ 3. Kaggle Competitions Grandmaster ① SenNet + HOA Hacking the Human Vasculature in 3D 9th ② Predict Student Performance from Game Play ③ Amazon KDD Cup2023 Track2 9th 4. CQ出版 Interface ML/AI関連記事を 複数寄稿 Kaggle Grandmaster
  3. Acroquestの事業内容 クラウド&デジタルテクノロジーでビジネス進化を探求する IoT⾰新事業 ⼈々の⽣活基盤を 変⾰する事業 あらゆるモノからリアルタイムな データ分析を実現する デジタルデータ活⽤事業 企業のビジネスを 変⾰する事業

    あらゆるデータをビジネス活⽤し 新たな価値創造を実現する AIソリューション事業 業務のありかたを 変⾰する事業 あらゆる産業でAIを活⽤して 業務の⾃動化・効率化を実現する クラウドサービス 開発事業 クラウド/データ分析/AIなどの統合的な活⽤で 迅速なサービス開発を実現し、 お客様のDX/DevOps推進をサポートする
  4. 機械学習分野における豊富な経験 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    4 Acroquest社内で発⾜した データサイエンスチームYAMALEX プロジェクトの⾼度な 問題解決に取り組んでいます。 AWS Machine Learning コンピテンシーの パートナーとして 認定されています。 様々な分野・規模での、AI/MLを活⽤した開発・導⼊実績があります <⼩売> <農業> <製造業> AI/ML分野での実⼒を、 対外的にも認められています 多種多様な課題をAIで解決する データサイエンティストチーム
  5. 組織の取り組みが書籍として出版されています Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    6 会社を元気にする 「いきいき実践勉強会」 を開催し、多くの経営者様に ご参加いただいております。
  6. ⽬次 Copyright © Acroquest Technology Co., Ltd. All rights reserved.

    7 1. 本⽇の論⽂ 2. 関連研究 3. 論⽂⼿法紹介 4. 実験 5. まとめ
  7. 1. 本⽇の論⽂ 今回読む論⽂の動機 Copyright © Acroquest Technology Co., Ltd. All

    rights reserved. 9 2022年から爆発的にChatGPTをはじめとしたLLMサービスや ローカルLLMが展開されてきている。 ChatGPT(GPT-4o)やGeminiでは画像を解析できるようになり、 活⽤の幅も広がっている。 しかし、動画を解析するのは⾼い、もしくは、公開されていない。 「Harnessing Large Language Models for Training-free Video Anomaly Detection」を読んで、動画の異常検知をLLMを 活⽤して実施するところに⾯⽩さを感じた。
  8. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 10

    Harnessing Large Language Models for Training-free Video Anomaly Detection 論⽂の ポイント • LLMを利⽤して訓練なしによる動 画異常検知を実施した。 • 同系統従来⼿法よりも精度が⾼い。 個⼈的に ⾯⽩いと思った ポイント • 学習をすれば、異常検知を可能だ が、コストが⾼いのでその回避策 として利⽤できるのでは︖ • LLMで時系列情報扱える。 1. 本⽇の論⽂ 今回の論⽂のポイント
  9. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 12

    CLIPを利⽤して動画をEncodingし、Temporal Self-Attentionで 時系列特徴を解析するモジュールを提案した。(教師あり) 3. 関連研究 関連研究① CLIP-TSA: CLIP-ASSISTED TEMPORAL SELF-ATTENTION FOR WEAKLY-SUPERVISED VIDEO ANOMALY DETECTION
  10. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 13

    RGBのストリームとOptical Flowのネットワークを利⽤し、 疑似ラベルを作成し、後段処理の結果に基づいて再マッピングする。 3. 関連研究 関連研究② DyAnNet: A Scene Dynamicity Guided Self-Trained Video Anomaly Detection Network
  11. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 15

    Harnessing Large Language Models for Training-free Video Anomaly Detection 論⽂の ポイント • LLMを利⽤して訓練なしによる動 画異常検知を実施した。 • 同系統従来⼿法よりも精度が⾼い。 個⼈的に ⾯⽩いと思った ポイント • 学習をすれば、異常検知を可能だ が、コストが⾼いのでその回避策 として利⽤できるのでは︖ • LLMで時系列情報扱える。 3. 論⽂⼿法紹介 今回の論⽂のポイント
  12. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 16

    3. 論⽂⼿法紹介 従来⼿法との違い VLM/LLMを利⽤して「学習をしない」(図右)ことが 最⼤の特徴
  13. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 17

    3. 論⽂⼿法紹介 LAVAD⼿法概要 Text Encoder Image Encoder Video Encoder 提案⼿法LAnguage-based VADの⼿法概要 ③動画情報を利⽤したスコア修正
  14. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 18

    3. 論⽂⼿法紹介 LAVAD⼿法概要(フレームベクトル⽣成処理) ①各フレームごとに 説明⽂とベクトルを⽣成 ②フレーム画像埋め込み 処理を利⽤したテキスト クリーニング処理 Text Encoder Image Encoder Video Encoder
  15. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 19

    ①各フレームごとに説明⽂とベクトルを⽣成する。 Image Captionのモデルを利⽤して、説明⽂を⽣成する。そのあとで 説明⽂をベクトルに変換する。 3. 論⽂⼿法紹介 フレームベクトル⽣成処理 ②フレーム画像埋め込み処理を利⽤したテキストクリーニング処理 ①で⽣成したものはノイズが含まれているものがある。 そのため、Textに対応するImage Embeddingのモデルを利⽤して、 ⽣成したキャプションを近傍で最も近いものと置き換え、ノイズを除去する。 動画中のフレーム説明⽂⽣成処理
  16. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 20

    3. 論⽂⼿法紹介 LAVAD⼿法概要(スコア作成) ①LLMを⽤いて時間情報を 考慮した⽂章を⽣成する。 ②⽣成した⽂章から スコアを作成する。 Text Encoder Image Encoder Video Encoder
  17. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 21

    LLMを利⽤した異常検知スコアの作成 ①LLMを⽤いて時間情報を考慮した⽂章を⽣成する。 時系列情報が⽋けているので、複数フレームのキャプションから次の プロンプトで⽣成する。 ②⽣成した⽂章からスコアを作成する。 Please summarize what happened in few sentences, based on the following temporal description of a scene. Do not include any unnecessary details or descriptions. If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities? 3. 論⽂⼿法紹介 スコア作成
  18. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 22

    3. 論⽂⼿法紹介 LAVAD⼿法概要(動画情報を利⽤したスコア修正) 動画情報を利⽤し たスコア修正 Text Encoder Image Encoder Video Encoder
  19. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 23

    動画情報を利⽤したスコア修正 3. 論⽂⼿法紹介 動画情報を利⽤したスコア修正 動画情報を利⽤し、異常度スコアに該当するフレームの近傍(K)の 情報を利⽤してスコアを補正する。 動画とシーケンスの Embeddingの⽐較 異常スコア 補正後スコア
  20. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 25

    1.データセットは街のカメラで撮影され、犯罪⾏為が含まれてい るUCF-Crime/XD-Violenceの2つを利⽤している。(犯罪⾏為を 検出する。 2.評価はAUC、Average Precision(AP)を利⽤している。 3.その他実装詳細は次の通り 4. 実験 実験内容 No. 項⽬ 値 1 Caption Model BLIP-2 2 LLM LLaMA-2-13b-chat 3 Video Encoder Image Bind 4 K 10
  21. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 26

    計1900 、Untrimmedなデータ。動画中の犯罪時間を特定する 4. 実験 データセット① UCF-Crime
  22. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 27

    巨⼤な暴⼒的なシーンを検出するデータセット(4754動画) 4. 実験 データセット② UCF-Crime
  23. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 28

    同系統過去⼿法と⽐較して、最も精度が⾼い(SoTA) Traniningには劣るが、OneClass,学習なしの類で最も精度が⾼い 4. 実験 他⼿法との⽐較
  24. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 29

    異常ではない箇所は低く、異常の箇所は⾼く出る。 また、描写としても正しいものが出⼒されていることが確認できる。 4. 実験 動画異常検出例
  25. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 30

    ⼿法それぞれに効果はあるが、特にTemporal Summary (LLM Based AnomalyScorering)Score Refinementの効果が⾼い。 4. 実験 分析︓⼿法のAblation Study
  26. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 31

    base:How would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities? Anomaly Prior︓suspicious activities or potentially criminal activities Impersonation: If you were a law enforcement agency 警察の物まねを⼊⼒することのみ精度向上に貢献した →異常の前提を書くことで、異常の検出を制限させたのでは︖(仮説) 4. 実験 分析︓Task Prior(プロンプト)
  27. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 32

    Kの値を増やすと、検出精度向上に貢献する。(=ある程 度の補正に効果がある)ただし、9程度で伸びなくなる。 4. 実験 分析︓Effictive K
  28. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 33

    No. 項⽬ 説明 1 他⼿法との⽐較 LAVADの学習なし⼿法は学習済モデルに匹敵し、かつ、他のOne Classが学習なし⼿法よりも⾼精度を達成した。 2 主な精度貢献ポイント Temporal SummaryとScore Refinementによる時系列補正の⼿ 法が⼤きく貢献している。 3 プロンプト Impersonation(模倣)の⼿法が最も精度が⾼く、異常検知の⽅ 向性を⽰すプロンプトは貢献しなかった。 4. 実験 実験まとめ
  29. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 35

    1. VADの⼿法であるLAVADを提案し未学習⼿法の中で、 UCF- Crime/XD-ViolenceのデータセットでSoTAを達成した。 2. ⼿法として特に貢献があったのはノイズの多いデータ処理、時系列 ⽅向の集約処理、近傍を利⽤した異常スコア修正処理がある。 5. まとめ 本論⽂のまとめ
  30. Copyright © Acroquest Technology Co., Ltd. All rights reserved. 36

    1. LLMを利⽤して学習なしで精度が教師あり学習と概ね近しいのは⾯ ⽩いポイント。 2. ただし、SaaS系のLLM(GPT-4O、Claudeなど)を利⽤するには フレーム解析数の都合で、料⾦の⾯から難しいように⾒えるので、 ⼯夫が必要になる。 3. SaaS系のLLMでも集約処理など、参考にはできるとは思うので、 アイデアを要所要所で使いたい。 5. まとめ 感想