CVPR2024論文紹介：Sparse Training, Continual learning, Object detection

名古屋CV・PRML勉強会論⽂紹介名城⼤学堀⽥研究室坂井泰吾

⾃⼰紹介 pM1 名城⼤学堀⽥研究室 p趣味：アプリ・ゲーム制作、ハッカソン参加 p研究内容：増減型ニューラルネットワーク、物体追跡 pCVPR期間中コロラド⼤学にいました

紹介する分野 pSparse training(スパース学習) pContinual learning(継続学習) pObject detection(物体追跡)

Sparse training(スパース学習) p⼈間の脳内のニューロンは密につながっておらず，スパース(疎) pスパース(疎)なニューラルネットワークで学習させることで速度向上 Pruning

Sparse trainingに関する論⽂・NICE: Neurogenesis Inspired Contextual Encoding for Replay- free
Class Incremental Learning ・ MaxQ- Multi-Axis Query for N-M Sparsity Network ・Gradient-based Parameter Selection for Efficient Fine-Tuning

MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pSoft Mask(0~1のマスク)を作成
p学習中にスパース性の割合を徐々に増やす

Soft Mask p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pソフトマスク(0~1のマスク)を作成

学習中にスパース性の割合を徐々に増やす p3乗項を⽤いることで、初期は緩やかに、後半で急速にスパース化 p学習率スケジューラのスパース化版 δ…スパース割合 t…現在のエポック ti…プルーニング開始のエポック tf…プルーニング終了のエポック

実験結果 p画像分類，セグメンテーション，物体検出で⾼精度

Continual learning(継続学習)

破滅的忘却とはタスクAに特化した知識タスクBに特化した知識タスクAを学習したニューラルネットワークタスクA,Bを学習したニューラルネットワークタスクBを学習

Continual learningに関する論⽂(パラメータ⼿法) ・Gradient Reweighting: Towards Imbalanced Class-Incremental Learning ・NICE: Neurogenesis
Inspired Contextual Encoding for Replay-free Class Incremental Learning ・Expandable Subspace Ensemble for Pre-Trained Model-Based Class-Incremental Learning ・InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning

NICE: Neurogenesis Inspired Contextual Encoding pNISPA(ICML2022)という⼿法から発展 pニューロンの「年齢(α)」という概念を追加 p⼊⼒画像から，どのニューロンを使うか判断不使⽤学習させる
重み固定

学習の概要 p最初のタスクで全ニューロンを年齢１に設定 p年齢１のニューロン内で活性化度の総和τ(95%)以上になる様に選択 p選択したニューロンを凍結，他は次のタスクに残す不使⽤学習させる重み固定 i…i番⽬のニューロン l…l層⽬のネットワーク S…選択するニューロン

⼊⼒画像から，どの年齢のニューロンを使うか判断 pタスクごとに，ニューロンの活性化分布を記録 p推論時に，⼊⼒画像に対するニューロンの活性化分布を出⼒ p記録したニューロンの活性化分布からどのタスクかを判断ニューロンがタスクごとに専⾨化している専⾨タスクの活性化度専⾨でないタスクの活性化度

実験結果 pReplay-method(前のタスクの画像を保存して使う⼿法)を上回る p精度向上に加えてメモリ効率向上

Object detectionに関する論⽂(Real-Time) ・YOLO-World- Real-Time Open-Vocabulary Object Detection ・ DETRs Beat
YOLOs on Real-time Object Detection ・YolOOD: Utilizing Object Detection Concepts for Multi-Label Out- of-Distribution Detection ・HMD-Poser: On-Device Real-time Human Motion Tracking from Scalable Sparse Observations

DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる
pUncertainty-minimal Query Selectionによりリアルタイム推論可能に

Hybrid Encoder pAIFI内ではS5の特徴量同⼠でAttentionを⾏い，⼤域情報を考慮 pCCFF内ではS4,5,6の特徴量同⼠を混ぜることで異なるスケールを考慮 AIFI…Attention-based Intra-scale Feature Interaction CCFF…CNN-based Cross-scale
Feature Fusion

Uncertainty-minimal Query Selection p従来のDETRでは，学習パラメータにより特徴量(Query)を選択，収束遅 p分類スコア(MLPに通す)の内で確信度が⾼いBboxを選択 pBboxの中⼼座標を位置埋め込みとしてDecoderに通す p確信度が⾼いtop-K個の特徴量(Query)を選択，Decoderに通す K

実験結果 p同程度の精度で２倍の速度 p⼩物体に弱い YOLOv8 RT-DETR

補⾜資料

MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成

DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる
pUncertainty-minimal Query Selectionによりリアルタイム推論可能に

InfLoRA: Interference-Free Low-Rank Adaptation p事前学習モデルに少数のパラメータを追加し、それらをFine-Tuning pImageNet-R（10タスク）でACC_10が75.65%、ACC_10が80.82%

YOLO-World Real-Time Open-Vocabulary Object Detection pRepVL-PAN導⼊、テキスト特徴と画像特徴の相互作⽤を促進 p軽量なYOLOでオープン語彙検出を実現、20倍⾼速化

CVPR2024論文紹介：Sparse Training, Continual learnin...

CVPR2024論文紹介：Sparse Training, Continual learning, Object detection

hinako0123

More Decks by hinako0123

Featured

Transcript

名古屋CV・PRML勉強会論⽂紹介名城⼤学堀⽥研究室坂井泰吾

⾃⼰紹介 pM1 名城⼤学堀⽥研究室 p趣味：アプリ・ゲーム制作、ハッカソン参加 p研究内容：増減型ニューラルネットワーク、物体追跡 pCVPR期間中コロラド⼤学にいました

紹介する分野 pSparse training(スパース学習) pContinual learning(継続学習) pObject detection(物体追跡)

Sparse training(スパース学習) p⼈間の脳内のニューロンは密につながっておらず，スパース(疎) pスパース(疎)なニューラルネットワークで学習させることで速度向上 Pruning

Sparse trainingに関する論⽂・NICE: Neurogenesis Inspired Contextual Encoding for Replay- free

MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pSoft Mask(0~1のマスク)を作成

Soft Mask p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 pソフトマスク(0~1のマスク)を作成

実験結果 p画像分類，セグメンテーション，物体検出で⾼精度

Continual learning(継続学習)

破滅的忘却とはタスクAに特化した知識タスクBに特化した知識タスクAを学習したニューラルネットワークタスクA,Bを学習したニューラルネットワークタスクBを学習

Continual learningに関する論⽂(パラメータ⼿法) ・Gradient Reweighting: Towards Imbalanced Class-Incremental Learning ・NICE: Neurogenesis

NICE: Neurogenesis Inspired Contextual Encoding pNISPA(ICML2022)という⼿法から発展 pニューロンの「年齢(α)」という概念を追加 p⼊⼒画像から，どのニューロンを使うか判断不使⽤学習させる

実験結果 pReplay-method(前のタスクの画像を保存して使う⼿法)を上回る p精度向上に加えてメモリ効率向上

Object detectionに関する論⽂(Real-Time) ・YOLO-World- Real-Time Open-Vocabulary Object Detection ・ DETRs Beat

DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる

Hybrid Encoder pAIFI内ではS5の特徴量同⼠でAttentionを⾏い，⼤域情報を考慮 pCCFF内ではS4,5,6の特徴量同⼠を混ぜることで異なるスケールを考慮 AIFI…Attention-based Intra-scale Feature Interaction CCFF…CNN-based Cross-scale

実験結果 p同程度の精度で２倍の速度 p⼩物体に弱い YOLOv8 RT-DETR

補⾜資料

MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成

MaxQ- Multi-Axis Query for N-M Sparsity Network p重要な重みをチャンネル⽅向・空間⽅向の両⾯から評価 p学習中にスパース性の割合を徐々に増やす pソフトマスク(0~1のマスク)を作成

DETRs Beat YOLOs on Real-time Object Detection pリアルタイムの物体検出においてYOLOv8(当時最⾼精度)を上回る pHybrid Encoderにより異なるスケールの特徴量を混ぜる

InfLoRA: Interference-Free Low-Rank Adaptation p事前学習モデルに少数のパラメータを追加し、それらをFine-Tuning pImageNet-R（10タスク）でACC_10が75.65%、ACC_10が80.82%

YOLO-World Real-Time Open-Vocabulary Object Detection pRepVL-PAN導⼊、テキスト特徴と画像特徴の相互作⽤を促進 p軽量なYOLOでオープン語彙検出を実現、20倍⾼速化