Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Face Recognition @ ECCV2022

Avatar for Takumi Karasawa Takumi Karasawa
February 13, 2023

Face Recognition @ ECCV2022

DeNA, Mobility TechnologiesのAI勉強会で発表した資料です
face recognition分野の最新論文のキャッチアップ。ECCV 2022。

紹介論文:
・Teaching Where to Look: Attention Similarity Knowledge Distillation for
Low Resolution Face Recognition
・CoupleFace: Relation Matters for Face Recognition Distillation
・BoundaryFace: A mining framework with noise label self-correction for Face Recognition
・Towards Robust Face Recognition with Comprehensive Search

Avatar for Takumi Karasawa

Takumi Karasawa

February 13, 2023
Tweet

More Decks by Takumi Karasawa

Other Decks in Research

Transcript

  1. 2 Face recognitionまわりのキャッチアップ。ECCV 2022。 はじめに 唐澤(からさわ) n DeNA19新卒 → MoT

    n DRIVE CHART CVチーム4年目 (顔認証、内カメ、外カメ) n テニスを週1, 2とかでしてます 🎾 🎾 🎾
  2. 一般的に以下2つのタスクのこと Face Recognition: n Face Identification (1:N) 顔画像からどの人物かを識別 n Face

    Verification (1:1) 顔画像から同一人物かどうかを判定 学習観点では (現状、)手法的な差は特にないイメージ Face Recognition(FR) Face Recognition の状況設定の違い(SphereFace*より引⽤) *Sphereface: Deep hypersphere embedding for face recognition. [W. Liu+, CVPRʼ20] open/closed-set: 学習時に存在しないクラスが推論時に存在する/しない状況設定
  3. 9 一般的に用いられる、 n 前処理後の画像サイズ: (112, 112) n 顔特徴の次元数:512 としたとき ArcFace

    モデル構造 112 4 3 N-dim(512/1280/..) (バックボーン依存) 112 4 Feature Extractor Pre-processed Image Feature Map N-dim GAP BN Dropout FC BN 512 Neck Face Feature FlattenならN-dim*16 N-class (FC) ArcFace Head 512 ⁄ 𝑥! 𝑥! 顔特徴抽出 このneckを挟むのがわりと⼀般的 (慣習的に⽤いられてるだけ感はある︖) この段階で4x4 CNN ⼿法のメイン部分
  4. 10 ArcFace Head(手法のメイン部分) 512 Face Feature 512 N-class FC Weight

    x N-class Cosine Similarity W 𝑐𝑜𝑠𝜃!! 𝑐𝑜𝑠(𝜃!! +𝑚) Scale & SoftMax prob GT ⁄ 𝑊 " 𝑊 " normalizeされているので この内積計算はfeatureと 各重みのcosine similarityを 計算してることと同じ 正解ラベルの類似度だけ marginペナルティを加えてあげる (ハイパラ1) logitsの値が⼩さすぎるので scale(ハイパラ2) Cross-entropy loss 𝑦! FC層のバイアスはなし(𝑏 = 0) →学習によって、 実質各クラスの代表ベクトル 予測が完全にfeatureと重みの⾓度だけで表現される 重みもnormalize
  5. Loss Function 通常のsoftmax loss n normalize & b=0 → cosine

    n scale n pos/negを分離して記述 marginを付与 SphereFace, CosFace, ArcFaceのmarginの与え⽅の違い を含めた⼀般式 𝑚# : SphereFace, 𝑚$ : ArcFace, 𝑚% : CosFace 𝜃軸でのクラス境界⾯におけるmarginの違い(ArcFace*より引⽤) *ArcFace: Additive angular margin loss for deep face recognition. [J. Deng+, CVPRʼ19] ArcFace loss
  6. 13 ”Face Recognition”を含む論文、7本。 n Privacy-Preserving Face Recognition with Learnable Privacy

    Budgets in Frequency Domain n Unsupervised and Semi-supervised Bias Benchmarking in Face Recognition n Teaching Where to Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition n CoupleFace: Relation Matters for Face Recognition Distillation n Controllable and Guided Face Synthesis for Unconstrained Face Recognition n BoundaryFace: A mining framework with noise label self-correction for Face Recognition n Towards Robust Face Recognition with Comprehensive Search Face Recognition papers@ECCV’22 顔認証特有のプライバシー観点や、顔認証モデルのbias benchmarking、 低解像度(LR)、軽量モデル、ロバスト性、ラベルノイズ
  7. 14 ”Face Recognition”を含む論文、7本。 n Privacy-Preserving Face Recognition with Learnable Privacy

    Budgets in Frequency Domain n Unsupervised and Semi-supervised Bias Benchmarking in Face Recognition n Teaching Where to Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition n CoupleFace: Relation Matters for Face Recognition Distillation n Controllable and Guided Face Synthesis for Unconstrained Face Recognition n BoundaryFace: A mining framework with noise label self-correction for Face Recognition n Towards Robust Face Recognition with Comprehensive Search Face Recognition papers@ECCV’22 モデル改善系の4本を紹介 LR, distillation lightweight, distillation label noise comprehensive search
  8. 15 Attentionに基づくdistillation手法 (Attention Similarity Knowledge Distillation, A-SKD)の提案 Teaching Where to

    Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition Loss function: 全体概要図 A-SKDによって、中間出⼒であるattention mapが近づくように学習 通常のarcface lossにdistillation lossを追加 LR, distillation
  9. 16 一般的に軽量モデル学習のために活用されるdistillationを、低解像度モデル学習のため活用する考え方 ref. [M. Zhu+, Low-resolution Visual Recognition via Deep

    Feature Distillation. ICASSP 2019] key1. Distillation Approach for LR images large model small model distillation loss distillation loss HR image LR image ⼀般的な軽量モデル学習のための distillation 低解像度画像モデル学習のための distillation teacher teacher student student
  10. 17 Convolutional Block Attention Module (CBAM) n channel attention &

    spatial attention n 通常のconv blockと置換して取り入れ可能 key2. Attention module: CBAM [S. Woo+, CBAM: Convolutional Block Attention Module., ECCV 2018]
  11. 18 n CBAMにおけるchannel-attention, spatial-attentionが類似するようdistillation loss ▪ loss: cosine distance n

    arcface lossに追加して学習 n (logit の distillation lossも併用可) proposal. Attention Similarity Knowledge Distillation (A-SKD) spatial-attention channel-attention 全体概要図 *図は1ブロック分のみ ( 𝜆&!'(!)) = 5.) Loss function
  12. 20 vs Attention Transfer [S. Zagoruyko+, Paying More Attention to

    Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer, ICLR 2017] Activation-based Attention Transfer Gradient-based Attention Transfer (32x32) ⽬・⿐・⼝にattentionがあたっている
  13. Mutual Relation Distillation (MRD) FCDではサンプル間の関係性を十分に考慮できてないとし、 任意のサンプル間のsimilarityが同程度となるように学習 *ただ学習自体は、𝑅(𝑓* +, 𝑓, +)でなく

    𝑅(𝑓* +, 𝑓, -)を最適化 その際、全組み合わせに対してでなく、 より効果的な学習となる組み合わせとなるように → Informative Mutual Relation Mining proposal. Mutual Relation Distillation (MRD)
  14. 25 Informative Mutual Relation Mining 学習前: 1. teacherモデルを用いて、全学習データからidentityごとの代表ベクトル 𝒓𝒎 を作成

    (同一identityに属する画像群から抽出した特徴平均) 2. 代表ベクトルを用いてidentity間のsimilarityを計算し、各identityに対して hard negativeといえるtop kのinformative prototype set 𝑯𝒎 を構築 学習時:𝐻/ を参照し、feature bankから該当featureを取得し mutual relation を算出 n memory bankは各identityの特徴1サンプルを保持 proposal. Informative Mutual Relation Mining 𝐸: feature bank, memory-updating strategy 学習前に⼀度だけ student mutual relation, 𝑅(𝑓! ', 𝑓" () teacher mutual relation, 𝑅(𝑓! (, 𝑓" () 図はk=4だが実験はk=100
  15. 26 Couple Face = FCD + MRD proposal. CoupleFace 𝛼=1.0

    𝛽 = 0(CoupleFace), 100k iters後に 𝛽=0.01(CoupleFace+) Relation-Aware Distillation (RAD) loss: Feature Consistency Distillation (FCD) loss: total loss: 𝑞=0.03 ArcFace loss CoupleFace 全体概要図
  16. 28 ノイジーなデータセットに対して、ノイズラベルの修正を行ってから 効果的にhard sample miningを行う BoundaryFace の提案 BoundaryFace: A mining

    framework with noise label self-correction for Face Recognition label noise label noise self-correction nearest negative class match hard sample mining
  17. 29 MV-ArcFace (AAAI’20), CurricularFace (CVPR’20) → 学習データセットがlabel noiseがなくきれいであることを前提としている key1. hard

    label mining for FR (参考)前回資料︓https://speakerdeck.com/takarasawa_/face-recognition-and-arcface-papers
  18. 30 一般に2つのラベルノイズに区別される: n closed-set noise(label flip): 本来、他クラスのユーザに属するデータ n open-set noise(outlier):

    本来、いずれのクラスのユーザにも属さないデータ key2. label noise in FR closed-set noise 適切なクラスが存在する → clean dataになりうる
  19. 32 BoundaryFace = label self-correction + hard sample mining self-correctionを入れた上で、margin内に存在するデータについては

    直接的にlossを大きくするhard sample miningを導入 proposal. hard sample mining label のクラス 最近傍の negative class easy sample 扱い hard sample 扱い closed-set noise扱い label self-correction
  20. 34 n clean dataset: CASIA WebFace n closed-set noise: ランダムにラベルを入れ替える

    n open-set noise: ランダムに MegaFace データセットのデータと入れ替える result *BoundaryF1: self-label correctionのみ
  21. 36 ラベルノイズ区別に応じて対処を一般化し、2つの閾値のハイパラでdata cleaning strategy を定義 closed-set noise (label flip) →

    inter-class merging class center similarity が𝜏*:-;< より大きいかどうか open-set noise (outlier) → intra-class filtering discriminabilityを以下のように定義し、 𝜏*:-<= より大きいかどうか Search space 1: data cleaning ref. slide30
  22. 39 n training dataset: MS1MV2 n validation dataset: MegaFace verification

    benchmark n search のための acc スコア: ▪ TAR@FAR at 10−3, 10−4, 10−5 をそれぞれ0.5, 0.25, 0.25で重み付け n search process: ▪ around 1,000 samples to converge ▪ around 37 GPU days (NVIDIA A100, FP16 training) n baseline: ArcFace, MobileNet result モデルは同程度サイズ(flops)になる制約アリ 単⼀だとloss searchの上がり幅が最⼤ margin(𝑚" )は意外と⼩さめ
  23. 42 ”Face Recognition”を含む論文、7本。 n Privacy-Preserving Face Recognition with Learnable Privacy

    Budgets in Frequency Domain n Unsupervised and Semi-supervised Bias Benchmarking in Face Recognition n Teaching Where to Look: Attention Similarity Knowledge Distillation for Low Resolution Face Recognition n CoupleFace: Relation Matters for Face Recognition Distillation n Controllable and Guided Face Synthesis for Unconstrained Face Recognition n BoundaryFace: A mining framework with noise label self-correction for Face Recognition n Towards Robust Face Recognition with Comprehensive Search Face Recognition papers@ECCV’22 loss: ArcFace, backbone: ResNet loss: Sub-center ArcFace, backbone: ResNet loss: ArcFace, backbone: MobileNet, ResNet loss: ArcFace, backbone: ResNet loss: ArcFace, backbone: ResNet loss: ArcFace, backbone: MobileNet loss: ArcFace, backbone: ResNet with CBAM <loss, backbone メモ> 依然としてArcFace。 顔認証特有のプライバシー観点や、顔認証モデルのbias benchmarking、 低解像度(LR)、軽量モデル、ロバスト性、ラベルノイズ