$30 off During Our Annual Pro Sale. View Details »

CVPR2019@Long Beach 参加速報(本会議)

CVPR2019@Long Beach 参加速報(本会議)

Yamato.OKAMOTO

June 28, 2019
Tweet

More Decks by Yamato.OKAMOTO

Other Decks in Technology

Transcript

  1. はじめに  本資料はCVPR’19の様子をお伝えするための資料です  基本的にどこでどんな研究がされてたかの私信メモです IEEE Conference on Computer Vision

    and Pattern Recognition ・Tutorial&Workshop (6/16~6/17) ・Conference Session (6/18~6/20) ←この資料の内容 http://cvpr2019.thecvf.com/
  2. CollaGAN: Collaborative GAN for Missing Image Data Imputation • 従来のGANはドメイン変換の入力と出力が1対1だった

    • 『Why Don’t you use all domain-data you have?』ということで、提案手法の CollaGANでは複数のドメイン画像を同時入力して1つの特定ドメイン画像への変換を実行 • ある人物ではドメインAの画像が、別の人物ではドメインBの画像が無いとき、不足パター ンの画像を生成することが可能 • ネットワーク構造はStarGANとほとんど同じ、Generatorへの入力が複数画像+ドメイン 指定になっている点だけ新しい • ドメインがN個あるとき、inputはHeigh*Width*Nのサイズとなる。 • N個のドメインのうち、いくつかを真っ黒な画像に置き換えるDomain-Drop-outをする。 • 同時に入力するドメインの数が多いほど生成画像のクオリティが向上することを確認した。 参考: http://openaccess.thecvf.com/content_CVPR_2019/papers/Lee_CollaGAN_Collaborative_GAN_for_Missing _Image_Data_Imputation_CVPR_2019_paper.pdf
  3. Feature-Level Frankenstein: Eliminating Variations for Discriminative Recognition • 敵対学習によって特徴量をtask-relevantとtask-irrelevantに分離する •

    つまりDisentangleですね、はい • 2つのEncoderでそれぞれtask-relevant な特徴量(d)と、 task- irrelevantな特徴量(l)を抽出 • Reconstructするときに、dとlに加えて、正解ドメインをone-hotで表 現したsもDecoderに加えている点が従来と異なり、Key-Pointである。 参考:http://openaccess.thecvf.com/content_CVPR_2019/papers/Liu_Feature- Level_Frankenstein_Eliminating_Variations_for_Discriminative_Recognition_CVPR_2019_paper.pdf
  4. Mitigating information Leakage in image Representations: A Maximum Entropy Approach

    • 従来の敵対学習ベースのFairness手法では以下の学習を交互に繰り返す  DiscriminatorがSensitive-Paramを見抜けるようにする  DiscriminatorがSensitive-Paramを見抜けないようにする、かつ、タスク を解けるようにする • エントロピー最大化LOSSを追加して『DiscriminatorがSensitive- Paramを見抜けないようにする』というのを『Discriminatorの出力が 一様になる(どれだか全く判断が付かない)』に置き換えた 参考:http://hal.cse.msu.edu/assets/pdfs/papers/2019-cvpr-information-leakage.pdf
  5. MUREL: Multimodal Relational Reasoning for Visual Question Answering • 画像と質問文に対して回答文を生成するネットワーク

    • 現在のSoTA手法はAttentionによるものだが、本論文では用いない。 • Mask-R-CNNによる画像特徴量と、GRUで質問文から抽出した特徴量をRNNの ように逐次的に繰り返し入力して、プログレッシブに出力を高精度にしていく • 最適な繰り返し回数は?と質問したところ、画像と質問文の複雑度合いに依存 するとのこと(今のとこ3回がBESTっぽい) • 学習データは画像、質問文、回答文の組み合わせだけでいける 参照: https://arxiv.org/abs/1902.09487
  6. End-To-End Multi-Task Learning with Attention • Multi-Task-LearningにAttention構造を導入。 • Taskに応じてどこにAttentionすべきかを算出して、Task-Share特徴量 からTask-Specific特徴量を抜出す。

    • Param効率などの点で優れていると主張。おそらくTask-ShareとTask- Specificをそれぞれ保有するわけではないからだろう。 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Liu_End-To-End_Multi- Task_Learning_With_Attention_CVPR_2019_paper.pdf
  7. CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency • 1対1のドメイン変換するネットワーク •

    F S (X T )で敵対学習してDomain-Confusionさせる点は従来通り • X S とF T (X S )の識別結果の一貫性、X T とF S (X T )の識別結果の一貫性につい てのLOSSをくっつた点が新しい(…実は、そんなに新しくもないけど) • この類の研究はLOSS-Weightが黒魔術なことが多い。もうお腹いっぱ いというのが正直なところ 参照: https://www.citi.sinica.edu.tw/papers/yylin/6688-F.pdf
  8. Auto Augment: Learning Augmentation Policies from Data • Data-Augmentationを自動でええ感じにするのがAuto-Augmentation •

    Auto-Augmentationのパラメータサーチ手法を提案 • Validation-ACCを報酬に見立てて、Augmentationパラメタを算出する ネットワークモデル(RNN)を強化学習をする 参照: https://arxiv.org/abs/1805.09501
  9. Meta-Transfer Learning for Few-shot Detection • Meta-LearningとTransfer-Learningをくっつけた(って、どういうこと?) Transfer-Learning • Task

    1 のmodel 1 をFine-TuningしてTask 2 に適応 Meta-Learning • N個あるTask n とmodel n から学習したmeta-paramを用いて、Task n+1 のmodel n+1 を学習 • Fewshotではcatastrophic descent が課題になる。 • Param凍結をどうするかといった、 『How to Transfer』の学習に meta-Learningを用いた。 参照: https://arxiv.org/abs/1812.02391
  10. OCGAN: One-class Novelty Detection Using GANs with Constrained Latent Representations

    • GANによるNovelty Detection(≒Anomaly Detection)の手法 • 学習データが潜在空間で一様分布にフィットするようにGANで学習する • 上手くフィットしていないものをNoveltyとして検出 • AutoEncoder-baseの手法よりも高精度を確認した ※未知のデータ(下図の場合は『8』以外は全て未知)に対して、 GANで生成できずに誤差が大きくなるほど、Novelty検出しやすいので良い
  11. Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations •

    画像に対するclassラベルのみでInstance Segmentationを目指す • 新しくIRNetを提案  おおまかな物体の領域を検出する  物体領域の境界線を検出する  Attention-mapを学習データとして用いることができる、 つまり教師データを人手で生成する必要なし(弱教師付き学習)
  12. Mixture Density GAN • Mode-Collapseに対処する研究 • GANの学習では『Real:1/Fake:0』というPredictionを扱っているが、 そこに混合ガウス分布の活性化関数をかけるようなイメージ • 直感的には『Real

    or Fake?』だけでなく『Which class??』もあわせて 判断&学習するように働きかけることが出来る • こういったシンプルで、ネットワークの基本構造を変えることなく導入 できる研究成果はとても好感が持てる • なお、混合ガウス分布における次元数dはそこそこ大きければ適当に設 定しても性能に影響は無かった模様(実は出力しようとしているデータ の複雑さによっては効果が薄れるのではなかろうか……?) 参照: http://bayesiandeeplearning.org/2018/papers/20.pdf
  13. Sphere Generative Adversarial Network Based on Geometric Moment Matching •

    従来は『0:Fake/1:Real』のクロスエントロピーで算出していたGANの LOSS関数を変更 • Sphereと定義した超球上にプロットして距離を算出、これによって Wasserstein-DistanceでLOSS算出するのと等しくなると論理保証 参照: http://cau.ac.kr/~jskwon/paper/SphereGAN_CVPR2019.pdf
  14. A General and Adaptive Robust Loss Function • Googleのポスターは大人気でいつも混雑していて見られなかった •

    どうやら、Vision系タスクでロバスト性を向上させるLOSS関数を考案 したらしい。しかも人手で細かいloss-paramのチューニングは不要。 • 帰国後にチェックします 参照: https://arxiv.org/abs/1701.03077
  15. Disentangling Adversarial Robustness and Generalization • 深層学習モデルにおいて汎化性とadversarial-examplesへのロバスト 性はトレードオフと言われていたが、その問題を解決した。 • 学習すべきadversarial-examplesは『on-manifold』なもの、

    つまりクラスが形成する多様体上に位置するものこそ重要と説いている。 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Stutz_Disentangling_Adversarial_Robustness_and_G eneralization_CVPR_2019_paper.pdf
  16. Non-Adversarial Image Synthesis With Generative Latent Nearest Neighbors • 敵対学習ではない画像生成手法GLANN(Generative

    Latent Nearest Neighbor)を提案 • GLOで高次元画像を表現できる低次元空間zを学習 • IMLEで任意の分布(だいたい正規分布)からサンプリングしたノイズeをzに射影するTを学習 • ん?まて?なぜこれだけで上手くいく?GLOとIMLEについて調べる必要がありそうだ 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Hoshen_Non- Adversarial_Image_Synthesis_With_Generative_Latent_Nearest_Neighbors_CVPR_2019_paper.pdf
  17. Unsupervised Visual Domain Adaptation: A Deep Max-Margin Gaussian Process •

    近年のDomain-Adaptation手法の主流は以下の通り ① SourceとTargetの分布を重ねる ② 予測出力に一貫性を持たせるような制約をかける • これらをGaussian-Processesで実現する手法を提案(GPDA) • Domain-Adaptationがprobabilistic approachで実現されるって、つま り予測時の分散を把握できるので、めちゃくちゃ価値あることでは? • しかもめっちゃ上手く動作してるし…!? 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Kim_Unsupervised_Visual_Domain_Adapt ation_A_Deep_Max-Margin_Gaussian_Process_Approach_CVPR_2019_paper.pdf
  18. Conditional Adversarial Generative Flow for Controllable Image Synthesis • SenseTime社の研究発表

     F:画像をLatentVectorに変換(※可逆変換できる点がポイント)  C s :Conditionの教師データ  C u :Unsupervised-LearningによってSemantic Conditionへ変貌  ε:サンプリングノイズ • 画像から抽出したのと同じようなLatentVectorがConditionから生成できれば、Fの逆関数 によってConditionを思い通りに操作しながら画像生成が可能 • UnknownなConditionの行き場所としてCuやεを設けたあたりが上手だと感じた 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Liu_Conditional_Adversarial_Generative_Fl ow_for_Controllable_Image_Synthesis_CVPR_2019_paper.pdf
  19. FineGAN: Unsupervised Hierarchical Disentanglement for Fine-Grained Object Generation and Discoverry

    • なんか見覚えあると思ったらICMLのWorkshopに出てたやんこれ • ということで省略 参照: https://arxiv.org/abs/1811.11155
  20. Parallel Optimal Transport GAN • GANとはつまり、Real画像の分布に、GANで生成したFake画像の分布 が似通うように学習すること • 分布の重なり具合を、低次元空間に射影してからWasserstein- Distanceで(より正確に)算出できるようなアルゴリズムを提案

    • These problems essentially arise from poor estimation of the distance metric responsible for training these networks. • we introduce an additional regularisation term which performs optimal transport in parallel within a low dimensional representation space. 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Avraham_Parallel_Optimal_Transport_GAN _CVPR_2019_paper.pdf
  21. Reversible GANs for Memory-efficient Image-to-Image Translation • Cycle-GANのようにCycle構造を持つネットワークでは、A⇒Bの変換 ネットワークとB⇒Aの変換ネットワークは別々に用意されている •

    つまり2つ分のパラメタを準備&学習しているともいえる • そこで、 A⇒Bの変換関数の逆関数がそのままB⇒Aとなる手法を提案 • Cycle-Lossで学習するなら逆関数の方が理にかなっているし、パラメタ 数を減らせるので省メモリで効率的だと主張(実際に性能も向上している) 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/van_der_Ouderaa_Reversible_GANs_for_ Memory-Efficient_Image-To-Image_Translation_CVPR_2019_paper.pdf
  22. On The Continuous of Rotation representation in Neural Networks •

    例えばNeural Networkによる画像認識は回転に弱いと言われていた • それはデータ構造が、回転という現象の連続性や周期性を表現できる構 造で定義されていないことに起因する(※下図参照) • そこで、3Dの回転を表現できる手法を提案 • 課題意識と、提案手法の重要性は勿論理解している、が、手法の詳細に ついては詳細が追えなかったので省略 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhou_On_the_Continuity_of_Rotation_Rep resentations_in_Neural_Networks_CVPR_2019_paper.pdf
  23. Sensitive-Sample Fingerprinting of Deep Neural Networks • クラウド上のモデルは『trojan』など汚染されるリスクが付きまとう trojan •

    特定のトリガーで誤認識を誘発するように仕組まれていること • 下図の例だと『メガネ』がトリガーで誤認識が起きている • 少数のデータでモデルが大丈夫か簡単に確認できたらうれしいよね?と いうことで性能確認を少数サンプルで出来るような手法を提案 • 具体的には、Neuronの発火を網羅できるようなサンプル選択をする 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/He_Sensitive- Sample_Fingerprinting_of_Deep_Neural_Networks_CVPR_2019_paper.pdf
  24. Efficiently Multi-Domain Learning by Covariance Normalization • Multi-Domain-Learningのネットワークは①Domain-Share-Layerと ②Domain-Specific-Layerから構成することが多い •

    Domain-Share-Layerはパラメタ固定で、Domain-Specific-LayerはDomainに応じて学 習しなおす。 • Domainによってタスク難易度が異なるので、 例えば簡単なタスクならばDomain- Specific-Layerのパラメタ数を減らしたい。 • 提案したCovariance Normalizationによって、Domainに応じて必要最低限にDomain- Share-Layerを絞る手法を提案。性能を保ったままモデル軽量化に成功した。 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Efficient_Multi- Domain_Learning_by_Covariance_Normalization_CVPR_2019_paper.pdf
  25. A Style-Based Generator Architecture For Generative Adversarial Network • NVIDIAの研究、人気過ぎてポスター見られなかった。下記リンクで紹介されてます

     https://gigazine.net/news/20181219-nvidia-style-based-generator-architecture-gans/ • 構成要素をUnsupervisedにSeparationすることにも成功。これにより、各要素を操作す ることで学習したことが無いようなパターンの画像生成も可能にした。 • まぁDisentangleの一種と言っても間違ってないのでは(乱心) • AdaINで成分が個別にnormalizeされてるし、やはりその方向性の手法っぽい 参照: https://arxiv.org/abs/1812.04948
  26. Domain-Symmetric Network for Adversarial Domain Adaptation • Unsupervised-Domain-Adaptationの研究 • パッと見たときはシンプルな構造に見えたので「おっ」と思ったが、

    詳細を聞いてみるとLOSS関数が6つくらい登場してきた • SourceとTargetのClassifierを別々に用意しつつ、一部の目的でParam をシェアしながら学習させていく様子 もうお腹いっぱいです・・・・ 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_Domain- Symmetric_Networks_for_Adversarial_Domain_Adaptation_CVPR_2019_paper.pdf
  27. Destruction and Construction Learning for Fine-gained Image Recognition • Novel

    Methodを謳っているが、これってself-supervisedを取り入れた だけなのでは… 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Chen_Destruction_and_Construction_Lear ning_for_Fine-Grained_Image_Recognition_CVPR_2019_paper.pdf
  28. Rare Event Detection using Disentangled Representation Learning • Negative-Sampleのペアに対して共通成分と固有成分を抽出 •

    共通成分がX A とX B で似通うようにLOSSをかける • 共通成分がゼロにならないようLOSSをかける • detector-networkを共通成分から構築するのは分かるけど、なぜ推論時はペア データで特徴量をconcatして学習するんだ?? • 質問したところ『変化の正常/異常を検出するという問題設定だから』との回 答でした、問題設定にあわせてうまくネットワーク構造を工夫したわけですね 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Hamaguchi_Rare_Event_Detection_Using_ Disentangled_Representation_Learning_CVPR_2019_paper.pdf
  29. Unsupervised Domain Adaptation using Feature- Whitening and Consensus Loss •

    TargetデータとSourceデータを別々にNormalizeして超球上にプロット できるよう制約をかける(これによりTとSで分布が重なる) • TargetデータでAugmentationしたX T とX’ T で予測結果が一致するよう 制約をかける • こういう一貫性(Consensus)のLOSSを用いた研究が今年はいくつも 見られた。敵対学習が無いので見た目はスッキリしているが Consensus-LOSSでは情報保存される保証がないので疑問が残る。 参照: https://research.mapillary.com/img/publications/CVPR19c.pdf
  30. Disentangling Latent Hands for Image Synthesis and Pose Estimation •

    手の画像認識において、手だけに注目したいのに、照明条件や背景の情 報が邪魔をするという問題 • これにたいしてVAE-baseの手法でDisentangleを試みた • ただし、学習するには画像1枚ずつに照明条件や背景の正解データを準 備しないといけない • というか手法そのものは全然新しくないけど実データ応用すればCVPRでAcceptされるわけ!? 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Yang_Disentangling_Latent_Hands_for_I mage_Synthesis_and_Pose_Estimation_CVPR_2019_paper.pdf
  31. Learning Not to Learn: Training Deep Neural Networks with Biased

    Data • 例えばcolor-MNISTにて、学習データでは『1』という数字が『緑』し かなかった場合、『赤色=1』という望ましくない学習をする可能性が ある • それを防ぐためにDisentangleするという研究 • Label-infoとBias-infoそれぞれの正解データとClassifierを準備して、 互いの用いる特徴量の相互情報量が小さくなるようLOSSをかける • 昨年くらいから使い古された手法に思えるが、それ以上の工夫も特に見当たらない、 その実験なら昨年に僕もやってたよ、チクショウ・・・・ 参照: https://arxiv.org/pdf/1812.10352.pdf
  32. Class-Balanced Loss Based on Effective Number of Samples • 我々が扱う手元のデータは『ユニークか否か?』という判断基準が曖昧で、本質的なデータ

    数とGAPがある • 例えば、同一物体を複数角度から撮影した画像は同じデータか異なるデータか?という問い • 従来のClassBalancedLossはクラスのデータ数 n y の逆数を学習の重みとしたが、提案では本 質的なクラスのデータ数 E ny を学習の重みとする • ハイパーパラメータβ[0..1]は大きいほど本質的なデータ数が多いと仮定することになる 参照: https://arxiv.org/abs/1901.05555
  33. Max-Sliced Wasserstein Distance and its Use for GAN • GANの学習において分布間距離指標にWasserstein-Distanceを用いる

    ことがポピュラーになってきている(WGAN) • それをさらに改善して、Max-Sliced-Wasserstein-Distanceを定義した ぜという研究 • もし本当に(概ねの条件下で)有効ならば、早くPytorchなどのフレー ムワークに搭載してほしいものだ 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Deshpande_Max- Sliced_Wasserstein_Distance_and_Its_Use_for_GANs_CVPR_2019_paper.pdf
  34. Constrained Generative Adversarial Networks for Interactive Image Generation • GANで目的通りにデータを生成すべくCondition指定などの手法が考案されてきたが、異

    なるアプローチを提案 • 生成した2つのデータに対して『どっちが望みのデータに近い?』というインタラクショ ン&フィードバックを行う • triplet-LOSSみたいな感じにして”選択されなかったデータ”よりも”選択されたデータ”に 近いデータを新しく生成できるように学習 • フィードバックの仕組みは2つのデータから抽出した特徴量をLSTMに蓄積的に入力する というもの、その他にAttention構造も内部に組み込まれている 参照: https://arxiv.org/pdf/1904.02526.pdf
  35. Learning From Noisy Labels by Regularized Estimation of Annotator Confusion

    • アノテーションは作業者やラベルによってミスしやすい組み合わせや、 ミスしにくい組み合わせがある。 • これらをアノテーションミス確率のConfusion-Matrixとして表現する。 • 画像認識モデルの学習時に、Classifierの出力結果にConfusion-Matrix を乗算したものを最適化することで、Classifierの学習とConfusion- Matrixの予測を同時にする。 • もちろんConfusion-Matrixは作業者ごとに生成する必要があるため、各 データについてアノテーション作業を誰がしたのかという記録が必要。 参照: https://arxiv.org/pdf/1902.03680.pdf 左図のA(1)~A(4)が アノテーション作業者 Pがそれぞれに Confusion-Matrix
  36. Hierarchical Disentanglement of Discriminative Latent Feature for Zero-shot Learning •

    日本企業HITACHIの研究 • Zero-shot Learningの枠組みにDisentangleの構造を取り入れて、認識に望ま しい特徴量だけがClassifierに流れてくるように設計した。(正確には不要な特 徴量が外へ流れ出る道を用意したというべきかもしれない) • 抽出される特徴量が不明なままのBlack-BoxなDisentangleともいえる。 • もしデータに対して複数の性質を示すラベルが潤沢にあれば、Adversarial- Learningの枠組みでもっとSemanticにDisentangleできるのだろうが、そう いったラベルが無いままDisentangleして成果を出している点が素晴らしい。 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Tong_Hierarchical_Disentanglement_of_Di scriminative_Latent_Features_for_Zero-Shot_Learning_CVPR_2019_paper.pdf
  37. Task Agnostic Meta-Learning for Few-Shot Learning • 混雑していてチェックできず・・・orz • Model-Agnosticの次はTask-Agnosticですかい

    • 今回の学会でMeta-Learningは興味わいたので帰国後に勉強する(決意表明 参照: https://arxiv.org/pdf/1805.07722.pdf
  38. Disentangle Latent Space for VAE by Label Relevant/Irrelevant Dimensions •

    敵対学習を用いたよくあるDisentangleのネットワークによる画像認識 • 潜在空間のzを分離するのではなく、もともLabel-relevant用のEncと、 Label-Irrelevant用のEncの2つを設けている • なお、 Label-relevantの特徴量の事前分布は単一ガウス分布よりも混合 ガウス分布を仮定した方が絶対うまくいくとのこと(やはりそうなのか… 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Zheng_Disentangling_Latent_Space_for_V AE_by_Label_RelevantIrrelevant_Dimensions_CVPR_2019_paper.pdf
  39. Variational Autoencoder Pursue PCA Directions(by Accident) • VAEは強力な手法だが実際どうしてうまくいっているのか?? • 再構築性を確保しながら直行基底を探索する点はPCAと似ている

    (Autoencoderは非線形のPCAだ!という説もあるくらいだし) • Variational-Autoencoderがやってることの方向性はPCAと同じだぜ! と証明した(つまり理にかなっているということを論旨保証した) • Tradeoff: local orthogonality reconstruction • Well known: liner autoencoder span the same latent space as PCA • New insight: VAEs additionally pursue the same principal direction 参照: http://openaccess.thecvf.com/content_CVPR_2019/papers/Rolinek_Variational_Autoencoders_Pursue _PCA_Directions_by_Accident_CVPR_2019_paper.pdf