Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』

maguro27
September 19, 2022

【スキルアップAIキャンプ】第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』

スキルアップAIキャンプの第79回『 生成モデルはまだまだ進化している! GAN の研究動向紹介』にて発表した講演資料です。
https://lp.skillupai.com/20220907

一部講演後に進展があった事項があったので、修正している事項があります。
また、講演時間が40分程ということもあり、かなり乱暴に端折っている部分がありますので、ご了承ください。
間違いなどがありましたら、ご指摘していただけますと幸いです。

maguro27

September 19, 2022
Tweet

More Decks by maguro27

Other Decks in Research

Transcript

  1. ⾃⼰紹介 綱島 秀樹 n 所属 早稲⽥⼤学 博⼠3年-森島繁⽣研究室 スキルアップAI 講師(GAN講座監修) n

    研究テーマ 修⼠課程︓深層画像⽣成モデルの計算量・パラメータ削減 博⼠課程1年︓複数物体を対象とした教師無し前景背景分解 博⼠課程2年〜︓常識獲得 産総研(元)︓服と⼈のペアデータを必要としない仮想試着 n 趣味 筋トレ、アメフト、ゲーム(FPS、⾳ゲー、レーシングゲーム)、サボテン育成
  2. ⽬次 n GAN とは n GAN のブレイクスルー「StyleGAN」までの発展 n GAN +

    3D 表現 n 次世代の深層⽣成モデル「拡散確率モデル」 n 今後の深層⽣成モデルの発展
  3. 深層⽣成モデル 深層⽣成モデルには⼤きく分けて 6 つの種類があり、特徴が 4 つに分けられる n GAN n Variational

    AutoEncoder(VAE) n Auto Regressive Models n Normalizing Flow n Energy-based Models(EBM) n Score-based Models 品質 速度 多様性 柔軟性
  4. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3
  5. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3
  6. Deep Convolutional GAN(DCGAN) <余談> 転置畳み込みは現在 Deconvolution と呼ばれるが、当時は Fractionally-strided Convolution と呼ばれていた

    というのも、当時 Deconvolution というと転置畳み込みという意味では捉えられ なかったため、Deconv. と Fractionally-strided Conv. で呼び分けがされていた 現在ではいつの間にか Deconv. が受け⼊れられており、主要ライブラリでは Deconvolution として呼ばれている
  7. Wasserstein GAN(WGAN) 実データ分布と⽣成器のデータ分布が離れすぎた場合でも分布間距離が発散しない Wasserstein 距離を⽤いた 、Wasserstein 損失を提案したGAN 元々の GAN の敵対的学習では

    Jensen-Shannon ダイバージェンスという分布間 擬距離で学習を⾏うが、識別器が予測する実データ分布と⽣成器のデータ分布が 近づきすぎた場合に識別器の勾配が消失して学習が破綻する ⼀⽅、Wasserstein 損失は識別器の勾配消失が起こらず学習ができる
  8. WGAN with Gradient Penalty(WGAN-GP) WGAN は 1-Lipschitz 性という識別器の勾配が 1 未満の条件を満たす必要がある

    WGAN では weight clipping という重みをある値以下に制限する⽅法を採⽤ しかしながら、weight clipping を⾏うと制限した範囲の端っこに重みが偏り、 学習がうまくいかない問題が存在(図は±0.01の範囲で制限) 出典︓WGAN-GP
  9. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3
  10. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3
  11. GANの主流の発展 GAN 登場後、DCGAN を⽪切りとして WGAN-GP、StyleGAN へと発展 2014 2015 2016 2017

    2018 2019 2020 2021 2022 GAN cGAN DCGAN WGAN WGAN-GP PGGAN SAGAN BigGAN StyleGAN StyleGAN2 StyleGAN3 GANの主流の発展は StyleGAN2までで本⽇は StyleGAN3は割愛
  12. StyleGAN2 StyleGAN に存在した複数の問題を解決したことでさらに⽣成品質向上 n Progressive Growing の廃⽌によって、特定の解像度で⻭の向きなどの特定 の要素が固定される問題を解決 n データ平均を⽤いず、正規分布を仮定した平均を⽤いて強すぎた正則化を抑制

    することで、⽣成画像中の⽔滴のような視覚的違和感の抑制 n 勾配罰則の更新頻度を16回に1回にすることで学習速度向上 n 潜在空間中の変化を視覚的に⾃然にする正則化を提案し、⽣成品質が向上
  13. 画像補完(Image Inpainting) n DeepFill v2(Contextual Attention + Gated Convolution) 切り抜かれた領域と外側の関係性を考慮する

    Contextual Attention と⾃由な 形のマスクを扱える Gated Convolution により⾼品質で⾃由な画像補完が可能 出典︓DeepFill v2
  14. 仮想試着 n HiFU-VIRT 服の幾何変換を教師なしで可能にした SAFE により、⾮ペアデータでも⾼品質な 仮想試着を実現(発表者綱島が MIRU2022 で発表した研究) n

    Sensors 2020 (Impact Factor: 3.576) n MIRU2021 学⽣優秀賞(Student Best Paper Award) n MIRU2022 MIRUインタラクティブセッション賞(Outstanding Poster Award)
  15. GAN + 3D 表現 画像⽣成は 2 次元画像だが、内部物体は 3 次元的整合性が取れていたほうが良い そこで、明⽰的に中間層で

    3 次元表現を扱おうという研究がある ⼤きく分けて NeRF 登場以前、NeRF 登場以降の研究が存在 (本⽇はキーとなる研究をいくつか紹介)
  16. StyleNeRF 低解像度で NeRF 表現を扱い、そこから⾼解像度部分は 2D で処理することで、 ⾼速でありながらも 1024x1024 の解像度での⽣成が可能 NeRF

    表現は 3D なので、辺の3乗の計算コストがかかるため、⾼解像度ほど 計算コストが跳ね上がる 出典︓StyleNeRF
  17. 本章のまとめ n GAN の⽣成画像は 3D の整合性が取れていたほうが良いため、中間表現で 3D 表現を扱う研究がブーム n NeRF

    登場後、⾶躍的に 3D の整合性が取れた GAN の研究が進展 n 今後は⾼解像度⽣成・⾼速・⾼解像度 3D 表現の三拍⼦揃った⼿法が期待される
  18. 拡散確率モデル 拡散過程の学習には、実データにタイムステップに応じたノイズを載せ、 載せたノイズをノイズ付き実データから推定 ニューラル ネットワーク タイムステップ 𝑇 実データ 𝑥! ノイズ

    ノイズ付き画像 𝑥" 推定ノイズ ⼆乗誤差最⼩化 (後述のDDPMで説明) 図の参考︓【Deep Learning研修(発展)】データ⽣成・変換のための 機械学習 第7回前編「Diffusion models」
  19. DDPM(Denoising Diffusion Probabilistic Model) ⽣成品質は GAN に匹敵し、世間の注⽬は⼤いに集まったものの、爆発的なブーム にはまだならず GAN が優勢であった

    ターニングポイントは、本⽇は割愛しますが ADM という GAN に勝る⽣成品質を 叩き出した⼿法になります 出典︓DDPM
  20. 本章のまとめ n Score-based Models の⼀種の拡散過程を学習する拡散確率モデル n 拡散確率モデルブームのきっかけとなったDDPM n 最新の txt2im

    の拡散確率モデルの DALL-E 2、Midjourney、Stable Diffusion n AIの倫理的問題がついに浮き彫りになり始めた
  21. 今後の深層⽣成モデルの発展 もう既に数年前では考えられないくらいの⽣成品質の深層画像⽣成モデル 今後の発展の鍵として考えられるのは n GPT-4 • GPT-3という巨⼤⾔語⽣成モデルの後続の研究が近いうちに出るはず n パラメータ数の超増加による相転移的現象 •

    深層⽣成モデル⾃体はパラメータ数は巨⼤⾔語モデルと⽐べて⼤したこと無いので、 まだまだ発展の余地は残されている(GPT-3︓1750億、Stable Diffusion︓14億5千万) 合わせて学習・⽣成コスト減少の研究にも注⽬が集まる n 深層画像⽣成モデルを⽤いたデータ拡張 • 今までは学習したデータ分布内の内挿しかできないため、データ拡張に⽤いても精度向上 には役に⽴たない場合がほとんどであったが、txt2im の発展により様々な分野への データ拡張が期待される
  22. 今後の深層⽣成モデルの発展 Nearly every person who develops an idea works at

    it up to the point where it looks impossible, and then gets discouraged. That’s not the place to become discouraged. Tomans Alva Edison