Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Be Your Own Prada: Fashion Synthesis with Stru...

tereka114
March 15, 2022
37

Be Your Own Prada: Fashion Synthesis with Structural Coherence

第43回 コンピュータビジョン勉強会

tereka114

March 15, 2022
Tweet

Transcript

  1. Be Your Own Prada: Fashion Synthesis with Structural Coherence 第43回

    コンピュータビジョン勉強会 @tereka114
  2. ⽬次 1. ⾃⼰紹介 2. 論⽂の概要 3. GANのおさらい 4. Fashion GAN

    5. Segmentation Map Generation 6. Texture Rendering 7. Experiments 8. Conclusion
  3. 1. ⾃⼰紹介 1. ⼭本 ⼤輝(@tereka114) 2. Acroquest Technology株式会社 1. 画像認識、⾃然⾔語処理、推薦システムなどを従事

    3. のんびりしているエンジニアの⽇記 1. http://nonbiri-tereka.hatenablog.com/ 4. 寄稿記事 1. Interface 3⽉号 ラズパイにON!Google⼈⼯知能 2. Interface 12⽉号 ⼈⼯知能ウルトラ⼤百科
  4. 2. Related Work 1. GANの紹介が多い。 2. Related Workで挙げられている論⽂の例 1. Conditional

    GAN 1. ラベルによる制約を付けたGAN 2. Stacked GAN 1. 説明⽂とノイズから画像を⽣成(1段階⽬)+⾼解像度化(2段階⽬) 3. S^2GAN 1. 表⾯を⽣成する段階(1段階⽬)とスタイルを合成する(2段階⽬)
  5. 4. Fashion GAN 1. Fashion GANは⽣成する形を⽣成するGANと形から着⾐した 同じ⼈物の画像を⽣成するGANの2段階構成 1. 1段階⽬の⼊⼒は低解像度セグメンテーション画像とテキストと乱 数を⽤いる(=Segmentation

    Map Generation) 2. 2段階⽬は⽣成したセグメンテーション画像とテキストと乱数を⽤ いる。(=Texture Rendering) 乱数 デザイン エンコーディング デザイン エンコーディング 画像の形状
  6. 5. Segmentation Map Generation 1. 最初のGeneratorは新しく⽣成したいSegmentationのマップ を⽣成することを⽬的としている。 2. ⼊⼒は次の3つ 1.

    ダウンサンプリングされたSegmentation画像 ↓m(S0) 2. デザイン・コーディングされたベクトルd 3. ガウシアンノイズz 3. 出⼒は新しく⽣成したい領域分割画像
  7. 5. Spatial Constraint 1. セグメンテーションのSを↓m(S0)へ変換する。 1. セグメンテーションの領域を限定する。 1. background, hair,

    face, upper-clothsm,pantsl,shortsm legs, and arms 2. 1からbackground, hair, face, restへ変換する 2. 2つのデザイン・コーディングとセグメンテーションの相関を弱 めるためにダウンサンプリングしたS(=↓m(S0))を利⽤する。 3. ⼊⼒した形状とテキストが反した場合にうまく⽣成できない。 1. ⼊⼒形状:短い服装 2. テキスト:⻑いドレス
  8. 5. Design Encoding 1. Design Codingのベクトルは50次元 1. 10次元は⼈間の属性 1. 性別、髪が短い/⻑い、サングラスの有無、帽⼦の有無

    2. 4次元は肌(RGBY) 3. 2次元は⼈の幅と⾼さ 2. 40次元はText Encoderを利⽤し、作成した。 1. 元論⽂は「Generative Adversarial Text to Image Synthesis」
  9. 5. Generative Adversarial Text to Image Synthesis 1. テキストと乱数を⼊⼒として、画像を作成するGAN 1.

    従来のGANでは乱数のみだが、テキストをエンコードして、追加で 投⼊する。 2. RNNを使い、テキストをベクトルへエンコードする仕組みが 利⽤されている。 1. 論⽂内だといくつかあり、Char-CNN-RNN、CNNを利⽤した⽅法い くつかある。
  10. 6. Texture Rendering • 前段で得られた画像を使って、画像を⽣成する。 • GANを使って、⽣成された画像の形状から最終的な画像を⽣成する。 • Compositional Mappingを使った合成を⾏い、より適切なレン

    ダリングを実現した。 • 領域の⼀貫性やボディパーツを維持するために新規のマッピングレイ ヤーを追加した(Compositional Mapping)
  11. 7. Experiment 1 1. Attribute Detectorで得られた属性をマッチングする。 2. Deep Fashion 1.

    http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html 3. ⽣成⼿法 1. One Step⽅式 1. One-Step GAN(8-7) 1. Segmentationのデータから直接、画像を⽣成する。 2. One-Step GAN(8-4) 1. Down samplingされたデータから直接、画像を⽣成する。 2. Non-Compositional 1. Compositional Mappingを外したニューラルネットワーク
  12. 8. Conclusion 1. 新しくテキストに基づく、着⾐した画像を⽣成するタスクに 取り組んだ。 2. テキストと画像を使ったアプローチであるFashion GANを提 案した。 1.

    形状⽣成と画像⽣成を⾏うGANを利⽤した。 2. ベースラインより精度が⾼い。 3. 現状の背景は殆ど固定となっている(ショッピングサイト) がデータを増やせば、zで表現できるかも。