Be Your Own Prada: Fashion Synthesis with Structural Coherence

Be Your Own Prada: Fashion Synthesis with Structural Coherence 第43回
コンピュータビジョン勉強会 @tereka114

⽬次 1. ⾃⼰紹介 2. 論⽂の概要 3. GANのおさらい 4. Fashion GAN
5. Segmentation Map Generation 6. Texture Rendering 7. Experiments 8. Conclusion

1. ⾃⼰紹介 1. ⼭本⼤輝（@tereka114） 2. Acroquest Technology株式会社 1. 画像認識、⾃然⾔語処理、推薦システムなどを従事
3. のんびりしているエンジニアの⽇記 1. http://nonbiri-tereka.hatenablog.com/ 4. 寄稿記事 1. Interface 3⽉号ラズパイにON!Google⼈⼯知能 2. Interface 12⽉号⼈⼯知能ウルトラ⼤百科

2. 論⽂の概要 1. ⾐服を着た⼈物画像とテキストを⼊⼒した場合にテキストに基づく、新しい服を着た画像を⽣成する新しいタスクに挑戦した。 1. これを⽣成するGANが提案⼿法のFashion GAN 2. 但し、体の領域を残しつつ、テキストで表現された⽂章に関連す
る画像を⽣成しなければならない。 3. 論⽂のキーアイデアとして次の2つを提案 1. Spatial Constraint 2. Compositional Mapping

2. 論⽂の概要

2. この論⽂を読んでみた理由 1. 制約を付けて新しい画像を⽣成することによって⾯⽩いことに応⽤できそうだから。 1. 2段階で実施する意味とは何か 1. （何か⼊れ替えられそうじゃないですか。） 2.
GANを使った応⽤を勉強してみたかった。 1. トレンドを追いかけたかった。

2. Related Work 1. GANの紹介が多い。 2. Related Workで挙げられている論⽂の例 1. Conditional
GAN 1. ラベルによる制約を付けたGAN 2. Stacked GAN 1. 説明⽂とノイズから画像を⽣成（１段階⽬）＋⾼解像度化（２段階⽬） 3. S^2GAN 1. 表⾯を⽣成する段階（１段階⽬）とスタイルを合成する（２段階⽬）

2. 論⽂の問題設定 1. 服を着た画像（セグメンテーション）と新しい服を説明する⽂章があった場合に新しい画像を⽣成する問題 1. 体の領域を残す。 2. テキストで表現された⽂章に関連する画像を⽣成する。 2.
ユーザごとにセグメンテーション済みの画像とその画像に対する説明が与えられる。

3. GANのおさらい 1. GeneratorとDiscriminatorを競わせて学習する。 1. GeneratorはDiscriminatorを騙すように学習する。 2. Discriminatorはより識別できるよう学習する。 2. GeneratorとDiscriminatorがいたちごっこになり、
Discriminatorを⾒分けられなくなるGenerator⽣まれる。

3. GANのおさらい乱数Z 真偽判定 Generator Discriminator

4. Fashion GAN 1. Fashion GANは⽣成する形を⽣成するGANと形から着⾐した同じ⼈物の画像を⽣成するGANの2段階構成 1. １段階⽬の⼊⼒は低解像度セグメンテーション画像とテキストと乱数を⽤いる（＝Segmentation
Map Generation） 2. ２段階⽬は⽣成したセグメンテーション画像とテキストと乱数を⽤いる。（＝Texture Rendering）乱数デザインエンコーディングデザインエンコーディング画像の形状

4. Fashion GAN

5. Segmentation Map Generation 1. 最初のGeneratorは新しく⽣成したいSegmentationのマップを⽣成することを⽬的としている。 2. ⼊⼒は次の3つ 1.
ダウンサンプリングされたSegmentation画像 ↓ｍ(S0） 2. デザイン・コーディングされたベクトルd 3. ガウシアンノイズz 3. 出⼒は新しく⽣成したい領域分割画像

5. Spatial Constraint 1. セグメンテーションのSを↓m(S0)へ変換する。 1. セグメンテーションの領域を限定する。 1. background, hair,
face, upper-clothsm,pantsl,shortsm legs, and arms 2. 1からbackground, hair, face, restへ変換する 2. ２つのデザイン・コーディングとセグメンテーションの相関を弱めるためにダウンサンプリングしたS（＝↓ｍ(S0））を利⽤する。 3. ⼊⼒した形状とテキストが反した場合にうまく⽣成できない。 1. ⼊⼒形状：短い服装 2. テキスト：⻑いドレス

5. Segmentation Map Generation

5. Design Encoding 1. Design Codingのベクトルは50次元 1. 10次元は⼈間の属性 1. 性別、髪が短い/⻑い、サングラスの有無、帽⼦の有無
2. 4次元は肌（RGBY） 3. 2次元は⼈の幅と⾼さ 2. 40次元はText Encoderを利⽤し、作成した。 1. 元論⽂は「Generative Adversarial Text to Image Synthesis」

5. Generative Adversarial Text to Image Synthesis 1. テキストと乱数を⼊⼒として、画像を作成するGAN 1.
従来のGANでは乱数のみだが、テキストをエンコードして、追加で投⼊する。 2. RNNを使い、テキストをベクトルへエンコードする仕組みが利⽤されている。 1. 論⽂内だといくつかあり、Char-CNN-RNN、CNNを利⽤した⽅法いくつかある。

5. Text Encoder Text Encoderはこの部分

5. Fashion GAN

6. Texture Rendering • 前段で得られた画像を使って、画像を⽣成する。 • GANを使って、⽣成された画像の形状から最終的な画像を⽣成する。 • Compositional Mappingを使った合成を⾏い、より適切なレン
ダリングを実現した。 • 領域の⼀貫性やボディパーツを維持するために新規のマッピングレイヤーを追加した（Compositional Mapping）

7. Experiment 1 1. Attribute Detectorで得られた属性をマッチングする。 2. Deep Fashion 1.
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html 3. ⽣成⼿法 1. One Step⽅式 1. One-Step GAN(8-7) 1. Segmentationのデータから直接、画像を⽣成する。 2. One-Step GAN(8-4) 1. Down samplingされたデータから直接、画像を⽣成する。 2. Non-Compositional 1. Compositional Mappingを外したニューラルネットワーク

7. Deep Fashion(Dataset)

7. Experiment 1（属性⼀致）

7. Experiment Result

7. Experiment 2 1. ⽣成された画像を8979画像枚提⽰し、ランクを参加者につけてもらった。 1. １が最も良く、5が最も悪い。

7. ⽣成画像（Step by Step）

7. ⽣成画像

8. Conclusion 1. 新しくテキストに基づく、着⾐した画像を⽣成するタスクに取り組んだ。 2. テキストと画像を使ったアプローチであるFashion GANを提案した。 1.
形状⽣成と画像⽣成を⾏うGANを利⽤した。 2. ベースラインより精度が⾼い。 3. 現状の背景は殆ど固定となっている（ショッピングサイト）がデータを増やせば、zで表現できるかも。

8. 所感 1. 形を意識する必要のあるデータへの変換だと役⽴つっぽい。 1. 他に何に使えそうかは今後の（個⼈的な）課題 2. ２段階構成による⽣成⼿法を活⽤したい。 1. テキスト・形（セグメンテーション）・ノイズといった箇所

Be Your Own Prada: Fashion Synthesis with Stru...

Be Your Own Prada: Fashion Synthesis with Structural Coherence

tereka114

More Decks by tereka114

Featured

Transcript