Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Be Your Own Prada: Fashion Synthesis with Stru...
Search
tereka114
March 15, 2022
0
51
Be Your Own Prada: Fashion Synthesis with Structural Coherence
第43回 コンピュータビジョン勉強会
tereka114
March 15, 2022
Tweet
Share
More Decks by tereka114
See All by tereka114
トラブルがあったコンペに学ぶデータ分析
tereka114
2
1.7k
Harnessing Large Language Models for Training-free Video Anomaly Detection
tereka114
1
1.6k
KDD2023学会参加報告
tereka114
2
600
Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering
tereka114
0
400
Mobile-Former: Bridging MobileNet and Transformer
tereka114
0
1.1k
DER: Dynamically Expandable Representation for Class Incremental Learning
tereka114
0
210
Jupyter Notebookを納品した話
tereka114
0
480
Multi Scale Recognition with DAG-CNNs
tereka114
0
150
How to use scikit-image for data augmentation
tereka114
0
280
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
47
9.6k
Why Our Code Smells
bkeepers
PRO
337
57k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Into the Great Unknown - MozCon
thekraken
40
1.9k
How to Think Like a Performance Engineer
csswizardry
25
1.8k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.5k
Building an army of robots
kneath
306
45k
A better future with KSS
kneath
238
17k
Embracing the Ebb and Flow
colly
86
4.8k
Art, The Web, and Tiny UX
lynnandtonic
301
21k
Done Done
chrislema
185
16k
Balancing Empowerment & Direction
lara
1
510
Transcript
Be Your Own Prada: Fashion Synthesis with Structural Coherence 第43回
コンピュータビジョン勉強会 @tereka114
⽬次 1. ⾃⼰紹介 2. 論⽂の概要 3. GANのおさらい 4. Fashion GAN
5. Segmentation Map Generation 6. Texture Rendering 7. Experiments 8. Conclusion
1. ⾃⼰紹介 1. ⼭本 ⼤輝(@tereka114) 2. Acroquest Technology株式会社 1. 画像認識、⾃然⾔語処理、推薦システムなどを従事
3. のんびりしているエンジニアの⽇記 1. http://nonbiri-tereka.hatenablog.com/ 4. 寄稿記事 1. Interface 3⽉号 ラズパイにON!Google⼈⼯知能 2. Interface 12⽉号 ⼈⼯知能ウルトラ⼤百科
2. 論⽂の概要 1. ⾐服を着た⼈物画像とテキストを⼊⼒した場合にテキストに基づ く、新しい服を着た画像を⽣成する新しいタスクに挑戦した。 1. これを⽣成するGANが提案⼿法のFashion GAN 2. 但し、体の領域を残しつつ、テキストで表現された⽂章に関連す
る画像を⽣成しなければならない。 3. 論⽂のキーアイデアとして次の2つを提案 1. Spatial Constraint 2. Compositional Mapping
2. 論⽂の概要
2. この論⽂を読んでみた理由 1. 制約を付けて新しい画像を⽣成することによって⾯⽩いこと に応⽤できそうだから。 1. 2段階で実施する意味とは何か 1. (何か⼊れ替えられそうじゃないですか。) 2.
GANを使った応⽤を勉強してみたかった。 1. トレンドを追いかけたかった。
2. Related Work 1. GANの紹介が多い。 2. Related Workで挙げられている論⽂の例 1. Conditional
GAN 1. ラベルによる制約を付けたGAN 2. Stacked GAN 1. 説明⽂とノイズから画像を⽣成(1段階⽬)+⾼解像度化(2段階⽬) 3. S^2GAN 1. 表⾯を⽣成する段階(1段階⽬)とスタイルを合成する(2段階⽬)
2. 論⽂の問題設定 1. 服を着た画像(セグメンテーション)と新しい服を説明する ⽂章があった場合に新しい画像を⽣成する問題 1. 体の領域を残す。 2. テキストで表現された⽂章に関連する画像を⽣成する。 2.
ユーザごとにセグメンテーション済みの画像とその画像に対 する説明が与えられる。
3. GANのおさらい 1. GeneratorとDiscriminatorを競わせて学習する。 1. GeneratorはDiscriminatorを騙すように学習する。 2. Discriminatorはより識別できるよう学習する。 2. GeneratorとDiscriminatorがいたちごっこになり、
Discriminatorを⾒分けられなくなるGenerator⽣まれる。
3. GANのおさらい 乱数Z 真偽判定 Generator Discriminator
4. Fashion GAN 1. Fashion GANは⽣成する形を⽣成するGANと形から着⾐した 同じ⼈物の画像を⽣成するGANの2段階構成 1. 1段階⽬の⼊⼒は低解像度セグメンテーション画像とテキストと乱 数を⽤いる(=Segmentation
Map Generation) 2. 2段階⽬は⽣成したセグメンテーション画像とテキストと乱数を⽤ いる。(=Texture Rendering) 乱数 デザイン エンコーディング デザイン エンコーディング 画像の形状
4. Fashion GAN
4. Fashion GAN
5. Segmentation Map Generation 1. 最初のGeneratorは新しく⽣成したいSegmentationのマップ を⽣成することを⽬的としている。 2. ⼊⼒は次の3つ 1.
ダウンサンプリングされたSegmentation画像 ↓m(S0) 2. デザイン・コーディングされたベクトルd 3. ガウシアンノイズz 3. 出⼒は新しく⽣成したい領域分割画像
5. Spatial Constraint 1. セグメンテーションのSを↓m(S0)へ変換する。 1. セグメンテーションの領域を限定する。 1. background, hair,
face, upper-clothsm,pantsl,shortsm legs, and arms 2. 1からbackground, hair, face, restへ変換する 2. 2つのデザイン・コーディングとセグメンテーションの相関を弱 めるためにダウンサンプリングしたS(=↓m(S0))を利⽤する。 3. ⼊⼒した形状とテキストが反した場合にうまく⽣成できない。 1. ⼊⼒形状:短い服装 2. テキスト:⻑いドレス
5. Segmentation Map Generation
5. Segmentation Map Generation
5. Design Encoding 1. Design Codingのベクトルは50次元 1. 10次元は⼈間の属性 1. 性別、髪が短い/⻑い、サングラスの有無、帽⼦の有無
2. 4次元は肌(RGBY) 3. 2次元は⼈の幅と⾼さ 2. 40次元はText Encoderを利⽤し、作成した。 1. 元論⽂は「Generative Adversarial Text to Image Synthesis」
5. Generative Adversarial Text to Image Synthesis 1. テキストと乱数を⼊⼒として、画像を作成するGAN 1.
従来のGANでは乱数のみだが、テキストをエンコードして、追加で 投⼊する。 2. RNNを使い、テキストをベクトルへエンコードする仕組みが 利⽤されている。 1. 論⽂内だといくつかあり、Char-CNN-RNN、CNNを利⽤した⽅法い くつかある。
5. Text Encoder Text Encoderは この部分
5. Fashion GAN
6. Texture Rendering • 前段で得られた画像を使って、画像を⽣成する。 • GANを使って、⽣成された画像の形状から最終的な画像を⽣成する。 • Compositional Mappingを使った合成を⾏い、より適切なレン
ダリングを実現した。 • 領域の⼀貫性やボディパーツを維持するために新規のマッピングレイ ヤーを追加した(Compositional Mapping)
7. Experiment 1 1. Attribute Detectorで得られた属性をマッチングする。 2. Deep Fashion 1.
http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html 3. ⽣成⼿法 1. One Step⽅式 1. One-Step GAN(8-7) 1. Segmentationのデータから直接、画像を⽣成する。 2. One-Step GAN(8-4) 1. Down samplingされたデータから直接、画像を⽣成する。 2. Non-Compositional 1. Compositional Mappingを外したニューラルネットワーク
7. Deep Fashion(Dataset)
7. Experiment 1(属性⼀致)
7. Experiment Result
7. Experiment 2 1. ⽣成された画像を8979画像枚提⽰し、ランクを参加者につけ てもらった。 1. 1が最も良く、5が最も悪い。
7. ⽣成画像(Step by Step)
7. ⽣成画像
8. Conclusion 1. 新しくテキストに基づく、着⾐した画像を⽣成するタスクに 取り組んだ。 2. テキストと画像を使ったアプローチであるFashion GANを提 案した。 1.
形状⽣成と画像⽣成を⾏うGANを利⽤した。 2. ベースラインより精度が⾼い。 3. 現状の背景は殆ど固定となっている(ショッピングサイト) がデータを増やせば、zで表現できるかも。
8. 所感 1. 形を意識する必要のあるデータへの変換だと役⽴つっぽい。 1. 他に何に使えそうかは今後の(個⼈的な)課題 2. 2段階構成による⽣成⼿法を活⽤したい。 1. テキスト・形(セグメンテーション)・ノイズといった箇所