Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
TransGAN: Two Transformers Can Make One Strong GAN
Search
kiyo
April 18, 2021
Technology
0
300
TransGAN: Two Transformers Can Make One Strong GAN
第六回全日本コンピュータビジョン研究会 Transformer読み会での発表資料です
kiyo
April 18, 2021
Tweet
Share
More Decks by kiyo
See All by kiyo
Active Retrieval Augmented Generation
kiyohiro8
3
700
Reinforcement Learning: An Introduction 輪読会 第5回
kiyohiro8
0
340
Reinforcement Learning: An Introduction 輪読会 第3回
kiyohiro8
0
460
CycleGAN and InstaGAN
kiyohiro8
0
1.4k
Bridging_by_Word__Image-Grounded_Vocabulary_Construction_for_Visual_Captioning.pdf
kiyohiro8
0
940
Attention on Attention for Image Captioning
kiyohiro8
1
470
Progressive Growing of GANs for Improved Quality, Stability, and Variation
kiyohiro8
1
130
Graph-Based Global Reasoning Networks
kiyohiro8
0
1.2k
Other Decks in Technology
See All in Technology
社内イベント管理システムを1週間でAKSからACAに移行した話し
shingo_kawahara
0
180
非機能品質を作り込むための実践アーキテクチャ
knih
3
980
祝!Iceberg祭開幕!re:Invent 2024データレイク関連アップデート10分総ざらい
kniino
2
250
20241220_S3 tablesの使い方を検証してみた
handy
3
360
ずっと昔に Star をつけたはずの思い出せない GitHub リポジトリを見つけたい!
rokuosan
0
150
PHP ユーザのための OpenTelemetry 入門 / phpcon2024-opentelemetry
shin1x1
1
160
小学3年生夏休みの自由研究「夏休みに Copilot で遊んでみた」
taichinakamura
0
150
LINEヤフーのフロントエンド組織・体制の紹介【24年12月】
lycorp_recruit_jp
0
530
Amazon Kendra GenAI Index 登場でどう変わる? 評価から学ぶ最適なRAG構成
naoki_0531
0
100
どちらを使う?GitHub or Azure DevOps Ver. 24H2
kkamegawa
0
700
マルチプロダクト開発の現場でAWS Security Hubを1年以上運用して得た教訓
muziyoshiz
2
2.2k
Snowflake女子会#3 Snowpipeの良さを5分で語るよ
lana2548
0
230
Featured
See All Featured
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Imperfection Machines: The Place of Print at Facebook
scottboms
266
13k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
49k
Mobile First: as difficult as doing things right
swwweet
222
9k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.9k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
66k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
Transcript
TransGAN: Two Transformers Can Make One Strong GAN 第六回 全日本コンピュータビジョン勉強会
Transformer 読み会 2021/04/18 kiyo (hrs1985)
自己紹介 twitter : @hrs1985 Qiita : https://qiita.com/hrs1985 github : https://github.com/kiyohiro8
株式会社カブクで機械学習エンジニアをしています。 深層生成モデル、画像の変換 ゲームの強化学習 あたりに興味があります。 twitter アイコン
論文の概要 TransGAN: Two Transformers Can Make One Strong GAN (https://arxiv.org/abs/2102.07074)
1. Transformer のみで GAN を構成した (CNN が非必須であることを示した) 2. アーキテクチャと学習方法を工夫することで CIFAR-10 や STL-10 で CNN ベースの GAN に匹敵する性能が出せた。 モデルは https://github.com/VITA-Group/TransGAN に公開されている ただし推論のみ
Generative Adversarial Models Generator はノイズ (z) から fake sample を作る
Discriminator は入力された画像の real / fake を判別する
Attention (Transformer) と GAN CNN + Attention の GAN は
Self-Attention GAN などで使われており、性能向上に寄与している 今回は Convolutional Layer を一切使わずにAttention (Transformer) のみで GAN を構成した Self-Attention Generative Adversarial Networks (https://arxiv.org/abs/1805.08318) より
Transformer Generator / Discriminator Generator / Discriminator ともに Transformer だけで構成されている
Transformer Encoder Block Multi-Head Self Attention → MLP を繋げて 1つのブロックにする
Multi-Head Self Attention と MLP の前に Layer Normalization を挟む
Memory-Friendly Generator 画像サイズは NLP でいう文の長さ (単語数) に相当する。 32x32 の低解像度でも 1024
単語の文となってしまい Attention の計算量がかさむ。 Transformer Encoder を何回か通す → UpScaling (pixel shuffle) →これを繰り返し、目的の画像サイズまで大きくしていく ←各 pixel が NLP でいう word に相当する
Discriminator 画像を 8x8 のパッチに分割 →Transformer Encoder を通す →最終層で特徴を集約して real /
fake 判定
シンプルな TransGAN Transformer の Generator はよい Transformer の Discriminator はダメ
データ拡張 データ拡張 (DiffAug) を導入することで IS も FID も改善
Self-Supervised Auxiliary Task 補助タスクとして、Generator に画像の高解像度化タスクも解かせる 低解像度画像 高解像度化された画像 MSE loss
Locality-Aware Initialization query 位置 (赤) に対して参照できる key の範囲を制限する 学習初期では狭く、後期では広い範囲を参照する
モデルサイズの効果 モデルサイズが大きいほど強い
既存手法との比較 CIFAR-10、STL-10 で SoTA またはそれに匹敵する程度の性能が出た
出力画像例
結論 ・Transformer のみで構成された GAN である TransGAN を提案した ・学習を工夫することで CNN ベースの
GAN に匹敵する性能が出せた ・今後自然言語処理分野のテクニックを取り入れることで性能向上ができるかも?
None
Network Architecture
学習の計算量
Settings