Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Factorized Diffusion: Perceptual Illusions by N...

Aki Teshima
November 16, 2024

Factorized Diffusion: Perceptual Illusions by Noise Decomposition

Paper from ECCV2024 introduced in 62nd Kanto Computer Vision reading group

Aki Teshima

November 16, 2024
Tweet

More Decks by Aki Teshima

Other Decks in Science

Transcript

  1. Factorized Diffusion: Perceptual Illusions by Noise Decomposition 発表者: tomoaki_teshima 2024/11/16

    第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 1 tomoaki_teshima tomoaki0705 tomoaki_teshima tomoaki0705
  2. Factorized Diffusion: Perceptual Illusions by Noise Decomposition Daniel Geng*, Inbum

    Park*, Andrew Owens University of Michigan 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 2
  3. Outline • Hybrid Imageとは • Factorized Diffusion の解説 • ECCV読み回なのになんでCVPRのTシャツ!?

    2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 4
  4. What is Hybrid Image? image with an interpretation that changes

    with viewing distance. 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 5 46: Oliva, A., Torralba, A., Schyns, P.G.: Hybrid images. ACM Trans. Graph. 25(3), 527–532 (Jul 2006)
  5. How to create a hybrid image 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会

    6 46: Oliva, A., Torralba, A., Schyns, P.G.: Hybrid images. ACM Trans. Graph. 25(3), 527–532 (Jul 2006)
  6. From [46] Creating compelling hybrid images is an open and

    challenging problem, as it relies on perceptual grouping mechanisms that interact across different spatial scales. • 任意の画像でHybrid Imageを作る場合、補完的な画像が必要と なる • 画像同士の位置合わせも大事 • 補完画像をどう作るかはchallenging/open problem 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 8
  7. そこでFactorized Diffusion • Diffusion Model はノイズを更新しながら画像を生成する • Diffusion Model自体は一般的なもの •

    Hybrid Imageには2枚以上の画像が必要なのに、どう やって複数枚生成するのか? • Promptが画像枚数分必要になる 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 9
  8. Limitations While our method can produce decent images fairly consistently,

    very high quality images are rarer 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 15 トレーニングの分布外の画像を生成しようとしてる場合 1つのpromptが他の成分を圧倒してしまう場合 Promptの少なくとも1つは“flexible”にするとうまくいく傾向 • “Photo”は失敗する傾向 • “Oil paintings”/“watercolor”はうまくいく傾向
  9. まとめ(中) • 複数のPromptで画像の生成を行う • その際、ノイズを成分ごとに分解する • ノイズを混ぜたのち、Prompt毎に更新する • Decompose/factorizationの方法により違う効果が生まれる •

    Hybrid imageはLow/High-passの2種類 • Tri-band Image, color hybrid, motion blur hybrid など複数の方法が使える • それっぽい画像は作れるが、high qualityはまれ。 • Diffusion model自体は一般的なもの • 今回の目的のために学習したわけではない 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 16
  10. 時系列 (Why CVPR T-shirt?) • 人間の視覚の特性は長らく研究されてきた • ↑を画像の世界に持ち込んで視覚をハックした Hybrid Image(Oliva

    et al., SIGGRAPH 2006) • ↑Visual IllusionとDiffusion model (著者ら, CVPR2024) • ↑Diffusion modelを利用した任意の画像に対する Hybrid Image(著者ら, ECCV2024) • CVPR2024の数ヶ月前に、運営側からTシャツの デザインを打診された 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 17
  11. Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models •

    CVPR2024での発表 • 同著者らによるだまし絵的な手法 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 18 21: Geng, D., Park, I., Owens, A.: Visual anagrams: Generating multi-view optical illusions with diffusion models. Computer Vision and Pattern Recognition (CVPR) 2024 (2024)
  12. その他1 2024/11/16 第62回 コンピュータビジョン勉強会@関東 ECCV2024読み会 20 How can a jigsaw

    have two distinct solutions? https://www.youtube.com/watch?v=b5nElEbbnfU This new type of illusion is really hard to make https://www.youtube.com/watch?v=FMRi6pNAoag 今回の論文を知ったきっかけ 問「出来上がりが2通りある パズルはありうるか?」 左: Steve Mould 今回触れた内容を紹介 右: Matt Parker 2通りの並びを実現する パズルピースの並びを紹介