Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SIGGRAPH勉強会2025 30.Deep Image Editing

SIGGRAPH勉強会2025 30.Deep Image Editing

Avatar for Chinatsu Ozawa

Chinatsu Ozawa

September 23, 2025
Tweet

More Decks by Chinatsu Ozawa

Other Decks in Research

Transcript

  1. Deep Image Editing 画像・動画コンテンツ生成と編集に関するセッション 1 おざわ ちなつ | 小澤 知夏

    筑波大学大学院  情報学学位プログラム博士前期課程1年  落合陽一研究室 Digital Nature Group | Chinatsu Ozawa SIGGRAPH勉強会2025 7本あるうち TOGは2本 BP, HMは無 ▲ここに興味あって担当しました
  2. Digital Nature Group | Chinatsu Ozawa Deep Image Editing セッションの概要

    2 ねこちゃんが 写っている Fig.1は2本でした! Be Decisive: Noise-Induced Layouts for Multi-Subject Generation Cora: Correspondence-aware image editing using few step diffusion 3D-Fixup: Advancing Photo Editing with 3D Priors PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models Instance Segmentation of Scene Sketches Using Natural Image Priors Journal Track Conference Track IntrinsicEdit: Precise generative image manipulation in intrinsic space MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills Or Patashnik 先生 生成モデルを応用した次世代の画像・動画コンテンツ生成と編集に取り組む研究者で、特に ユーザーの意図に忠実で精緻な制御を可能にする技術を中心に研究されているそうです。 Tel Aviv University🇮 https://orpatashnik.github.io/ Session Chair 推 ※スライドに[TOG]って書いてます
  3. Digital Nature Group | Chinatsu Ozawa Deep Image Editing の

    Journal-Track採択論文とConference-Track採択論文の違い 3 Journal Track Conference Track こっちで解決しようとしている問題 が解決された世界線で見つけた新しい問題に着目 って感じに思いました &提案されるフレームワークが概念的にシンプル ※あくまでも私が読み比べてみての感想です ※このトラックしか読んでないです ※全然違うよ!と思っていただいて構いません ※ほえ〜〜〜と思うくらいに捉えてください こたつをめくったらネコチャンが… 新種のコタツネコかもしれない…!的な 先にこっち紹介 その後にこっち紹介
  4. Digital Nature Group | Chinatsu Ozawa Be Decisive: Noise-Induced Layouts

    for Multi-Subject Generation 4 Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, and Daniel Cohen-Or テキストから画像を生成する時に,複数の異なる対象(multi-subject)を生成しようとすると, 対象同士が混ざったり(subject leakage)、数や特徴が間違ったりしやすい この論文で着目する問題 “A polar bear, a grizzly bear, a panda bear, and a koala bear” →「ホッキョクグマ、ハイイログマ、ジャイアントパンダ、そしてコアラ」 “Two teddy bears and four red toy cars on a white carpet” →「白いカーペットの上に、2体のテディベアと4台の赤いおもちゃの車」 Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, and Daniel Cohen-Or. 2025. Be Decisive: Noise-Induced Layouts for Multi-Subject Generation. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 92, 1–12. https://doi.org/10.1145/3721238.3730631
  5. Digital Nature Group | Chinatsu Ozawa Be Decisive: Noise-Induced Layouts

    for Multi-Subject Generation 5 Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, and Daniel Cohen-Or 初期ノイズに隠れている自然なレイアウトを読み取り、 そこに従って複数対象を正しく配置する画像生成法 =ノイズそのものがレイアウトを導くというアイデア この論文のアプローチ この論文の提案手法 ノイズ除去 曖昧な配置予想 線を引いて領域区切る \ 画像生成開始 / 下書きと線が ずれていないか調整 ソフトレイアウトとハードレイアウトが 一致するように潜在画像を最適化 ソフトレイアウト ハードレイアウト 他の手法:位置の正確さを取ると多様性が犠牲になる or 多様性 は確保できるが対象が混ざる 提案手法:正確さ・多様性・品質をすべて両立!!! レイアウトの多様性を評価 Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, and Daniel Cohen-Or. 2025. Be Decisive: Noise-Induced Layouts for Multi-Subject Generation. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 92, 1–12. https://doi.org/10.1145/3721238.3730631
  6. Digital Nature Group | Chinatsu Ozawa Cora: Correspondence-aware image editing

    using few step diffusion 6 Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, and Ali Mahdavi-Amiri few-step diffusion を使った画像編集において、構造やテクスチャの整合性が崩れやすい この論文で着目する問題 Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, and Ali Mahdavi-Amiri. 2025. Cora: Correspondence-aware image editing using few step diffusion. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 93, 1–11. https://doi.org/10.1145/3721238.3730650
  7. Digital Nature Group | Chinatsu Ozawa Cora: Correspondence-aware image editing

    using few step diffusion 7 Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, and Ali Mahdavi-Amiri Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, and Ali Mahdavi-Amiri. 2025. Cora: Correspondence-aware image editing using few step diffusion. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 93, 1–11. https://doi.org/10.1145/3721238.3730650 この論文の提案手法 ターゲットと元画像の似ている部分 同士をAIの特徴で地図のように結ぶ 地図に合わせて,
 ノイズのかけ方を並べ替える 元画像の見た目と新しく描く 見た目をなめらかにブレンド 絵の「骨格(どこを重視する か)」が似るように並べ替える 元写真の形を残す←→指示どお り形を変える」を調整 「見た目の転写量(どれだけ元の 質感を持ってくるか)」を調整 SLEAP correspondence map ハンガリアン法 βつまみ αつまみ 「必要なら生成, 合う所だけ転写する」 から破綻が少なくなる!
  8. Digital Nature Group | Chinatsu Ozawa Cora: Correspondence-aware image editing

    using few step diffusion 8 Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, and Ali Mahdavi-Amiri Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, and Ali Mahdavi-Amiri. 2025. Cora: Correspondence-aware image editing using few step diffusion. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 93, 1–11. https://doi.org/10.1145/3721238.3730650
  9. Digital Nature Group | Chinatsu Ozawa Cora: Correspondence-aware image editing

    using few step diffusion 9 Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, and Ali Mahdavi-Amiri Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, and Ali Mahdavi-Amiri. 2025. Cora: Correspondence-aware image editing using few step diffusion. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 93, 1–11. https://doi.org/10.1145/3721238.3730650
  10. Digital Nature Group | Chinatsu Ozawa 3D-Fixup: Advancing Photo Editing

    with 3D Priors 10 Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alexander Schwing, Liang-Yan Gui, Matheus Gadelha, Paul Guerrero, and Nanxuan Zhao この論文で着目する問題 Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alexander Schwing, Liang-Yan Gui, Matheus Gadelha, Paul Guerrero, and Nanxuan Zhao. 2025. 3D-Fixup: Advancing Photo Editing with 3D Priors. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 94, 1–10. https://doi.org/10.1145/3721238.3730695 既存の拡散モデル(diffusion models)は外観や2Dの見た目編集には強いが 3D構造を反映した編集は苦手
  11. Digital Nature Group | Chinatsu Ozawa 3D-Fixup: Advancing Photo Editing

    with 3D Priors 11 Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alexander Schwing, Liang-Yan Gui, Matheus Gadelha, Paul Guerrero, and Nanxuan Zhao Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alexander Schwing, Liang-Yan Gui, Matheus Gadelha, Paul Guerrero, and Nanxuan Zhao. 2025. 3D-Fixup: Advancing Photo Editing with 3D Priors. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 94, 1–10. https://doi.org/10.1145/3721238.3730695 この論文の提案手法 動画から学習データ をつくる 「入力(正面写真)」と 「出力(ちょっと回した写真)」 のペアにする Image-to-3D モデルを使い 写真から「立体の形」を推定 ステップ1と2で作ったペア データを使って画像生成AIに 学習させる 動画とImage-to-3Dを利用して訓練した、拡散モデルベースの高速・高品質な3D写真編集フレームワーク
  12. Digital Nature Group | Chinatsu Ozawa PartEdit: Fine-Grained Image Editing

    using Pre-Trained Diffusion Models 12 Aleksandar Cvejic, Abdelrahman Eldesokey, and Peter Wonka Aleksandar Cvejic, Abdelrahman Eldesokey, and Peter Wonka. 2025. PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 95, 1–11. https://doi.org/10.1145/3721238.3730747 この論文で着目する問題 従来のテキストによる画像編集(例:「髪を金髪にして」など)は可能だけど
 細かいパーツ単位の編集(顔の髪だけ・車のボンネットだけなど) が苦手
  13. Digital Nature Group | Chinatsu Ozawa PartEdit: Fine-Grained Image Editing

    using Pre-Trained Diffusion Models 13 Aleksandar Cvejic, Abdelrahman Eldesokey, and Peter Wonka Aleksandar Cvejic, Abdelrahman Eldesokey, and Peter Wonka. 2025. PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 95, 1–11. https://doi.org/10.1145/3721238.3730747 この論文の提案手法 写真と「どこを直したいか」 を入力する 対象パーツを探し出す 対象パーツだけノイズに変えて 他の部分はそのまま残す テキストや指示に 合わせて編集 ①トークン(対応語)をAIに覚えさせて ②画像上にヒートマップを作って ③そこをなめらかにマスクする(2値じゃない) ユーザースタディしたら,66〜90%の割合で既存手法より好まれた
  14. Digital Nature Group | Chinatsu Ozawa PartEdit: Fine-Grained Image Editing

    using Pre-Trained Diffusion Models 14 Aleksandar Cvejic, Abdelrahman Eldesokey, and Peter Wonka Aleksandar Cvejic, Abdelrahman Eldesokey, and Peter Wonka. 2025. PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 95, 1–11. https://doi.org/10.1145/3721238.3730747
  15. Digital Nature Group | Chinatsu Ozawa Instance Segmentation of Scene

    Sketches Using Natural Image Priors 15 Mia Tang, Yael Vinker, Chuan Yan, Lvmin Zhang, and Maneesh Agrawala Mia Tang, Yael Vinker, Chuan Yan, Lvmin Zhang, and Maneesh Agrawala. 2025. Instance Segmentation of Scene Sketches Using Natural Image Priors. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 96, 1–10. https://doi.org/10.1145/3721238.3730606 この論文で着目する問題 画像セグメンテーションモデルは自然画像では強力だけど スケッチ(線画)は抽象的で疎な表現のためうまく動作しない
  16. Digital Nature Group | Chinatsu Ozawa Instance Segmentation of Scene

    Sketches Using Natural Image Priors 16 Mia Tang, Yael Vinker, Chuan Yan, Lvmin Zhang, and Maneesh Agrawala Mia Tang, Yael Vinker, Chuan Yan, Lvmin Zhang, and Maneesh Agrawala. 2025. Instance Segmentation of Scene Sketches Using Natural Image Priors. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 96, 1–10. https://doi.org/10.1145/3721238.3730606 この論文の提案手法 線画を入力 写真に強いAI(Grounding DINO)でモノの位置を見つける AI(SAM)で モノを囲むマスクを作る 深度情報を使って、 重なりをきれいに分離 見つけたモノを レイヤーに分ける 手前に隠れていた部分は AIが想像して描き足す ①少データでファインチューニングしたら検出精度をAP 26% → 74% に改善 ②InkScenesデータセット(20,542枚)の一般化性能の高さ◎ ◀︎多様な筆致・カテゴリを含んだ データセット
  17. Digital Nature Group | Chinatsu Ozawa Instance Segmentation of Scene

    Sketches Using Natural Image Priors 17 Mia Tang, Yael Vinker, Chuan Yan, Lvmin Zhang, and Maneesh Agrawala Mia Tang, Yael Vinker, Chuan Yan, Lvmin Zhang, and Maneesh Agrawala. 2025. Instance Segmentation of Scene Sketches Using Natural Image Priors. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 96, 1–10. https://doi.org/10.1145/3721238.3730606
  18. Digital Nature Group | Chinatsu Ozawa [TOG] IntrinsicEdit: Precise generative

    image manipulation in intrinsic space 18 Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, and Iliyan Georgiev Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, and Iliyan Georgiev. 2025. IntrinsicEdit: Precise generative image manipulation in intrinsic space. ACM Trans. Graph. 44, 4, Article 106 (August 2025), 13 pages. https://doi.org/10.1145/3731173 この論文で着目する問題 生成AIによる画像編集は便利だが 影や反射まで含めて自然に保ちながら、細かい部分だけ正確に編集するのが難しい ※これはマテリアル(材質・テクスチャ)の編集だけをやっている例
  19. Digital Nature Group | Chinatsu Ozawa [TOG] IntrinsicEdit: Precise generative

    image manipulation in intrinsic space 19 Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, and Iliyan Georgiev Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, and Iliyan Georgiev. 2025. IntrinsicEdit: Precise generative image manipulation in intrinsic space. ACM Trans. Graph. 44, 4, Article 106 (August 2025), 13 pages. https://doi.org/10.1145/3731173 この論文のアプローチ これまでのAI画像編集は 「ここに犬を追加して」みたいに
 言葉で指示する 一部をマスクして描き換える この方法だと 光の当たり方(影や反射)が不自然 になる 元の写真の細かい特徴が崩れる 人間が絵を描いたり3Dモデリングする 時みたいに アルベド(色・材質) 法線(表面の向き) ライティング(光の当たり方) みたいに「 」 シーンを分けて考える ここはConference Trackで採択された論文 が注目してた問題 ↑の世界線を前提に 新しい問題を見つけて解いている!!
  20. Digital Nature Group | Chinatsu Ozawa [TOG] IntrinsicEdit: Precise generative

    image manipulation in intrinsic space 20 Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, and Iliyan Georgiev Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, and Iliyan Georgiev. 2025. IntrinsicEdit: Precise generative image manipulation in intrinsic space. ACM Trans. Graph. 44, 4, Article 106 (August 2025), 13 pages. https://doi.org/10.1145/3731173 この論文の提案手法 写真を特性別にブロック分け (アルベド・光・形状) 必要なブロックだけを取り替える 「夕日の色にして!」◀︎光だけに作用 全部を組み合わせ直して 新しい画像を完成
  21. Digital Nature Group | Chinatsu Ozawa [TOG] IntrinsicEdit: Precise generative

    image manipulation in intrinsic space 21 Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, and Iliyan Georgiev Linjie Lyu, Valentin Deschaintre, Yannick Hold-Geoffroy, Miloš Hašan, Jae Shin Yoon, Thomas Leimkühler, Christian Theobalt, and Iliyan Georgiev. 2025. IntrinsicEdit: Precise generative image manipulation in intrinsic space. ACM Trans. Graph. 44, 4, Article 106 (August 2025), 13 pages. https://doi.org/10.1145/3731173 この論文の提案手法 サプマテの作例がすごく充実していて,眺めるだけで楽しい!
  22. Digital Nature Group | Chinatsu Ozawa [TOG] MonetGPT: Solving Puzzles

    Enhances MLLMs' Image Retouching Skills 22 Niladri Shekhar Dutt, Duygu Ceylan, and Niloy J. Mitra 推し 論文 Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, and Daniel Cohen-Or. 2025. Be Decisive: Noise-Induced Layouts for Multi-Subject Generation. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 92, 1–12. https://doi.org/10.1145/3721238.3730631 この論文で着目する問題 従来のAI画像編集は元の被写体の自然さや同一性を壊してしまい、かつ編集理由が説明できない 生成系: 元の人らしさが消えやすいし、一部だけ やり直すのが難しい プロシージャル系:元を壊しにくくて、途中の手 順を飛ばしたり直したりしやすい 生成+プロシージャル:言葉では分かるけど実物 を触ってないから、微妙な効きが分からず操作が 的外れになりがち 提案手法:スライダー1目盛りの違いまで体で分 かってるから、筋の良い手順を出せる
  23. Digital Nature Group | Chinatsu Ozawa [TOG] MonetGPT: Solving Puzzles

    Enhances MLLMs' Image Retouching Skills 23 Niladri Shekhar Dutt, Duygu Ceylan, and Niloy J. Mitra 推し 論文 Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, and Daniel Cohen-Or. 2025. Be Decisive: Noise-Induced Layouts for Multi-Subject Generation. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 92, 1–12. https://doi.org/10.1145/3721238.3730631 この論文の提案手法 レタッチのパラメータと数値の 対応関係をAIが学習 画像を見て問題を発見する 「ここ暗いかも…」 AIで作った一連の編集レシピを 画像に適用する
  24. Digital Nature Group | Chinatsu Ozawa [TOG] MonetGPT: Solving Puzzles

    Enhances MLLMs' Image Retouching Skills 24 Niladri Shekhar Dutt, Duygu Ceylan, and Niloy J. Mitra 推し 論文 Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, and Daniel Cohen-Or. 2025. Be Decisive: Noise-Induced Layouts for Multi-Subject Generation. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 92, 1–12. https://doi.org/10.1145/3721238.3730631 この論文の提案手法 レタッチのパラメータと数値の 対応関係をAIが学習 画像を見て問題を発見する 「ここ暗いかも…」 AIで作った一連の編集レシピを 画像に適用する ここの有無で 画像のクオリティが 格段に違う!
  25. Digital Nature Group | Chinatsu Ozawa [TOG] MonetGPT: Solving Puzzles

    Enhances MLLMs' Image Retouching Skills 25 Niladri Shekhar Dutt, Duygu Ceylan, and Niloy J. Mitra 推し 論文 Omer Dahary, Yehonathan Cohen, Or Patashnik, Kfir Aberman, and Daniel Cohen-Or. 2025. Be Decisive: Noise-Induced Layouts for Multi-Subject Generation. In Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers (SIGGRAPH Conference Papers '25). Association for Computing Machinery, New York, NY, USA, Article 92, 1–12. https://doi.org/10.1145/3721238.3730631 この論文の提案手法 MonetGPT が一番高く評価された→ 特に「写真の質」と「被写体のアイデンティティ保持」が良い