Image Processing GNN: Breaking Rigidity in Super-Resolution

Image Processing GNN: Breaking Rigidity in Super- Resolution Sansan株式会社技術本部
研究開発部内⽥奏第61回コンピュータビジョン勉強会＠関東

写真が⼊ります内⽥奏 Sansan株式会社技術本部研究開発部シニアリサーチャー東京電機⼤学⼤学院⼯学研究科修⼠課程修了。深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年、Sansan株式会社に新卒⼊社。
名刺画像の品質およびOCR精度の改善に関する研究開発に従事。

1. 論⽂概要 2. 超解像 1. 問題設定 2. 主要なモデルアーキテクチャと硬直性 (rigidity) 3.
提案⼿法: Image Processing GNN (IPG) 4. 実験 5. まとめ⽬次

書誌情報 - タイトル: “Image Processing GNN: Breaking Rigidity in Super-Resolution”
- 著者: Yuchuan Tian1, Hanting Chen2, Chao Xu1, Yunhe Wang2 - 所属: Peking University1, Huawei2 概要 - ノードの次数が可変なグラフベース超解像⼿法の提案選定理由 - 知ってる分野が Best Student Paper Honorable Mention だったため論⽂情報

超解像

超解像 (super-resolution; SR) - 劣化モデルによって低解像度画像から⾼解像度画像を復元する問題 - 劣化モデルはコントロールできないため、逆変換を近似的に求める問題設定 𝐼!" 𝐼#"
𝐼$" ℱ ≈ 𝒟"𝟏 𝒟

CNN ベース - 例: SRGAN [Ledig+ 2017] > ResNet [He+
2016] をベースとした超解像モデル > GAN [Goodfellow+ 2014] との組み合わせで photo-realistic な画像を⽣成 - ⼤域特徴を活⽤する⼿法も存在するが、基本は 3x3 のカーネルを利⽤超解像で主要なモデルアーキテクチャ ① SRGAN の構造

Window-attention ベース - 例: SwinIR [Liang+ 2021] > Swin Transformer
[Liu+ 2021] をベースとした超解像モデル - Self-attention を介して local window 内の特徴を集約していく超解像で主要なモデルアーキテクチャ ② Shifted window アプローチ SwinIR の構造

硬直性 (rigidity) とは? - 集約する特徴の範囲が限定されてしまう性質、またはその度合い具体例※ - CNN ベース: 3x3
カーネルに含まれる 9 ピクセル - Window-attention ベース: 8x8 ウィンドウに含まれる 64ピクセル仮説 - 性能向上に重要な⾼周波数成分が注⽬画素の近傍にあるとは限らないため、空間的な硬直性が低いアーキテクチャを提案すると良さそう。アーキテクチャの硬直性 ※ SRGAN, SwinIR のデフォルト設定に従う

IGNN [Zhou+ 2020] - 注⽬パッチと類似低解像度パッチをノードとするグラフを構築 > 低解像度パッチに対応する位置の特徴をノード特徴とする > Residual block
の間で GNN を⽤いて特徴を集約 - 空間的な制約がなく、硬直性が低い > KNN でグラフを構築するため、全てのノードの次数 (degree) が⼀定 > ⾼周波数成分を持つノードは、より多くの情報にアクセスした⽅が良いグラフベースモデルの導⼊ IGNN の構造

提案⼿法

MetaFormer [Yu+ 2022] の token mixer に GNN を導⼊ -
硬直性の低いグラフを構築するため、3つの観点で⼯夫 1. 次数: ⾼周波数領域のノードに⾼い次数を割り当て 2. ノード単位: パッチ単位からピクセル単位に変更 3. サンプリング戦略: ⼤域的 & 局所的にノードをサンプリング提案⼿法: Image Processing GNN (IPG) IPG の構造構築するグラフの⽐較

次数 - 重要なノードに⾼い次数を割り当てるため、重要度のマップを算出 𝐷! ≔ # " 𝐹 − 𝐹↓$↑$
> 𝐹 ∈ ℝ!×#×$ は特徴マップ > 𝐹↓&↑& は F に対して縮⼩→拡⼤を適⽤したマップ - ノード 𝑣 ∈ 𝐹 の次数は次の関係を満たす deg 𝑣 ∝ 𝐷((𝑣) > レイヤごとに 𝐷( の分散をスケールして次数を決定 - 最初の層は std=10, その他は std=1.5 にスケールグラフ構築 ① 𝐷% の可視化 shallow deep

ノード単位 - パッチ単位のノードの弱点 > パッチを1つのベクトルに集約するため、物体のシフトが無視される > パッチを格⼦状に配置するため、物体の回転を適切に取り扱えない - ピクセル単位のノードとすることで、幾何的な弱点を克服サンプリング戦略
- 全ノードから隣接ノードを決めるのは⾼コスト > 従来⼿法は strided sampling でコスト削減 > → 局所領域は無視される - Global / local sampling を採⽤して良いとこ取りグラフ構築 ② サンプリング戦略

集約⼿法の選択 - 従来⼿法は max-pooling or edge-constrained aggregation を採⽤ - Max-pooling
は近傍情報を落とす傾向にあるため edge-constrained を採⽤定式化 h& ' = 1 𝐶' # (∈𝒩(&) exp 𝑓' 𝑢, 𝑣 h( '-. - 注⽬ノード 𝑣 と隣接ノード 𝑢 ∈ 𝒩(𝑣) との類似度による加重和によって集約 - ノード特徴に relative position encoding を付与して位置情報を考慮グラフ集約

実験

学習設定 - 学習データ: DIV2K [Agustsson+ 2017], Flickr2K [Lim+ 2017] 評価設定
- 評価データ: Set5 [Bevilacqua+ 2012], Set14 [Zeyde+ 2012], BSD100 [Martin+ 2001], Urban100 [Huang+ 2015], Manga109 [Matsui+ 2017] - 評価指標: PSNR (peak signal-to-noise ratio), SSIM (structural similarity) [Wang+ 2004] 実験設定

SOTA!!! (...なのか?) - 単体では負けている部分もある (IPG+ は self-ensemble を実⾏) - 倍率が⾼い⽅が従来⼿法に対して優位性がありそう
定量評価定量評価結果

定性評価

SOTA, 軽量な⼿法との⽐較 - 同程度の FLOPs を持つ従来モデルより⾼性能 - グラフ構築等がハードウェア上で⾼速化されないため、実際は低速速度の⽐較 SOTA
⼿法との⽐較軽量な⼿法との⽐較

2x2 のパッチをノードとする IPG と性能を定量的に⽐較 - ピクセル単位がより⾼性能 IGNN との定性的な⽐較 - IGNN
はテクスチャのオリエンテーションを正しく捉えていない - 疑問: モアレ縞にも⾒える、 patched IPG で同様の事象がないのはなぜ? Ablation study: パッチ単位 vs ピクセル単位パッチサイズごとの定性⽐較パッチ vs ピクセルの定量⽐較

次数の決め⽅を変えて性能を⽐較 - 可変次数の⽅が性能が⾼い > 重要度の⾼いノードがエッジ付近のノードと接続されていることを確認 - 完全グラフや類似度ベースの構築法とも⽐較 > 計算量が増加するが
IPG より低性能だった Ablation study: 固定次数 vs 可変次数固定次数 vs 可変次数の定量⽐較隣接ノードの可視化

Global / local sampling 単体との⽐較 - 組み合わせた⽅が良い - 疑問: Local
only の⽅が性能が良い、前提となる硬直性はそんなに問題なのか? Ablation study: サンプリング戦略サンプリング戦略の定量評価

超解像 - 問題設定 - 硬直性 (rigidity) について Image Processing GNN
(IPG) - 空間的な硬直性を解決するためグラフベースのモデルを導⼊ - ⾼周波成分を持つノードが多くの情報にアクセス可能なグラフを構築 - 従来⼿法以上の性能を出せることを確認まとめ

[紹介論⽂] Y. Tian, H. Chen, C. Xu, and Y. Wang,
“Image Processing GNN: Breaking Rigidity in Super-Resolution,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 24108–24117. [Martin+ 2002] D. Martin, C. Fowlkes, D. Tal, and J. Malik, “A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics,” in Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001, IEEE Comput. Soc, 2002. doi: 10.1109/iccv.2001.937655. [Wang+ 2004] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE Trans. Image Process., vol. 13, no. 4, pp. 600–612, Apr. 2004. [Bevilacqua+ 2012] M. Bevilacqua, A. Roumy, C. Guillemot, and M. L. Alberi-Morel, “Low-complexity single-image super-resolution based on nonnegative neighbor embedding,” in Proceedings of the 23rd British Machine Vision Conference (BMVC), BMVA Press, 2012, p. 135.1-135.10. [Zeyde+ 2012] R. Zeyde, M. Elad, and M. Protter, “On single image scale-up using sparse-representations,” in Curves and Surfaces, in Lecture notes in computer science. , Berlin, Heidelberg: Springer Berlin Heidelberg, 2012, pp. 711–730. [Goodfellow+ 2014] I. Goodfellow et al., “Generative Adversarial Nets,” in Advances in Neural Information Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, Eds., Curran Associates, Inc., 2014. [Online]. Available: https://proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf 参考⽂献

[Huang+ 2015] J.-B. Huang, A. Singh, and N. Ahuja, “Single
image super-resolution from transformed self-exemplars,” in 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2015. doi: 10.1109/cvpr.2015.7299156. [He+ 2016] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 770–778. [Lim+ 2017] B. Lim, S. Son, H. Kim, S. Nah, and K. Mu Lee, “Enhanced deep residual networks for single image super-resolution,” in Proceedings of the IEEE conference on computer vision and pattern recognition workshops, 2017, pp. 136–144. [Ledig+ 2017] C. Ledig et al., “Photo-realistic single image super-resolution using a generative adversarial network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4681–4690. [Agustsson+ 2017] E. Agustsson and R. Timofte, “NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE, Jul. 2017, pp. 126–135. [Matsui + 2017] Y. Matsui et al., “Sketch-based manga retrieval using manga109 dataset,” Multimed. Tools Appl., vol. 76, no. 20, pp. 21811–21838, Oct. 2017. [Zhou+ 2020] S. Zhou, J. Zhang, W. Zuo, and C. C. Loy, “Cross-scale internal graph neural network for image super-resolution,” Neural Inf Process Syst, vol. abs/2006.16673, Jun. 2020, doi: 10.5555/3495724.3496019. 参考⽂献

[Liang+ 2021] J. Liang, J. Cao, G. Sun, K. Zhang,
L. Van Gool, and R. Timofte, “SwinIR: Image Restoration Using Swin Transformer,” in 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), IEEE, Oct. 2021. doi: 10.1109/iccvw54120.2021.00210. [Liu+ 2021] Z. Liu et al., “Swin transformer: Hierarchical vision transformer using shifted windows,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, Oct. 2021. doi: 10.1109/iccv48922.2021.00986. [Yu+ 2021] W. Yu et al., “MetaFormer is actually what you need for vision,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit., pp. 10809–10819, Nov. 2021. 参考⽂献

Image Processing GNN: Breaking Rigidity in Supe...

Image Processing GNN: Breaking Rigidity in Super-Resolution

Sansan R&D

More Decks by Sansan R&D

Featured

Transcript

Image Processing GNN: Breaking Rigidity in Super- Resolution Sansan株式会社技術本部

写真が⼊ります内⽥奏 Sansan株式会社技術本部研究開発部シニアリサーチャー東京電機⼤学⼤学院⼯学研究科修⼠課程修了。深層学習を⽤いた画像⽣成・変換に関する研究に取り組む。 2020年、Sansan株式会社に新卒⼊社。

1. 論⽂概要 2. 超解像 1. 問題設定 2. 主要なモデルアーキテクチャと硬直性 (rigidity) 3.

書誌情報 - タイトル: “Image Processing GNN: Breaking Rigidity in Super-Resolution”

超解像

超解像 (super-resolution; SR) - 劣化モデルによって低解像度画像から⾼解像度画像を復元する問題 - 劣化モデルはコントロールできないため、逆変換を近似的に求める問題設定 𝐼!" 𝐼#"

CNN ベース - 例: SRGAN [Ledig+ 2017] > ResNet [He+

Window-attention ベース - 例: SwinIR [Liang+ 2021] > Swin Transformer

硬直性 (rigidity) とは? - 集約する特徴の範囲が限定されてしまう性質、またはその度合い具体例※ - CNN ベース: 3x3

IGNN [Zhou+ 2020] - 注⽬パッチと類似低解像度パッチをノードとするグラフを構築 > 低解像度パッチに対応する位置の特徴をノード特徴とする > Residual block

提案⼿法

MetaFormer [Yu+ 2022] の token mixer に GNN を導⼊ -

次数 - 重要なノードに⾼い次数を割り当てるため、重要度のマップを算出 𝐷! ≔ # " 𝐹 − 𝐹↓$↑$

集約⼿法の選択 - 従来⼿法は max-pooling or edge-constrained aggregation を採⽤ - Max-pooling

実験

学習設定 - 学習データ: DIV2K [Agustsson+ 2017], Flickr2K [Lim+ 2017] 評価設定

SOTA!!! (...なのか?) - 単体では負けている部分もある (IPG+ は self-ensemble を実⾏) - 倍率が⾼い⽅が従来⼿法に対して優位性がありそう

定性評価

SOTA, 軽量な⼿法との⽐較 - 同程度の FLOPs を持つ従来モデルより⾼性能 - グラフ構築等がハードウェア上で⾼速化されないため、実際は低速速度の⽐較 SOTA

2x2 のパッチをノードとする IPG と性能を定量的に⽐較 - ピクセル単位がより⾼性能 IGNN との定性的な⽐較 - IGNN

次数の決め⽅を変えて性能を⽐較 - 可変次数の⽅が性能が⾼い > 重要度の⾼いノードがエッジ付近のノードと接続されていることを確認 - 完全グラフや類似度ベースの構築法とも⽐較 > 計算量が増加するが

Global / local sampling 単体との⽐較 - 組み合わせた⽅が良い - 疑問: Local

超解像 - 問題設定 - 硬直性 (rigidity) について Image Processing GNN

[紹介論⽂] Y. Tian, H. Chen, C. Xu, and Y. Wang,

[Huang+ 2015] J.-B. Huang, A. Singh, and N. Ahuja, “Single

[Liang+ 2021] J. Liang, J. Cao, G. Sun, K. Zhang,