Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Image Processing GNN: Breaking Rigidity in Supe...

Sansan R&D
August 02, 2024
270

Image Processing GNN: Breaking Rigidity in Super-Resolution

■イベント
第61回 コンピュータビジョン勉強会@関東(後編)
https://kantocv.connpass.com/event/321175/

■発表者
技術本部 研究開発部
内田 奏

■研究開発職 採用情報
https://media.sansan-engineering.com/randd

■Sansan Tech Blog
https://buildersbox.corp-sansan.com/

Sansan R&D

August 02, 2024
Tweet

More Decks by Sansan R&D

Transcript

  1. Image Processing GNN: Breaking Rigidity in Super- Resolution Sansan株式会社 技術本部

    研究開発部 内⽥ 奏 第61回 コンピュータビジョン勉強会@関東
  2. 書誌情報 - タイトル: “Image Processing GNN: Breaking Rigidity in Super-Resolution”

    - 著者: Yuchuan Tian1, Hanting Chen2, Chao Xu1, Yunhe Wang2 - 所属: Peking University1, Huawei2 概要 - ノードの次数が可変なグラフベース超解像⼿法の提案 選定理由 - 知ってる分野が Best Student Paper Honorable Mention だったため 論⽂情報
  3. CNN ベース - 例: SRGAN [Ledig+ 2017] > ResNet [He+

    2016] をベースとした超解像モデル > GAN [Goodfellow+ 2014] との組み合わせで photo-realistic な画像を⽣成 - ⼤域特徴を活⽤する⼿法も存在するが、基本は 3x3 のカーネルを利⽤ 超解像で主要なモデルアーキテクチャ ① SRGAN の構造
  4. Window-attention ベース - 例: SwinIR [Liang+ 2021] > Swin Transformer

    [Liu+ 2021] をベースとした超解像モデル - Self-attention を介して local window 内の特徴を集約していく 超解像で主要なモデルアーキテクチャ ② Shifted window アプローチ SwinIR の構造
  5. 硬直性 (rigidity) とは? - 集約する特徴の範囲が限定されてしまう性質、またはその度合い 具体例※ - CNN ベース: 3x3

    カーネルに含まれる 9 ピクセル - Window-attention ベース: 8x8 ウィンドウに含まれる 64ピクセル 仮説 - 性能向上に重要な⾼周波数成分が注⽬画素の近傍にあるとは限らないため、 空間的な硬直性が低いアーキテクチャを提案すると良さそう。 アーキテクチャの硬直性 ※ SRGAN, SwinIR のデフォルト設定に従う
  6. IGNN [Zhou+ 2020] - 注⽬パッチと類似低解像度パッチをノードとするグラフを構築 > 低解像度パッチに対応する位置の特徴をノード特徴とする > Residual block

    の間で GNN を⽤いて特徴を集約 - 空間的な制約がなく、硬直性が低い > KNN でグラフを構築するため、 全てのノードの次数 (degree) が⼀定 > ⾼周波数成分を持つノードは、 より多くの情報にアクセスした⽅が良い グラフベースモデルの導⼊ IGNN の構造
  7. MetaFormer [Yu+ 2022] の token mixer に GNN を導⼊ -

    硬直性の低いグラフを構築するため、3つの観点で⼯夫 1. 次数: ⾼周波数領域のノードに⾼い次数を割り当て 2. ノード単位: パッチ単位からピクセル単位に変更 3. サンプリング戦略: ⼤域的 & 局所的にノードをサンプリング 提案⼿法: Image Processing GNN (IPG) IPG の構造 構築するグラフの⽐較
  8. 次数 - 重要なノードに⾼い次数を割り当てるため、重要度のマップを算出 𝐷! ≔ # " 𝐹 − 𝐹↓$↑$

    > 𝐹 ∈ ℝ!×#×$ は特徴マップ > 𝐹↓&↑& は F に対して縮⼩→拡⼤を適⽤したマップ - ノード 𝑣 ∈ 𝐹 の次数は次の関係を満たす deg 𝑣 ∝ 𝐷((𝑣) > レイヤごとに 𝐷( の分散をスケールして次数を決定 - 最初の層は std=10, その他は std=1.5 にスケール グラフ構築 ① 𝐷% の可視化 shallow deep
  9. ノード単位 - パッチ単位のノードの弱点 > パッチを1つのベクトルに集約するため、物体のシフトが無視される > パッチを格⼦状に配置するため、物体の回転を適切に取り扱えない - ピクセル単位のノードとすることで、幾何的な弱点を克服 サンプリング戦略

    - 全ノードから隣接ノードを決めるのは⾼コスト > 従来⼿法は strided sampling でコスト削減 > → 局所領域は無視される - Global / local sampling を採⽤して良いとこ取り グラフ構築 ② サンプリング戦略
  10. 集約⼿法の選択 - 従来⼿法は max-pooling or edge-constrained aggregation を採⽤ - Max-pooling

    は近傍情報を落とす傾向にあるため edge-constrained を採⽤ 定式化 h& ' = 1 𝐶' # (∈𝒩(&) exp 𝑓' 𝑢, 𝑣 h( '-. - 注⽬ノード 𝑣 と隣接ノード 𝑢 ∈ 𝒩(𝑣) との類似度による加重和によって集約 - ノード特徴に relative position encoding を付与して位置情報を考慮 グラフ集約
  11. 学習設定 - 学習データ: DIV2K [Agustsson+ 2017], Flickr2K [Lim+ 2017] 評価設定

    - 評価データ: Set5 [Bevilacqua+ 2012], Set14 [Zeyde+ 2012], BSD100 [Martin+ 2001], Urban100 [Huang+ 2015], Manga109 [Matsui+ 2017] - 評価指標: PSNR (peak signal-to-noise ratio), SSIM (structural similarity) [Wang+ 2004] 実験設定
  12. 2x2 のパッチをノードとする IPG と性能を定量的に⽐較 - ピクセル単位がより⾼性能 IGNN との定性的な⽐較 - IGNN

    はテクスチャのオリエンテーションを正しく捉えていない - 疑問: モアレ縞にも⾒える、 patched IPG で同様の事象がないのはなぜ? Ablation study: パッチ単位 vs ピクセル単位 パッチサイズごとの定性⽐較 パッチ vs ピクセルの定量⽐較
  13. Global / local sampling 単体との⽐較 - 組み合わせた⽅が良い - 疑問: Local

    only の⽅が性能が良い、前提となる硬直性はそんなに問題なのか? Ablation study: サンプリング戦略 サンプリング戦略の定量評価
  14. 超解像 - 問題設定 - 硬直性 (rigidity) について Image Processing GNN

    (IPG) - 空間的な硬直性を解決するためグラフベースのモデルを導⼊ - ⾼周波成分を持つノードが多くの情報にアクセス可能なグラフを構築 - 従来⼿法以上の性能を出せることを確認 まとめ
  15. [紹介論⽂] Y. Tian, H. Chen, C. Xu, and Y. Wang,

    “Image Processing GNN: Breaking Rigidity in Super-Resolution,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 24108–24117. [Martin+ 2002] D. Martin, C. Fowlkes, D. Tal, and J. Malik, “A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics,” in Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001, IEEE Comput. Soc, 2002. doi: 10.1109/iccv.2001.937655. [Wang+ 2004] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE Trans. Image Process., vol. 13, no. 4, pp. 600–612, Apr. 2004. [Bevilacqua+ 2012] M. Bevilacqua, A. Roumy, C. Guillemot, and M. L. Alberi-Morel, “Low-complexity single-image super-resolution based on nonnegative neighbor embedding,” in Proceedings of the 23rd British Machine Vision Conference (BMVC), BMVA Press, 2012, p. 135.1-135.10. [Zeyde+ 2012] R. Zeyde, M. Elad, and M. Protter, “On single image scale-up using sparse-representations,” in Curves and Surfaces, in Lecture notes in computer science. , Berlin, Heidelberg: Springer Berlin Heidelberg, 2012, pp. 711–730. [Goodfellow+ 2014] I. Goodfellow et al., “Generative Adversarial Nets,” in Advances in Neural Information Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, Eds., Curran Associates, Inc., 2014. [Online]. Available: https://proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf 参考⽂献
  16. [Huang+ 2015] J.-B. Huang, A. Singh, and N. Ahuja, “Single

    image super-resolution from transformed self-exemplars,” in 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2015. doi: 10.1109/cvpr.2015.7299156. [He+ 2016] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, Jun. 2016, pp. 770–778. [Lim+ 2017] B. Lim, S. Son, H. Kim, S. Nah, and K. Mu Lee, “Enhanced deep residual networks for single image super-resolution,” in Proceedings of the IEEE conference on computer vision and pattern recognition workshops, 2017, pp. 136–144. [Ledig+ 2017] C. Ledig et al., “Photo-realistic single image super-resolution using a generative adversarial network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4681–4690. [Agustsson+ 2017] E. Agustsson and R. Timofte, “NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), IEEE, Jul. 2017, pp. 126–135. [Matsui + 2017] Y. Matsui et al., “Sketch-based manga retrieval using manga109 dataset,” Multimed. Tools Appl., vol. 76, no. 20, pp. 21811–21838, Oct. 2017. [Zhou+ 2020] S. Zhou, J. Zhang, W. Zuo, and C. C. Loy, “Cross-scale internal graph neural network for image super-resolution,” Neural Inf Process Syst, vol. abs/2006.16673, Jun. 2020, doi: 10.5555/3495724.3496019. 参考⽂献
  17. [Liang+ 2021] J. Liang, J. Cao, G. Sun, K. Zhang,

    L. Van Gool, and R. Timofte, “SwinIR: Image Restoration Using Swin Transformer,” in 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), IEEE, Oct. 2021. doi: 10.1109/iccvw54120.2021.00210. [Liu+ 2021] Z. Liu et al., “Swin transformer: Hierarchical vision transformer using shifted windows,” in 2021 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, Oct. 2021. doi: 10.1109/iccv48922.2021.00986. [Yu+ 2021] W. Yu et al., “MetaFormer is actually what you need for vision,” Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit., pp. 10809–10819, Nov. 2021. 参考⽂献