Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[ECCV2024読み会] 衛星画像からの地上画像生成

Elith
November 15, 2024

[ECCV2024読み会] 衛星画像からの地上画像生成

第62回 コンピュータビジョン勉強会@関東(ECCV2024読み会)の発表資料です。
https://kantocv.connpass.com/event/331970/

以下の論文を紹介しています。衛星画像から地上のパノラマ画像を生成する手法です。
Xu, Ningli, and Rongjun Qin. “Geospecific View Generation -- Geometry-Context Aware High-Resolution Ground View Inference from Satellite Views.” arXiv, September 12, 2024.
https://gdaosu.github.io/geocontext/

Elith

November 15, 2024
Tweet

More Decks by Elith

Other Decks in Research

Transcript

  1. 衛星画像からの地上画像生成 Geospecific View Generation - Geometry-Context Aware High-Resolution Ground View

    Inference from Satellite Views (Oral) @第62回 コンピュータビジョン勉強会@関東(ECCV2024読み会) 株式会社Elith 飯田啄巳 1
  2. 自己紹介 2 飯田啄巳@京都 2020.4 – 2024.3 中国系AIベンチャーで自動運転 2024.4 – 2024.9

    医療AIベンチャーでCV 2024.10 – 現在 ElithでCVやLLMで色々 twitter: ふりかけ(@frkake) Sponsored by Elith Inc.(会社のお金で来ています)
  3. 紹介する論文 4 衛星画像 (30cm/pixel) 地上のパノラマ画像 (3cm/pixel) Project Page:https://gdaosu.github.io/geocontext/ 選定理由 :めっちゃ野心的なタスクだなぁと思ったので

    (タスク自体はこの論文が初ではないが、Oralだったので気になったのがきっかけ) コラム 最近設立された SatAI.challenge でも紹介されて たみたいです QR横に 並べて すみま せん 公式 ツイッ ターよ り拝借 引用元の明記がなければ、本論文からの引用
  4. モチベーション:なぜ衛星画像から地上画像を生成したいのか 5 論文に書いてあったこと • 3Dゲーム(仮想空間)の生成 • 都市スケールのシーン生成 Elith • 公道シーンの静的リスク評価

     この論文を読んだ動機の一つ 使い所 Elithでの事例 野島橋(Googleストリートビューのスクショ) クレスト 視界が開けていない 左右の 視界が悪い 信号がない GTA5のデータ(出典リンク) 信号つけよう 道路の線形を改良しよう ミラーつけよう
  5. 関連研究:衛星画像→地上のパノラマ画像 6 CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022

    Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群 ビデオ化 NeRF+拡散モデル テクスチャの活用 拡散モデル GANで頑張る 視点変換 NeRF
  6. 関連研究:衛星画像→地上のパノラマ画像 7 衛星画像を Conditionにした cGAN Real/Fake? cGANを使ってimage-to-image。セグメンテーション結果に沿うようなクリアな地上画像を生成。 X-Fork [10] CVPR2018

    PanoGAN [9] IEEE Transactions on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群 ビデオ化 NeRF+拡散モデル テクスチャの活用 拡散モデル GANで頑張る 視点変換 NeRF
  7. 関連研究:衛星画像→地上のパノラマ画像 8 CrossMLP [8]より引用 カスケード化 CVPR2018 PanoGAN [9] IEEE Transactions

    on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群 ビデオ化 NeRF+拡散モデル テクスチャの活用 拡散モデル GANで頑張る 視点変換 NeRF
  8. 関連研究:衛星画像→地上のパノラマ画像 9 PanoGAN [9]より引用 識別器の結果を生成器にフィードバックしてループ CVPR2018 PanoGAN [9] IEEE Transactions

    on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群 ビデオ化 NeRF+拡散モデル テクスチャの活用 拡散モデル GANで頑張る 視点変換 NeRF
  9. 関連研究:衛星画像→地上のパノラマ画像 10 Sat2Ground [11] より引用 1. 衛星画像 地上画像で形状&セマンティクスが一貫するように幾何変換 2. セグメンテーションマップ→地上RGB画像変換

    Geo-transformation 𝑇 Semantic Height Mapを生成 全体像 逆変換もやってる CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群 ビデオ化 NeRF+拡散モデル テクスチャの活用 拡散モデル GANで頑張る 視点変換 NeRF
  10. 関連研究:衛星画像→地上のパノラマ画像 11 Sat2Vid [12]より引用 軌跡から見える点をサンプリング ビデオ化することで空間的・時間的な整合が取れる CVPR2018 PanoGAN [9] IEEE

    Transactions on Multimedia 2022 Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群 ビデオ化 NeRF+拡散モデル テクスチャの活用 拡散モデル GANで頑張る 視点変換 NeRF
  11. 関連研究:衛星画像→地上のパノラマ画像 12 CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022

    Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群 ビデオ化 NeRF NeRF+拡散モデル テクスチャの活用 拡散モデル Sat2Scene [14]より引用 点群のデノイズ &色付け 2D上で背景(空)を生成 GANで頑張る 視点変換 空と街並みの結合に 違和感があるが、 建物の空間的一貫性は ありそう
  12. 関連研究:衛星画像→地上のパノラマ画像 13 CVPR2018 PanoGAN [9] IEEE Transactions on Multimedia 2022

    Sat2Scene [14] CVPR2024 Sat2Vid [12] ICCV2021 Sat2Ground [11] CVPR2020 Sat2Density [13] CVPR2023 Ours [15] ECCV2024 X-Fork [10] 視点変換による一貫性 CrossMLP [8] BMVC2021 識別器から生成器にフィードバック MLP-Mixer カスケード化 cGAN 3D点群 ビデオ化 NeRF+拡散モデル テクスチャの活用 拡散モデル GANで頑張る 視点変換 NeRF 本論文 [15]より引用
  13. ステレオマッチングによる3次元復元(詳細不明) 15 ココ Whickbroom Pushbroom 今回はこっち 衛星画像はステレオで撮影されてる ただし、撮影方式がピンホールカメラと異なる → エピポーラ幾何が直接使えない

    → タイル分割して、ピンホールカメラモデルに近似 RS1.3 - Remote sensing: how does it work?より引用 ピンホールカメラの場合 エピポーラ線=直線 衛星カメラの場合 エピポーラ線=曲線 タイル分割して、ピンホールカメラモデルに近似 各タイルでステレオマッチング(Semi Global Matching, SGM) 文献[5] より引用
  14. RPC(Rational Polynomial Coefficients)投影 18 (𝑥, 𝑦) 緯度, 経度, 高度 =

    (𝜑, 𝜆, ℎ) ※ ビル RPC投影がやること =地図上の3D空間と画素のマッピング 𝑥, 𝑦 = ModelRPC 𝜑, 𝜆, ℎ 富士山の等高線 富士山(北側から撮影) RPCで座標変換 松岡真如, “第 19 回 Rational Polynomial Coefficients (RPC)の利用”, 日本リモートセンシング学会誌, vol. 34, pp. 347- 349, 2014.より引用 𝑥 = 𝑎1 + 𝑎2 𝜆𝑛 + 𝑎3 𝜑𝑛 + 𝑎4 ℎ4 + 𝑎5 𝜑𝑛 𝜆𝑛 + 𝑎6 𝜆𝑛 ℎ𝑛 + 𝑎7 ℎ𝑛 𝜑𝑛 + 𝑎8 𝜆𝑛 2 + 𝑎9 𝜑𝑛 2 + 𝑎10 ℎ𝑛 2 + 𝑎11 𝜑𝑛 𝜆𝑛 ℎ𝑛 + 𝑎12 𝜆𝑛 3 + 𝑎13 𝜑𝑛 2𝜆𝑛 + 𝑎14 ℎ𝑛 2𝜆𝑛 + 𝑎15 𝜆𝑛 2𝜑𝑛 + 𝑎16 𝜑𝑛 3 + 𝑎17 ℎ𝑛 2𝜑𝑛 + 𝑎18 𝜆𝑛 2ℎ𝑛 + 𝑎19 𝜑𝑛 2ℎ𝑛 + 𝑎20 ℎ𝑛 3 𝑏1 + 𝑏2 𝜆𝑛 + 𝑏3 𝜑𝑛 + 𝑏4 ℎ4 + 𝑏5 𝜑𝑛 𝜆𝑛 + 𝑏6 𝜆𝑛 ℎ𝑛 + 𝑏7 ℎ𝑛 𝜑𝑛 + 𝑏8 𝜆𝑛 2 + 𝑏9 𝜑𝑛 2 + 𝑏10 ℎ𝑛 2 + 𝑏11 𝜑𝑛 𝜆𝑛 ℎ𝑛 + 𝑏12 𝜆𝑛 3 + 𝑏13 𝜑𝑛 2𝜆𝑛 + 𝑏14 ℎ𝑛 2𝜆𝑛 + 𝑏15 𝜆𝑛 2𝜑𝑛 + 𝑏16 𝜑𝑛 3 + 𝑏17 ℎ𝑛 2𝜑𝑛 + 𝑏18 𝜆𝑛 2ℎ𝑛 + 𝑏19 𝜑𝑛 2ℎ𝑛 + 𝑏20 ℎ𝑛 3 𝑦 = 𝑐1 + 𝑐2 𝜆𝑛 + 𝑐3 𝜑𝑛 + 𝑐4 ℎ4 + 𝑐5 𝜑𝑛 𝜆𝑛 + 𝑐6 𝜆𝑛 ℎ𝑛 + 𝑐7 ℎ𝑛 𝜑𝑛 + 𝑐8 𝜆𝑛 2 + 𝑐9 𝜑𝑛 2 + 𝑐10 ℎ𝑛 2 + 𝑐11 𝜑𝑛 𝜆𝑛 ℎ𝑛 + 𝑐12 𝜆𝑛 3 + 𝑐13 𝜑𝑛 2𝜆𝑛 + 𝑐14 ℎ𝑛 2𝜆𝑛 + 𝑐15 𝜆𝑛 2𝜑𝑛 + 𝑐16 𝜑𝑛 3 + 𝑐17 ℎ𝑛 2𝜑𝑛 + 𝑐18 𝜆𝑛 2ℎ𝑛 + 𝑐19 𝜑𝑛 2ℎ𝑛 + 𝑐20 ℎ𝑛 3 𝑑1 + 𝑑2 𝜆𝑛 + 𝑑3 𝜑𝑛 + 𝑑4 ℎ4 + 𝑑5 𝜑𝑛 𝜆𝑛 + 𝑑6 𝜆𝑛 ℎ𝑛 + 𝑑7 ℎ𝑛 𝜑𝑛 + 𝑑8 𝜆𝑛 2 + 𝑑9 𝜑𝑛 2 + 𝑑10 ℎ𝑛 2 + 𝑑11 𝜑𝑛 𝜆𝑛 ℎ𝑛 + 𝑑12 𝜆𝑛 3 + 𝑑13 𝜑𝑛 2𝜆𝑛 + 𝑑14 ℎ𝑛 2𝜆𝑛 + 𝑑15 𝜆𝑛 2𝜑𝑛 + 𝑑16 𝜑𝑛 3 + 𝑑17 ℎ𝑛 2𝜑𝑛 + 𝑑18 𝜆𝑛 2ℎ𝑛 + 𝑑19 𝜑𝑛 2ℎ𝑛 + 𝑑20 ℎ𝑛 3 80係数(𝑎1 ~𝑎20 , 𝑏1 ~𝑏20 , 𝑐1 ~𝑐20 , 𝑑1 ~ 𝑑20 )を求める 求め方(詳細不明): 平行化したステレオ画像+深度+セマンティックラベル を使って、2D-3Dの対応関係を最適化 めっちゃ頑張って入力した (^_^;) ココ ※ 78パラメータ(実際には分母分子どちらかのオフセット成分は無視できる) 小学館ページより引用して編集
  15. 生成ステージ 19 ココ ControlNet LoRA Stable Diffusion v1.5をファインチューニングして地上パノラマ画像を生成 テキスト条件(Geospecific Prior)

    既存手法だとセマンティクス(a)しか使ってないが、 テクスチャや高周波成分を利用できるようにしたほうがいい クロスアテンション部分 エッジ抽出ネットワークがどうのこうの と書いてあるが、一切記述なし。 見た目的にCannyエッジでは?と思ってる 評価指標でも使ってるし
  16. 実験:データセット 20 WorldView-3 • Panchromatic:高解像度の白黒 • Multispectral :可視光 • SWIR

    :近赤外線 • CAVIS :雲とかの影響補正 DFC2019データセットの衛星画像を元に作成 地上画像のGTはGoogleStreetView-360から位置ズレの少ないものをフィルタリングして取得。 Top-view RGB Top-view Hight Maps Top-view Semantic Ground-view Depth Ground-view Semantic Prediction Ground-view Semantic GT Ground-view RGB GT Ground-view Semantic Prediction Ground-view Semantic GT misaligned mask いい例(位置があってる) 悪い例 Sat2Ground [11]より引用 WorldView-3のデータシート [3]より引用 𝑶𝒗𝒆𝒓𝒍𝒂𝒑𝒔𝒌𝒚 > 𝟗𝟓%
  17. 参考文献 25 [1] 松岡真如, “第 19 回 Rational Polynomial Coefficients

    (RPC)の利用”, 日本リモートセンシング学会誌, vol. 34, pp. 347-349, 2014. [2] Bosch, Marc, Kevin Foster, Gordon Christie, Sean Wang, Gregory D. Hager, and Myron Brown. “Semantic Stereo for Incidental Satellite Images.” arXiv, November 21, 2018. https://doi.org/10.48550/arXiv.1811.08739. [3] https://resources.maxar.com/data-sheets/worldview-3 [4] RS1.3 - Remote sensing: how does it work? [5] Franchis, C. de, E. Meinhardt-Llopis, J. Michel, J.-M. Morel, and G. Facciolo. “An Automatic and Modular Stereo Pipeline for Pushbroom Images.” ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences II–3 (August 7, 2014): 49–56. https://doi.org/10.5194/isprsannals-II-3-49-2014. [6] Qin, R. “RPC STEREO PROCESSOR (RSP) – A SOFTWARE PACKAGE FOR DIGITAL SURFACE MODEL AND ORTHOPHOTO GENERATION FROM SATELLITE STEREO IMAGERY.” ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences III–1 (June 1, 2016): 77–82. https://doi.org/10.5194/isprs-annals-III-1-77-2016. [7] OpenStreetMap contributors: Planet dump retrieved from https://planet.osm.org . https://www.openstreetmap.org (2017) [8] Ren, Bin. “Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation,” BMVC, 2021. [9] Wu, Songsong, Hao Tang, Xiao-Yuan Jing, Haifeng Zhao, Jianjun Qian, Nicu Sebe, and Yan Yan. “Cross-View Panorama Image Synthesis.” IEEE Transactions on Multimedia, 2022. [10] Regmi, Krishna, and Ali Borji. “Cross-View Image Synthesis Using Conditional GANs.” In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 3501–10. Salt Lake City, UT, USA: IEEE, 2018. https://doi.org/10.1109/CVPR.2018.00369. [11] Lu, Xiaohu, Zuoyue Li, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys, and Rongjun Qin. “Geometry-Aware Satellite-to-Ground Image Synthesis for Urban Areas,” 859–67, 2020. https://openaccess.thecvf.com/content_CVPR_2020/html/Lu_Geometry-Aware_Satellite-to-Ground_Image_Synthesis_for_Urban_Areas_CVPR_2020_paper.html. [12] Li, Zuoyue, Zhenqiang Li, Zhaopeng Cui, Rongjun Qin, Marc Pollefeys, and Martin R. Oswald. “Sat2Vid: Street-View Panoramic Video Synthesis from a Single Satellite Image.” In 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 12416–25. Montreal, QC, Canada: IEEE, 2021. https://doi.org/10.1109/ICCV48922.2021.01221. [13] Qian, Ming, Jincheng Xiong, Gui-Song Xia, and Nan Xue. “Sat2Density: Faithful Density Learning from Satellite-Ground Image Pairs.” In 2023 IEEE/CVF International Conference on Computer Vision (ICCV), 3660–69. Paris, France: IEEE, 2023. https://doi.org/10.1109/ICCV51070.2023.00341. [14] Li, Zuoyue, Zhenqiang Li, Zhaopeng Cui, Marc Pollefeys, and Martin R. Oswald. “Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion.” In 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. [15] Xu, Ningli, and Rongjun Qin. “Geospecific View Generation -- Geometry-Context Aware High-Resolution Ground View Inference from Satellite Views.” arXiv, September 12, 2024. https://doi.org/10.48550/arXiv.2407.08061. [16] Fu, Stephanie, Netanel Tamir, Shobhita Sundaram, Lucy Chai, Richard Zhang, Tali Dekel, and Phillip Isola. “DreamSim: Learning New Dimensions of Human Visual Similarity Using Synthetic Data.” arXiv, December 8, 2023. https://doi.org/10.48550/arXiv.2306.09344.