Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

Geospecific View Generation - Geometry-Context ...

Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文はマルチビューの光学衛星画像から地上のパノラマ写真を作成するタスクに対して、「建物の側面のテクスチャ」を条件にして「作成対象の都市をクエリとした」テキストto画像の拡散モデルによる画像生成で取り組んだものです。

SatAI.challenge

October 29, 2024
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. SatAI.challenge 勉強会 Geospecific View Generation - Geometry-Context Aware High-resolution Ground

    View Inference from Satellite Views 篠原崇之 1 第1回 SatAI.challenge勉強会 この資料に出てくる図は引用を明記しない場合は Xu et al. (2024), “Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views”, ECCV 2024. より引用
  2. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experimet)
 • まとめ(Conclusion) 
 • 個人的な謎

  3. 自己紹介 
 4 研究テーマ :データ基盤、点群深層学習、人間中心 AI、3次元モデリング、サロゲートモデル 4 X(旧 Twitter) LinkedIn

    産総研 - デジタルツイン構築と利活用 - 物理シミュレーションの近似を行うAI - (産総研のサッカー部) 篠原 崇之
  4. Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference

    from Satellite Views 
 6 • 光学衛星画像から地上のパノラマ写真を作成する際に、現実の建物からなるべく見た目を乖離させない手 法を提案
 • 衛星画像に映る建物の側面のテクスチャ情報 を有効活用することで、拡散モデルによる
 パノラマ写真作成の出力をある程度制御する
 

  5. • 地球を広域かつ定期的に観測できる衛星画像から地上パノラマ写真を推定できると、フォトリアルなゲームや都 市スケールの仮想空間作成が容易になる 
 • 衛星画像から地上のパノラマを作成は、撮影角度の差と解像度の差により困難なタスクになる 
 ◦ 撮影角度の差: 建物の上部から撮影した衛星画像からの変換が難しい

    
 ◦ 解像度の差: 商用衛星画像でも30 cmであるが、地上パノラマ写真は3 cm(10倍の差)であり、 
 さらに衛星画像は大気などによるノイズが大きい 
 背景: 光学衛星画像からの地上のパノラマ写真作成 
 8 衛星画像 地上のパノラマ写真 Li et al. (2024), “CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis”, arxiv 2024. より引用 地上目線の画像を作成
  6. • 条件付き生成モデル 
 ◦ ナイーブなブラックボックス手法 
 ▪ 航空写真から地上写真と地上のセグメンテーションを同時に実行[Regmi and Borji,

    2018] 
 ▪ 衛星画像から推定したセマンティックな情報を組み合わせて、 
 地上のパノラマ写真を作成[Ren+,2021] 
 背景: 衛星画像を利用した地上パノラマ画像作成の関連研究 
 9 Ren et al. (2021), “Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation”, BMVC 2021. より引用 Krishna Regmi and Ali Borji (2018), “Cross-View Image Synthesis using Conditional GANs”, CVPR 2018. より引用
  7. • ブラックボックスと幾何情報に忠実な手法の中間 
 ◦ 衛星画像と高さ画像から点群を作る 
 ▪ 衛星画像とDSM(高さ情報)を拡散モデルに入力し色付き点群を作成して、 
 別の拡散モデルで作成した背景と組み合わせて学習可能なレンダリングによって

    
 地上画像を作成する[Li+, 2024] 
 背景: 衛星画像を利用した地上パノラマ画像作成の関連研究 
 10 Li et al. (2024), “Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion”, CVPR 2024. より引用
  8. • 幾何情報に忠実な手法 
 ◦ 衛星画像を正射投影 
 ▪ 衛星画像から道路領域と高さを推定して3次元空間へ紐づけてからGANへ入力する 
 地上パノラマ写真と衛星画像を正射投影して損失関数を直接計算する[Lu+,2020]

    
 背景: 衛星画像を利用した地上パノラマ画像作成の関連研究 
 11 Lu et al. (2020), “Geometry-Aware Satellite-to-Ground Image Synthesis for Urban Areas”, CVPR 2020. より引用
  9. • 問題点
 ◦ ナイーブなブラックボックス手法 
 ▪ 画像としてはきれいな見た目だが、現実とかけ離れた画像が作成される 
 ◦ 幾何情報に忠実な手法

    
 ▪ 正射投影では建物のファサード(道路に面した部分)情報が失われるので、 
 幾何情報に忠実ではあるが、建物のテクスチャが現実とかけ離れた画像になる 
 • 衛星画像の特性
 ◦ 建物の側面は衛星画像に写る場合が多い 
 背景: 先行研究の問題点と衛星画像の特性 
 12 衛星画像に映った建物のファサードを入れた地上のパノラマ画像を作成する必要がある 
 直下の画像 屋根のみ 角度がある場合の画像 ファサードも見える Challenges with SpaceNet 4 off-nadir satellite imagery: Look angle and target azimuth angle | by Nick Weir | The DownLinQ | Medium から図を引用
  10. • 衛星画像から地上のパノラマ画像を作成するために、以下の4つの手法で構成 
 ◦ Top-down View Stage: 衛星画像から3次元空間への射影 
 ◦

    Projection Stage: 建物形状を補正して3次元空間からへ地上へのテクスチャ貼り付け 
 ◦ Ground View Stage: 衛星画像のテクスチャから高周波成分を抽出 
 ◦ Texture-guided Generation Stage: 条件付き拡散モデルで地上パノラマ画像を作成 
 手法: 全体フロー 
 14
  11. • 建物形状の補正
 ◦ 衛星画像から作成した3次元の高さ情報にはノイズが含まれるので、道路や建物の壁面が 
 ガタガタになる
 ◦ 建物の壁や道路を平坦にするために、建物輪郭の抽出を行い、建物形状の補正を行う 
 i.

    衛星画像のセグメンテーションによる建物マスクを作成し、輪郭をポリゴンを獲得 
 ii. ポリゴン情報を使って、高さ情報を建物の壁面部分を垂直に、 
 非建物領域は道路とみなして水平にする 
 手法: Top-down View StageとProjection Stage 
 17
  12. • 地上パノラマ画像作成に必要な条件を作成 
 ◦ 地上のテクスチャ画像: 衛星画像のテクスチャの張り付いた3次元空間から 
 地上から見た視線のテクスチャ画像に投影 
 ◦

    さらにパノラマ画像画像作成の質向上のため、セマンティック情報とエッジ情報を抽出する 
 ▪ セマンティック情報: 建物領域の補正を行った際に抽出した建物・道路領域を地上に投影し、それ以 外を空の領域とする 
 ▪ エッジ情報: 窓や建物の輪郭の高周波成分を抽出(エッジ用の別のU-Netで) 
 手法: Ground-view Stage 
 19 地上のテクスチャ画像 セマンティック情報 エッジ情報
  13. • テキストプロンプトによる地理的な事前分布の利用 
 ◦ 同じ建物のレイアウトたっだとしても、国・地域によって建物のデザインや植生が変わるはず 
 ▪ これらは衛星画像の解像度では撮影できないので、プロンプトとして与える 
 High

    resolution street view in {国名, 地域名, 大陸名} 
 ▪ 訓練済みの拡散モデルのクロスアテンションモジュール内部に埋め込む 
 (画像生成分野のLoRAと同じやりかたで低ランクの行列だけ学習させる) 
 手法: Texture-guided Generation Stage 
 21
  14. • 衛星画像データセット 
 ◦ DataFusionContest(DFC) 2019という衛星画像のデータセットと、GoogleストリートビューからDFC2019に対 応する地上画像を収集 
 ▪ DFC2019ではマルチビューの衛星画像とDSM(高さ)がある

    
 ◦ OpenStreetMapのBuilding Footprintデータでセマンティック情報の真値作成 
 ◦ 7,000組以上のデータを作成 
 • パノラマ画像と言語ペア 
 ◦ ロンドン・香港・ジャクソンビル(米)・パリ・ドバイで各500枚づつ 
 実験: 実験の設定 
 24
  15. • 低レベル
 ◦ PSNR, SSIM
 • エッジレベル
 ◦ Canny検出器した結果の平均IoU 


    • セマンティックレベル 
 ◦ 学習済みセグメンテーションモデルによる評価(建物・地面・空の平均IoU) 
 ◦ ADE20Kデータセットで学習されたOneFormer 
 • 知覚レベル
 ◦ FID,LPIPS, DreamSIM 
 実験: 地上パノラマ画像を作成結果の定量評価 
 25
  16. • 衛星画像から地上のパノラマ画像を作成タスクに対して、衛星画像のテクスチャ情報と撮影場所の情報をテキ ストプロンプトで与える手法を提案 
 • 測量的なアプローチで3次元的な建物テクスチャの張り付いた地上画像の初期条件を作り、VQGANで建物情報 をベクトルにして拡散モデルへ入力、さらに撮影場所のテキストプロンプトをLoRAで拡散モデルの内部に取り入 れる
 ◦ 最近のCVっぽい部分はLoRAとVQVAEとプロンプト

    
 ◦ 古典的な衛星画像のカメラ幾何・測量的なアルゴリズムとの組み合わせ 
 • 提案手法を用いると、衛星画像のテクスチャで条件付けされているので、建物の再現性が高くなる 
 • 視点が変わると建物のテクスチャや階数が変わってしまうので、将来的には視点間の一貫性を保つ手法が必要 になる
 まとめ 
 33
  17. • 低レベル
 ◦ PSNR, SSIM
 • エッジレベル
 ◦ Canny検出器した結果の平均IoU 


    
 実験: 地上パノラマ画像を作成結果の定量評価 
 37 見た目の質を重視する拡散モデルによる画像生成だと画素レベルの評価では不利 
 だがエッジレベルの評価では向上