Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views

SatAI.challenge 勉強会 Geospecific View Generation - Geometry-Context Aware High-resolution Ground
View Inference from Satellite Views 篠原崇之 1 第1回 SatAI.challenge勉強会この資料に出てくる図は引用を明記しない場合は Xu et al. (2024), “Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views”, ECCV 2024. より引用

目次   2 • 自己紹介スライド  • 研究の1ページサマリ紹介   • 研究の背景（Introduction）
  • 手法について（Method）   • 実験（Experimet）  • まとめ（Conclusion）   • 個人的な謎 

3 発表者紹介 This image was generated by ChatGPT

自己紹介   4 研究テーマ：データ基盤、点群深層学習、人間中心 AI、３次元モデリング、サロゲートモデル 4 X(旧 Twitter) LinkedIn
産総研 - デジタルツイン構築と利活用 - 物理シミュレーションの近似を行うAI - （産総研のサッカー部）篠原崇之

5 手法の概要 This image was generated by ChatGPT

Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference
from Satellite Views   6 • 光学衛星画像から地上のパノラマ写真を作成する際に、現実の建物からなるべく見た目を乖離させない手法を提案  • 衛星画像に映る建物の側面のテクスチャ情報を有効活用することで、拡散モデルによる  パノラマ写真作成の出力をある程度制御する   

7 研究の背景 This image was generated by ChatGPT

• 地球を広域かつ定期的に観測できる衛星画像から地上パノラマ写真を推定できると、フォトリアルなゲームや都市スケールの仮想空間作成が容易になる   • 衛星画像から地上のパノラマを作成は、撮影角度の差と解像度の差により困難なタスクになる   ◦ 撮影角度の差: 建物の上部から撮影した衛星画像からの変換が難しい
  ◦ 解像度の差: 商用衛星画像でも30 cmであるが、地上パノラマ写真は3 cm(10倍の差)であり、   さらに衛星画像は大気などによるノイズが大きい   背景: 光学衛星画像からの地上のパノラマ写真作成   8 衛星画像地上のパノラマ写真 Li et al. (2024), “CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis”, arxiv 2024. より引用地上目線の画像を作成

• 条件付き生成モデル   ◦ ナイーブなブラックボックス手法   ▪ 航空写真から地上写真と地上のセグメンテーションを同時に実行[Regmi and Borji,
2018]   ▪ 衛星画像から推定したセマンティックな情報を組み合わせて、   地上のパノラマ写真を作成[Ren+,2021]   背景: 衛星画像を利用した地上パノラマ画像作成の関連研究   9 Ren et al. (2021), “Cascaded Cross MLP-Mixer GANs for Cross-View Image Translation”, BMVC 2021. より引用 Krishna Regmi and Ali Borji (2018), “Cross-View Image Synthesis using Conditional GANs”, CVPR 2018. より引用

• ブラックボックスと幾何情報に忠実な手法の中間   ◦ 衛星画像と高さ画像から点群を作る   ▪ 衛星画像とDSM(高さ情報)を拡散モデルに入力し色付き点群を作成して、   別の拡散モデルで作成した背景と組み合わせて学習可能なレンダリングによって
  地上画像を作成する[Li+, 2024]   背景: 衛星画像を利用した地上パノラマ画像作成の関連研究   10 Li et al. (2024), “Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion”, CVPR 2024. より引用

• 幾何情報に忠実な手法   ◦ 衛星画像を正射投影   ▪ 衛星画像から道路領域と高さを推定して３次元空間へ紐づけてからGANへ入力する   地上パノラマ写真と衛星画像を正射投影して損失関数を直接計算する[Lu+,2020]
  背景: 衛星画像を利用した地上パノラマ画像作成の関連研究   11 Lu et al. (2020), “Geometry-Aware Satellite-to-Ground Image Synthesis for Urban Areas”, CVPR 2020. より引用

• 問題点  ◦ ナイーブなブラックボックス手法   ▪ 画像としてはきれいな見た目だが、現実とかけ離れた画像が作成される   ◦ 幾何情報に忠実な手法
  ▪ 正射投影では建物のファサード（道路に面した部分）情報が失われるので、   幾何情報に忠実ではあるが、建物のテクスチャが現実とかけ離れた画像になる   • 衛星画像の特性  ◦ 建物の側面は衛星画像に写る場合が多い   背景: 先行研究の問題点と衛星画像の特性   12 衛星画像に映った建物のファサードを入れた地上のパノラマ画像を作成する必要がある   直下の画像屋根のみ角度がある場合の画像ファサードも見える Challenges with SpaceNet 4 off-nadir satellite imagery: Look angle and target azimuth angle | by Nick Weir | The DownLinQ | Medium から図を引用

13 手法 This image was generated by ChatGPT

• 衛星画像から地上のパノラマ画像を作成するために、以下の4つの手法で構成   ◦ Top-down View Stage: 衛星画像から3次元空間への射影   ◦
Projection Stage: 建物形状を補正して3次元空間からへ地上へのテクスチャ貼り付け   ◦ Ground View Stage: 衛星画像のテクスチャから高周波成分を抽出   ◦ Texture-guided Generation Stage: 条件付き拡散モデルで地上パノラマ画像を作成   手法: 全体フロー   14

1. 衛星画像からステレオマッチング手法で高さ画像を作成   2. 高さ画像を利用して衛星画像のテクスチャを3次元空間へ張り付ける   a. 衛星画像に内在するノイズによって建物のファサード周辺に投影されたテクスチャが歪むので   建物形状の補正を行いテクスチャを張り付ける
  3. テクスチャが張り付いた３次元空間を地上パノラマと同じ目線に投影する   手法: Top-down View StageとProjection Stage   15

1. 衛星画像からステレオマッチング手法で高さ画像を作成   2. 高さ画像を利用して衛星画像のテクスチャを3次元空間へ張り付ける   a. 衛星画像に内在するノイズによって建物のファサード周辺に投影されたテクスチャが歪むので   建物形状の補正を行いテクスチャを張り付ける
  3. テクスチャが張り付いた３次元空間を地上パノラマと同じ目線に投影する   手法: Top-down View StageとProjection Stage   16

• 建物形状の補正  ◦ 衛星画像から作成した３次元の高さ情報にはノイズが含まれるので、道路や建物の壁面が   ガタガタになる  ◦ 建物の壁や道路を平坦にするために、建物輪郭の抽出を行い、建物形状の補正を行う   i.
衛星画像のセグメンテーションによる建物マスクを作成し、輪郭をポリゴンを獲得   ii. ポリゴン情報を使って、高さ情報を建物の壁面部分を垂直に、   非建物領域は道路とみなして水平にする   手法: Top-down View StageとProjection Stage   17

• 建物形状の補正  ◦ ガタガタしている３次元の高さ情報（DSM）に無理やりテクスチャを張り付けると、水平が崩れたりするが、高さ情報の補正によってテクスチャの張り付け結果が改善する   手法: Top-down View StageとProjection
Stage   18 補正前補正後

• 地上パノラマ画像作成に必要な条件を作成   ◦ 地上のテクスチャ画像: 衛星画像のテクスチャの張り付いた３次元空間から   地上から見た視線のテクスチャ画像に投影   ◦
さらにパノラマ画像画像作成の質向上のため、セマンティック情報とエッジ情報を抽出する   ▪ セマンティック情報: 建物領域の補正を行った際に抽出した建物・道路領域を地上に投影し、それ以外を空の領域とする   ▪ エッジ情報: 窓や建物の輪郭の高周波成分を抽出(エッジ用の別のU-Netで)   手法: Ground-view Stage   19 地上のテクスチャ画像セマンティック情報エッジ情報

• 拡散モデルベースの画像生成   ◦ SD1.5をベースジェネレータとして、2次元ノイズから地上パノラマ画像を作成   ◦ 工夫として、  ▪ テキストプロンプトとして国や地域情報をエンコードして拡散モデルへ入力
  ▪ テクスチャとエッジをエンコードして拡散モデルへ入力   手法: Texture-guided Generation Stage   20

• テキストプロンプトによる地理的な事前分布の利用   ◦ 同じ建物のレイアウトたっだとしても、国・地域によって建物のデザインや植生が変わるはず   ▪ これらは衛星画像の解像度では撮影できないので、プロンプトとして与える   High
resolution street view in {国名, 地域名, 大陸名}   ▪ 訓練済みの拡散モデルのクロスアテンションモジュール内部に埋め込む   （画像生成分野のLoRAと同じやりかたで低ランクの行列だけ学習させる）   手法: Texture-guided Generation Stage   21

• テクスチャとエッジの利用   ◦ 衛星画像のテクスチャとエッジ画像をエンコードするためにVQ-GANで整数のトークンに量子化   ◦ VQ-GANを使って、テクスチャ画像とエッジ情報の特徴ベクトルを抽出   ◦
特徴ベクトルをstable diffusion1.5にいれる   手法: Texture-guided Generation Stage   22

23 実験 This image was generated by ChatGPT

• 衛星画像データセット   ◦ DataFusionContest(DFC) 2019という衛星画像のデータセットと、GoogleストリートビューからDFC2019に対応する地上画像を収集   ▪ DFC2019ではマルチビューの衛星画像とDSM（高さ）がある
  ◦ OpenStreetMapのBuilding Footprintデータでセマンティック情報の真値作成   ◦ 7,000組以上のデータを作成   • パノラマ画像と言語ペア   ◦ ロンドン・香港・ジャクソンビル（米）・パリ・ドバイで各500枚づつ   実験: 実験の設定   24

• 低レベル  ◦ PSNR, SSIM  • エッジレベル  ◦ Canny検出器した結果の平均IoU  
• セマンティックレベル   ◦ 学習済みセグメンテーションモデルによる評価(建物・地面・空の平均IoU)   ◦ ADE20Kデータセットで学習されたOneFormer   • 知覚レベル  ◦ FID,LPIPS, DreamSIM   実験: 地上パノラマ画像を作成結果の定量評価   25

• ベースラインではアーキファクトが多くなるが提案手法では質が高い   実験: 地上パノラマ画像を作成結果の定性評価   26

• ベースラインではアーキファクトが多くなるが提案手法では質が高い   実験: 地上パノラマ画像を作成結果の定性評価   27

• 国・地域・大陸のプロンプトによる事前情報の有無(表のw/o prior)   ◦ どの指標でも効果あり   • 衛星画像のテクスチャによる条件の有無(表のw/o RGB)
  ◦ どの指標でも効果あり   実験: 地上パノラマ画像を作成結果のAblation Study   28

• 衛星画像のテクスチャによる条件の有無(図のOurs w/o RGB)   ◦ 建物のファサードの再現性が高くなる   ◦ 建物の空間的な配置の再現性が高くなる
  実験: 地上パノラマ画像を作成結果のAblation Study   29

• ベースラインの改善の可能性   ◦ CrossMLPとPanoGANは画像生成モデルにセマンティック情報を入れているので、   提案手法で行った衛星画像のテクスチャ情報も容易に入れられる   ◦ CrossMLPとPanoGANにテクスチャ情報も入力するように拡張すると、
  どちらも性能向上した   実験: 地上パノラマ画像を作成結果のAblation Study   30

• 視点ごとの一貫性が無い   ◦ 同じ建物でも、視点を動かして衛星画像から地上のパノラマ画像を作成すると、   違う色や階数の構成が変わってしまう   ◦ 拡散モデルが孕んでいるランダム性の問題なので、将来的には一貫性を保てるような
  手法が必要になる    実験: 限界点   31

32 結論 This image was generated by ChatGPT

• 衛星画像から地上のパノラマ画像を作成タスクに対して、衛星画像のテクスチャ情報と撮影場所の情報をテキストプロンプトで与える手法を提案   • 測量的なアプローチで３次元的な建物テクスチャの張り付いた地上画像の初期条件を作り、VQGANで建物情報をベクトルにして拡散モデルへ入力、さらに撮影場所のテキストプロンプトをLoRAで拡散モデルの内部に取り入れる  ◦ 最近のCVっぽい部分はLoRAとVQVAEとプロンプト
  ◦ 古典的な衛星画像のカメラ幾何・測量的なアルゴリズムとの組み合わせ   • 提案手法を用いると、衛星画像のテクスチャで条件付けされているので、建物の再現性が高くなる   • 視点が変わると建物のテクスチャや階数が変わってしまうので、将来的には視点間の一貫性を保つ手法が必要になる  まとめ   33

34 個人的な謎 This image was generated by ChatGPT

• 本文中では、提案手法セクションで建物抽出にUnetを使うと言っていたり、実験セクションでSegFormerを使うと言っていたり、読んでいて分からない部分が多い   • SD1.5のどこにテクスチャ画像とエッジ画像の特徴ベクトルを入れるのかなどの具体的な層設計の情報が無くて、再現ができない  • 都市域以外に適用できない気がする（イントロダクションで当たり判定を特に狭めてないが、需要があるのは都市だからいいのかもしれない
      謎   35

36 以下補足資料 This image was generated by ChatGPT

• 低レベル  ◦ PSNR, SSIM  • エッジレベル  ◦ Canny検出器した結果の平均IoU  
  実験: 地上パノラマ画像を作成結果の定量評価   37 見た目の質を重視する拡散モデルによる画像生成だと画素レベルの評価では不利   だがエッジレベルの評価では向上  

• セマンティックレベル   ◦ 学習済みセグメンテーションモデルによる評価(建物(I_B)・地面(I_G)・空(I_S)の平均IoU)   ◦ ADE20Kデータセットで学習されたOneFormer   実験:
地上パノラマ画像を作成結果の定量評価   38 建物・地面・空でベースラインよりも性能向上  

• 知覚レベル  ◦ FID,LPIPS, DreamSIM   実験: 地上パノラマ画像を作成結果の定量評価   39
建物・地面・空でベースラインよりも性能向上  

Geospecific View Generation - Geometry-Context ...

Geospecific View Generation - Geometry-Context Aware High-resolution Ground View Inference from Satellite Views

SatAI.challenge

More Decks by SatAI.challenge

Other Decks in Research

Featured

Transcript

SatAI.challenge 勉強会 Geospecific View Generation - Geometry-Context Aware High-resolution Ground

目次   2 • 自己紹介スライド  • 研究の1ページサマリ紹介   • 研究の背景（Introduction）

3 発表者紹介 This image was generated by ChatGPT

自己紹介   4 研究テーマ：データ基盤、点群深層学習、人間中心 AI、３次元モデリング、サロゲートモデル 4 X(旧 Twitter) LinkedIn

5 手法の概要 This image was generated by ChatGPT