Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A multimodal data fusion model for accurate and...

A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は 「A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis」 です。本研究では、都市土地利用マッピングの精度向上と解釈性の強化を行うために、人口密度とタクシーデータとリモセン画像を統合的に扱うMDFNetを提案しました。シンセン市を対象に、土地利用分類を行った結果、画像だけでは達成できなかった分類が可能になり、さらにアテンションの値を可視化してどのモーダルが効くかの解釈も可能であることを示した。

SatAI.challenge

April 19, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. A multimodal data fusion model for accurate and interpretable urban

    land use mapping with uncertainty analysis 篠原崇之 1 SatAI.challenge 勉強会 みんなで作るメタサーベイ:衛星データを活用したマルチモーダル AI 編 この資料に出てくる図は引用を明記しない場合は Yan et al. (2024), “A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis”, International Journal of Applied Earth Observation and Geoinformation vol. 129 (2024)より引用
  2. 自己紹介 
 4 研究テーマ :3次元モデリング、サロゲートモデル 4 X(旧 Twitter) LinkedIn 産総研

    レジリエントインフラ実装研究センター 劣化診断技術研究チーム - デジタルツイン構築と利活用 - 土木インフラの劣化予測 - 物理シミュレーションの近似を行うAI 篠原 崇之
  3. A multimodal data fusion model for accurate and interpretable urban

    land use mapping 
 with uncertainty analysis 
 6 • GISデータとリモセン画像をAI
 で統合して扱う手法が少ない
 • 都市土地利用マッピングの
 精度向上と解釈性の強化を
 行うために、人口密度とタクシーデータとリモ セン画像を統合的に
 扱うMDFNet を提案
 • 人口密度はLSTM, 衛星画像は
 ResNet, タクシーは
 GCNを用いて特徴抽出し、
 統合して分類する構造
 • ベンチマーク実験を行い
 テスト精度0.882を達成

  4. • 地理空間情報にはラスタとベクタ形式がある 
 ◦ ラスタ
 ピクセル単位で地理情報を保持するデータ。 
 主にリモートセンシング画像、標高データ(DEM)などに利用。 
 例:

    光学・SAR画像、気象衛星、DEM、土地被覆分類マップ。 
 ◦ ベクタ
 ポイント、ライン、ポリゴンで表現される地理情報。 
 都市計画や交通ネットワーク、行政区域などの情報を管理する 
 際に適用。
 例: 道路網、建物ポリゴン、河川、軌跡。 
 • インサイト 
 ◦ GISを使って、ラスタとベクタを重ね合わせると、 
 課題解決のインサイトが得られる 
 ◦ 現状ではAIでラスタとベクタを統合して扱う手法が少ない 
 背景: 地理空間情報の多様さ 
 11 人間が普段行っているようなラスタとベクタを統合した分析も深層学習でやりたい 
 図は国交省 GISとは から引用
  5. • 都市土地利用分類の重要性 
 ◦ 都市の持続可能な発展のために、正確な土地利用情報が必要。 
 ◦ 政策決定や都市計画、環境保全、災害リスク管理において重要な役割を果たす。 
 ◦

    交通、経済活動、環境への影響を評価するために活用される。 
 • 衛星画像を用いた手法 
 ◦ 畳み込みニューラルネットワーク 
 Vision Transformer(ViT)を 
 用いたセグメンテーションや 
 パッチ単位の分類。
 ◦ 衛星画像のみでは都市の 
 社会的活動や動態を反映できない。 
 ◦ データの時系列変化を考慮 
 しにくい。
 背景: 都市土地利用分類の既往研究 
 12 衛星画像のみを用いた研究では都市の社会的なダイナミクスを捉えるのが困難。 
 Zhou et.al (2020) “SO–CNN based urban functional zone fine division with VHR remote sensing image”, Remote Sensing of Environment,Vol. 236 から引用
  6. • 社会センシングデータ(SNSや個人が持つ端末からの情報)による都市利用 
 ◦ タクシーの軌跡データを用いて都市構造と経済活動の推測が可能 
 ◦ スマホのGNSSデータ、交通データなどの時系列データでも同様に都市利用解析が可能 
 背景:

    都市土地利用分類の既往研究 
 13 社会センシングデータを用いた研究では地理的な精度やスケールの限界がある。 
 Hu et.al (2023) “Revealing intra-urban hierarchical spatial structure through representation learning by combining road network abstraction model and taxi trajectory data”, Annals of GIS, 29(4), 499–516. から引用
  7. • 社会センシングデータと衛星画像の組み合わせ 
 ◦ 対照学習で衛星画像と多様な社会センシングデータを紐づけて、 
 衛星画像を用いた下流タスク(土地利用分類)の性能を向上させる 
 ◦ ただし、解釈性に問題

    がある場合が多い
 背景: 都市土地利用分類の既往研究 
 14 融合した研究はあるが、モーダルを組み合わせたメリットが薄い研究が多い 
 図 Bai et.al (2023) “Geographic mapping with unsupervised multi-modal representation learning from VHR images and POIs”, ISPRS Journal of Photogrammetry and Remote Sensing,から引用
  8. • 既往研究の問題点 
 ◦ データ統合の不十分さ 
 多くの研究ではリモートセンシングデータのみを使用し、スマホから得られるSNSや移動履歴、 
 交通状況などの社会センシングデータを考慮していない。 


    => マルチモーダルAIを導入 
 ◦ 解釈性の欠如 
 多くの既存手法で用いられる深層学習手法はブラックボックス的であり、 
 結果の根拠が分かりにくい。 
 => 予測の信頼度評価を行う 
 
 研究の目的 
 15 リモートセンシングデータと社会センシングデータを統合することで、 
 土地利用分類の精度と解釈性を向上 

  9. • 対象地域 
 ◦ 中国の深圳(シンセン)市 
 • データ
 ◦ 衛星画像(HSR)

    : Google Mapの光学衛星 画像
 480 m × 480 m, 2 m解像度 
 ◦ 時系列の人口密度(RTUD) : 人口密度時系列データ 
 480 m × 480 m, 約30m解像度, 1時間ごと 
 ◦ タクシー(TTD) : 乗降車地点(頂点)、 
 移動経路(辺)のグラフ
 頂点には平均速度・配車回数・降車回数 
 • 分類タスク設定 
 ◦ 住宅, 公共サービス, 商業, 工業, 倉庫, 緑地 
 ◦ 入力されたデータが何クラスなのかの分類 
 
 対象地域・使用データ 
 17
  10. Step 1の MDFNet は衛星画像・人口密度データ・タクシーグラフデータを分類するマルチモーダルAI 
 (1) 特徴抽出モジュール: 各モーダルの特徴を独立して抽出 
 (2)

    クロスモーダル特徴融合モジュール: 各モーダルの特徴量を混ぜる 
 (3) 土地利用分類モジュール: 混ぜた特徴量で入力エリアの土地利用分類 
 手法: Step1 MDFNetの学習 
 19
  11. Step 1の MDFNet は衛星画像・人口密度データ・タクシーグラフデータを分類するマルチモーダルAI 
 (1) 特徴抽出モジュール 
 • HSR(衛星画像)

    : ResNet-50ベースのCNNにより画像特徴を抽出。 
 ◦ 入力: 衛星画像 ◦ 出力: 衛星画像の特徴ベクトル • TTD(タクシー) : グラフ畳み込みネットワーク(GCN)を利用し、タクシーの移動パターンを抽出。 
 ◦ 入力: タクシー乗降情報や経路情報から構築したグラフ(ノード&エッジ) ◦ GCN層: グラフ構造を伝播しながら特徴を学習 ◦ 出力: タクシーデータの特徴ベクトル 手法: Step1 MDFNetの学習 
 20
  12. Step 1の MDFNet は衛星画像・人口密度データ・タクシーグラフデータを分類するマルチモーダルAI 
 (1) 特徴抽出モジュール 
 • RTUD(人口密度)

    : BiLSTM(双方向長短期記憶ネットワーク)で人口密度の時間変化をモデル化。 
 ◦ 入力: 時系列の人口密度(1時間の平均値x24 時間がある程度の期間存在 ) ◦ Temporal Block(Workdays/Weekend/Holiday) ▪ Workdays: 平日のみ抽出し、平日特有の人流パターン(通勤・通学など)を学習。 ▪ Weekend: 週末の人口変化(商業施設やレジャー施設への集中)をモデル化。 ▪ Holiday: 祝日や特別な行事時の極端な人口変動を反映。 ▪ 役割: 時系列を4つの区分(Workdays/Weekend/Holiday)に分割して学習することで、曜日・祝日 特性を捉え、バイアスを軽減。 ◦ BiLSTM: 全期間(All Days)の人口密度を連続的に扱う基本ブロック。 過去と未来の情報を同時に考慮し、人口密度の長期・短期変動を統合。 ◦ 出力: Temporal BlockとBiLSTMをconcatした時系列ベクトルを全結合で処理した特徴ベクトル 
 手法: Step1 MDFNetの学習 
 21
  13. Step 1の MDFNet は衛星画像・人口密度データ・タクシーグラフデータを分類するマルチモーダルAI 
 (2) モーダル特徴融合モジュール 
 • Concatenate

    
 ◦ 各ブランチ(HSR, RTUD, TTD)の特徴ベクトルを連結 
 • Adaptive Weighting(Learnable Weight Module) 
 ◦ チャネルのアテンション 
 ◦ 各モダリティの信頼度や重要度に応じ、 学習可能な重み付け を行う
 ▪ HSR, RTUD, TTDのどれが分類き効くかがわかる 
 • 最終的な特徴ベクトル 
 ◦ 統合されたベクトルを次の土地利用分類モジュールに入力へ 
 (3) 土地利用分類モジュール 
 • 全結合層: 統合された特徴を分類器に入力。 
 • ソフトマックス関数: 土地利用カテゴリ(住宅, 公共サービス, 商業, 工業, 倉庫, 緑地)に分類。 
 手法: Step1 MDFNetの学習 
 22
  14. 「どのモダリティがどれほど重要なのか」を説明 
 • Multi-Class Explainable Boosting Machine(MC-EBM) 
 ◦ 予測関数が特徴ごとの加法的な関数で構成される

    Generalized Additive Model(GAM) の一種で、各特徴 の部分関数を学習しつつ、解釈可能性を維持。 
 ◦ 入力データを特徴量化して、その影響を見る 
 ◦ SHAPとかLIMEみたいなやつ 
 • Adaptive Weighting(Learnable Weight Module)の値 
 ◦ 各モーダルの特徴量を組み合わせて土地利用分類を行う際に、 
 各モーダルの特徴量に対するattentionの重みを学習させる 
 ◦ ある入力データを入れた際の各特徴量への重みの値を見て、 
 どのモーダルの特徴量が効くかを確認できる 
 手法: 解釈性と不確実性解析 
 23
  15. • 提案手法だと、明らかな時間的特徴パターンのない領域を識別することは困難 
 ◦ 画像だけだとできる
 ◦ 組み合わせが重要
 • 画像では困難な場合 


    ◦ 提案手法だと、
 時間変化で分類できる 
 実験: 失敗例分析 
 27 人口密度の
 特徴が無い
 商業施設:
 昼間は人が増える
 タワマンとの区別が可能
 遊園地

  16. • 学習可能な重み(channelへのattention)による寄与度の確認(横軸 寄与度) 
 ◦ HSR(衛星画像): 緑地、工業用地、倉庫用地(色・空間的な配置) 
 ◦ RTUD(人口密度):

    公共サービス、商業施設(昼夜・平日休日) 
 ◦ TTD(タクシー): 住宅地(乗り降りが多そう) 
 実験: どのモーダルが何の土地利用に効くのか 
 28 HSR RTUD TTD
 =>直観に合う結果

  17. (1) データの制約 
 • 時空間的な制約: HSR(衛星画像)は固定的な情報だが、RTUD(人口密度)やTTD(タクシー)は時間依存性が高い ため、最適な時系列の統合方法に課題がある。 
 • データの偏り:

    RTUD(人口密度)やTTD(タクシー)は一部の地域でのみ取得可能であり、全都市域に対する適用 には制約がある。
 (2) 計算コストの高さ 
 • 提案手法はCNN、LSTM、GCNを統合しており、学習コスト・推論コストが高い。 
 • 計算リソースの制限がある環境(エッジデバイス等)ではリアルタイム適用が難しい可能性。 
 (3) 転移学習の適用範囲 
 • 研究で使用したモデルは中国の主要都市を対象にしており、他国・他地域に適用する際に、追加学習が必要と なる。
 実験: 限界点 
 33
  18. • MC-EBM
 ◦ HSR(衛星画像)が最も重要 
 寄与率0.361
 ◦ RTUD(人口密度)が0.308 
 ◦

    TTD(タクシー)が0.232 
 ※SHAPとかLIMEみたいな指標 
 衛星画像の画素値、 
 人口密度データの統計データ、 
 タクシーデータの統計データ 
 で簡易的な機械学習モデルを作る 
 
 実験: どのモーダルが何の土地利用に効くのか 
 37