Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A Segment Anything Model based weakly supervise...

A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images

本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行うグループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge
紹介する論文は、「A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images」です。Sentinel-2画像から農地区画を認識するタスクに対して、基盤モデルのSAMを活用しています。SAMではポイントやバウンディングボックスといった物体に対するおおまかな入力で、物体の高精度なセグメンテーションが可能になります。本論文ではSAMをSentinel-2画像にファインチューニングし、農地区画ごとの境界線に重点を置いたロスの設計を行います。これらにより、ポイントやバウンディングボックスのような農地区画領域の弱教師からでも高精度な疑似ラベルが作成可能となり、疑似ラベルを用いた領域分割モデルを精度良く学習するデータとして活用します。

SatAI.challenge

February 02, 2025
Tweet

More Decks by SatAI.challenge

Other Decks in Research

Transcript

  1. A Segment Anything Model based weakly supervised learning method for


    crop mapping using Sentinel-2 time series images
 山口大学
 中田和真
 1 第6回 SatAI.challenge勉強会
 この資料に出てくる図は引用を明記しない場合は J. Sun et al. (2024), “A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images”, International Journal of Applied Earth Observation and Geoinformation 133 (2024) 104085. より引用
  2. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experimet)
 • 結論(Conclusion)

  3. 自己紹介 
 4 中田 和真 所属:山口大学 情報認識工学研究室 D3 研究テーマ:機械学習による超音波画像を用いた肝硬変の検出 その他活動: •

    2024年度 山口大学 SPRINGスカラシップ研究学生 • 第23回 IEEE広島支部学生シンポジウム 運営 • cvpaper.challenge コラボ AI論文解説
  4. A Segment Anything Model based weakly supervised learning method for

    
 crop mapping using Sentinel-2 time series images 
 6 • 問題設定は弱教師あり学習による農地区画のセグメンテーション 
 ◦ 教師(ラベル)を少なく学習したい 
 • 自然画像で学習済みのSAM(Segment Anything Model)を Sentinel-2 でファインチューニング 
 ◦ SAM を使用することで、ポイント / バウンディングボックス / 画像単位 といった(画素単位でない)あいま いなラベルを学習に取り入れる 
 ◦ 生成した疑似ラベルを教師としてセグメンテーションモデルを学習する 

  5. 背景:農地区画のセグメンテーションについて 
 8 • 農地区画のセグメンテーションは、収穫量予測や育成度合のモニタリング等に活用される 
 • 特にCNNを用いたセグメンテーションは複雑な特徴量を自動で学習できる一方で、大量の学習データが必要と なる
 •

    そこで、比較的収集しやすい弱教師(ポイント / バウンディングボックス / 画像単位)を用いた学習法を提案す る
 • 課題1:弱教師あり学習だと、農地区画の細かな境界線を学習することが困難 
 • 課題2:都市や建物が対象のタスクよりも、農地区画のタスクは周辺とのスペクトルの差が小さく分類が困難 
 → 農地区画に適した弱教師あり学習によるセグメンテーションを検討 

  6. 背景:SAM(Segment Anything Moldel) 
 9 • 10億枚の自然画像で学習された基盤モデル 
 • プロンプト(ポイント

    / バウンディングボックス / 自然言語 等)と画像を入力として受け取り、画像内のインスタン スをセグメンテーションする 
 • プロンプトエンコーダー、画像エンコーダー、マスクデコーダーから構成される 
 • 自然画像で学習されているので、Sentinel-2画像への汎用性は限られる 
 • 特に、空間分解能が30cmを超えるとSAMの精度が悪くなる[Osco et al. (2023)] 
 Alexander Kirillov et al. (2023), “Segment Anything”, ICCV 2023. より引用
  7. • 提案手法は3つのステージから構成される 
 • ステージ1:SAM をSentinel-2画像でファインチューニング(教師あり学習) 
 • ステージ2:疑似ラベル生成 


    • ステージ3:疑似ラベルを用いたセグメンテーションモデルの学習(弱教師あり学習) 
 手法:概要 
 11
  8. • SAMの事前学習データ、10億枚と比較して 
 Sentinel-2の画像枚数が少ないこと、 
 [Osco et al. (2023)]の先行研究より、 


    モデルの一部のみ重みを学習 
 • 実際は事前学習済みの重みを固定し、 
 adapter-tuning と呼ばれる手法を画像エンコーダー 
 に取り入れる
 • プロンプトエンコーダーは重みを更新せず、 
 マスクデコーダーは全ての重みを更新する 
 
 
 • 本研究ではプロンプトごとにモデルを分けて学習 
 • 各プロンプトで予測と正解の誤差をインスタンス単位で 
 最小化
 手法:SAMのファインチューニング(ステージ1) 
 12
  9. boundary-aware joint loss を提案
 
 
 ①:ピクセル単位のbinary cross entropy loss

    
 
 
 ②:DICE loss
 セグメンテーションタスクで頻繁に用いられる 
 
 
 ③:SSIM (Structural Similarity) loss 
 小領域ごとの平均と分散を計算 
 輝度・コントラスト・構造を考慮し、SSIM(画像間の類似性)が 
 最大化するよう学習 
 手法:SAMのファインチューニング(ステージ1) 
 13 参照 :https://knowwell-livewell.hatenablog.com/entry/202 2/01/31/150552 参照 :https://zenn.dev/taikiinoue45/articles/bf7d2314ab4d 10
  10. • ポイント / バウンディングボックスを用いた疑似ラベル生成 
 ◦ プロンプトの定義
 ▪ ポイント:農地区画の中心座標 


    ▪ バウンディングボックス:農地区画を囲む長方形 
 ◦ 疑似ラベル生成手順 
 ▪ 各プロンプトについてファインチューニングしたSAM-P/SAM-Bで予測を行う 
 ▪ 各予測結果を重ね合わせて疑似ラベルとする 
 手法:疑似ラベル生成(ステージ2) 
 14
  11. • 画像単位のラベルを用いた疑似ラベル生成 
 ◦ プロンプトの定義
 ▪ 画像単位のラベル:農地区画が含まれる or 含まれない 


    ◦ 前頁と違い、画像内に存在する複数の農地区画を1つのプロンプトでセグメンテーションする 
 ◦ 疑似ラベル生成手順 
 ▪ step1:画像単位の出力で2値分類器を学習 
 • プロンプトに位置的な情報がないため、入力画像を複数時間とすることで、背景領域との差を 学習しやすくする
 • 特徴マップが入力画像と同じサイズになるように、U-netをベースとする 
 • CAMを用いることで、予測に重要な特徴マップを可視化可能とする 
 • CBAM [Sanghyun Woo et al. (2018)] を用いてチャネル・空間方向の 
 アテンションを計算
 • ロス関数には cross entropy loss を使用 
 手法:疑似ラベル生成(ステージ2) 
 15
  12. • 画像単位のラベルを用いた疑似ラベル生成 
 ◦ 疑似ラベル生成手順 
 ▪ step2:CAMの値(ヒートマップ)と superpixels sementation

    を使用 
 • 入力画像に対して SAM の general segmentation mode? で superpixels segmentation を行う 
 • 各小領域で CAM のヒートマップ値の平均値をとり、農地区画と背景クラスの値が高い方を疑 似ラベルとして付与する 
 手法:疑似ラベル生成(ステージ2) 
 16
  13. • ステージ2で作成した疑似ラベルを用い、セグメンテーションモデルを学習する 
 • モデルは、state-of-the-art の U-TAE を使用する 
 ◦

    農地区画のセグメンテーションモデルとして提案された [Garnot and Landrieu, (2021)] 
 ◦ U-Net 構造で L-TAE (Lightweight-temporal Attention Encoder) により、マルチスケールの時空間的特徴 量を獲得可能
 ◦ cross entropy loss を学習に使用 
 手法:疑似ラベルを用いたセグメンテーションモデルの学習(ステージ3) 
 17 Vivien Sainte Fare Garnot et al. (2021), “Panoptic Segmentation of Satellite Image Time Series with Convolutional Temporal Attention Networks”, ICCV 2021. より引用
  14. • データセット①:PASTIS 
 ◦ 2433枚のパッチ画像 
 ◦ 128×128画素
 ◦ 各農地区画に中心座標が付与されている

    
 ◦ インスタンスラベルからバウンディングボックスを今回作成 
 • データセット②:Munich 
 ◦ 14262枚のパッチ画像 
 ◦ 48×48画素
 ◦ 画像単位のプロンプトとして のみ使用
 
 • パッチ画像の50%以上を農地区画が覆っているか、まったく存在しない場合のみ 
 画像単位のラベルを付与 
 ◦ PASTISは974枚に「農業用牧草地」のラベルを付与 
 ◦ Munichは3396枚に「トウモロコシ」のラベルを付与 
 実験:データセット 
 19
  15. • OA (Overall Accuracy) は、モデル出力が背景領域に偏ると高くなる傾向にあり、 
 モデル間の差が出にくい 
 • F1-score

    では、ファインチューニングありのほうが精度が高く、ファインチューニングの効果が分かる 
 実験:ファインチューニングあり・なしの比較 
 20