Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Composed image retrieval for remote sensing


SatAI.challenge
November 02, 2024
6

Composed image retrieval for remote sensing


本資料はSatAI.challengeのサーベイメンバーと共に作成したものです。
SatAI.challengeは、リモートセンシング技術にAIを適用した論文の調査や、より俯瞰した技術トレンドの調査や国際学会のメタサーベイを行う研究グループです。speakerdeckではSatAI.challenge内での勉強会で使用した資料をWeb上で共有しています。
https://x.com/sataichallenge

紹介する論文は、テキストと画像をクエリとして衛星画像を検索するタスク「組み合わせ衛星画像」を初めて取り組んだものです。CLIPで学習されたテキスト・画像エンコーダーに対応するデータを入力し、得られたベクトルを重みつき平均をとったベクトルを用いて衛星画像検索を行っています。

SatAI.challenge

November 02, 2024
Tweet

Transcript

  1. 目次 
 2 • 自己紹介スライド
 • 研究の1ページサマリ紹介 
 • 研究の背景(Introduction)

    
 • 手法について(Method) 
 • 実験(Experimet)
 • 結論(Conclusion)

  2. 中村 凌 過去研究テーマ :Formula-driven Superised Learning, Weakly supervised object localization,Output

    Augmentation 自己紹介 Twitter LinkedIn 4 株式会社天地人 / SatAI・cvpaper.challenge HQ (福岡大学出身) 天地人での仕事 - 宇宙水道局(AIを活用したリスク診断) - 降水量予測と電波減衰量予測 過去の業績 - 研究効率化Tips (ViEW2021招待講演) - CCCS,W2021/2022 GC PC(登録者800名超え) - IROS / ICCV 2023, ICASSP / ECCV / ICPR2024採択 - SSII2023オーディエンス賞受賞
  3. Composed image retrieval for remote sensing 
 5 • 膨大にある衛星画像を検索する上で画像検索の技術が重要になるが、画像検索分野では、画像-画像の検

    索、text-画像の検索などの単一モダリティの限界があった 
 • そこで、CLIP (Contrastive Language-Image Pre-Training)のモデルを活用することでトレーニングせずにテキスト と画像を使った手法を提案 
 • また、PatternComと呼ばれる評価用データセットを提案している 
 • このデータセットにはクラスのcolor, context, density, existence, quantity, shape, size or textureの属性をユー ザーがラベルづけしていて、属性に基づいて画像検索を可能にしている 
 
 画像とテキストを用いて衛星画像を検索する組み合わせ画像検索タスク・手法を導入 
 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用
  4. Introduction - 研究領域について 
 6 • リモートセンシングによる地球観測では、データ量が増加しており関連情報の管理と抽出が課題となっている 
 • 膨大なアーカイブを効率的に整理し、特定の画像を迅速に取得することが大事

    
 ◦ そのような技術としてRemote sensing image retreval(RSIR)がある 
 ◦ このタスクはリモートセンシング画像アーカイブから画像を検索・取得することが目的 
 
 This image was generated by ChatGPT
  5. Introduction - 研究領域について 
 7 • RSIRの手法はクエリ画像と取得画像が同じソース(情報源)から取得されたものかどうかで変わる 
 • 大きく2種類「ユニソース」と「クロスソース」に分類される

    
 • ユニソース画像検索 
 ◦ ユニソース検索とは、クエリとして使用された画像と検索によって取得された画像が、同じ情報源(ソース) から取得された場合を指す。 
 ◦ 同じセンサーなどの同一条件下で取得された画像のこと 
 ◦ ユニソースの中にシングルラベル検索(画像が1つのラベルに基づいて関連づけられている検索)する方 法とマルチラベル検索(複数のラベルに関連づけられている検索) 
 • クロスソース
 ◦ クロスソース検索とは、クエリ画像と取得された画像が異なる情報源(ソース)から取得された場合を指す 
 
 
 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用 =
 ユニソース:同じセンサーから取得
 クロスソース:同じセンサーから取得されてない
 ≠

  6. Introduction - 限界とモチベーション 
 8 • ただ、これらの手法は単一モダリティのクエリという限界がある 
 • この限界を払拭するのがComposed

    image retrieval(CIR、組み合わせ画像検索)という技術 
 ◦ CIRは検索クエリに画像とテキストを統合し、クエリ画像と視覚的に類似しているだけでなく、添えられたク エリテキストに関連する画像を検索するように設計される 
 • 本論文では、リモセンにおけるCIRを導入すべく、手法とデータセットの提案を行う 
 • CLIPの事前学習モデルを活用することでトレーニング不要のアプローチとなっている 
 
 Nam Vo et al. (2018), “Composing Text and Image for Image Retrieval - An Empirical Odyssey”, arXiv. より引用
  7. 手法について - 本論文の問題設定 
 9 • 組み合わせ画像検索(Composed image retrieval):画像とテキストの複合検索クエリから、クエリテキストに基づ いて画像を検索することが目的

    
 ◦ つまりクラス情報を持つクエリ画像 y とテキストクエリ t を用いて、Image Dataset X 内のテキストクエリに 該当する画像 x を取り出すこと 
 ?
 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用
  8. 手法について - WeiCom 
 10 • WeiComはそれぞれのEncoderから出力されたベクトルと画像の類似度を計算、 
 • その後、Distribution

    Normalizationを行う。
 ◦ 得られたベクトルを経験分布とみなして、それを標準正規分布に変換する(平均0、分散1に標準化する) 
 ◦ 標準正規分布に変換されたデータを累積分布関数(CDF)適用することで正規化された類似度スコアを0~1 の範囲に収める
 • それぞれの出力を重み付き平均を計算して、argmaxで最も高い値から検索画像xを求める 
 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用
  9. 手法について - 比較に使用するベースライン説明 
 11 • Unimodal
 ◦ Text :Query

    text側のみの出力と画像xとの内積(類似度)→l2正規化 
 ◦ Image :Query image側のみの出力と画像xとの内積(類似度)→l2正規化 
 • Multimodal
 ◦ Text & image:Unimodalで求めた2つの内積(類似度)の平均 
 Text
 Image
 Text & image
 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用
  10. • Datasets( PatternCom )
 ◦ PatternComはPATTERNETと呼ばれる大規模高解像度リモートセンシング画像検索データセットを改良し たデータセット
 ◦ PatternNet以下の図のようにクラスを38クラス持ち、各クラス256×256ピクセルの画像が800枚で構成され ている。


    ◦ PatternComでは、PatternNetのクエリ画像にいくつか選んでそのクラスに関連する属性を定義するテキス トクエリを追加
 ▪ 例えば、スイミングプールのクエリ画像には形状として、長方形、円、腎臓系というテキストクエリを 追加
 ◦ 各属性は、各クラスにつき2~5つの値にを持つ 
 ◦ Positiveの数は2~1345で合計21000以上ある。 
 ◦ 
 Experimental settings 
 12 PatternNetの例
 6つの属性のうち2つの 属性の例を提示
 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用
  11. Experimental settings 
 13 • Network:CLIP or Remote CLIPのViT-L/14のimage encoder

    
 • Evaluation metric:mAPを使用。mAPは全てのクエリに対するAPの平均で、APは、各データを類似度に基づいて ランキングで並び替えて、そのリストの中で探したいアイテムが発見された際の各トップk結果の適合率を計算 し、その平均を取ったもの 
 Alec Radford et al. (2021), “Learning Transferable Visual Models From Natural Language Supervision”, arXiv. より引用 Fan Liu et al. (2024), “RemoteCLIP: A Vision Language Foundation Model for Remote Sensing”, arXiv. より引用 CLIP
 RemoteCLIP

  12. Qualitative results 
 14 • WEICOMとRemoteCLIPを使用してPatternComで構図画像検索を実行した際の定性的な結果が以下 
 • (a)-(h)の図は、主要な属性である色、コンテクスト、密度、量、形状サイズ、サイズ、質感を表している 


    • 各例は、クエリテキストで各属性値の変更を指定した選択された属性の1つに対応しています。 
 • ただし(b)(d)は複数のクラスと属性に拡張している 
 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用
  13. Qualitative results 
 • 6つの属性についてCLIP & RemoteCLIPを使用して構図画像検索の定量的評価を実施 
 • 結果の特徴


    ◦ WeiComはベースラインと比較して高い精度を記録 
 ◦ CLIPとRemoteCLIPの比較ではColor以外の値でRemoteCLIPの方が精度良い 
 ◦ 双方、Colorに対する検索性能が比較的に高い 
 15 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用
  14. Ablation study 
 • λの値を0.1ずつ変更することでmAPがどのように変更するのか?を確認 
 • λが高い方がテキスト側の正規化された類似度を使用している 
 •

    結果の特徴
 ◦ 全ての属性はλを適用した方が高い精度を記録している 
 ◦ テキスト側と画像側の類似度が重み付き平均されると比較的に精度向上が大きい? 
 16 Bill Psomas et al. (2024), “Composed image retrieval for remote sensing”, arXiv. より引用