Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Segment Anything + Alpha

frkake
March 05, 2024

Segment Anything + Alpha

frkake

March 05, 2024
Tweet

More Decks by frkake

Other Decks in Research

Transcript

  1. 時系列と関係性 SAM SEEM 5 13 SA3D 26 TAM 24 NOW!

    28 相補的なプロンプト利用 メモリプロンプト NeRFでSAM トラッキングでSAM April 今日のメイン
  2. モデル ViT(MAE) ① 画像に対して大きめの画像エンコーダ (ViT) を適用 ② 各条件入力に対して、適切なエンコードを行う • mask

    :浅めのCNN • points :Positional Encoding • box :Positional Encoding • text :CLIP Text Encoder scoreでNMS 3つの候補出力 ~50ms, CPU 1500
  3. データ(1) ① 手動アノテーション • 「ブラシ」と「消しゴム」の機能を持つウェブツールでアノテーション。 • セマンティックな制約を何も設けずにアノテーションしてもらった。 Ex. “stuff”と”things”でどっちかに統一する必要はない。 •

    目立つオブジェクトをアノテーション。 ② 半自動アノテーション i. ①のアノテーションデータでSAMを学習。 ii. SAMを使って、学習データをセグメンテーション。 iii. セグメンテーションされていないもの(目立たないもの)に対して、手動でアノテーション。 iv. 新たにアノテーションしたデータでSAMを再学習 ViT-BからViT-Hにスケールアップしていく。 ③ 完全自動アノテーション • SAMの学習自体は②で完成。一般公開する用のデータセットをSAMで作る。 • 32x32のグリッド点で自動アノテーション。 6回 繰り返す ステップ データ量 画像枚数 マスク枚数 mask/image ① 手動 120k 4.3M 44 ② 半自動 180k 5.9M 72 ③ 完全自動 11M 1.1B 100
  4. (SEEM) Segment Everything Everywhere All at Once (1/3) • Versatility

    :いろんな形式の情報を共通の特徴空間に埋め込むことで、シームレスに動かす • Compositionality:色々組み合わせられる • Interactivity :メモリプロンプトを持っているので、過去のやり取りも利用して指示ができる • Semantic-awareness :オープンセットに認識可能 概要
  5. (SEEM) Segment Everything Everywhere All at Once (2/3) モデル learnable

    共通 512 point feature 異なるモーダルでもクロスアテンションすることで相補的になる 𝑶ℎ 𝑚 𝑶ℎ 𝑐 メモリプロンプトの求め方 前回のマスク どう対応しているのかを判定する機構も入れているらしい
  6. (SA3D) Segment Anything in 3D with NeRFs (2/2) • Mask

    Inverse Rendering • Cross-view Self-prompting Viewが変わる度に毎回SAMでプロンプトを与えるのはめんどい → 一回プロンプトを与えたら、あとはNovel Viewに対して自動で プロンプトを与えられるようにする 一個前のSAMマスクからサンプリングする。 Rendering (NeRF → 2D) Rendering (Voxel → 2D) 色 重み× 1 ※ 最終的なロスとは異なります 高速化 𝐿𝑝𝑟𝑜𝑗 モデルと学習パイプライン
  7. (TAM) Track Anything: Segment Anything Meets Videos (1/3) SAMをビデオに適用したもの └

    マルチオブジェクトトラッキング インペインティングモデルと組み合わせることでこんなこともできる。 概要
  8. (TAM) Track Anything: Segment Anything Meets Videos (2/3) モデルと学習パイプライン 最初のフレームのマスクが得られたら、トラッキングするモデル

    弱プロンプト(BBox, Points)を 与えてSAMでセグメンテーショ ン =初期マスクを得る XMemの結果が悪かったら SAMでRefine これらをPoint Promptsに変換して、SAMに入力 [Optional] 人が間に入って、マスクを修正 XMemは半教師ありモデルなので、初期のマスクが良いものである必要がある XMemは長時間のトラッキング になるとマスクの品質が落ちる
  9. (TAM) Track Anything: Segment Anything Meets Videos (3/3) 良くもなく、悪くもなくという感じ。 論文中でも言及ほぼなし。

    「困難で複雑なシナリオではうまくいくことを確認した」とのこと 対象物体の動き、スケール変化、カメラモーションに強い • 長い動画 • ビデオセグメンテーションモデルが短い動画で学習されている • SAMでうまくRefineできない → プロンプトを複数にしたりすれば改善できるかも • トラッキングする物体が複雑である場合