Upgrade to Pro — share decks privately, control downloads, hide ads and more …

FiT3D: Improving 2D Feature Representations by ...

Kohei Iwamasa
November 16, 2024
240

FiT3D: Improving 2D Feature Representations by 3D-Aware Fine-Tuning - 第62回 コンピュータビジョン勉強会 ECCV論文読み会

Kohei Iwamasa

November 16, 2024
Tweet

Transcript

  1. Fig. 1 Figure 1: We propose 3D-aware fine-tuning to improve

    2D foundation features. Our method starts with lifting 2D image features (e.g. DINOv2 [44]) (b) to a 3D representation. Then we finetune the 2D foundation model using the 3D-aware features (c). We demonstrate that incorporating the fine-tuned features (d) results in improved performance on downstream tasks such as semantic segmentation and depth estimation on a variety of datasets with simple linear probing (right). Feature maps are visualized using principal component analysis (PCA). Figure 1: 2D基盤特徴を向上させるために3D対応のfine-tuning⼿法を提案する。この⽅法では、まず2D画像特徴(e.g., DINOv2 [44])(b)を3D表現に変換する。 次に、3D対応の特徴 (c) を使⽤して2D基盤モデルをfine-tuningする。fine-tuningした特徴 (d) を取り⼊れることで、semantic segmentationや深度推定などの下 流タスクの性能が向上することを⽰した。この性能向上は、様々なデータセット上で単純な線形プロービング (右) を⽤いることで確認できる。 特徴マップは主成分分析 (PCA) を⽤いて可視化する。
  2. 視覚モデルの事前学習 • 本論⽂ではDINOv2 [Oquab+ 23] , DINOv2-reg [Darcet+ 23] ,

    CLIP [Radford+ 21] , MAE [He+ 21] , DeiT-III [Touvron+ 22] などの ⾃⼰教師あり学習を⾏った2D視覚モデルに対して適⽤ (CNNでもViTでも何でも適⽤できるはず) ◦ 各学習⽅法は今回は割愛します🙏 • 各視覚モデルは特有の Artifact (アーチファクト) が存在する ← ここ⼤事 ⾃⼰教師あり学習 (画像のみ) ⾃⼰教師あり学習 (画像のみ) ⾃⼰教師あり学習 (画像-テキスト) ⾃⼰教師あり学習 (画像のみ) 教師あり学習 (画像とラベル)
  3. 3D Gaussian Splatting https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/ • 複数視点画像から新規視点合成を⾏う⼿法 → NeRFと⽐較して特に⾼速なレンダリングが可能👍 • 3D

    Gaussian (位置, 回転, スケール, 球⾯調和パラメータ, 不透明度) を2D平⾯に効率的にSplat (投影) する ◦ ラスタライズレンダリングにより描画するため⾼速‧軽量 “3D Gaussian Splatting for Real-Time Radiance Field Rendering” [Kerbl+ 23]
  4. 1. 3D Gaussianに2D特徴をliftする • 新しく   という特徴ベクトルに関するパラメータを追加 ◦ 蒸留する2D特徴よりも少ない次元数であり、シーンごとに異なるConv層で次元数を揃える ◦ 1シーン数百万のGaussianが存在するため元の次元数だとメモリに乗らない😢

    •    のレンダリングは、3D GSと同様に不透明度αを⽤いたα-blendingで⾏う • 通常のGaussianのパラメータと、 はそれぞれ独⽴に最適化する (損失関数はそれぞれL1Loss) ◦ “a loss from feature space does not lead to correct Gaussian mean, covariance and opacity” とのこと
  5. 結果 - 同ドメインの定性評価 1. 壁やボードのような均⼀でテクスチャのない領域で両タスク改善 • そもそも元のモデルの2D特徴をliftするとき、1枚だけなら“空洞”ができる ( DINOv2の⾚⽮印 )

    • Gaussianを最適化するときに複数のビューからの2D特徴が全体的に集約されるため、 あるビューからの情報は他のビューで補完される → 補完された3D-aware特徴でfine-tuningすると👍
  6. 結果 - 同ドメインの定性評価 2. 椅⼦やテーブルの脚など細かい領域で両タスク改善 • Gaussianのジオメトリ特性 (e.g., 位置, 不透明度)

    はRGB画像を参照とした最適化が⾏われるため、 この“RGBガイダンス”が詳細な3D構造を学習して⾼解像度の特徴マップをレンダリング可能に👍
  7. Ablation study • F_lowの次元数を増やすと使⽤メモリ‧学習時間は 増えるが、パフォーマンスは向上する • 無限のメモリがあればそもそもCNN層いらない +精度改善する? • CLSトークンを⽤いてImageNet-1Kで画像分類タスク

    →精度改善しない • 本⼿法は画像パッチトークンに対する改善だから? ◦ Poolingなどでパッチトークンの特徴ベクトルも ⽤いる構造にすれば改善する?
  8. 感想 • 3D GSを使って2D視覚モデルの改善するの⾯⽩い ◦ 定量的にも定性的にも、OODでもパフォーマンス改善しているのいい👍 ◦ モデル構造を変更しないのも👍 • 本⼿法でfine-tuningされた視覚モデルは“3D構造を理解した”という訳ではなさそう?

    ◦ 3D構造をもとにdenoisingされた2D特徴を学習した、という流れ • 屋外データなどOODでも改善しているが、屋外データでfine-tuningすると精度改善するのか? ◦ 屋外データを3DGSで最適化すること⾃体難しい ▪ e.g., 動的なオブジェクト、⾞両データだとカメラ間の重なりが少ない ◦ GSでこれらの課題を克服した⼿法はあるので試してみると⾯⽩そう • ⾃動運転AIにも活⽤していきたい ◦ ⼀旦はbackbone変えて検証できるので試します