Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
EmerNerf: 自己教師あり学習による3次元空間認識
Search
kotaro_tanahashi
June 04, 2024
0
420
EmerNerf: 自己教師あり学習による3次元空間認識
ICLR 2024論文読会での発表資料です
kotaro_tanahashi
June 04, 2024
Tweet
Share
More Decks by kotaro_tanahashi
See All by kotaro_tanahashi
自動運転におけるモーション予測手法の進化
kotaro_tanahashi
1
340
[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化
kotaro_tanahashi
2
1.8k
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
Statistics for Hackers
jakevdp
796
220k
Ruby is Unlike a Banana
tanoku
96
11k
Agile that works and the tools we love
rasmusluckow
327
21k
Building an army of robots
kneath
302
42k
Making Projects Easy
brettharned
115
5.9k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
Facilitating Awesome Meetings
lara
50
6.1k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5k
Transcript
EmerNerf 自己教師あり学習による3次元空間認識 ICLR2024 論文紹介 Turing(株) 棚橋 耕太郎 EMERGENT SPATIAL-TEMPORAL SCENE
DECOMPOSITION VIA SELF-SUPERVISION
従来の自動運転システム 機能ごとに分かれたモジュールが独立に動くので 全体最適化ができない 画像 LiDAR点群 HDマップ Perception • 物体認識 •
標識認識 • レーン認識 Prediction • 移動予測 • 将来マップ予測 • 交通エージェント Planning • 探索問題 • 経路計画 Control • 制御アルゴリズ ム https://paperswithcode.com/dataset/nuscenes prediction perception planning
End-to-end 自動運転AI マルチカメラ画像 Neural Network 車の経路 End-to-endモデルを構築し画像から車の経路を直接出力する 画像 LiDAR点群 HDマップ
Perception • 物体認識 • 標識認識 • レーン認識 Prediction • 移動予測 • 将来マップ予測 • 交通エージェント Planning • 探索問題 • 経路計画 Control • 制御アルゴリズ ム 従来のシステム
E2Eにおけるサブタスク マルチカメラ画像 車の経路 NNに様々なサブタスクを課すことで、 E2E自動運転に必要な強力な特徴を手にいれることができる Occupancy Prediction Map Prediction 画像:
Tesla AI Day 2022より
Occupancy Prediction https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction 画像: https://arxiv.org/pdf/2306.02851 Good: 3次元認識が可能(lidarの代替) Bad: Voxelの教師ラベルが必要
空間上のvoxelラベルを予測する問題
EmerNerf Nerfベースの自己教師あり学習により動的・静的物体を分離して3次 元空間の学習が可能 動的・静的・flowフィールドの分離 Occupancyの構築
運転映像を扱う難しさ 通常のNerfと異なり、方向が固定されたカメラからの画像を扱うので画像が スパースになる 通常のNerfの入力 様々な角度からの画像 車載カメラで撮影する画像
D2Nerf 自己教師あり学習により動的・静的物体を分離する方法を提案 動的・静的・flowフィールドの分離 時間依存するフィールドと時間非依存なフィールドでcolor consistency lossを 構築 静的フィールド(時間依存なし) 動的フィールド(時間依存あり) 空間が動的or静的物体のどちらかで占有されるという制約を表すロス
https://arxiv.org/pdf/2205.15838
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 学習可能なHash関数を使って特徴量 gと密度σを構築 動的物体、静的物体、空、影に対して MLP Headで色を予測 静的物体と動的物体の重付き和で (x,t)に対する色を出力
画像上のピクセルの色をレンダリングする シーン表現
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 前向きflow v_fと後ろ向きフローv_bの予測を行う Flow予測 t=t-1とt=t+1の特徴の重み付き和をとってflowの整合性を保証 する
Novel View Synthesis
DINOv2特徴量の3次元lift 特徴量用のMLPを用いて、f*とf_skyを構築 レンダリング計算により、画像上の featureを予測し、これが画像 上のDINOv2特徴量と一致するように学習する DINOのPosition Encodingが邪魔になるので、それを取り除く 項を導入
DINO特徴量の3次元lift 3D空間上にDINO特徴量を埋め込むことが可能→オートラベリングに有用
Nerfはもう古い? https://pkuvdig.github.io/DrivingGaussian/
まとめ • EmerNerfは自己教師あり学習とflow予測により動的物体を自然にNerf に取り入れ、新規視点生成タスクでSOTAスコア • D2Nerfに対してHash関数やlidar点群を利用できるようにし、広い空間 に対して適用できるようにした • DINO特徴量を3次元空間上にliftする方法を提案(Position Encoding
の効果を削除) →オートラベリングなどに有用