Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
EmerNerf: 自己教師あり学習による3次元空間認識
Search
kotaro_tanahashi
June 04, 2024
0
430
EmerNerf: 自己教師あり学習による3次元空間認識
ICLR 2024論文読会での発表資料です
kotaro_tanahashi
June 04, 2024
Tweet
Share
More Decks by kotaro_tanahashi
See All by kotaro_tanahashi
自動運転におけるモーション予測手法の進化
kotaro_tanahashi
1
360
[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化
kotaro_tanahashi
2
1.9k
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
26
1.8k
Side Projects
sachag
452
42k
Code Reviewing Like a Champion
maltzj
520
39k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
VelocityConf: Rendering Performance Case Studies
addyosmani
326
24k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Practical Orchestrator
shlominoach
186
10k
Code Review Best Practice
trishagee
65
17k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
Transcript
EmerNerf 自己教師あり学習による3次元空間認識 ICLR2024 論文紹介 Turing(株) 棚橋 耕太郎 EMERGENT SPATIAL-TEMPORAL SCENE
DECOMPOSITION VIA SELF-SUPERVISION
従来の自動運転システム 機能ごとに分かれたモジュールが独立に動くので 全体最適化ができない 画像 LiDAR点群 HDマップ Perception • 物体認識 •
標識認識 • レーン認識 Prediction • 移動予測 • 将来マップ予測 • 交通エージェント Planning • 探索問題 • 経路計画 Control • 制御アルゴリズ ム https://paperswithcode.com/dataset/nuscenes prediction perception planning
End-to-end 自動運転AI マルチカメラ画像 Neural Network 車の経路 End-to-endモデルを構築し画像から車の経路を直接出力する 画像 LiDAR点群 HDマップ
Perception • 物体認識 • 標識認識 • レーン認識 Prediction • 移動予測 • 将来マップ予測 • 交通エージェント Planning • 探索問題 • 経路計画 Control • 制御アルゴリズ ム 従来のシステム
E2Eにおけるサブタスク マルチカメラ画像 車の経路 NNに様々なサブタスクを課すことで、 E2E自動運転に必要な強力な特徴を手にいれることができる Occupancy Prediction Map Prediction 画像:
Tesla AI Day 2022より
Occupancy Prediction https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction 画像: https://arxiv.org/pdf/2306.02851 Good: 3次元認識が可能(lidarの代替) Bad: Voxelの教師ラベルが必要
空間上のvoxelラベルを予測する問題
EmerNerf Nerfベースの自己教師あり学習により動的・静的物体を分離して3次 元空間の学習が可能 動的・静的・flowフィールドの分離 Occupancyの構築
運転映像を扱う難しさ 通常のNerfと異なり、方向が固定されたカメラからの画像を扱うので画像が スパースになる 通常のNerfの入力 様々な角度からの画像 車載カメラで撮影する画像
D2Nerf 自己教師あり学習により動的・静的物体を分離する方法を提案 動的・静的・flowフィールドの分離 時間依存するフィールドと時間非依存なフィールドでcolor consistency lossを 構築 静的フィールド(時間依存なし) 動的フィールド(時間依存あり) 空間が動的or静的物体のどちらかで占有されるという制約を表すロス
https://arxiv.org/pdf/2205.15838
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 学習可能なHash関数を使って特徴量 gと密度σを構築 動的物体、静的物体、空、影に対して MLP Headで色を予測 静的物体と動的物体の重付き和で (x,t)に対する色を出力
画像上のピクセルの色をレンダリングする シーン表現
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 前向きflow v_fと後ろ向きフローv_bの予測を行う Flow予測 t=t-1とt=t+1の特徴の重み付き和をとってflowの整合性を保証 する
Novel View Synthesis
DINOv2特徴量の3次元lift 特徴量用のMLPを用いて、f*とf_skyを構築 レンダリング計算により、画像上の featureを予測し、これが画像 上のDINOv2特徴量と一致するように学習する DINOのPosition Encodingが邪魔になるので、それを取り除く 項を導入
DINO特徴量の3次元lift 3D空間上にDINO特徴量を埋め込むことが可能→オートラベリングに有用
Nerfはもう古い? https://pkuvdig.github.io/DrivingGaussian/
まとめ • EmerNerfは自己教師あり学習とflow予測により動的物体を自然にNerf に取り入れ、新規視点生成タスクでSOTAスコア • D2Nerfに対してHash関数やlidar点群を利用できるようにし、広い空間 に対して適用できるようにした • DINO特徴量を3次元空間上にliftする方法を提案(Position Encoding
の効果を削除) →オートラベリングなどに有用