Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

自動運転におけるモーション予測手法の進化

kotaro_tanahashi
November 05, 2023
350

 自動運転におけるモーション予測手法の進化

11/5の関東CV勉強会で発表した資料です。
MotionLM: Multi-Agent Motion Forecasting as Language Modelingについての紹介です。

kotaro_tanahashi

November 05, 2023
Tweet

Transcript

  1. 自己紹介 略歴 2014年 CloudLaTeXを開発(会員6万人以上) 2015年 リクルート新卒入社。 DSPなどのアドテクのシステム開 発に従事 2017年 PyQUBOを開発

    (90万ダウンロード) 2018年 IPA未踏ターゲット事業プロジェクトマネージャ就任 2020年 量子ソフトウェア研究会運営委員就任 2023年 Turingに入社。Brain Researchチームで完全自動運転 の研究開発を行っている。 Turing (株) 棚橋耕太郎, Brain Research所属 https://huggingface.co/turing-motors https://zenn.dev/turing_motors/articles/ce20c5202e107e
  2. https://www.youtube.com/watch?v=RpiN3LyMLB8 モデルの入力データ形式, 「ラスター」or「ベクター」 • ラスター画像表現(マスクピクセル形式) + 簡潔に特徴を表現可能 + CNNなど既存の画像処理モデルが利用可能 -

    長距離相互作用を入れにくい - リッチな連続情報を離散化する必要 • ベクター表現入力(ポリライン形式) + スパース + FOV(扱える範囲)が広い + 連続量を保持できる - モデルアーキテクチャーどうする?
  3. MultiPath (CoRL 2019) • ラスター画像からCNNを用いて自車中心の特徴量を作成 • 不確実性を2つに分解:「意図の不確実性」「制御の不確実性」 ◦ 「意図の不確実性」は複数のアンカー trajectoryによって表現

    ◦ 「制御の不確実性」は 1つのtrajectoryに沿った密度関数で表現 直進するか、左折するかは車の意図に よって決まるので、意図の不確実性 左折した場合にどのコースを通るかは 「制御の不確実性」の問題
  4. MultiPath++ (ICRA 2022) • MultiPathの進化版 • LSTMとCG(Context Gating, 下図参照)を使ってベクター情報をエンコード •

    出力はMultiPathと同様にGaussian Mixture Model (GMM)で複数trajectoryを出力 • CGモジュールの構造。CGはクロスアテンションの近似と考えることができ、より効率的に点の集合を扱う ことができるモジュールとして提案されている。
  5. WayFormer (ICRA 2023) • 構造がシンプル。encoder-decoder構造のtransformerにベクター情報を入力。 • 大規模データを扱うことができ、推論も高速に動作させることが可能。 ◦ 異なるモーダルの情報をどのタイミングで融合するか3つのパターン (late,

    early, hierarchical)を提案 ◦ 時系列×要素において、アテンションをどのようにかけるか 3つのパターンを提案 ◦ 求める精度と推論速度に応じてパターンの組み合わせを決定する attentionの3つのパターン 融合の3つのパターン
  6. WayFormerの入力 • 特徴量の形式 ◦ [A, T, S, D]という形のテンソル。 A:予測対象のエージェント数 ,

    T: 考慮する過去の時間 ステップ, S: 関わる別エージェントの集合サイズ , D: 特徴次元。 • 予測に使うことができる情報 ◦ 道路情報(road graph) ▪ [A, 1, S, D] Sは考慮する近傍のロードセグメント。時刻情報はなし。 ◦ 信号機の状態(traffic light state)情報(road graph) ▪ [A, T, S, D] Sは近傍の信号機、Dは信号機の状態と信頼度。 ◦ エージェント間の相互作用 (agent interactions) ▪ [A, T, S, D] Sは自車の動きに影響を与える他エージェント。 Dは相対速度や相対 位置情報。 ◦ エージェントの履歴(agent history) ▪ [A, T, 1, D] Dは相対速度や相対位置情報。
  7. JFP: Joint Future Prediction (CoRL 2022) • 車同士の相互作用をグラフィカルモデル (MRF)でモデル化 •

    Belief Propagation (MRFの近似的な尤度最大化手法 )を用いて推論を行う
  8. MotionLMの基本動作 • Sceneエンコーダによりベクター情報から各エージェント情報を Scene Embeddingとして獲得 • Scene Embeddingは各エージェントごとに独立して cross-attentionとして適用される •

    各推論ステップ(t)において、N個の経路の次のトークンの分布が出力されるのでサンプルする • これを繰り返してサンプルした複数の trajectoryに対して、NMSとk-meansで重複を排除する(後処理)
  9. 評価データ: Waymo Open Motion Dataset • Waymoが公開しているモーション予測のためのデータセット • 103k シーン

    (20s 10Hz)で 540時間のデータ • センサーデータはLidarのみ(画像はなし) • アメリカの6つの都市のデータ • 3次元Bounding Box情報 (Perception Dataで学習したモデルが付けたもの ) https://www.youtube.com/watch?v=cOFjqeBNN6g&t=2042s
  10. Ablation Study (1) • 相互作用の必要性を評価するために他車との attentionの頻度を減らす実験 • attention頻度が減るとminADEとminFDEが増大 している •

    軌跡の生成数(number of rollout)を変化させた時の mAPとMiss Rateの変化を評価 • 生成数が少ないとmAPとmiss rateは極端に悪くなる → Rolloutが少ないと多様な軌跡が生成されないからだ と考えられる
  11. 宣伝 • Vision LanguageモデルのHeronをリリースしました。 ◦ 様々なアダプタ、LLM、ビジョンエンコーダで V&Lモデ ルの学習が行えます! • レベル5自動運転技術を研究開発するリサーチャー、研究

    用のデータ基盤を構築するデータエンジニア、学習基盤であ るGPUクラスタ環境を整備するインフラエンジニアを募集し ています! • 東京にオフィス移転予定です! 現在開催中の JMSで展示中の「 Turing Machine Alpha」