Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自動運転開発の実験管理とKagglerたちの実験管理術

Avatar for Kohei Iwamasa Kohei Iwamasa
March 27, 2025
290

 自動運転開発の実験管理とKagglerたちの実験管理術

Avatar for Kohei Iwamasa

Kohei Iwamasa

March 27, 2025
Tweet

More Decks by Kohei Iwamasa

Transcript

  1. 会社概要 名称
 Turing株式会社 創業
 2021年8⽉20⽇ 
 事業内容
 完全⾃動運転AIの開発 本社所在地
 東

    京 都 品 川 区 ⼤ 崎 1 丁 ⽬ 11−2 ゲートシティ⼤崎 イースト棟4階 資本金
 3000万円(累計70億円調達) 社員数
 社 員 数 92 名 (正社員66名、アルバイト‧インターン26名)
  2. チューリングのAI開発 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ 物体検出 マップ予測

    運動予測 占有率予測 ⾏動計画 BEV特徴 E2Eチーム: 単⼀のモデルで画像を⼊⼒に⾏動計画を⾏うモデルの開発 基盤AIチーム: 特に困難な状況に対応するためのモデルの開発 視覚-⾔語モデル ⽣成的世界モデル 画像では、⼯事現場の近くにある 交 差 点 で、 ⽩ いヘルメットをか ぶった男性が、交通整理をしてい ます。この男性は交通の流れを管 理し、事故を防ぎ、すべての道路 利⽤者の安全を確保する責任があ ります。
  3. ⽇本語VLMベンチマーク: Heron-Bench ⽇本語VLMのベンチマーク • ⽇本特有の画像や⽂化理解に関する質問 • CVPR 2024 The 3rd

    Workshop on Computer Vision in the Wildに採択 Heron-VLM Leaderboardの公開 • W&B様と技術協⼒して⽇本語VLMの リーダボードを整備! • Heron-Bench, LLaVA-Bench (in-the-wild) を⽤いた⾃動評価
  4. E2Eモデル開発まで必要なこと データ収集⾞ アノテーション データ準備 モデル学習 • センサ構成決め • センサの配置 •

    キャリブレーション • 収集⾞の施⼯ • メンテナンス • 異常データ検知 • データアップロード • ⾛⾏ルート⽣成 • データ正規化 • メタデータ付与 • キャプショニング • 埋め込みベクトル化 • データバリデーション • 学習データセット作成 ツール • 2次元物体ラベル • 3次元物体ラベル • ベクターマップ • 占有状態 • オートラベリング • E2Eモデル開発 • E2Eモデル学習 • 実験管理 • SDK • 可視化ツール • モデルデプロイ • リアルタイム推論 • 制御     など ⾞両 クラウド上 モデル運⽤
  5. 運転ポリシーの評価 オープンループ評価 • 実際のデータを⽤いて⾃動運転システムが実際の⾛⾏データと どれだけ誤差なく同様の操作ができているかを評価 • e.g., 将来の予測運転軌道と実際の運転軌道との回帰誤差 クローズドループ評価 •

    シミュレータなどを⽤いて、⾃⾞と他の交通エージェントの⾏動が タイムステップごとに相互作⽤するような世界で⾛⾏能⼒を評価 • e.g., 衝突性, ルートの逸脱性, 交通ルールの厳守性 正解点列 予測点列
  6. これらの評価は相関しない Codevilla+ (2018), “On Offline Evaluation of Vision-based Driving Models,

    ECCV 2018.より引⽤ オープンループ評価 クローズドループ評価 👍 👎 👍 👎 • Codevillaら [ECCV18] はシミュレータを⽤いて、オープンループ評価で 同じスコアのモデルでも実際の運転性能に⼤きな違いがあると⽰した • 我々の経験則にも⼀致 ⾚枠はオープンループ評価では ⾼精度なもののクローズドループ 評価による運転性能が悪い 緑点線はオープンループ評価は 同じもののミュレータを⽤いた クローズドループ評価による 運転性能は⼤きく異なる
  7. E2Eモデルは運転性能評価が難しい 様々なギャップと評価の困難さがある • シミュレーションと現実世界のドメインギャップ • オープンループ評価とクローズドループ評価のギャップ • クローズドループ評価の定量評価をどうするか • 複数の指標のうち、どの指標を最適化するのが望ましいか

    複数のモデルの実験管理と再現性の困難さがある • ⾃動運転システム⾃体の更新に対する再現性の担保 • 現実世界では同じ現象に⼆度と遭遇しない • 複数のモデルを効率的にシステムに組み込むか など
  8. 解決策 シミュレータを活⽤する • CARLAやMetaDriveを活⽤した 簡易的な運転性能の評価 • 制御システムを介して⾛⾏ 実際に⾞両にデプロイ • 予測結果に問題なければ実際に⾞両にモデルを載せて⾛⾏させる

    • リアルタイム推論が必要なためモデルの推論速度に制限あり ◦ 量⼦化やTensorRT化などのモデル最適化を⾏う • ⾛⾏ログを残し机上で再現を⾏うシステムも構築 (モデルを差し替えも可能) MetaDrive https://github.com/metadriverse/metadrive
  9. 将来的な解決策: データ駆動のシミュレータ NAVSIM [Dauner+ NeurIPS2024] • 実際の⾛⾏データを⽤いた⾮反応型のシミュレータの活⽤ • 中間的な評価⽅法で、クローズドループ評価に⽐較的相関する https://www.youtube.com/watch?v=Qe76HRmPDe0

    Dauner+ (2024), “NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking”, NeurIPS 2024. https://opendrivelab.com/challenge2024/#end_to_end_driving_at_scale CVPR 2024/2025ではWorkshop competitionも開催
  10. Kagglerアンケート 以下についてアンケートしました! • コンペで⼀番使っている実験管理サービスは何ですか?(e.g., W&B, MLFlow) • 環境構築には何を使いますか? (e.g., uv,

    Poetry) • ⼀番使っている深層学習フレームワークは何ですか? ◦ 画像認識タスクで使っている深層学習フレームワークは何ですか? ◦ NLPタスクで使っている深層学習フレームワークは何ですか? • Kaggleでの実験スタイルは何ですか?(e.g., 1実験1スクリプト) • Kaggleでチームでの実験管理するときに気をつけていることはありますか?
  11. 画像タスクで使う深層学習フレームワークは PyTorch 物体検出はmmdet。それ以外はフレームワークの機能をフルで使うことはあまりない。 拡散モデルの学習の際に⼀部機能だけDiffusersを使⽤する。 画像分類などはPyTorch。物体検出系はmmdet, detectron2, Transformers を使う。 GitHubのコード (YOLOX

    や Grounded-SAMとか) を直接使うことも多い。 Semantic segmentationはSegmentation Models PyTorch (SMP) を使う。 PyTorch 。画像分類などでしか画像タスクをやったことがない。 PyTorch Lightning (pl) をメインで使う。Semantic segmentationならSMP+ pl。 Instance segmentationならmmdet、物体検出ならそのモデルに合わせる(e.g., YOLOX)