自動運転開発の実験管理とKagglerたちの実験管理術

⾃動運転開発の実験管理と Kagglerたちの実験管理術チューリング株式会社岩政公平 W&Bミートアップ 2025/03/27

• 岩政公平 • チューリング株式会社 E2E⾃動運転チーム MLエンジニア ◦ 2022年8⽉~ インターン
◦ 2023年4⽉~ ⼊社⾃⼰紹介

Agenda • 会社紹介 • End-to-End⾃動運転チームの実験管理 • Kagglerたちの実験管理術

会社概要名称  Turing株式会社創業  2021年8⽉20⽇   事業内容  完全⾃動運転AIの開発本社所在地  東
京都品川区⼤崎 1 丁⽬ 11−2 ゲートシティ⼤崎イースト棟4階資本金  3000万円（累計70億円調達）社員数  社員数 92 名 (正社員66名、アルバイト‧インターン26名)

チューリングのAI開発 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤物体検出マップ予測
運動予測占有率予測⾏動計画 BEV特徴 E2Eチーム: 単⼀のモデルで画像を⼊⼒に⾏動計画を⾏うモデルの開発基盤AIチーム: 特に困難な状況に対応するためのモデルの開発視覚-⾔語モデル⽣成的世界モデル画像では、⼯事現場の近くにある交差点で、⽩いヘルメットをかぶった男性が、交通整理をしています。この男性は交通の流れを管理し、事故を防ぎ、すべての道路利⽤者の安全を確保する責任があります。

⽇本語VLMベンチマーク: Heron-Bench ⽇本語VLMのベンチマーク • ⽇本特有の画像や⽂化理解に関する質問 • CVPR 2024 The 3rd
Workshop on Computer Vision in the Wildに採択 Heron-VLM Leaderboardの公開 • W&B様と技術協⼒して⽇本語VLMのリーダボードを整備！ • Heron-Bench, LLaVA-Bench (in-the-wild) を⽤いた⾃動評価

Heron-Benchを⽤いた開発 Q. この建物は何⾊でしょうか？

Heron-Benchを⽤いた開発 🤖「この建物は⾦⾊です。」

Heron-Benchを⽤いた開発 W&B上でVLMの推論結果やスコアが確認できる！

Heron-Benchを⽤いた開発リーダーボード機能も⽤いることで他のモデルとの相対評価も可能に！ https://zenn.dev/turing_motors/articles/bf84fad186a23b

E2E⾃動運転チームの実験管理

Tokyo30 2025年末までに、カメラと AIだけで東京エリアを30分以上介入なしで走行し続ける自動運転モデルを開発します

チューリングが開発しているE2Eモデル 2025/03現在のモデル • カメラ画像のみで学習‧推論 • データ量は約1,000時間 • 学習はH100 48枚で1週間

E2Eモデル開発まで必要なことデータ収集⾞アノテーションデータ準備モデル学習 • センサ構成決め • センサの配置 •
キャリブレーション • 収集⾞の施⼯ • メンテナンス • 異常データ検知 • データアップロード • ⾛⾏ルート⽣成 • データ正規化 • メタデータ付与 • キャプショニング • 埋め込みベクトル化 • データバリデーション • 学習データセット作成ツール • 2次元物体ラベル • 3次元物体ラベル • ベクターマップ • 占有状態 • オートラベリング • E2Eモデル開発 • E2Eモデル学習 • 実験管理 • SDK • 可視化ツール • モデルデプロイ • リアルタイム推論 • 制御など⾞両クラウド上モデル運⽤

何の実験を管理するか • データセットの管理 • モデルの管理

データセットの管理 • 学習するデータセットも様々なパターンで作成するため再現性の担保 • オートラベリングなどはキャッシュすることで同じ計算を複数⾏わない • 各データセットの詳細(e.g., シーン数, ⾛⾏場所)はNotion上で管理 https://www.youtube.com/watch?v=_S1q6c-2if4
詳細なデータレイク設計はこちら

モデル学習の管理 • 評価値や可視化動画をW&B上で管理 (特に動画を⽐較できるのがいい👍) • 学習したモデルの重み実験コードと共にはオンラインストレージ上で管理学習ログ動画での可視化

uvを⽤いたモデル連携 • モデルに応じて必要な前処理‧⼊出⼒‧後処理が異なる • ⾛⾏実験中に複数モデルを変更可能な状態にしたいモデルとその処理を含めて1つのパッケージとしてビルドしておく！学習環境デプロイ環境 workspaces機能でモノレポっぽい開発⾃動運転システム
pip install build / push - [email protected] - [email protected] - [email protected] - 前処理 - 後処理 - 学習 - 評価など - 前処理 - 後処理 - モデル最適化 - ONNX などテストプライベートPyPIサーバー

どのデータ、どのモデルの組み合わせがいいのか知るには

どのデータ、どのモデルの組み合わせがいいのか知るには正しい評価指標が必要

運転ポリシーの評価オープンループ評価 • 実際のデータを⽤いて⾃動運転システムが実際の⾛⾏データとどれだけ誤差なく同様の操作ができているかを評価 • e.g., 将来の予測運転軌道と実際の運転軌道との回帰誤差クローズドループ評価 •
シミュレータなどを⽤いて、⾃⾞と他の交通エージェントの⾏動がタイムステップごとに相互作⽤するような世界で⾛⾏能⼒を評価 • e.g., 衝突性, ルートの逸脱性, 交通ルールの厳守性正解点列予測点列

これらの評価は相関しない Codevilla+ (2018), “On Oﬄine Evaluation of Vision-based Driving Models,
ECCV 2018.より引⽤オープンループ評価クローズドループ評価 👍 👎 👍 👎 • Codevillaら [ECCV18] はシミュレータを⽤いて、オープンループ評価で同じスコアのモデルでも実際の運転性能に⼤きな違いがあると⽰した • 我々の経験則にも⼀致⾚枠はオープンループ評価では⾼精度なもののクローズドループ評価による運転性能が悪い緑点線はオープンループ評価は同じもののミュレータを⽤いたクローズドループ評価による運転性能は⼤きく異なる

E2Eモデルは運転性能評価が難しい様々なギャップと評価の困難さがある • シミュレーションと現実世界のドメインギャップ • オープンループ評価とクローズドループ評価のギャップ • クローズドループ評価の定量評価をどうするか • 複数の指標のうち、どの指標を最適化するのが望ましいか
複数のモデルの実験管理と再現性の困難さがある • ⾃動運転システム⾃体の更新に対する再現性の担保 • 現実世界では同じ現象に⼆度と遭遇しない • 複数のモデルを効率的にシステムに組み込むかなど

解決策シミュレータを活⽤する • CARLAやMetaDriveを活⽤した簡易的な運転性能の評価 • 制御システムを介して⾛⾏実際に⾞両にデプロイ • 予測結果に問題なければ実際に⾞両にモデルを載せて⾛⾏させる
• リアルタイム推論が必要なためモデルの推論速度に制限あり ◦ 量⼦化やTensorRT化などのモデル最適化を⾏う • ⾛⾏ログを残し机上で再現を⾏うシステムも構築 (モデルを差し替えも可能) MetaDrive https://github.com/metadriverse/metadrive

将来的な解決策: データ駆動のシミュレータ NAVSIM [Dauner+ NeurIPS2024] • 実際の⾛⾏データを⽤いた⾮反応型のシミュレータの活⽤ • 中間的な評価⽅法で、クローズドループ評価に⽐較的相関する https://www.youtube.com/watch?v=Qe76HRmPDe0
Dauner+ (2024), “NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking”, NeurIPS 2024. https://opendrivelab.com/challenge2024/#end_to_end_driving_at_scale CVPR 2024/2025ではWorkshop competitionも開催

将来的な解決策: 世界モデル動画と予測経路を⼊⼒に将来の動画を⽣成⽣成的世界モデル: Terra • シミュレーションと現実のギャップを減らすために世界モデルを活⽤したい • 動画⽣成に時間がかかり、また複数のセンサシミュレーションにも課題

Kagglerの実験管理術

合わせてコンペメダル⾦28枚銀52枚銅16枚！チューリングのKaggler

Kagglerアンケート以下についてアンケートしました！ • コンペで⼀番使っている実験管理サービスは何ですか？(e.g., W&B, MLFlow) • 環境構築には何を使いますか？ (e.g., uv,
Poetry) • ⼀番使っている深層学習フレームワークは何ですか？ ◦ 画像認識タスクで使っている深層学習フレームワークは何ですか？ ◦ NLPタスクで使っている深層学習フレームワークは何ですか？ • Kaggleでの実験スタイルは何ですか？(e.g., 1実験1スクリプト) • Kaggleでチームでの実験管理するときに気をつけていることはありますか？

⼀番使っている実験管理サービスは何ですか W＆B スプレッドシート

環境構築には何を使いますか？ uv venv + poetry venv + pip

画像タスクで使う深層学習フレームワークは PyTorch 物体検出はmmdet。それ以外はフレームワークの機能をフルで使うことはあまりない。拡散モデルの学習の際に⼀部機能だけDiﬀusersを使⽤する。画像分類などはPyTorch。物体検出系はmmdet, detectron2, Transformers を使う。 GitHubのコード (YOLOX
や Grounded-SAMとか) を直接使うことも多い。 Semantic segmentationはSegmentation Models PyTorch (SMP) を使う。 PyTorch 。画像分類などでしか画像タスクをやったことがない。 PyTorch Lightning (pl) をメインで使う。Semantic segmentationならSMP+ pl。 Instance segmentationならmmdet、物体検出ならそのモデルに合わせる(e.g., YOLOX)

NLPタスクで使う深層学習フレームワークは Keras Transformersを使うことが多いが、trainerは使わない。学習部分は⽣PyTorch Transformersを使う。Trainerを使う。 PyTorch, Transformers Transformersをメインで使う。最近はTrainerも使う。

実験スタイルは何ですか commit ID+conﬁgスクリプト 1実験1スクリプト 1実験1スクリプトを⼼がけている。実験増えてくるとスプレッドシートで実験名とスコアをまとめる。 1実験1スクリプト 1実験1スクリプト。汎⽤的に使うコードはmoduleとして分けておく。

チームでの実験管理に気をつけていることは実験にモデル番号と名前をつけて他のメンバーが⾒ても何のログか分かるようにしている。実験の再現をしやすいようにどのような環境でどのような設定で実験を⾏なっていたかは記録するようにしている。環境構築。他メンバーのコード実⾏できるように、ライブラリのバージョンをチーム内でできるだけそろえる。何もない気がする。最初は⾊々揃えた⽅が良いと思っていたが、直近のKaggleだと「うんうん、それも多様性だよね」という考えになった。コンペならインターフェイスや評価⽅法を揃える(出⼒csvは揃える、foldは揃えない)。 Submit時は、それぞれの推論コードは%%pythonでセルごとに管理する。
業務ならlinterをつける。特に最近はjaxtypingでテンソルのshapeの型付けするのが好き。

イベント情報 Kaggler向けイベントを⾏います！connpassで申し込みお願いします！ https://turing.connpass.co m/event/347982/

応募待っています！(カジュアル⾯談も！) • MLエンジニア（⾃動運転エンジニア‧リサーチャー） • ソフトウェアエンジニア (プラットフォーム / MLOps) • ⾞やセンサが好きな⼈‧運転が上⼿い⼈
• GPU使うことが好きな⼈などなど＼インターン‧新卒も！∕

自動運転開発の実験管理とKagglerたちの実験管理術

自動運転開発の実験管理とKagglerたちの実験管理術

Kohei Iwamasa

More Decks by Kohei Iwamasa

Featured

Transcript

⾃動運転開発の実験管理と Kagglerたちの実験管理術チューリング株式会社岩政公平 W&Bミートアップ 2025/03/27

• 岩政公平 • チューリング株式会社 E2E⾃動運転チーム MLエンジニア ◦ 2022年8⽉~ インターン

Agenda • 会社紹介 • End-to-End⾃動運転チームの実験管理 • Kagglerたちの実験管理術

会社概要名称  Turing株式会社創業  2021年8⽉20⽇   事業内容  完全⾃動運転AIの開発本社所在地  東

チューリングのAI開発 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤物体検出マップ予測

⽇本語VLMベンチマーク: Heron-Bench ⽇本語VLMのベンチマーク • ⽇本特有の画像や⽂化理解に関する質問 • CVPR 2024 The 3rd

Heron-Benchを⽤いた開発 Q. この建物は何⾊でしょうか？

Heron-Benchを⽤いた開発 🤖「この建物は⾦⾊です。」

Heron-Benchを⽤いた開発 W&B上でVLMの推論結果やスコアが確認できる！

Heron-Benchを⽤いた開発リーダーボード機能も⽤いることで他のモデルとの相対評価も可能に！ https://zenn.dev/turing_motors/articles/bf84fad186a23b

E2E⾃動運転チームの実験管理

Tokyo30 2025年末までに、カメラと AIだけで東京エリアを30分以上介入なしで走行し続ける自動運転モデルを開発します

チューリングが開発しているE2Eモデル 2025/03現在のモデル • カメラ画像のみで学習‧推論 • データ量は約1,000時間 • 学習はH100 48枚で1週間

E2Eモデル開発まで必要なことデータ収集⾞アノテーションデータ準備モデル学習 • センサ構成決め • センサの配置 •

何の実験を管理するか • データセットの管理 • モデルの管理

モデル学習の管理 • 評価値や可視化動画をW&B上で管理 (特に動画を⽐較できるのがいい👍) • 学習したモデルの重み実験コードと共にはオンラインストレージ上で管理学習ログ動画での可視化

どのデータ、どのモデルの組み合わせがいいのか知るには

どのデータ、どのモデルの組み合わせがいいのか知るには正しい評価指標が必要

これらの評価は相関しない Codevilla+ (2018), “On Oﬄine Evaluation of Vision-based Driving Models,

解決策シミュレータを活⽤する • CARLAやMetaDriveを活⽤した簡易的な運転性能の評価 • 制御システムを介して⾛⾏実際に⾞両にデプロイ • 予測結果に問題なければ実際に⾞両にモデルを載せて⾛⾏させる

Kagglerの実験管理術

合わせてコンペメダル⾦28枚銀52枚銅16枚！チューリングのKaggler

Kagglerアンケート以下についてアンケートしました！ • コンペで⼀番使っている実験管理サービスは何ですか？(e.g., W&B, MLFlow) • 環境構築には何を使いますか？ (e.g., uv,

⼀番使っている実験管理サービスは何ですか W＆B スプレッドシート

環境構築には何を使いますか？ uv venv + poetry venv + pip

NLPタスクで使う深層学習フレームワークは Keras Transformersを使うことが多いが、trainerは使わない。学習部分は⽣PyTorch Transformersを使う。Trainerを使う。 PyTorch, Transformers Transformersをメインで使う。最近はTrainerも使う。

イベント情報 Kaggler向けイベントを⾏います！connpassで申し込みお願いします！ https://turing.connpass.co m/event/347982/

応募待っています！(カジュアル⾯談も！) • MLエンジニア（⾃動運転エンジニア‧リサーチャー） • ソフトウェアエンジニア (プラットフォーム / MLOps) • ⾞やセンサが好きな⼈‧運転が上⼿い⼈