Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【Elith開催】ITSC 2024論文発表ウェビナー

Elith
January 28, 2025
9

【Elith開催】ITSC 2024論文発表ウェビナー

「ITSC 2024 論文発表ウェビナー」は、交通システムの未来を探求する特別なオンラインイベントです。

開催期間は2024年12月2日から2025年1月23日までで、交通システムに関する最新の研究成果が発表されました。

このウェビナーは、交通システムの専門家や研究者が集まり、知識を共有し、議論を深める場となりました。

参加者は、最新の研究動向や技術革新について学び、交通システムの未来について考える貴重な機会を得ることができます。

Elith

January 28, 2025
Tweet

Transcript

  1. 自己紹介 2 下村 晃太@愛知 中部大学 工学研究科 博士後期課程1年 山下研究室 Elith :

    Computer Vision Researcher 研究テーマ • 安全な自律走行システムに関する研究 • 先進運転支援システムに関する研究 Interest • CV, VLM, 3DGS X : @Naruch11
  2. ITSCとは • ITSC : International Conference on Intelligent Transportation Systems

    ◦ 高度道路交通システム分野の主要国際会議 ◦ 交通システムの安全性、効率性、持続可能性を向上させるためのITSに関する議論が活発 • 主な採択テーマ ◦ 自動運転車とロボティクス交通管理 ◦ 制御システムコネクテッド交通 ◦ 自動化技術機械学習やAIのITSへの応用 ◦ 交通分野におけるセンシング、通信、ネットワーキング 4
  3. How to Extend the Dataset to Account for Traffic Risk

    Considering the Surrounding Environments Elith Co.,Ltd1 Honda R&D Co.,Ltd2 Chubu University3 K.Shimomura1,3, K.Inoue1, K.Ohmori1, R.Shimogauchi1, R.Mimura2, A.Ishikawa2, T.Kawabuchi2
  4. Background and Motivation 6 各地域の実情に合った実効性の⾼い対策が重要 - - - - -

    - Accident Analysis Traffic safety education Infrastructure improvement Development of laws Emergency medical care インフラが充実する地域 ADとADASにおける事故処理 インフラ整備が不十分な地域 交通安全の基盤を作ることが重要 インフラ整備や法整備
  5. Background and Motivation • 交通リスク分析のためのデータセットに必要な要素は4つ 9 ① 街路画像 ② 画像の位置情報(緯度・経度)

    ③ 道路環境情報 (車線の数,交差点までの距離など) この画像は、オハイオ州内にある道路である。道路脇に駐車車両が並んでいるため,この道 路を走行するドライバーは駐車車両から降車する人や駐車車両の間から飛び出してくる人に 注意が必要である.特に,この地域には子供が多いため,駐車車両の間から飛び出してくる 人に注意が必要である.これを避けるために駐車車両から離れて走行するべきであるが,対 向車線に進入しないようにしなければならない… ④ 交通リスクの説明文
  6. 先行研究の課題 10 Dataset PRD DoTA HDD BDD-X BDD-OID HAD DRAMA

    Rank2Tell Data Source cityscapes youtube Original Original bdd Original Original Original Risk Localization ✔ ✔ ✔ × × × × × Risk Caption × × × ✔ ✔ ✔ ✔ ✔ 動的リスク × ✔ ✔ ✔ ✔ ✔ ✔ ✔ 静的リスク ✔ × × × × ✔ ✔ ✔ 静的リスク の種類 Context Object Object Object Object Object Object Object 交通リスクの説明テキストが不足 位置情報データが不足 道路環境への着目なし
  7. 先行研究の課題 11 Dataset PRD DoTA HDD BDD-X BDD-OID HAD DRAMA

    Rank2Tell Data Source cityscapes youtube Original Original bdd Original Original Original Risk Localization ✔ ✔ ✔ × × × × × Risk Caption × × × ✔ ✔ ✔ ✔ ✔ 動的リスク × ✔ ✔ ✔ ✔ ✔ ✔ ✔ 静的リスク ✔ × × × × ✔ ✔ ✔ 静的リスク の種類 Context Object Object Object Object Object Object Object 交通リスクの説明テキストが不足 位置情報データが不足 道路環境への着目なし 街路画像における交通リスクのデータセットには,すべての要件を満たすものが存在しない
  8. 本研究の目的 • すべての要件をみたすデータセットの構築を⽬指す 13 Dataset PRD DoTA HDD BDD-X BDD-OID

    HAD DRAMA Rank2Tell Ours Data Source cityscapes youtube Original Original bdd Original Original Original Original Risk Localizatio n ✔ ✔ ✔ × × × × × ✔ Risk Caption × × × ✔ ✔ ✔ ✔ ✔ ✔ 動的リスク × ✔ ✔ ✔ ✔ ✔ ✔ ✔ × 静的リスク ✔ × × × × ✔ ✔ ✔ ✔ 静的リスク の種類 Context Object Object Object Object Object Object Object Context Object 構築すべきデータセット ① 街路画像(メタ情報として ②位置情報 ③道路環境情報) ④ 交通リスクの説明文
  9. Our Approach • 交通リスクの特定 ◦ 事故リスク予測モデルの作成 ◦ ⾼リスク地点の画像取得 • ⾼リスク地点のリスクの説明

    ◦ データセットの作成 ◦ BLIPの学習 14 Prompt 交通事故予測モデル XGBoost [Chen et al., 2016] 事故リスクマップ 高リスク地点の街路画像 画像+リスク説明のデータセット作成 BLIP [Li et al., 2022] リスク説明 Trained by Open-GIS Data 🔥 🔥
  10. Our Approach 交通リスクの特定 15 Prompt 交通事故予測モデル XGBoost [Chen et al.,

    2016] 事故リスクマップ 高リスク地点の街路画像 画像+リスク説明のデータセット作成 BLIP [Li et al., 2022] リスク説明 Trained by Open-GIS Data 🔥 🔥 危険地点の特定 現地調査を通した情報収集
  11. 交通事故リスク予測モデルの学習 • 使用データ 17 データ名 事故データ 道路ネットワーク 道路関連データ 地形 気象

    人口・経済統計 土地利用 POI • モデルの構築 • 道路ネットワークのエッジごとに事故リスクを推定 Open-GIS Data ަ௨ࣄނ༧ଌϞσϧ
  12. データセット作成時のプロンプト 20 # Context # Specifications # Example # Road

    information # Response $P5 [Wei+, Arxiv2022] # Context # Specifications # Road information Let’s think step by step # Response 'FXTIPU [Brown+, NeurIPS2020] ('$P5 0VST # Context # Specifications # Few chain of thought example # Road information Let’s think step by step # Response
  13. GPT4-Visionを⽤いたデータセット構築 21 # context 道路画像に基づいてSpecificationsに即した交 通のリスクを説明する役割を設定 DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI

     GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT  &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF  6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB  3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT  (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information  3PBE/FUXPSL  5FSSBJO  FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT
  14. GPT4-Visionを⽤いたデータセット構築 22 # context 道路画像に基づいてSpecificationsに即した交 通のリスクを説明する役割を設定 # Specifications 画像を参照した事故リスクの説明 動的リスクを考慮しない

    等 DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI  GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT  &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF  6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB  3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT  (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information  3PBE/FUXPSL  5FSSBJO  FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT
  15. GPT4-Visionを⽤いたデータセット構築 23 # context 道路画像に基づいてSpecificationsに即した交 通のリスクを説明する役割を設定 # Specifications 画像を参照した事故リスクの説明 動的リスクを考慮しない

    等 # Example 出⼒キャプション例の提⽰ DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI  GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT  &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF  6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB  3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT  (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information  3PBE/FUXPSL  5FSSBJO  FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT
  16. GPT4-Visionを⽤いたデータセット構築 24 # context 道路画像に基づいてSpecificationsに即した交 通のリスクを説明する役割を設定 # Specifications 画像を参照した事故リスクの説明 動的リスクを考慮しない

    等 # Example 出⼒キャプション例の提⽰ DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI  GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT  &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF  6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB  3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT  (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information  3PBE/FUXPSL  5FSSBJO  FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT # Road Information 画像周辺のGISデータ
  17. 25 # context 道路画像に基づいてSpecificationsに即した 交通のリスクを説明する役割を設定 # Specifications 画像を参照した事故リスクの説明 動的リスクを考慮しない 等

    # Example 出⼒キャプション例の提⽰ DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI  GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT  &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF  6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB  3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT  (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information  3PBE/FUXPSL  5FSSBJO  FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT # Road Information 画像周辺のGISデータ
  18. ࣮ݧ • τϨʔχϯά৚݅ ◦ Ϟσϧɿ#-*1- ◦ ࠷దԽख๏ "EBN8 ◦ CBUDI@TJ[F

     ◦ MS F ◦ FQPDIT ◦ %BUBTFUɿ)POEB%BUBTFU 26
  19. キャプションの評価 • ఆྔධՁͷධՁࢦඪ ◦ BERT-Score Recall ◦ BERT-Score Precision ◦

    BERT-Score F1 ◦ CLIP-Score 27 CLIP-Score [Hessel et al., 2021]で類似度評価 BERT-SCORE [Zhang et al., 2020]で類似度評価
  20. 定量的評価結果 28 データセット作成時のプロンプト BERT-Score Precision BERT-Score Recall BERT-Score F1 Few-shot

    0.8616 0.8879 0.8746 CoT 0.8520 0.8611 0.8565 GFCoT (Ours) 0.8774 0.8791 0.8783 ఏҊख๏Ͱߏஙͨ͠σʔληοτ͸#-*1Ͱߴਫ਼౓ʹ࠶ݱՄೳ
  21. 定量的評価結果 29 データセット作成時のプロンプト BERT-Score Precision BERT-Score Recall BERT-Score F1 Few-shot

    0.8616 0.8879 0.8746 CoT 0.8520 0.8611 0.8565 GFCoT (Ours) 0.8774 0.8791 0.8783 なぜ BERT-Score Recallが低いのか︖
  22. 定量的評価結果 30 データセット作成時のプロンプト BERT-Score Precision BERT-Score Recall BERT-Score F1 Few-shot

    0.8616 0.8879 0.8746 CoT 0.8520 0.8611 0.8565 GFCoT (Ours) 0.8774 0.8791 0.8783 データセット作成時に連鎖思考を促すことにより, BLIPの正解キャプションを再現する能⼒が低下した
  23. 定量的評価結果 31 データセット作成時のプロンプト BERT-Score Precision BERT-Score Recall BERT-Score F1 Few-shot

    0.8616 0.8879 0.8746 CoT 0.8520 0.8611 0.8565 GFCoT (Ours) 0.8774 0.8791 0.8783 データセット作成時に連鎖思考を促すことにより, BLIPの正解キャプションを再現する能力が低下した 仮説 • Few-shot では,画像情報をもとに説明される • 連鎖思考(CoT)を促すと,画像以外の情報も考慮して説明される
  24. 実験的な仮説検証 32 u 条件 • Few-shot, CoTで作成したデータセットを⽤いて実験 – データセット構築時にはGISデータは利⽤しない •

    街路画像と交通リスク説明⽂の間の類似度を計算 – 評価指標には CLIP-Score を採⽤ – 街路画像以外の情報をもとに説明されるほどCLIP-Scoreが低い CLIP-ScoreはFew-shotが⾼くなると考えられる
  25. 実験結果 33 データセット作成時のプロンプト Test-time prompt BERT-Score Recall CLIP-Score Few-shot -

    0.8934 0.2786 Few-shot 0.8544 - CoT 0.8232 - CoT - 0.8711 0.2524 Few-shot 0.8368 - CoT 0.8169 - 仮説通りFew-shotの⽅がCLIP-Scoreが⾼い CoTで⽣成したキャプションは連鎖思考によって画像から読む取ることが困難な⽂章表現になる
  26. Conclusion • インフラ改善を⾃動化するためのフレームワークを提案 • GISデータを⽤いて道路環境を考慮したデータセットを構築 ◦ GFCoTが最も有効 • 実験 ◦

    GFCoTを⽤いて⽣成したキャプションは⼩規模モデルのBLIPでも⾼精度で再現可能 ◦ 連鎖思考を促すことで画像情報に依存しない交通リスクの説明が可能 • 今後の課題 ◦ ⼤規模なデータセットを⽤いた網羅的な実験 ◦ GISデータをより正確に利⽤可能なフレームワークの構築 37
  27. 自動運転の技術開発を取り巻く環境:第3世代 42 https://arxiv.org/pdf/2401.12888 より 第3世代:コーナーケースの克服 (2023-) モダリティ:画像,LiDAR, マップ, 言語 タスク:物体検出,セグメンテー

    ション,白線検知,行動予測, 行動決定,言語説明 データ数:1000億km以上の走行データ 深層学習を利用して認知,予測,計画を一貫学習+状況を言語で説明 学習データに依存せず,コーナーケースに対応 *現時点では研究開発途上
  28. DriveLM: Driving with Graph Visual Question Answering [Shima+, CVPR WS

    Challenge, ECCV2024] 44 Graph Visual Question Answer (GVQA) 手法の提案 GVQAタスクのためのデータセットの提案 タスク定義:GVQAタスク • 各オブジェクト・タスク間の論理的な依存構造から自車両の安全な運転を計画 • 各タスク: Perception,Prediction,Planning,Behavior,Motion • GVQAグラフ:ドライバの意思決定プロセスをもとに構築 DriveLM-Agent モデル (VQAモデルはBLIP-2を採用) 学習時:Perception→Prediction →PlanningのVQAタスクを学習 • 子タスクは親タスクのVQA情報がコンテキストとして利用される 推論時:Perception→Prediction →Planning →Behavior→Motionで予測 • 最終的な運転計画は256個の離散トークンで表現 • Next Token Predictionとしてタスクが解ける
  29. ChatSim: Editable Scene Simulation for Autonomous Driving via LLM-Agent Collaboration

    [Wei+, CVPR2024] 46 LLMとMulti-camera NeRF (3DGS) を用いたシミュレーションシーンの生成 シミュレーションシーンをLLMとの対話により編集可能な手法 ChatSim の提案 ① ② ③ ① Project Managerがユーザからの指示をもとに,他のediting agentsに指示 ② 各editing agentsが役割に沿った処理を実行(editing agentsは2チーム: background generation / foreground generation) background generation:background rendering agentがview adjustment agentからの外部パラメータを用いてレンダリング画像 を作成し,Vehicle deleting agentがインペインティングを実行 foreground generation:foreground rendering agentがview adjustment agentからの外部パラメータ, 3D asset management agentからの選択された3Dアセット, vehicle motion agentからの生成されたオブジェクトのモーションを使用して画像をレンダ リング ※ 画像のレンダリングにはMulti-camera NeRF (or 3DGS) を用いる ③ 前景画像と背景画像を合成して動画を作成 ChatSimによるシーンの編集例
  30. Panacea: Panoramic and Controllable Video Generation for Autonomous Driving [Yang+,

    CVPR2024] 47 物体の位置指定やシーンの言語記述による任意の新規視点生成 Latet Diffusionを活用したマルチビューシナリオ生成手法の提案 a. 4D Attentionモジュールを持つDiffusionモデルの学習 b. 4D Attentionモジュールは3つの機能を持つ • 各ビュー内の空間的処理 • 隣接するビューにまたがる空間的処理 • フレーム間の時間的処理 c. 動画生成に用いる制御モジュール • 前フレームはdiffusion noiseとして利用 • テキストはCLIP Encoderを通し言語による条件付けとして利用 • 鳥瞰図はControlNetを通しレイアウトによる条件付けとして利用 物体・位置の条件付き予測 シーンの言語条件付き予測
  31. HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [Zhou+,

    CVPR2024] 48 静的・動的3D Gaussian Splatting を組み合わせた走行シーンの再構成手法 ジオメトリ、アピアランス、セマンティクス、モ ーションを共同で最適化 ① 動画データに対し,学習済みモデルを用いてOptical Flow, Semantic Map, 3D Trackingの予測結果を生成 ② シーンを静的領域とN個の剛体的に動く動的オブジェクトに分解し,3D Gaussianによって表現 • 異なるパラメータを持つUnicycle Model を用いてN個の動的オブジェクトのMotionを表現 • 各3D Gaussianは外観とSemanticな情報を含み,Optical FlowはGaussian中心の動きから計算 ③ 統一された一つのモデル内でRGB画像, Semantic Map, Optical Flowのレンダリングを実現 新規視点生成 他手法との比較 ① ② ③
  32. 従来研究:プロンプトエンジニアリング 51 ## Context ## Specifications ## Response 'FXTIPU$P5 [Wei+,

    Arxiv2022] 'FXTIPU[Brown+, NeurIPS2020] ;FSPTIPU$P5 [Kojima+, NeurIPS2022] ## Context ## Specifications Let’s think step by step. ## Response ## Context ## Specifications ## Few examples ## Response ## Context ## Specifications ## Few chain of thought examples ## Response ;FSPTIPU [Wei+, Arxiv2022] 回答例を記載 複雑な推論をで きるように 複雑な推論をで きるように 回答例を記載
  33. Feature Details • 静的リスクの生成に用いたGIS特徴量 52 Road Structure Information Categories of

    Expressway Presence or absence of central reservation Pavement type of side road Number of traffic lanes Slope direction Distance from intersection Specified truck route