Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成 AI を用いた航法の概観 A Survey of Navigation Techniqu...

godel
October 31, 2024

生成 AI を用いた航法の概観 A Survey of Navigation Techniques Utilizing Generative AI

生成 AI の技術が急速に発展し、大規模言語モデル (LLM)や視覚言語モデル(VLM)を基盤とした AI エージェントの開発が進んでいる。本稿では、LLM および VLM を 航法システムに適用した最新の研究を概観し、自律移動シ ステム(Autonomous Mobility System; AMS)への今後の 応用可能性を検討する

測位航法学会 GPS/GNSSシンポジウム2024

The technology of generative AI is developing rapidly, with AI agents based on large-scale language models (LLMs) and visual language models (VLMs). This paper reviews the latest research on the application of LLMs and VLMs to navigation systems and examines their potential future application to Autonomous Mobility Systems (AMS).

Institute of Positioning, Navigation and Timing Japan GPS/GNSS Symposium 2024

godel

October 31, 2024
Tweet

More Decks by godel

Other Decks in Technology

Transcript

  1. Robot Navigation • ロボットの定位は、参照フレーム内でロボット が自身の位置と姿勢を確立する能力を示す。 経 路計画は、ロボットの現在位置と目標地点の位 置を、同じ参照フレームまたは座標内で決定す る必要があるという点で、事実上ローカライ ゼーションの拡張です。

    マップ構築は、メト リックマップの形でも、ロボットの参照フレー ム内の位置を記述する任意の表記でもかまいま せん。 • どのようなモバイルデバイスにとっても、その 環境でナビゲートする能力は重要です。 衝突や 危険な状況 (温度、放射線、天候への露出など) を避けることが第一ですが、ロボットがロボッ ト環境内の特定の場所に関連する目的を持って いる場合、それらの場所を見つけなければなり ません。 この記事では、ナビゲーションのスキ ルの概要を紹介し、ロボットのナビゲーション システムの基本ブロック、ナビゲーション シス テムの種類、および関連する構成要素を詳しく 見ていきます。 • ロボットのナビゲーションとは、ロボットが参 照フレームの中で自身の位置を決定し、ある目 標地点に向かう経路を計画する能力を意味しま す。 環境をナビゲートするために、ロボットや 他の移動装置は、表現、すなわち環境の地図と その表現を解釈する能力を必要とする。 • ナビゲーションは、次の3つの基本的な能力の組 み合わせとして定義することができます:[1]。 1. セルフ・ローカライゼーション 2. パス・プランニング (英語) 3. 地図構築と地図解釈。 https://en.wikipedia.org/wiki/Robot_navigation (日本語訳)
  2. Robot Navigation(拡大解釈) • ロボットの定位は、参照フレーム内でロボット が自身の位置と姿勢を確立する能力を示す。 経 路計画は、ロボットの現在位置と目標地点の位 置を、同じ参照フレームまたは座標内で決定す る必要があるという点で、事実上ローカライ ゼーションの拡張です。

    マップ構築は、メト リックマップの形でも、ロボットの参照フレー ム内の位置を記述する任意の表記でもかまいま せん。 • どのようなモバイルデバイスにとっても、その 環境でナビゲートする能力は重要です。 衝突や 危険な状況 (温度、放射線、天候への露出など) を避けることが第一ですが、ロボットがロボッ ト環境内の特定の場所に関連する目的を持って いる場合、それらの場所を見つけなければなり ません。 この記事では、ナビゲーションのスキ ルの概要を紹介し、ロボットのナビゲーション システムの基本ブロック、ナビゲーション シス テムの種類、および関連する構成要素を詳しく 見ていきます。 • ロボットのナビゲーションとは、ロボットが参 照フレームの中で自身の位置を決定し、ある目 標地点に向かう経路を計画する能力を意味しま す。 環境をナビゲートするために、ロボットや 他の移動装置は、表現、すなわち環境の地図と その表現を解釈する能力を必要とする。 • ナビゲーションは、次の3つの基本的な能力の組 み合わせとして定義することができます:[1]。 1. セルフ・ローカライゼーション 2. パス・プランニング (英語) 3. 地図構築と地図解釈。 https://en.wikipedia.org/wiki/Robot_navigation (日本語訳) 拡大解釈して、 衝突や測位を安定化するための、モーションコントロールも入 る。 例) 障害を避けるためにステアリングを切る、停止する、後退する 測位をキャリブレーションするために停止する(ZUPT)、対 地速度一定で移動する(VUPT)、方位角をキャリブレーショ ンするために一定の旋回を繰り返す
  3. Robot Navigation (拡大解釈) • ロボットの定位は、参照フレーム内でロボット が自身の位置と姿勢を確立する能力を示す。 経 路計画は、ロボットの現在位置と目標地点の位 置を、同じ参照フレームまたは座標内で決定す る必要があるという点で、事実上ローカライ

    ゼーションの拡張です。 マップ構築は、メト リックマップの形でも、ロボットの参照フレー ム内の位置を記述する任意の表記でもかまいま せん。 • どのようなモバイルデバイスにとっても、その 環境でナビゲートする能力は重要です。 衝突や 危険な状況 (温度、放射線、天候への露出など) を避けることが第一ですが、ロボットがロボッ ト環境内の特定の場所に関連する目的を持って いる場合、それらの場所を見つけなければなり ません。 この記事では、ナビゲーションのスキ ルの概要を紹介し、ロボットのナビゲーション システムの基本ブロック、ナビゲーション シス テムの種類、および関連する構成要素を詳しく 見ていきます。 • ロボットのナビゲーションとは、ロボットが参 照フレームの中で自身の位置を決定し、ある目 標地点に向かう経路を計画する能力を意味しま す。 環境をナビゲートするために、ロボットや 他の移動装置は、表現、すなわち環境の地図と その表現を解釈する能力を必要とする。 • ナビゲーションは、次の3つの基本的な能力の組 み合わせとして定義することができます:[1]。 1. セルフ・ローカライゼーション 2. パス・プランニング (英語) 3. 地図構築と地図解釈。 https://en.wikipedia.org/wiki/Robot_navigation (日本語訳) 拡大解釈して、 ローカライゼーションや参照フレームは、ユークリッド座標系 でなくても良い。 例) 手書きの地図、略地図 グラフマップ(目標位置のラベルをノードとした連接関係) 言語による記述
  4. AI(エージェント)の定義 • ユーザ入力やセンサ等で外部の環境を計測把握し、そのデータ を認識しつつ、ある制約の中で最尤の方策を選択し、自機の機 構若しくは出力機器を介し、環境に対して情報を制御しつつ出 力することが可能な情報処理システム 外部環境 事前知 識 制約

    評価基 準 方策選択 行動決定 情報処理 制御 ユーザ出 力/情報 提示機器 /アク チュエー タ 情報処理 認識 ユーザ入 力/セン サ AIエージェント 航法エージェントは、以下のAIエージェントからの派生として定義した
  5. AI研究初学者と異分野研究者のためのAI研究の俯瞰図 (人工知能学会) ※黒枠が各AIの分野 AIと自律ロボット(移動システム)の関係 環境 事前知識 制約 評価基準 方策選択 行動決定

    情報処理 制御 アクチュエータ 情報提示機器 情報処理 認識 センサ ロボット ロボットのアーキテクチャ (ロボティクスの多くの論文で採 用) AIの 関連分 野 重 ね て み る AI技術者は、問題を抽象化し、最適化・確率・論理 手法を横断的に検討し、最適なアルゴリズムを創る能 力にたけているため、問題を共有し、供創するのがベ スト 高度自律化 群協調制御 人との協調/知的MMI • AIと自律ロボットのメタアーキテクチャはほぼ同じ • 自律ロボットも、知能を持ったAIシステム(AIエー ジェント)として捉えられる • 本稿では自律ロボットもAIシステムとして扱う
  6. 自律ロボット⊂自律移動システム https://www.jamstec.go.jp/maritec/j/development/auv/ 次世代型巡航探査機(JAMSTEC) 自動運転車(Waymo) https://waymo.com/ 陸海(海中)空の自律ロボット ドローン(DJI) https://enterprise.dji.com/jp Maritime RobotX

    Challenge http://robotx.osaka/ja/about/ https://k-tai.watch.impress.co.jp/docs/news/641086.html 歩行者ナビ 視覚障害者ナビゲーションシステム https://www.tokyometro.jp/news/2021/209156.html ロボット以外のサービス
  7. preencoded.png 航法システムの機能分類 航法システム(Navigation System; NS)は、自己位置および姿勢角を推定し、その結果に基づいて移動方向と姿勢の変化を計算するシ ステムです。AMSにおいては、航法システムの機能を階層的に分類できます。 大域航法 AMSの広域目的地までの経路計画を行 い、位置推定や誘導制御を含む意思決 定を担います。

    小域(ローカルエリア)航法 周囲の環境に基づき、目標物や障害物 の相対位置を推定し、小域での経路計 画や障害物回避の行動計画を行います 。 センサフュージョン 大域・小域航法の両方において、AMS 搭載センサの情報を統合し、精度の高 い自己位置および姿勢角の推定を行い ます。
  8. 航法システムの機能分類 外部環境 事前知 識 制約 評価基 準 モーションプ ラン選択 モーションプ

    ログラム生成 情報処理 機構制御 ユーザ出 力/情報 提示機器 /アク チュエー タ 情報処理 位置姿勢推定 ユーザ入 力/セン サ 航法エージェント センサフュージョン 小域航法 大域航法
  9. preencoded.png 航法における生成AIの適用 LLMおよびVLM(L&VLM)を用いた生成AIの手法を対象に、航法システムへの応用を分類します。 大域航法への適用 生成AIは、航法用AIエージェントと して統合的な意思決定を担います。 学習によって得られた知識を活用し 、環境変化へのロバスト性の高い経 路計画や目的地の再設定を行います 。また、速度優先や直線移動優先な

    ど、柔軟な行動計画が可能となりま す。 小域航法への適用 生成AIは、基盤モデルの知識を活用 し、目標物や障害物の認識精度を高 めます。強化学習によるモーション プログラムを利用することで、動的 環境に適応し、AMSの姿勢変化を適 切に制御します。 センサフュージョンへの適 用 深層学習を活用し、各センサ情報を 同一の潜在空間に埋め込むことで、 統一的な情報処理が可能となります 。これにより、各センサの特性を補 完し合い、ロバストな自己位置推定 を実現します。
  10. 現在の測位システムでは、複数の航法の長所及び短所を組合せ、これらを複合的に 用いることにより、全体として高精度で冗長的なシステムとしている。 その組合せや補正技術は、適用するプラットフォームやユースケースに依存してい る。 累積誤差が発散しないように、各種航法を組み合わせ、補正手法を構築することで、 [測位システムの最小誤差]=[補正する航法の最小誤差] を満足するように、測位システムは設計される。 補正用外界センサ (車速、対地速度、 ピトー管、DVL)

    電波航法受 信機 ランドマーク検出用 外界センササブシス テム (カメラ、ソナー) 地図航法用内界セン ササブシステム (磁気コンパス、受 信機、VDS,地図 データ) プラットフォーム (搭載機体) 電波 灯台、 衛星 ラン ド マー ク プラットフォーム 制御用センサシス テム (状態推定) 慣性航法装置/ 姿勢計測装置 位置姿勢角推 定処理(補正手法) 出力 外界環境 (情報) 推定された ・位置 ・姿勢角 ・方位角 ・速度 ・加速度 ・角加速度 測位システム 6 測位システムにおけるセンサフュージョン
  11. センサフュージョンへの適用例 • ニューラルネットワークを用いて、セ ンサ情報を同一の潜在空間へ埋め込む (直感的には、各センサ情報を座標変 換し、各センサごとに正規化された高 次元ベクトル表現で数値化する) • 潜在空間上でモーダル間の直積をとる (直感的には、異なるセンサ情報を並

    べて一つの高次元ベクトルにする) • 潜在空間上のベクトルは、マルチモー ダル情報間の特性が近ければそれらの 内積が大きく、遠ければそれらの内積 が小さくなるように、ニューラルネッ トワークが学習される。 • この学習時のデータのデータオーグメ ンテーション(データ拡張) にL&VLM を使用し、訓練データを水増しする。 https://axross-recipe.com/recipes/519
  12. 小域航法への適用例( L&VLM直接利用) このような状況で私が自動車を運転している場合、次のように操作します。 1. **減速**:まず、工事区域が視界に入ったため、徐行して速度を落とし、周囲 の状況を慎重に確認します。工事エリアの近くでは、何が起こるか予測できない ため、安全のため減速します。 2. **進行方向の確認**:工事が道路の右側にあるため、左側の車線が通行可能で あることを確認します。また、対向車がいないか、あるいは狭い車線での通行に

    影響がないかをよく見て判断します。 3. **警戒心の維持**:工事作業員が周囲にいる可能性があるため、慎重に周囲を 確認しながら進みます。工事エリアに近づくにつれ、視界が確保できるように注 意を払いながら、対向車がないことを再度確認します。 4. **徐行通過**:工事エリアの横を通過する際は、最も安全な速度で通行します。 赤いコーンや工事用車両に十分な距離を保ちながら、注意深く進みます。 5. **安全確認後の加速**:工事エリアを通過し、安全が確認できたら、再び安全 な速度に戻して走行を続けます。 以上の操作で、この工事区域を安全に通過できると判断します。 あなたは、走行中の自動車のドライバーです。目 の前の道路はこの画像のような状況です。あなた は自動車をどのように操作しますか? プロンプト ChatGPT 4o
  13. 小域航法への適用例( L&VLM直接利用) • この画像のような夜間の工事現場に差し掛かった場合、以下のように安全に対応します。 • 1. **減速**:夜間で視界が制限されているため、まず減速し、安全確認をしながらゆっくりと進行します。 工事現場の警告や標識をよく確認し、必要に応じてさらにスピードを落とします。 • 2.

    **標識と誘導に従う**:画像には「道路工事中」「徐行」といった標識があり、左矢印の表示や赤い矢 印付きの表示器も見えます。これに従い、進むべき方向や車線を慎重に確認し、適切に操作します。 • 3. **進行方向の確認**:工事現場のコーンが並んでいることで、走行可能な車線が制限されていることが わかります。矢印の誘導に従い、走行可能なエリアを通過します。 • 4. **周囲の安全確認**:工事作業員や他の車両が周囲にいる可能性があるため、特に注意深く周囲を確認 しながら走行します。作業員の動きや他のドライバーの動向に対して警戒し、安全を最優先に進みます。 • 5. **徐行通過**:工事区域の近くを通過する際は、完全に工事区域を抜けるまで徐行し、他の交通や歩行 者の動きをしっかりと確認します。 • 6. **安全確認後の加速**:工事区域を完全に通過し、安全が確認できたら、適切な速度まで徐々に加速し て走行を続けます。 • 以上の操作により、このような夜間の工事区域を安全に通過することが可能であると判断します。 あなたは、走行中の自動車のドライバーです。目 の前の道路はこの画像のような状況です。あなた は自動車をどのように操作しますか? プロンプト ChatGPT 4o
  14. 小域航法への適用例( L&VLM直接利用) • この画像の状況では、**進んではいけない可能性が高い **です。理由は以下の通りです: • 1. **誘導員の動作**:中央の誘導員が腕を広げている姿 勢は、一般的に「停止」を指示していることが多いです。 赤い誘導棒を持っている場合、腕を横に広げることで車

    両に停止を促す合図として解釈されます。 • 2. **工事の障害物**:工事区域が道路の一部を塞いでお り、工事車両も見えるため、進行するには十分なスペー スが確保されていない可能性があります。 • 3. **安全の確保**:夜間で視界が制限されているため、 指示に従わずに進むと、工事作業員や他の障害物に接触 するリスクがあります。 • そのため、誘導員の明確な「進行」の指示があるまで、 安全のためその場で停止し、待機するのが適切であると 判断されます。 あなたは、走行中の自動車のドライバーです。目 の前の道路はこの画像のような状況です。この画 像では、自動車は進んでよいですか? プロンプト ChatGPT 4o
  15. 小域航法への適用例( Sim2Real) • 小型ドローンの障害物回避飛行制御の学 習 • 学習段階:シミュレータ内でドローンの カメラ画像による飛行制御を生成し、深 層強化学習により最適な障害物回避飛行 制御を学習

    • 実行段階:ドローン実機に学習で得た制 御則を搭載し、ドメイン適応による学習 を僅かにするのみで、屋内を障害物を回 避しつつ飛行することが可能となる 利点:深層強化学習により、開発者が飛行制御則を構 築実装することもなく、ドローンのカメラ画像による 障害物回避飛行制御を構築できる • このシミュレーションのデータ のデータオーグメンテーション (データ拡張) にL&VLMを使用 し、訓練データを水増しする。 Generalization through Simulation:Integrating Simulated and Real Data into Deep Reinforcement Learning for Vision-Based Autonomous Flight https://arxiv.org/abs/1902.03701, https://shiropen.com/seamless/generalization- through-simulation ドローンのシミュレータ環境 実環境
  16. 大域航法への適用例( L&VLM直接利用) • L&VLMを基盤モデル(学習済 みの万能AIモデル)として用 いて、センサ情報の潜在空間 の情報を言語化、または画像 化して入力し、環境中の位置 姿勢推定(数値以外でもOK)、 移動ルート、移動時のモー

    ションプランを生成する。 • 生成されたモーションプラン に基づき、機構を制御する モーションプログラムを生成 し、機構制御器で実行し、 AMSを目的地まで制御する。
  17. 大域航法への適用例( L&VLM直接利用) • 玄関からキッチンへの行き方は以下の通 りです。 • 1. 玄関から中に入り、まっすぐ進んで ホールに出ます。 •

    2. ホールを左に曲がり、さらにまっすぐ 進むと洗面室とトイレの前に出ます。 • 3. 洗面室を右手に見ながらさらに直進す ると、左手にユーティリティが見えてき ます。 • 4. ユーティリティの先にキッチンがあり、 目的地に到着です。 • 以上で、玄関からキッチンに到着します。 この間取図で、玄関からキッチンに行くための案 内文を作ってください。 プロンプト ChatGPT 4o
  18. 大域航法への適用例( L&VLM直接利用) • この画像のような景色は、間 取り図にあるリビングルーム の様子と一致していると考え られます。リビングには大き な窓があり、外の景色が見え る仕様になっているため、あ なたはリビングにいると思わ

    れます。 • ダイニングでキッチンの方向 を向いている状態からホール の方向を向くには、**90度左 に回る**必要があります。 あなたは今、ダイニングにいてキッチンの方向を 向いています。リビングの方向を向くには何度く らい回りますか? ホールの方向を向くには何度くらい回りますか? プロンプト ChatGPT 4o
  19. 大域航法への適用例( L&VLM直接利用) 各部屋の幅と奥行きを推定し、 その推定値を基にして、玄関からリビングへの動 線の長さを推定してください。推定の際の算出し た根拠も示してください。 プロンプト ChatGPT 4o •

    玄関からリビングまでの動線の長さを推定するため、以下の手順で計算します。 • 1. **間取りにおける動線** • 動線は、以下の順で通過する部屋の幅や奥行きを考慮して算出します。 • - 玄関からホールへ • - ホールを通過してリビングへ • 2. **各部屋の幅と奥行き** • - 玄関・ホール:幅約1.8m、奥行き約1.8m • - リビング・ダイニング・キッチン:幅約5.7m、奥行き約5.7m • 3. **推定動線の長さ** • 玄関からホールまでの距離は、玄関の幅(1.8m)を基にして計算します。ホールからリビングまでの距 離は、リビングの幅にホールの奥行きを足して推定します。 • ### 計算 • - 玄関からホールへの移動:1.8m • - ホールからリビングへの移動:5.7m(リビングの幅) • したがって、**玄関からリビングまでの動線の長さは約7.5m**と推定されます。 ChatGPT 4o
  20. 大域航法への適用例( その他の研究) • この分野の研究は、主に • コンピュータビジョン • 機械学習 • ロボティクス

    の国際カンファレンスで議論さ れています。 • 技術分野は • Vision-Language Navigation • Vision and Language Navigation • Visual Language Navigation • 最近のサーベイ論文 • Arxiv.2407.07035
  21. 生成AIのAMS適用:利点 データ解析の効率化 L&VLMは、大量のデータを 迅速に解析し、複雑な環境に おけるロバストな制御を支援 します。 マルチモーダル情報の 統合 言語と視覚情報を統合する能 力により、複数のセンサデー

    タを効果的に処理できます。 ユーザーインターフェ ースの改善 自然言語での指示や説明が可 能となり、システムの透明性 が向上します。 高度な予測能力 基盤モデルの推論能力を活用 し、災害時の避難経路提案や 交通流予測を行います。
  22. 考察 • 航法システムは、L&VLMを 適用することで、 • 正確な緯度経度の位置情報を利 用しなくとも機能する可能性が ある • 相対位置関係のみでのナビゲー

    ション手法の可能性がある • 環境の変化やARSの挙動(マ ニューバ)に頑健な航法システ ムとする可能性がある。 • 機械学習に基づくニューラル ネットワークを用いることに より、センサ情報をマルチ モーダルに利用できるため、 • センサ情報は、潜在空間に埋 め込まれるため、元の情報が 離散、記号、多次元数であっ ても利用できる • フィンガプリントマッチング 等の手法にも親和性が高い ※Robot Navigation の定義を拡張した理由は、この点にあります。