Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Navigation & SLAM @CVPR2024

godel
July 07, 2024
1.2k

Navigation & SLAM @CVPR2024

第61回 コンピュータビジョン勉強会@関東  CVPR2024読み会(前編)

godel

July 07, 2024
Tweet

Transcript

  1. Navigation & SLAM @CVPR2024 第61回 コンピュータビジョン勉強会@関東 CVPR2024読み会(前編) Godel @___Godel ・MemoNav:

    Working Memory Model for Visual Navigation ・SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System etc
  2. 生成AI凄いですね ・翻訳 ・要約 ・スライド作成 ・リソースまとめ 他 ・このスライドはPowerpoint Copilot ・絵はimage generator

    @ gpts 「生成AIが流行っているということをイ メージさせるアニメ風の絵を作ってくだ さい。」
  3. AIと巡るCVPR2024 CVPR2024 Online参加 • オンラインサイト o WorkshopやTutorialは、専用サイトのscheduleに掲載された ZOOMで参加 o 各セッションは専用サイトのscheduleから辿る

    Oral、Posterは配信無しで、papersへのリンクのみ Papersは、掲載論文の他プロジェクト、動画へのリンク、チャット 欄あり o 基調講演などはリンクのみ掲載で、YouTubeの限定配信 https://cvpr.thecvf.com/virtual/2024/papers.html?filter=titles https://cvpr.thecvf.com/virtual/2024/index.html
  4. AIと巡るCVPR2024 基調講演等 • Free YouTube Summarizer@GPTs YouTube動画の要約、翻訳、チャットQA o プロンプト 「次の動画を日本語で項目ごとに要約してください。

    https://www.youtube.com/watch?v=Tc7....」」 「貢献について、新しいビデオデツールタスクについて詳しく教えて ください。」 o Talk Sesstion プロンプト 「このパネルディスカッションの動画を、日本語で次の条件で要約 してください。 パネルディスカッションの参加者の、氏名、所属を表 で示してください。 全ての議題について、議題の内容、各参加者の 発言、を表にしてください。 https://www.youtube.com/watch?v=Drk...」 「Q&Aがあれば、質問と返答した登壇者名、返答した内容を、表に してください。」 https://chatgpt.com/g/g-fL6Xsk6UU-free-youtube- summarizer/c/
  5. WED 1:15 P.M. [EXPO TRACK] SWAMI SIVASUBRAMANIAN Free YouTube Summarizer@GPTs

    Amazonのフルフィルメントセンター: 商品の損傷を検出するためのコンピュータビジョンの使用 PROJECT PI: 欠陥検出のためのマルチモーダル基盤モデルの活用 Amazon Ads: 広告作成のためのAIパワード画像生成ツール AMAZON SAGEMAKERを使用して広告作成プロセスを簡素化 物理的な小売スペース: AMAZON ONE: 非接触トランザクションのための手のひら認証 正確性とセキュリティのために生成AIと合成データを活用 スポーツ視聴体験の向上 Prime VideoとNFLのパートナーシップ: AIとコンピュータビジョンを活用したリアルタイムゲームインサイトの提供 放送中に詳細な分析と確率を提供 AWSのコンピュータビジョンに関するビジョン 三層構造のツールセット: トップレイヤー: 基盤モデルを活用したアプリケーション(例: AMAZON Q) ミドルレイヤー: 開発者向けのAIサービス(例: BEDROCK、RECOGNITION、TEXTRACT、 PANORAMA) ボトムレイヤー: モデルトレーニングのための高性能インフラ 特定のAWSサービス 基調講演者紹介 講演者: Dr. Swami Subramanian、AWSのAIおよびデータ担当副社長 役割: AWS AIサービス全体を監督し、AIスタックのイノベーションを支えるツールを構築 キャリアのハイライト: Amazon SageMaker、Amazon Bedrock、Amazon Qなどの開発を主導 功績: 250以上の特許、40以上の学術論文、米国大統領および国家AIイニシアチブオフィスに助言する国家AI諮問委 員会のメンバー パーソナルジャーニーと初期のキャリア 教育: 分散システムのPhD 初期キャリア: 2005年にAmazonに入社、サマーインターンとして開始 主なプロジェクト: AWS、Amazon S3 Cloud、DynamoDBの開発 キャリアのマイルストーン: 2023年9月にAmazonのシニアリーダーシップチームに参加 Amazonのイノベーションアプローチ 顧客中心主義: 顧客の問題を解決することに焦点 常にフィードバックを求め、頻繁にテストを行う 逆行型アプローチ: 顧客体験の向上に重点を置く 例: DYNAMODBのスケーラビリティと信頼性の向上 スケールの重要性: 大規模なソリューションが優先される スケーラビリティと実際の応用に焦点 コンピュータビジョンにおけるイノベーション
  6. WED 1:15 P.M. [EXPO TRACK] SWAMI SIVASUBRAMANIAN 制御された幻覚: 内部表現を現実に整合させる 幻覚を測定し、減少させるための技術

    状態空間モデル: 無限の記憶と基盤機能を提供 幻覚を制御するためのハイブリッドモデル オープンソースイニシアチブ BMojo: 効率的な記憶と推論を促進するためのモジュラーハイブリッドアーキテクチャ AWSインフラストラクチャ(例: TRAINIUMチップ)で最適化 近いうちにオープンソース化予定 クロージングとQ&A AIを企業にとってアクセスしやすくスケーラブルにすることに焦点 継続的なイノベーションと顧客中心のソリューションに重点 Amazon Research Awardsへの応募を奨励 この詳細な要約は、Dr. Swami Subramanianの基調講演で議論された主要なポイントとイノ ベーションを網羅しており、AWSのAIおよびコンピュータビジョン技術における貢献とビジョンを 包括的に提供します。 Free YouTube Summarizer@GPTs Amazon Recognition: 画像やビデオファイルから情報を自動的に抽出 コンテンツモデレーション、カスタムラベリング、ライブネス検出などをサポート Amazon Textract: 画像やドキュメントからテキストを機械読み取り可能なテキストに変換 OCRと深層学習を使用して正確なデータ抽出を実現 AWS Panorama: エッジでのコンピュータビジョンのデプロイをサポート 小売分析、在庫管理、店舗設計に利用 生成AIと基盤モデル Amazon Bedrock: 生成AIのためのプラットフォームサービス 多様な基盤モデルへのアクセスを提供(例: AI21、ANTHROPIC、META、STABLE DIFFUSION、AMAZONのTITANファミリー) Titan Image Generator: 自然言語プロンプトを使用して高品質の画像を生成 偽情報対策のための透かし機能を内蔵 AIにおける幻覚への対策
  7. AIと巡るCVPR2024 論文サーベイ • Google Scholar o 登録論文や筆者に関連する最新の引用論文を通知 • Zeta-Alpha(https://www.zeta-alpha.com) o

    登録したキーワードに関連する最新論文をAIで検索、リコメンド、要約 • Connected Papers (https://www.connectedpapers.com/) o 検索論文に関連した引用関係によるグラフ表示 • Consensus.app o 問いに対して研究論文に基づく要約を返答、関連論文のリストアップ o Consensus@GPTsよりは詳細で正確 • Scholarcy(https://www.Scholarcy.Com/) o 論文の要約をカード風に作成、貢献、内容、制約、将来方向性など項目ごとに整理
  8. MemoNav: Working Memory Model for Visual Navigation CVPR’24 Highlight Hongxin

    Li, Zeyu Wang, Xu Yang, Yuran Yang, Shuqi Mei, Zhaoxiang Zhang University of Chinese Academy of Sciences (UCAS) New Laboratory of Pattern Recognition (NLPR), Institute of Automation, Chinese Academy of Sciences Center for Artificial Intelligence and Robotics, HKISI, CAS Shanghai AI Lab Tencent 画像目標ナビゲーションのための新しいメモリ モデルである MemoNav は、ワーキングメモ リにヒントを得たパイプラインを利用して、トポロジ マップ内で目標に関連するシーン機能 を選択的に保持することで、ナビゲーション パフォーマンスを向上
  9. MemoNav: Working Memory Model for Visual Navigation Target-driven visual navigation

    in indoor scenes using deep reinforcement learning, ICRA 2017 Task: Image-goal visual navigation エージェントは、画像によって指定されたゴールエリアまで、最少のステップ数で移動する。 • 深層強化学習モデルの目標は、 最小限のステップ数で視覚的な 目標に向か ってナビゲートする こと • 現在の観測とターゲットの画像 を 入力とし、3D環境における アクションを出力として生成 • 再ト レーニングなしで、シーン 内の異なるターゲットにナビ ゲートすることを学習
  10. MemoNav: Working Memory Model for Visual Navigation Target-driven Visual Navigation

    in Indoor Scenes using Deep Reinforcement Learning (https://www.youtube.com/watch?v=SmBxMDiOrvs) 特徴点の工夫 フレ ーム間の特徴マッチング 環境の3D地図構築を必要としない シミュレータによる膨大な(行動、観測画像)の遷移データの収集 ターゲット画像と現在の観測画像から次の行動を生成するNNを、 深層強化学習を用いて学習 Target-driven visual navigation in indoor scenes using deep reinforcement learning, ICRA 2017 特徴点の工夫 フレ ーム間の特徴マッチング 環境の3D地図構築
  11. MemoNav: Working Memory Model for Visual Navigation ナビゲーション用のトポロジーグラフをマップとしてメモリ 強化学習と模倣学習により、トポロジーグラフを学習 目標画像と現在の観測画像から、トポロジーグラフに従った繊維

    をするための行動を順次選択 Visual Graph Memory With Unsupervised Representation for Visual Navigation, CVPR2021 特徴点の工夫 フレ ーム間の特徴マッチング 環境の3D地図構築
  12. MemoNav: Working Memory Model for Visual Navigation 特徴点の工夫 フレ ーム間の特徴マッチング

    環境の3D地図構築を必要としない ナビゲーション用のトポロジーグラフをマップとしてメモリ 強化学習と模倣学習により、トポロジーグラフを学習 目標画像と現在の観測画像から、トポロジーグラフに従った繊維 をするための行動を順次選択 Visual Graph Memory With Unsupervised Representation for Visual Navigation, CVPR2021 特徴点の工夫 フレ ーム間の特徴マッチング 環境の3D地図構築 https://github.com/rllab-snu/Visual-Graph-Memory
  13. MemoNav: Working Memory Model for Visual Navigation 特徴点の工夫 フレ ーム間の特徴マッチング

    環境の3D地図構築を必要としない ナビゲーション用のトポロジーグラフをマップとしてメモリ 強化学習と模倣学習により、トポロジーグラフを学習 目標画像と現在の観測画像から、トポロジーグラフに従った繊維 をするための行動を順次選択 Visual Graph Memory With Unsupervised Representation for Visual Navigation(VGN), CVPR2021 特徴点の工夫 フレ ーム間の特徴マッチング 環境の3D地図構築 多様なシーンメモリを利用するVGNは、ゴールに関連する割合を 考慮することなく、 意思決定のために全ての過去の観測値を使 用するため、非効 率的な探索 MemoNav: Working Memory Model for Visual Navigation( CVPR2024) ワーキングメ モリにインスパイアされたパイプラインを利用する、画像ゴ ールナビゲーションのための新し いメモリモデル
  14. MemoNav: Working Memory Model for Visual Navigation マップ上のノード フィー チャは動的に更新される

    ため、短期メモリ (STM)に 保存されます。 忘却モジュールは、効率 を高めるために有益な STM 部分を保持します 長期メモリ (LTM) は、STM フィーチャを段階的に集 約することでグローバル シーン表現を学習するた め導入 グラフ アテンション モ ジュールは、保持された STM と LTM をエンコード して、効率的なナビゲー ションに不可欠なシーン フィーチャを含む作業メ モリ (WM)を生成します。
  15. MemoNav: Working Memory Model for Visual Navigation MemoNavと従来手法の比較 データセット、ギブソン(G)とマ ターポート3D(M)シーンでの評価

    結果は、MemoNavがすべての難易 度において、以前の手法を上回る ギブソンのシングルゴール評価で は1007個のハードエピソードを 使用 マルチゴール評価では筆者の収集 したエピソードを 使用 SR:成功率(%)、SPL:パス長で重み 付けした成功率(%) PR:進捗率(%)、PPL:パス長で重み 付けした進捗率(%)。
  16. MemoNav: Working Memory Model for Visual Navigation • 結論 o

    MemoNav は、ワーキング メモリにヒントを得たパイプラインを利用してナビゲーション パフォーマンスを改善することで、既 存のトポロジ マップベースの方法の限界に対処します。3 種類のメモリ間の相乗効果により、エージェントがトポロジ マップ内 で目標に関連するシーン機能を学習して活用できるようになり、ナビゲーション パフォーマンスが向上します。 o MemoNav は、冗長な探索を回避しながら、シーン内の複数の目標に効率的に移動する、ImageNav の新しいメモリ モデルです。 忘却モジュールとLTM はMemoNav の重要なコンポーネントであり、パフォーマンスの大幅な向上につながります。 o 提案された忘却モジュールは、現在の目標に関連するノードを選択的に保持することにより、マルチゴールタスクのナビゲー ションモデルを改善するのに効果的です。このモジュールは、短期記憶( STM ) 内の無関係な情報をフィルタリングし、よりス ムーズで効率的な軌跡を実現します。 • 制限事項 o 忘却モジュールはプラグアンドプレイ方式で動作します。つまり、トレーニング中にはアクティブ化されませんが、評価と展開 中にオンになります。事前定義されたパーセンテージ p は、ほとんどのタスクに経験的に適しているため、20% に設定されてい ます。 o MemoNav には、誤って停止したり、目標を見逃したり、十分に近づかなかったり、過度に探索したりするなどの制限があります。 o この研究の限界としては、提案された忘却モジュールが後処理方法であり、メモリ使用量を削減しないことが挙げられます。さ らに、実験における忘却しきい値は固定されており、モデルが偏り、見たことのないスタイルの屋内環境と互換性がない可能性 があります。 • 今後の仕事 o 今後の研究では、視覚言語ナビゲーションやロボット操作など、他の具体化された AI タスクへの MemoNav の適用を検討する可 能性があります。 o 今後の作業には、MemoNav にオブジェクト セマンティクスを追加してパフォーマンスをさらに向上させ、他のシーン タイプや タスクを調査することが含まれます。 o 今後の研究では、トレーニング可能な忘却モジュールを調査し、そのアイデアを Expire-span と統合して適応的な忘却しきい値を 学習し、西洋スタイルへの偏りや、見たことのないスタイルの屋内環境との非互換性など、モデルの制限に対処することができ ます。
  17. SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System Yunfei Fan,

    Tianyu Zhao, Guidong Wang PICO, ByteDance SchurVINS は、完全な残差モデルと Schur 補数を使用することで高い精度と低い計算複雑性を 保証する、新しいフィルターベースの VINS フレームワークであり、精度と計算効率の両方で 既存の方法を上回っています。
  18. SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System GPT4o Schur補行列とは

    どの様に関連するのか? シューア補行列に基づく逆行列の公式を用いた多次元正規分布の精度行列の導出 (https://www.hello-statisticians.com/explain-terms-cat/schur_complement_mat1.html) 「パターン認識と機械学習」の2.3.1節参照
  19. SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System OpenVINSのSLAMの更新には、 著しく多くの計算リソースが必

    要 • 定式化した等価残差モデルは、Schur補集合によって ポーズ残差モデルとランドマーク残差モデルに分解 • 各ランドマークのEKF更新のための小さな独立した残差 モデルの束として分割され、計算の複雑さが大幅に軽 減
  20. SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System • The

    efficiency evaluations are carried out on Intel i7-9700 (3.00GHZ) desktop platform. • Global BA (GBA), pose graph optimization and loop closure are disabled on all of the following algorithms. (LBA is only enabled on the original SVO2.0)
  21. SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System • 結論

    o SchurVINS は、高い精度と低い計算複雑性を実現する新しいフィルターベースのVINSアルゴリ ズムであり、リソースが制限されたデバイスに適しています。 o SchurVINS アルゴリズムは、Schur 補数を利用して残差モデルを分解し、計算の複雑さを軽減す ることで、6-DoF 推定において高い精度と効率を実現する、新しいEKFベースのVINSアルゴリズ ムです。 • 制限事項 o 提案された SchurVINS アルゴリズムは、 EKF更新を実行するために一定レベルの計算能力を必要 とするため、計算リソースが極端に制限されているデバイスには適さない可能性があります。 o SchurVINS アルゴリズムは、GN ベースのランドマーク ソルバーに比べて精度がわずかに低下 する可能性があり、EKFベースのランドマーク ソルバーを使用しない場合、いくつかのチャレ ンジ シナリオでシステムの発散につながる可能性があります。 • 今後の仕事 o 今後の作業では、SchurVINS アルゴリズムをさらに最適化して、より効率的で、計算リソース が極めて限られているデバイスに適したものにすることが考えられます。 o SchurVINS アルゴリズムの今後の作業は、ローカル マップの改良に焦点を当てて、より高い精 度を探求することです。