Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第36回ロボティクス勉強会 発表資料

Avatar for teddy teddy
May 19, 2023

第36回ロボティクス勉強会 発表資料

点群深層学習に計測の気持ちを入れた 研究の紹介

Avatar for teddy

teddy

May 19, 2023
Tweet

More Decks by teddy

Other Decks in Research

Transcript

  1. 点群とは: 物体認識が重要 ページ 10 現状の工事の進捗確認 走行可能領域 を把握 建物の高さの計測 建物や電線を 避けて移動

    AR よくある応用では 3次元可視化・計測 セマンティックな情報付与 により利活用が進む 数値計算
  2. 点群深層学習手法の流れ :PointNet ページ 12 x y z 2 3 19

    1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 入力する点群 各点の特徴量 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 広 範 囲 の 情 報 SemSeg 分類 など
  3. 計測方法: LiDARとSfM/MVS ▪ Light Detection And Ranging(LiDAR) ▪ レーザー光で距離を測る ▪

    Structure from Motion/Multi View Stereo(SfM/MVS) ▪ 多視点画像によるステレオ計測 ページ 18
  4. 計測方法:LiDARの種類 ▪ フラッシュ型: イメージセンサ全体を覆うようなレーザ光を出射し、 それを受光 ページ 19 https://commons.wikimedia.org/wiki/File:LIDAR-scanned-SICK-LMS- animation.gif ▪

    スキャン型:レーザ光を走査 Quantitative Performance Assessment of LiDAR-based Vehicle Contour Estimation Algorithms for Integrated Vehicle Safety Applications の Figure2
  5. ページ 21 LiDARの仕組み: 原理 Time of Flight(今回はdToF) レーザ発射 反射 照射~反射までの時間で

    センサと物体間の 距離を算出 自動運転に使われるLiDARの例 https://github.com/unitycoder/VelodyneLidarViewer センサ 物体
  6. ページ 22 LiDARの仕組み: 原理 反射時間 (センサからの遠さ) 強 度 観測されるデータ 既知の情報

    • センサの位置・姿勢 • レーザの照射角度 • 照射したレーザの情報 位置情報を計算 X,Y,Z座標 ピークの時間
  7. LiDARの仕組み(まとめ) ▪ (dToF形式において)レーザ光を照射してその反射光を観測するまでの時間を計測し、 反射光のピークから点を作成 ▪ 照射するレーザ光は遠くに行くほどフットプリントが広がる ▪ レーザ光の照射面積内に複数の物体にあたる場合は減衰しながら進む ▪ 物体からの反射を時系列的に格納する

    ▪ 物体によって反射の性質が異なる ▪ (主に現状の自動運転では)照射距離を稼ぐためレーザ光を回転しながら計測することが多い ▪ 自動運転で特に注意が必要な前面だけであれば、フラッシュライダーも使用される ページ 36
  8. 点群に対する物体検出 ▪ 一般的に欲しいスペック ▪ 物体検出の処理速度を自動運転に使えるくらいにしたい(観測の10fps 以上) ▪ 速度と性能のトレードオフをどうにかする ▪ 既存の基本戦略

    1. 点群を1周スキャンで取得 2. スキャンし終わったら,点群を解析 ▪ 点群を上から見た画像に変換して,画像の物体検出の世界に持っていく手法(速い) ▪ 点群を一定間隔の柱で区切って特徴抽出して,それを統合(性能が良い) 3. 物体のいる位置を矩形で推定 ▪ 課題 ▪ 点群のままやると遅いので物体検出を高速にしたい ページ 42 🤔1周待たずに取得された点群から即解析してしまえばいいのでは
  9. 該当する論文 ▪ Han, W., Zhang, Z., Caine, B., Yang, B.,

    Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 49
  10. 紹介する論文 ▪ Han, W., Zhang, Z., Caine, B., Yang, B.,

    Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. ▪ Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. ▪ Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. ▪ Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 50
  11. 提案手法 PointPillarsを改造 ▪ localized receptive field ▪ 一定角度の領域で点群を区切って PointPillarsの処理を行う ▪

    LSTM ▪ 区切ってしまったので、受容野が減るから それを補うように過去の観測の特徴も用いたい ▪ Stateful NMS ▪ 物体が領域をまたぐ場合があるので 個々の区切った領域でNMSするのではなく 複数の領域でNMSする ページ 53 https://arxiv.org/pdf/2005.01864.pdf より引用
  12. 実験結果(Waymo Open Dataset) ▪ 性能の評価 ページ 54 https://arxiv.org/pdf/2005.01864.pdf より引用 区切ることで

    全体を高速化 推論も高速になる LSTMを入れると性能劣化が軽減 破線がベースライン 10fps
  13. ▪ 各工夫点の影響 ページ 55 https://arxiv.org/pdf/2005.01864.pdf より引用 表: 車の抽出性能(mAP) 車のような大きなサイズでは細切れにすると受容野が不足 通常のスライスしないPointPillars手法

    提案手法全盛りするとある程度抑制 スライスすると性能がガタ落ち NMSを工夫すると劣化がすこし抑制 実験結果(Waymo Open Dataset) スライスが細かい<--------------------->スライスが雑
  14. 論文のまとめ ▪ 自動運転の際にはできるだけ物体検出を高速にしたい ▪ 既存手法は1回のスキャンを待ってから推論を実行するので遅い ▪ スキャンを一周待たずに一定角度でスライスして推論したらいいのでは ▪ 単純にスライスして深層学習モデルに入れると性能が落ちるので、時系列性を考慮した ▪

    実験結果として、スキャン1周待つ既存手法よりも、性能は落とさずに高速な処理を実現した ▪ スライスによって受容野が小さくなるため,車のようなある程度大きな物体の抽出には悪影響があるが, スライスを細かくしすぎないことで抑制はできる(速度とのトレードオフ) ページ 56
  15. 紹介する論文 ▪ J. Déziel et al., “PixSet: An Opportunity for

    3D Computer Vision to Go Beyond Point Clouds With a Full-Waveform LiDAR Dataset,” 2021 IEEE International Intelligent Transportation Systems Conference (ITSC), Indianapolis, IN, USA, 2021, pp. 2987-2993, doi: 10.1109/ITSC48978.2021.9565047. ページ 61
  16. Full Waveform (FW) LiDARとは ▪ FW LiDARとは: 反射強度を記録する時間分解能が高いLiDAR ページ 62

    時間 強 度 通常のLiDARでは強度の閾値を超えた パルスを記録しピークから点群を作成 時間 強 度 FW LiDARは波形のように 連続的に反射強度を記録し ピークから点群を作成する 🤔点群だけでなく、この波形情報も使用して分類したらいいのでは
  17. Full Waveform LiDAR データ ▪ Flush LiDAR型のFW LiDARを開発 ページ 64

    https://arxiv.org/pdf/2102.12010.pdf より引用 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive- upends-lidar-conventions-using-metamaterials/ センサに近い センサから遠い 512個の強度が格納 ピークの位置が点群となる 前方180度点群を観測できる
  18. Full Waveform LiDAR データ ▪ マルチバンドの画像として表現される ページ 65 https://arxiv.org/pdf/2102.12010.pdf より引用

    奥行き方向に強度の値が並んでいる画像として扱える … センサに近い センサから遠い 512個の強度が格納 ピークの位置が点群となる
  19. やってみた: 実験結果 ページ 70 ▪ 学習 ▪ 物体検出手法はYOLOX ▪ 入力画像が小さすぎるので、縦128x横1,536画素四方にアップサンプリング

    ▪ 真値は3次元のBBOXから2次元のBBOXへ変換したもの(MScoco形式) ▪ 比較実験として、深度のみの画像を入力したもの ▪ テストの結果 ▪ 波形を加えると,車・歩行者・自転車でAPが向上 ▪ 車みたいなソリッドな物体では恩恵がないが,人とか自転車のような複雑な形であれば効果がある 歩行者 車 サイクリスト 深度のみ 0.633 0.866 0.571 深度+波形 0.721 0.872 0.639 テストデータに対するAP(IoU0.5)
  20. 論文のまとめ ▪ Full Waveform LiDARという照射したレーザ光の反射を高いサンプリングレートで取得する LiDARや画像や通常のLiDARを用いたデータセットを作成した ▪ 論文の中のベースライン実験では、Full Waveform LiDARは使ってない

    ▪ 個人的にFull Waveform LiDARを触ってみた ▪ 3次元的に点群と波形の紐づけができてない ▪ Full Waveform LiDARデータの謎バイナリ形式が扱いにくい ▪ 2次元のBBOXに次元を落としてしまったので,3次元のBBOX推定ができてない. ▪ 波形の波形らしさをCNNで扱えてない ▪ 画像にすると、解像度が足りないので3次元的に点群+波形として扱ったほうがよさそう ページ 71
  21. 全体のまとめと課題 ▪ 点群の深層学習 ▪ 幾何学の知識や画像処理の分野のノウハウを点群の深層学習へ入れ込む手法は多いが、 点群の計測手法に着目した手法が少ない ▪ 計測の原理に着目した点群深層学習手法 ▪ 360度スキャンに着目した方法では,スライスして深層学習モデルに入力すると高速な処理が可能

    ▪ 反射強度に着目した手法では,生信号を加えると性能が向上する(論文では実験していない) ▪ 時系列性とか手法の部分で改善できる余地はありそう ▪ とはいえ、会議受けが悪いネタなので発展しなさそう ページ 72
  22. 計測の気持ち論文が増えた☺ ▪ NeRFの点群版が出たよ ▪ NeRFを使用して任意観測点からの点群生成で 物理シミュレーションよりも良い性能を示した ▪ 視点変更 ▪ Z軸に動かす

    ▪ センサを傾ける ▪ 平面的に動かす ▪ センサ変更 ▪ 密なセンサに変更 ▪ 疎なセンサに変更 ページ 73 https://research.nvidia.com/labs/toronto-ai/nfl/