Upgrade to Pro — share decks privately, control downloads, hide ads and more …

点群深層学習に計測の気持ちを入れた研究の紹介

teddy
April 30, 2023
1.2k

 点群深層学習に計測の気持ちを入れた研究の紹介

第58回 コンピュータビジョン勉強会@関東
2023.4.30

teddy

April 30, 2023
Tweet

More Decks by teddy

Transcript

  1. 点群深層学習⼿法の流れ :PointNet ページ 12 x y z 2 3 19

    1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 入力する点群 各点の特徴量 2 3 19 1 3 21 12 51 20 5 3 32 12 11 23 31 3 1 19 23 12 広 範 囲 の 情 報 SemSeg 分類 など
  2. 計測⽅法: LiDARとSfM/MVS § Light Detection And Ranging(LiDAR) § レーザー光で距離を測る §

    Structure from Motion/Multi View Stereo(SfM/MVS) § 多視点画像によるステレオ計測 ページ 18
  3. 計測⽅法︓LiDARの種類 § フラッシュ型︓ イメージセンサ全体を覆うようなレーザ光を出射し、 それを受光 ページ 19 https://commons.wikimedia.org/wiki/File:LIDAR-scanned-SICK-LMS- animation.gif §

    スキャン型︓レーザ光を⾛査 Quantitative Performance Assessment of LiDAR-based Vehicle Contour Estimation Algorithms for Integrated Vehicle Safety Applications の Figure2
  4. ページ 21 LiDARの仕組み: 原理 Time of Flight(今回はdToF) レーザ発射 反射 照射~反射までの時間で

    センサと物体間の 距離を算出 自動運転に使われるLiDARの例 https://github.com/unitycoder/VelodyneLidarViewer センサ 物体
  5. ページ 22 LiDARの仕組み: 原理 反射時間 (センサからの遠さ) 強 度 観測されるデータ 既知の情報

    • センサの位置・姿勢 • レーザの照射角度 • 照射したレーザの情報 位置情報を計算 X,Y,Z座標 ピークの時間
  6. LiDARの仕組み(まとめ) § (dToF形式において)レーザ光を照射してその反射光を観測するまでの時間を計測し、 反射光のピークから点を作成 § 照射するレーザ光は遠くに⾏くほどフットプリントが広がる § レーザ光の照射⾯積内に複数の物体にあたる場合は減衰しながら進む § 物体からの反射を時系列的に格納する

    § 物体によって反射の性質が異なる § (主に現状の⾃動運転では)照射距離を稼ぐためレーザ光を回転しながら計測することが多い § ⾃動運転で特に注意が必要な前⾯だけであれば、フラッシュライダーも使⽤される ページ 36
  7. 点群に対する物体検出 § 欲しいスペック § 物体検出の処理速度を⾃動運転に使えるくらいにしたい(観測の30fps 以上) § 速度と性能のトレードオフをどうにかする § 基本戦略

    1. 点群を1周スキャンで取得 2. スキャンし終わったら,点群を解析 § 点群を上から⾒た画像に変換して,画像の物体検出の世界に持っていく⼿法(速い) § 点群を⼀定間隔の柱で区切って特徴抽出して,それを統合(性能が良い) 3. 物体のいる位置を矩形で推定 § 課題 § 点群のままやると遅いので物体検出を⾼速にしたい =>1周待たずに取得された点群から即解析してしまえばいいのでは ページ 42
  8. 該当する論⽂ § Han, W., Zhang, Z., Caine, B., Yang, B.,

    Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. § Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. § Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. § Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 49
  9. 紹介する論⽂ § Han, W., Zhang, Z., Caine, B., Yang, B.,

    Sprunk, C., Alsharif, O., ... & Chen, Z. (2020, December). Streaming object detection for 3-d point clouds. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XVIII (pp. 423-441). Cham: Springer International Publishing. § Chen, Q., Vora, S., & Beijbom, O. (2021). Polarstream: Streaming object detection and segmentation with polar pillars. Advances in Neural Information Processing Systems, 34, 26871-26883. § Frossard, D., Da Suo, S., Casas, S., Tu, J., & Urtasun, R. (2021, October). Strobe: Streaming object detection from lidar packets. In Conference on Robot Learning (pp. 1174-1183). PMLR. § Abdelfattah, M., Yuan, K., Wang, Z. J., & Ward, R. (2022). Multi-modal Streaming 3D Object Detection. arXiv preprint arXiv:2209.04966. ページ 50
  10. 提案⼿法 § localized receptive field § ⼀定⾓度の領域で点群を区切る § LSTM §

    区切ってしまったので、受容野が減るから それを補うように過去の観測の特徴も⽤いたい § Stateful NMS § 物体が領域をまたぐ場合があるので 個々の区切った領域でNMSするのではなく 複数の領域でNMSする ページ 53 https://arxiv.org/pdf/2005.01864.pdf より引用
  11. 実験結果(Waymo Open Dataset) § 性能の評価 ページ 54 https://arxiv.org/pdf/2005.01864.pdf より引用 区切ることで

    全体を高速化 推論も高速になる RNNを入れると性能劣化が軽減 破線がベースライン
  12. § 物体サイズの影響 ページ 55 https://arxiv.org/pdf/2005.01864.pdf より引用 表: 車の抽出性能(mAP) 車のような大きなサイズでは細切れにすると受容野が不足 通常のスライスしないPointPollars手法

    提案手法全盛りするとある程度抑制 スライスすると性能がガタ落ち NMSを工夫すると劣化がすこし抑制 実験結果(Waymo Open Dataset) スライスが細かい<--------------------->スライスが雑
  13. 論⽂のまとめ § ⾃動運転の際にはできるだけ物体検出を⾼速にしたい § 既存⼿法は1回のスキャンを待ってから推論を実⾏するので遅い § スキャンを⼀周待たずに⼀定⾓度でスライスして推論したらいいのでは § 単純にスライスして深層学習モデルに⼊れると性能が落ちるので、時系列性を考慮した §

    実験結果として、スキャン1周待つ既存⼿法よりも、性能は落とさずに⾼速な処理を実現した § スライスによって受容野が⼩さくなるため,⾞のようなある程度⼤きな物体の抽出には悪影響があるが, スライスを細かくしすぎないことで抑制はできる(速度とのトレードオフ) ページ 56
  14. 紹介する論⽂ § J. Déziel et al., “PixSet: An Opportunity for

    3D Computer Vision to Go Beyond Point Clouds With a Full-Waveform LiDAR Dataset,” 2021 IEEE International Intelligent Transportation Systems Conference (ITSC), Indianapolis, IN, USA, 2021, pp. 2987-2993, doi: 10.1109/ITSC48978.2021.9565047. ページ 61
  15. Full Waveform (FW) LiDAR § FW: LiDARとは: 反射強度を記録する時間分解能が⾼いLiDAR ページ 62

    時間 強 度 通常のLiDARでは パルスのピークから点群を作成 時間 強 度 FW LiDARは波形のように 連続的に反射強度を記録し ピークから点群を作成する 点群だけでなく、この波形情報も使用して分類したらいいのでは
  16. Full Waveform LiDAR データ § Flush LiDAR型のFW LiDARを開発 ページ 64

    https://arxiv.org/pdf/2102.12010.pdf より引用 図は以下から引用 https://techcrunch.com/2019/03/22/gates-backed-lumotive- upends-lidar-conventions-using-metamaterials/ センサに近い センサから遠い 512個の強度が格納 ピークの位置が点群となる 前方180度点群を観測できる
  17. Full Waveform LiDAR データ § マルチバンドの画像として表現される ページ 65 https://arxiv.org/pdf/2102.12010.pdf より引用

    奥行き方向に強度の値が並んでいる画像として扱える … センサに近い センサから遠い 512個の強度が格納 ピークの位置が点群となる
  18. やってみた: 波形情報を付与 § 深度画像と波形をくっつけたマルチバンド画像化 ページ 69 … 8 96 1+512

    小さい画像になってしまう…… XY座標に対して強度がたくさんある
  19. やってみた: 実験結果 ページ 70 § 学習 § 物体検出⼿法はYOLOX § ⼊⼒画像が⼩さすぎるので、縦128x横1,536画素四⽅にアップサンプリング

    § 真値は3次元のBBOXから2次元のBBOXへ変換したもの(MScoco形式) § ⽐較実験として、深度のみの画像を⼊⼒したもの § テストの結果 § 波形を加えると,⾞・歩⾏者・⾃転⾞でAPが向上 § ⾞みたいなソリッドな物体では恩恵がないが,⼈とか⾃転⾞のような複雑な形であれば効果がある 歩行者 車 サイクリスト 深度のみ 0.633 0.866 0.571 深度+波形 0.721 0.872 0.639 テストデータに対するAP(IoU0.5)
  20. 論⽂のまとめ § Full Waveform LiDARという照射したレーザ光の反射を⾼いサンプリングレートで取得する LiDARや画像や通常のLiDARを⽤いたデータセットを作成した § 論⽂の中のベースライン実験では、Full Waveform LiDARは使ってない

    § 個⼈的にFull Waveform LiDARを触ってみた § 3次元的に点群と波形の紐づけができてない § Full Waveform LiDARデータの謎バイナリ形式が扱いにくい § 2次元のBBOXに次元を落としてしまったので,3次元のBBOX推定ができてない. § 波形の波形らしさをCNNで扱えてない § 画像にすると、解像度が⾜りないので3次元的に点群+波形として扱ったほうがよさそう ページ 71
  21. 全体のまとめと課題 § 点群の深層学習 § 幾何学の知識や画像処理の分野のノウハウを点群の深層学習へ⼊れ込む⼿法は多いが、 点群の計測⼿法に着⽬した⼿法が少ない § 計測の原理に着⽬した点群深層学習⼿法 § 360度スキャンに着⽬した⽅法では,スライスして深層学習モデルに⼊⼒すると⾼速な処理が可能

    § 反射強度に着⽬した⼿法では,⽣信号を加えると性能が向上する(論⽂では実験していない) § 時系列性とか⼿法の部分で改善できる余地はありそう § とはいえ、会議受けが悪いネタなので発展しなさそう ページ 72