Upgrade to Pro — share decks privately, control downloads, hide ads and more …

点群処理Backbone Networkと点群の事前学習/表現学習

Avatar for Naoya Chiba Naoya Chiba
July 14, 2025
1k

点群処理Backbone Networkと点群の事前学習/表現学習

Spatial AI Network 勉強会 (2025/07/08)での発表スライドをアップデートして公開します.以前のように時間をつっこんでサーベイできてはいないのですが,自分なりの定点観測としての共有です.

図は各論文から引用しています.
内容に誤りなどあればお知らせ下さい.

Avatar for Naoya Chiba

Naoya Chiba

July 14, 2025
Tweet

Transcript

  1. 二次元での畳み込み カーネルを重畳,それぞれ掛けて足し合わせる 4 ⊗ ∑ � Δ𝒙𝒙∈𝐴𝐴 𝒇𝒇 𝒙𝒙 +

    Δ𝒙𝒙 ⊤𝒌𝒌 Δ𝒙𝒙 𝒙𝒙: 着目点 𝒇𝒇 𝒙𝒙 : 着目点の入力特徴量 𝐴𝐴: 着目点周辺の領域 Δ𝒙𝒙: カーネル内での 相対座標 𝒌𝒌 Δ𝒙𝒙 : Δ𝒙𝒙での カーネルの値 カーネル 過去の資料より
  2. 点群における畳み込み 基本方針は二次元での畳み込みを拡張 • 𝒇𝒇 𝒙𝒙 : 入力特徴量, 𝒇𝒇 𝒙𝒙 +

    Δ𝒙𝒙 でそれぞれ定義されている • 𝒌𝒌 Δ𝒙𝒙 : カーネル(一般にはΔ𝒙𝒙による関数) • 𝛥𝛥𝒙𝒙 ∈ 𝐴𝐴 𝒙𝒙 : 近傍点と近傍領域(一般には𝒙𝒙による集合) • Agg: 集約関数 5 AggΔ𝒙𝒙∈𝐴𝐴 𝒙𝒙 𝒇𝒇 𝒙𝒙 + Δ𝒙𝒙 ⊤𝒌𝒌 Δ𝒙𝒙 入力特徴量 カーネル 各点で掛け合わせる 局所領域について集約 過去の資料より
  3. 点群における畳み込み 基本方針は二次元での畳み込みを拡張 • 𝒇𝒇 𝒙𝒙 : 入力特徴量, 𝒇𝒇 𝒙𝒙 +

    Δ𝒙𝒙 でそれぞれ定義されている • 𝒌𝒌 Δ𝒙𝒙 : カーネル(一般にはΔ𝒙𝒙による関数) • 𝛥𝛥𝒙𝒙 ∈ 𝐴𝐴 𝒙𝒙 : 近傍点と近傍領域(一般には𝒙𝒙による集合) • Agg: 集約関数 手法ごとに違うのは • 近傍をどう決めるか • カーネルをどう決めるか(≒どう学習可能にするか) • どう集約するか 6 過去の資料より
  4. 集約をどうするか 順不同な関数であればOK PointNetでMax-poolingを使うのと同じ • Sum: 元の畳み込みに近い構造になる • Max, Mean: 個数が変化しても対応できる

    8 ℎ(𝑥𝑥1 ) ℎ(𝑥𝑥2 ) ℎ(𝑥𝑥3 ) ℎ(𝑥𝑥𝑁𝑁 ) ・・・ 𝑔𝑔 ℎ 𝑥𝑥1 , ℎ 𝑥𝑥2 , ⋯ , ℎ 𝑥𝑥𝑁𝑁 ・・・ 𝑔𝑔(⋅) ℎ(𝑥𝑥𝑖𝑖 ) 局所点群の点ごとの特徴量 集約した特徴量 過去の資料より
  5. 点群をTransformerで処理する Transformerによる点群処理は自然な発想 • 他モーダルでの成功 • 集合データ処理との相性の良さ 点群Transformerの課題:トークン化の難しさ • 全点独立したトークンは非現実的 •

    FPS (Farthest Point Sampling) + kNNでパッチ化 点群畳み込みからの派生で自然な発想 処理が遅い,デコード方法が非自明などの問題 • 点群を並べて区切ってトークン化(PTv3) 過去の点群畳み込みがこだわってきた順序不変性を気にしない 10
  6. Point Transformer [H. Zhao+, ICCV2021] 点群をTransformerで処理する初期の論文 Transformerを導入する枠組み • kNNグラフ上でAttention •

    FPS + Max Poolingでのダウンサンプリング • 特徴量線形補間でのアップサンプリング • Skip-connectionありのU-Net構造 提案法の工夫 • Vector (Self-)Attention • Relative Position Encoding 11
  7. Point Transformer [H. Zhao+, ICCV2021] Vector (Self-)Attention • 同著者がCVPR2020で提案 •

    チャンネルごとに異なるAttention Weightを出力 Relative Position Encoding • 座標の差をMLPで変換SharedなMLPで変換 • 相対位置に応じた特徴を抽出できるように • 特徴量とAttentionに加法的に与える 12
  8. Point Transformer V2 [X. Wu+, NeurIPS2022] PTv1の限界 • FPS +

    kNNが遅い • Vector Attentionが過学習しやすい Partition-based Pooling • kNNをやめてグリッドベースの プーリングにすることで大幅に高速化 • 座標はMean(重心),特徴量はMax • Shifted-Gridも検討したが点群とは相性が悪い • 性能も向上 • Unpoolも線形補間ではなく, 単にマッピング 15 PTv1 (FPS + kNN) PTv2 (Grid Pooling)
  9. Point Transformer V2 [X. Wu+, NeurIPS2022] Grouped Vector Attention (GVA)

    Vector Attentionの重みをグループで共有することで 過学習を抑制・パラメータ削減 • Instance NormalizationとGroup Normalizationのようなイメージ • 普通のMHAはLayer Normalizationのようなイメージ Grouped Linear: 重みを適用するチャンネルもグループ化することで, パラメータをさらに削減 Improved Position Encoding • 位置エンコーディングの効果を加法的から 線形(係数&バイアス)に変更 • PTv1では効果はなかったが,PTv2のGVAと相性が良い 16
  10. Point Transformer V3 [X. Wu+, CVPR2024] ストーリー • 点群Transformerでは,近傍を計算させる kNNやRelative

    Position Encoding (RPE)が遅い • 順序不変性は気にせず,良い順序を設定して パッチに変換してTransformerを走らせたほうが良い → Serialization-based method • Grid Poolは続投して用いる,空間的な近傍は こちらでも処理されている • パッチ中の点数は1024点に 19
  11. Point Transformer V3 [X. Wu+, CVPR2024] Serialization-based method • Z-orderやHilbert曲線による

    空間充足曲線で点群に順序を与える 空間的な距離をある程度反映される • 軸を入れ替えて様々な順序に投影 • 点群をパッチに分けてその中でAttention • パッチの切り方をシフト • パッチの区切り方を変える (Shift Dilation, Shift Patch) • 順序の取り方を複数使う (Shift Order) • 順序の取り方をシャッフル (Shuffle Order) 20
  12. Point Transformer V3 [X. Wu+, CVPR2024] Positional Encodingの工夫:xCPE • ペアワイズの距離を計算するRPEは計算コストが高い

    • Attention Layerの前にSkip connectionを持つ スパース畳み込みを入れることで対応 Attentionの変更 • 過学習しやすいGVAを使わない • Dot-product Attentionに変更 22
  13. PointTransformerと同世代の研究 •点群処理にTransformerを用いる手法の提案 • 基本的にはFPS + kNNでのパッチ化 • パッチ内Transformerか,パッチ間Transformerかは 手法による パッチ間=パッチをトークン化する場合,Poolingか順序付けが必要

    •その他のBackbone • PointNeXtがPointNet++の正統進化として提案 • 点群畳み込みの系譜ではPointMLPが高い性能を達成 • OA-CNNがスパースボクセルCNNで高性能 25
  14. PointNeXt [G. Qian+, NeurIPS2022] PointNet++の正統進化 単に深くしても性能向上しないことを指摘 高速で高精度,モデルサイズでバランス調整可能 主な工夫 • 訓練戦略

    データ拡張:ランダム回転,スケール,並進,ジッター, リサンプリング,シーン全体の入力(区切らない), Z方向(高さ)の追加入力,色のコントラスト自動調整,色の削除 • 最適化戦略 • Label Smoothing付きCrossEntropyを利用 • オプティマイザーにAdamWを選択 • スケジューラーとしてCosine Decayを利用 • ハイパラの調整 • モデルのバリエーションを提供 PointNeXt-S, -B, -L, -XL 27
  15. PointNeXt [G. Qian+, NeurIPS2022] アーキテクチャの改善 • クエリする半径の拡大 • 相対座標の正規化 •

    Inverted Residual MLP (InvResMLP) 逆ボトルネック構造 • Stem MLP:高次元へのマッピング 28
  16. PCT [M.-H. Guo+, CVA, 2021] Transformerを点群に利用した初期の論文 FPS + kNNでパッチ化,近傍に対してAttention Offset

    Attention • 特徴量の差分でAttention 隣接行列とみなすとグラフラプラシアンに近い構造として理解できる • 正規化をSoftmax(ソース点)と L1 Normalization(ターゲット点)に対して行う工夫. SPCTとして提案 29
  17. PCT [M.-H. Guo+, CVA, 2021] FPS + kNNでパッチ化,近傍に対してAttention Offset Attention

    • 特徴量の差分でAttention 隣接行列とみなすとグラフラプラシアンに近い構造として理解できる • ソース点にSoftmax,ターゲット点にL1 Normalizationで 正規化を行う 30
  18. Stratified Transformer [X. Lai+, CVPR2022] 点群Transformerで離れた領域のコンテキストを 利用できるよう拡張 工夫 • Stratified

    Key-sampling Strategy(後述) • contextual Relative Position Encoding (cRPE) (後述) • KPConvによる特徴抽出を第一層で行う • メモリ効率の良い実装 33
  19. Stratified Transformer [X. Lai+, CVPR2022] Stratified Key-sampling Strategy • 密な近傍点と疎な遠隔点で

    キーを設定しAttention • FPSでサブサンプリングして 疎な点群を得る contextual Relative Position Encoding (cRPE) クエリとキーの間で相対座標を計算し量子化, LUTで学習可能なPosition Encodingを保持し学習 34
  20. Swin3D [Y.-Q. Yang+, arXiv:2304.06906] Swin Transformerを三次元点群に利用 • シフトしたパッチでSelf-Attentionを適用 • 事前学習としての利用を想定

    Contextual Relative Signal Encoding (cRSE) • 特徴量についても差分を計算,LUTで離散化し Attentionを計算 • cRPEよりもスケーラビリティが高い 35
  21. SPoTr [J. Park+, CVPR2023] Self-Positioning point-based Transformer (SPoTr) 点群のTransformerに,データに合わせた キーポイントの自動設定を導入

    • Local Point Attention (LPA)とSelf-Positioning Point-based Attention (SPA) を組み合わせる • Attentionの分離 スケーラビリティと長距離依存性の両立を目指す 37
  22. SPoTr [J. Park+, CVPR2023] SPA (Self-Positioning Point-based Attention) キーポイントを点群から生成しグルーピング Local

    Point Attention (LPA) 特徴点と入力点でCross-Attentionを行う • Channel-Wise Point Attention (CWPA) • 特徴量の差分からAttentionを計算 • チャンネルごとにAttentionを計算することでコンテキストを考慮, より柔軟な表現学習に 38
  23. OctFormer [P.-S. Wang, SIGGRAPH2023] OctreeがZ-orderで配置されることを利用 • Reshapeだけで自然に固定で区切ることができる • 個々の領域の形状はまちまち(ボクセル領域とは限らない) •

    実装しやすく,計算密度も高い • 密なデータの場合,ボクセルでのTransformerと同じ挙動 Dilated Octree Attention • ReshapeとTransposeで,飛び飛びの領域をまとめて Transformerに入力する 42
  24. OA-CNN [B. Peng+, CVPR2024] Adaptive Relation Convolution (ARConv) カーネルの重みは特徴量の差分から計算しSoftmax Adaptive

    Aggregator 固定の3段階の領域でARConvを計算,着目点の特徴量から それぞれの領域の重みを計算し集約 44
  25. 点群の事前学習/表現学習 •基本的には流行に追従 • 対照学習: PointConstrast, OcCo, CSC, MSC • BERT:

    Point-BERT • MAE: Point-MAE, Point-M2AE, MSC • GPT: ReCon, RointGPT •3D特有の性質 • シーンから複数のビューを切り出せる • データセットの不足・性質のばらつき(合成/実世界) •Sonataが幾何学的ショートカットの回避という 方針を提示 48
  26. PointContrast [S. Xie+, ECCV2020] 点群における事前学習の枠組みを構成した エポックメイキングな論文 • 線形プロービングでの検証 • 物体認識

    • 少数データでのファインチューン 事前学習が教師あり/なしの性能差が ほぼなくなった • データセットの規模拡大が重要と主張 • アノテーションよりデータサイズ 49
  27. PointContrast [S. Xie+, ECCV2020] 点群におけるシーン位置合わせによる対照学習 ストーリー • ShapeNet事前学習が性能を下げることを指摘 • 後のPPTとも同じ着眼点

    • Fully Convolutional Geometric Features (FCGF)を参考に • 位置合わせを想定して,対応点かどうかを利用した Positive/Negative判定で特徴量を学習 • PointContrastはこれを一般の点群事前学習に拡張 50
  28. PointContrast [S. Xie+, ECCV2020] 点群における対照学習 • 変換された点群間の対応で学習 • 剛体変換を考慮 •

    単一視点だとうまくいかないことを検証, 多視点で対照学習することが重要と示唆 → 後にMCTが拡張 • Hardest Contrastive Loss FCGFで提案された損失関数を利用 • PointInfoNCE • 分類問題として正例のみSoftmaxで学習 • シンプル・少ないハイパラ • モード崩壊しにくい • 規模の都合でScanNetで事前学習 51
  29. OcCo [H. Wang+, ICCV2021] ネットワーク • エンコーダー:PointNet, PCN, DGCNNで検証 •

    デコーダー:PCN形式のFoldingNet 既存の表現学習よりも優れた Few-shot性能/転移学習性能を達成 54
  30. Mix3D [A. Nekrasov+, 3DV2021] セグメンテーションのためのデータ拡張手法 種々のネットワークで利用可能 アイデア • 学習データをランダムに空間的に重畳 •

    シーンごと重畳するので,グローバルコンテキストに 過度に依存しないように学習できると期待 • 結果として局所特徴量をよく抽出できる 56
  31. CSC [J. Hou+, CVPR2021] ShapeContextから着想した点群に対する対照学習 Contrastive Scene Context (CSC) •

    PointConstrastの拡張 • 空間コンテキストの拡張: 空間分割して独立して対照学習を適用する 59
  32. CSC [J. Hou+, CVPR2021] Scene Contexts • PointConstrastでは点の対応だけに着目 • CSCではどのビンに入っているかを利用し,

    相対角度・相対距離の空間的なコンテキストを利用 これを目的関数に含めることができる • うまく分割数を設定すると性能向上 60
  33. CSC [J. Hou+, CVPR2021] 想定している利用シナリオの一つ: Limited Annotations (LA) • アノテーションが限定

    • アクティブラベリング戦略: 特徴量空間でk-meansを行い 特徴量クラスタの中心に対してラベリング 62
  34. Point-BERT [X. Yu+, CVPR2022] 点群のトークナイザー • dVAE (discrete VAE) ベースのトークナイザー

    • FPS + kNNで局所パッチ化 • デコーダー DGCNNでトークンを再構成,FoldingNetで点群に戻す • Gambel-Softmax緩和 潜在空間が離散なので,温度スケジューリングして緩和 64
  35. Point-BERT [X. Yu+, CVPR2022] Masked Point Modeling (MPM) • BERTインスパイヤの自己教師あり学習

    (SSL) • ブロックワイズマスキング:ランダムより優れる • Point Patch Mixing • MoCoによる対照学習(蒸留+辞書学習) 65
  36. Point-MAE [Y. Pang+, ECCV2022] 点群TransformerにMasked Auto-Encoderを 適用し,自己教師あり学習を行う • Point-BERTではトークン化の ためにDGCNNによる

    dVAEが必要 • 性能向上&高速化 • Transformerだけの構成にしたい • マスクトークンをエンコーダではなく デコーダーの入力にする • エンコーダーは特徴学習に集中 • エンコード時点でマスクされた 箇所が明らかになることを避ける • デコーダーは再構成 67
  37. Point-MAE [Y. Pang+, ECCV2022] FPS + kNNでパッチ化 • 座標はパッチ中心で正規化 •

    Shared MLP + Poolingで集約 • Positional Embeddingと 合わせてトークン化 デコーダーもTransformer • 全結合ネットワークで パッチから点群に戻す • マスクトークンは デコーダーにのみ入力 68
  38. Point-M2AE [R. Zhang+, NeurIPS2022] Multi-scale Masked Autoencoders (M2AE) • 点群にMAEを適用するにあたり,階層的なモデルに

    • 詳細な形状と大まかな形状を両方うまく捉えるように 手法 • Multi-scale Masking Strategy • Local Spatial Self-Attention (Fine-Tuning時) 70
  39. Point-M2AE [R. Zhang+, NeurIPS2022] Multi-scale Masking Strategy • Transformerベースで,FPS +

    kNNでダウンサンプリング, Shared MLP + Poolingで集約 • デコード時にトークンをマスク • Skip-connectionでマスクされていないトークンに 対応するエンコーダーのトークンを渡す エンコーダーのトークンが局所形状を再現するように 71
  40. MSC [X. Wu+, CVPR2023] シーン分割による教師なし点群表現学習 • PointContrastのFrame MatchingはRGB-Dに依存, オーバーラップのあるフレームを利用している •

    提案:Scene Augmentation • シーン点群をランダムに分割して利用 • 幾何・カラー両方にランダムなデータ拡張 • サンプリング拡張:クロップ・ボクセル化 • 高速な前処理と高い汎用性 74 Frame Matching Scene Augmentation
  41. MSC [X. Wu+, CVPR2023] 対称学習としての設計 • 同じ点を共有しないように クエリービューとキービューをマスク • マスクした部分は学習可能なマスクトークンを割り当て

    • マスク以外とマスクをそれぞれ再構成 • 空間的に近い点を正例としてInfoNCEで学習 • テクスチャと法線を推定させる再構成ロスも利用 76
  42. ReCon [Z. Qi+, ICML2023] 点群の表現学習で, 対照学習と生成モデルを 組み合わせる Student-Teacher with Student-Student

    Assistance 事前学習済の画像やテキストをクロスモーダルな Contrastive Lossとして利用可能 78
  43. ReCon [Z. Qi+, ICML2023] Student-Teacher with Student-Student Assistance • Teacher

    Encoderがローカルとグローバルの トークンを出力 • Local Student Encoderがトークン列を生成 • これを参照しGlobal Student Decoderが グローバルトークンを出力して対照学習 • Global Student DecoderからLocal Student Encoderへの勾配は止める • 対照学習にはSmooth L1, おそらくセマンティックな多様性の少なさによる 79
  44. IAE [S. Yan+, ICCV2023] ストーリー • 表面形状に対して表面点群のサンプリング方法は 無数にある • 点群をそのまま使うと

    サンプリングによるバイアスの 影響をうける • 表面をImplicit Representationで 記述するようなDecoderと 組み合わせて学習 真値の設定 • 合成データで水密メッシュが使える場合は SDFやOccupancyが利用できる • そうでない場合でも,近傍探索でUDFが利用できる 81
  45. Point-FEMAE [Y. Zha+, AAAI2024] MAEによる点群の表現学習 • Linear Headで点群を再構成してロスを計算 • クロスモーダルでも検証

    グローバルマスク/ブランチと ローカルマスク/ブランチを組み合わせる • 最終的にローカルブランチを学習済みモデルとして利用 • グローバルとローカルをうまく組み合わせることで 性能向上 82
  46. Point-FEMAE [Y. Zha+, AAAI2024] Local Enhancement Module (LEM) • ローカルブランチのみで適用し局所特徴量を取り出す

    Max-Poolingだけでは局所形状特徴の記述が不足 • kNNで近傍グラフを張り,各点で畳み込み Edge-Convとほぼ同様の処理 83
  47. Point-FEMAE [Y. Zha+, AAAI2024] 処理の流れ • FPS + kNNでパッチに分割,Shared MLP

    + Pooling • ローカル・グローバルなマスクの適用, 重みは共有しそれぞれのブランチで処理 ローカルのみLEMを適用 • 再構成ロスで学習 84
  48. PointGPT [G. Chen+, NeurIPS2024] 点群の自己回帰生成による事前学習 GPT: Generative Pre-trained Transformer Morton-order

    curveによる順序付け FPS + kNNでパッチ化 正規化座標をShared MLP + Pooling 85
  49. PointGPT [G. Chen+, NeurIPS2024] Extractor-generator based Transformer Extractorで特徴抽出,Generatorは生成で学習し 事前学習のみで用いる •

    Extractor • Dual Masking Strategy • 点群は冗長な情報が多い • パッチ単位でのマスクに加え,Transformer上のAttentionをさらにマスク • グローバルな位置を正弦波エンコードでAPE (Absolute Positional Encoding)として利用 • Generator GeneratorにはRelative Direction Prompt (RDP)を入力, 相対位置でパッチ順序の曖昧さを回避 Decoder出力からMLPでパッチ点群を復元 87
  50. PointGPT [G. Chen+, NeurIPS2024] ロス関数の工夫 下流タスクでも補助的に生成タスクを組み込む Post-Pre-Training • データセットを超えた自己教師あり学習が難しい •

    Labeled Hybrid Dataset (LHD)の提案 • ラベルの対応付けは(明記はないが) 人間がアノテーション データセットのラベル単位なので低コスト 事前学習・サイズでモデルのバリエーション • PointGPT-S: ShapeNet事前学習 • PointGPT-B, PointGPT-L: LHD事前学習 88
  51. PPT [X. Wu+, CVPR2024] 点群データセットの不足 ドメインギャップが大きく,単純にデータセットを 結合しても性能が向上しない → Point Prompt

    Pre-Training (PPT) 手法 • PDNorm: データセットごとのプロンプトを与える • Categorical Alignment: 言語モデルでクラスをアライン メントする 89
  52. PPT [X. Wu+, CVPR2024] Domain Prompt Adapter (PDNorm) • Normalizationとして実装

    • Zero-initialization:プロンプトの影響が無いように初期化 • Learning rate scaling:Backboneより学習しにくくする Categorical Alignment • クラス名を言語の埋め込みで対応させる. • InfoNCEを用いて評価 90
  53. Sonata [X. Wu+, CVPR2025] ストーリー • 既存のSSL手法は線形プロービングで性能が出ない • 「Geometric shortcut」を生じるのが原因

    局所的すぎる幾何的な特徴を見てしまう(高さ,法線など) • 図:ソファーのアームと似ている点は? 既存手法:局所形状,Sonata:ソファーのアーム全体 93
  54. Sonata [X. Wu+, CVPR2025] デコーダーフリーな設計 • 幾何学的ショートカットへの対策 • U-Net構造を用いると,Skip-connection経由で 局所形状を重視

    • デコーダーなしで自己蒸留で学習する • 空間解像度を戻すためにUp-castingを入れるが, 積極的には導入しない.Ablationで2回が良い結果に 94
  55. Sonata [X. Wu+, CVPR2025] 自己蒸留の設計 • 点群に対して複数のビューを生成 → 後述 •

    EMAによるStudent-Teacher形式で対照学習 • Progressive Parameter Scheduler • マスクを徐々に難しく • 学習率スケジューリング • Weight Decayスケジューリング • 蒸留における温度パラメータの スケジューリング 95
  56. Sonata [X. Wu+, CVPR2025] ビューの作り方 • Global View: 教師モデルで特徴抽出 •

    Local View: 生徒モデルで特徴抽出・学習 • Mask View (パッチ単位でマスク): 生徒モデルで特徴抽出・学習 ランダムなデータ拡張 クロップ,回転,歪み,ジッターなど 96
  57. Sonata [X. Wu+, CVPR2025] Self-Distillation Loss • 教師モデルと生徒モデルの間で特徴量を一致させる • 複数のLocal

    ViewとMask Viewを同時に用い, さらに複数の教師となるGlobal Viewと対応させる • DINOv2を参照し以下を導入 • Sinkhorn-Knopp centering:クラスタの偏りを避ける • KoLeo regularization:特徴量の分布を広げる 97
  58. 点群におけるPEFT Parameter Efficient Fine-Tuning (PEFT) • 事前学習済みモデルを少数パラメータでFine-Tuning • 画像生成でのLoRAなどが有名 点群Transformerではデコード時のPromptで

    Fine-Tuningするアプローチ(Prompt-Tuning)が 多く提案されている IDPT, Point-PERT, DAPT 三次元点群に特有の技術 グラフスペクトルの利用:PointGST 101
  59. IDPT [Y. Zha+, ICCV2023] 全体のパイプライン • FPS + kNNでトークン化してTransformerに入力 •

    Transformerの最終層で Dynamic Prompt Generationを適用 • トークンの集合をEdgeConv + Poolingで処理しDynamic Promptを計算 • Transformerの入力トークンに加える • Ablationにより,最終層だけで十分であることを検証 103
  60. IDPT [Y. Zha+, ICCV2023] t-SNEによる可視化からの観察 • Point-MAEの事前学習済みモデルの特徴量 • 合成データセット(ModelNet40やShapeNetPart)では クラスごとに密なクラスタを形成

    • 実世界データセット(ScanObjectNN)では散らばっており, 複雑なサブモードをなしている • この多様性を捉えるには,インスタンスに応じた 動的な調整が必要という示唆 104
  61. Point-PEFT [Y. Tang+, AAAI2024] 点群の事前学習済モデルの 少数パラメータでのFine-Tuning • 事前学習済みのTransformerを固定 • Point-PEFTモジュールとタスク固有のHead,

    バイアスだけチューニング • Point-BERT,Point-M2AE, Point-MAEで検証 構成要素 • Point-prior Prompt • Geometry-aware Adapter 105
  62. Point-PEFT [Y. Tang+, AAAI2024] Point-prior Prompt • 点群の事前バンクの構築:Key-Value • 入力点群をクエリとする

    • コサイン類似度でAttention Scoreを計算, 上位の特徴量とその重み付き平均を出力 • 入力の点群特徴と結合してトークンに加算する 106
  63. Point-PEFT [Y. Tang+, AAAI2024] Geometry-aware Adapter • 局所形状を点群に合わせて抽出することを意図 • 処理の流れ

    • 入力トークンをMLPで変換してから FPS + kNNでグループ化 • グループごとにSelf-Attentionを適用 • プーリングしてグループで集約 • 局所点群に伝搬 107
  64. Point-PEFT [Y. Tang+, AAAI2024] Attentionの可視化 • 判別性の高い部分にAttentionされていることがわかる • 単に[CLS]トークンでは情報を捉えていない •

    単に学習可能なプロンプトトークンでは重要な箇所を 捉えられていない • Prompt-Priorであれば顕著で重要な部分に着目できる 108
  65. DAPT [X. Zhou+, CVPR2024] 事前学習済みTransformerモデルの転移学習で, インスタンス固有の特徴を捉える Point-BERT,Point-MAE,ReConで検証 構成要素 • Dynamic

    Adapter 各トークンに動的にスケールを付与しプロンプトを調整 • Internal Prompt Tuning Dynamic Adapterで動的なプロンプトを計算 109
  66. DAPT [X. Zhou+, CVPR2024] Task-agnostic Feature Transform Strategy (TFTS) •

    Scaling and Shifting your deep Features (SSF) [D. Lian+, NeurIPS2022]を適用 • プロンプトを線形変換でタスクに合わせて調整 Dynamic Adapter 各トークンに動的にスケールを付与しプロンプトを調整 110
  67. DAPT [X. Zhou+, CVPR2024] Internal Prompt Tuning • 前層の出力トークンにDynamic Adapterを適用

    • 重み付き平均 + TFTSの適用 • グローバルな情報とインスタンス固有の情報を 捉えることを期待 112
  68. PointGST [D. Liang+, arXiv:2410.08114] Transformerによる事前学習済み点群の Parameter Efficient Fine-Tuning (PEFT) •

    事前学習モデルを固定 • Point cloud Graph Spectral Tuning (PGST): スペクトルに対してFine-Tuningする 113
  69. PointGST [D. Liang+, arXiv:2410.08114] Point cloud Graph Spectral Tuning (PGST)

    • 既存のファインチューニングは空間領域で行われており, トークン間での依存関係を壊すと指摘 • スペクトル領域であればデカップリングがしやすいはず グラフフーリエ変換からの着想 • 軽量なPoint Cloud Spectral Adapter (PCSA)を導入, スペクトル領域でファインチューニング 114
  70. PointGST [D. Liang+, arXiv:2410.08114] 各コンポーネントの実装 • Transformerとしての設計 • FPS +

    kNNでトークン化,AttentionとFFNを配置 • Trans Z-orderソートと近傍k=4を利用 • PGST マルチスケールな点群グラフを作成 グローバルグラフ:点群全体,ローカルグラフ:局所点群 • PCSA • スペクトルに変換してスペクトル領域でトークンを変換 • TransformerのFFNにPCSAの出力を結合 115
  71. Mambaによる点群処理 •Mambaを用いた点群処理Backboneも登場 Mamba: 選択的状態空間モデルでシーケンスを処理 𝑂𝑂(𝑁𝑁)でシーケンスを扱えて高速という評判 (Transformerは𝑂𝑂 𝑁𝑁2 ないし𝑂𝑂 𝑁𝑁𝐾𝐾2 )

    •直列化をどうするかが問題 • PTv3など,点群Transformerでも同様の問題 • グラフスペクトルを用いる手法も登場 •本当に点群で離れた点の依存関係を直列化で 解決できる? 117
  72. LION [Z. Liu+, NeurIPS2024] Linear RNN (Mambaなど)による3Dデータ処理 • 3Dバックボーン +

    BEVバックボーン + Detection Head 3Dバックボーンにはスパースボクセル畳み込み • 自動運転用のデータを対象とし,地面方向が既知とする • スパースボクセルをデータがある部分で詰めて, 同じトークン数になるようにグループ化して Linear RNNで処理 FlatFormerと同様のアイデア 118
  73. LION [Z. Liu+, NeurIPS2024] LION: LInear grOup RNN • 3DボクセルをX軸主,Y軸主で並び替えてRNNで処理

    軸に沿わない関係は,その軸では扱われない • 長距離依存関係を記述できるように • Linear RNNとしてMamba, RWKV, RetNetで検証 119
  74. PointMamba [D. Liang+, NeurIPS2024] kNN + FPSでキーポイント・局所領域選択, 相対座標化 + Shared

    MLP + Poolingで特徴抽出 空間充足曲線に沿って順序付け • Hilbert曲線,Trans-Hilbert曲線(軸順の変更) • 空間局所性を維持 122
  75. PoinTramba [Z. Wang+, arXiv:2405.15463] Bi-directional Importance-aware Ordering (BIO) • Mambaに入力する際の順序を決定するために使用

    • グローバル特徴量とのコサイン類似度を 重要度の教師として利用 • 順序付けの際には重要度がわからないので, パッチ特徴量から予測 127
  76. Mamba3D [X. Han+, ACMMM2024] 構成要素 • FPS + kNNとShared MLP

    + Poolingでパッチ化 • Local Norm Pooling (LNP) • K-norm: スケールを正規化した相対特徴量 • K-pooling: Softmaxによる集約 • bidirectional SSM (bi-SSM) 131
  77. PointABM [J.-W, Chen+, ICITES2024] MambaとTransformerを統合したモデル FPS + kNNでパッチ分割 bidirectional SSM

    (bi-SSM) • 単方向だとグローバルな特徴を捉えにくい • 双方向と残差接続を導入 132
  78. PCM [T. Zhang+, AAAI2025] Point Cloud Mamba (PCM) 概要 •

    Geometry Affine Moduleの利用(PointMLP) • ダウンサンプリングしつつMambaをレイヤーとして利用 MambaはGlobalで走る • 事前学習はしていない 133
  79. PCM [T. Zhang+, AAAI2025] Consistent Traverse Serialization (CTS) • 隣接点が連続するように

    • 軸の組み合わせてバリアント Order Prompt シーケンスの配置順をMambaに入力 134
  80. PCM [T. Zhang+, AAAI2025] Positional Encoding • RoPEや学習可能なEmbeddingは点群に向かない • 線形な座標のマッピング

    Decoupled Local Aggregation for Point Cloud Learning (DeLA) の利用 • 点群の局所特徴量抽出手法 [B. Chen+, arXiv:2308.16532] • PCMはDeLAブロックによる局所特徴量抽出と 組み合わせると性能向上 • PTv3ではDeLAを組み合わせても性能向上がない 135
  81. SI-Mamba [A. Bahri+, CVPR2025] Spectral Informed Mamba (SI-Mamba) • Mambaを点群に応用

    • スペクトルによる順序付けを提案 • 教師あり学習と自己教師あり学習を想定 136
  82. SI-Mamba [A. Bahri+, CVPR2025] SAST: Surface-Aware Spectral Traversing • FPS

    + kNNでトークン化 • 局所パッチのグラフラプラシアンの スペクトルによる順序付け グラフスペクトルなので等長写像不変 TAR: Traverse-Aware Repositioning • Pretrainingのときにマスクし再構成 • Mambaがトークン順に鋭敏であることを考慮し, マスクされた位置に予測されたトークンを戻す 137
  83. SI-Mamba [A. Bahri+, CVPR2025] HLT: Hierarchical Local Traversing • グラフスペクトルを考慮し,SASTの順序を

    二部グラフでセグメンテーションしパッチに分割 • すべてのスペクトルシーケンスを考慮 • SASTすべての固有ベクトルに沿った順序で 走査するので,全体を捉える セグメンテーションに向く 138
  84. StruMamba3D [C. Wang+, ICCV2025] StruMamba3D • 空間的な依存関係の維持 • 空間的局所な関係を捉えるためのSpatial States

    • State-wise Update Strategy:軽量な畳み込みで相互作用をキャプチャ → 直列化が不要 • 長期シーケンスメモリ 既存のMambaベースの手法の問題を解決 139
  85. StruMamba3D [C. Wang+, ICCV2025] Structural SSM Block • 状態の初期化にFPS +

    kNN • StateとTokenを相互に線形でアップデート • 軽量なkNNでの畳み込み 1D畳み込みの置き換え 140
  86. まとめ •研究動向 • 点群を処理するTransformerが発展 • 現時点ではPTv3がベースライン • FPS + kNNから直列化へ

    • Transformerベースと相性の良い 事前学習/表現学習が台頭 • Sonataがベースライン • PEFTも流行しつつある • Mambaを用いる手法も研究が進んでいる •共通の課題 • 直列化をどうするか=空間近傍をどうキャプチャするか • 計算コストをどうやって抑えるか 142
  87. 触れなかった話題 • マルチモーダル,特にVLMとの連携 • 他のモーダルを使った事前学習などは対象外とした • CLIPなどと繋げられるとやはり強い • 微分可能レンダリングとの連携 •

    具体的なタスク • 三次元点群で何をするか,点群でないと解けないか • 多くの問題が2Dで解決しつつある,3Dの役割は? • 2Dの学習済モデルと組み合わせる場合,レンダリングできる NeRFや3DGSで空間的一貫性をとるほうが妥当なアプローチ • 形状生成 • 他の3D表現や三次元再構成との関係 • 計測系の考慮:VGGTなどの波及効果が今後あるはず • 3D Gaussian Splattingへの応用や技術の共有,相互変換など 143
  88. 44. MortonNet [A. Thabet+, CVPR2020WS, arXiv:1904.00230, 2019-03-30] 点群に対する三次元特徴量を教師無しで学習する ネットワーク MortonNetの提案

    • 三次元点群に順序を与え,Multi-layer RNNで次の点を 予測するように学習 • RNNの隠れ状態を特徴量とする 評価 • セグメンテーション S3DIS, vKITTI, ShapeNet 過去の資料より:今になると思い出される論文 144
  89. 44. MortonNet [A. Thabet+, CVPR2020WS, arXiv:1904.00230, 2019-03-30] Sparse Filtering Curves

    (SFC) • 多次元のデータを一次元にマッピングする手法 • いくつか種類があるが,今回はZ-orderを採用 SFCで生成された順序の例(赤線) 過去の資料より:今になると思い出される論文 145
  90. 44. MortonNet [A. Thabet+, CVPR2020WS, arXiv:1904.00230, 2019-03-30] 処理の流れ 1. Z-orderに従う点のシーケンスをShared

    MLPで 点ごとの高次元の特徴量に変換 2. シーケンス順にRNNに入力し,次の点の相対位置を 予測するように学習 3. 最終的なRNNの状態を特徴量とする Shared MLP 次の点の相対座標の予測 過去の資料より:今になると思い出される論文 146
  91. 8. RSNet (Ver. 1収録) [Q. Huang+, CVPR2018, arXiv:1802.04402, 2018-02-13] 点群を順序付きのボクセルに変換し入力する

    ネットワークRecurrent Slice Network (RSNet) を提案 順不同な点群入力に軸に沿った順序構造を導入 RSNetの構成要素 • Slice Pooling Layer • RNN layers • Slice Unpooling Layer 評価 • セグメンテーション S3DIS, ScanNet, ShapeNet-Part 過去の資料より:今になると思い出される論文 147
  92. 8. RSNet (Ver. 1収録) [Q. Huang+, CVPR2018, arXiv:1802.04402, 2018-02-13] 処理の流れ

    1. Input Feature Extraction 入力前にShared MLP 2. Slice Pooling Layer x,y,zの各軸に沿って点群を スライスしてMax Pooling 3. RNN layers スライスした点群を順に bidirectional RNNに入力 4. Slice Unpooling Layer RNNからの出力を 対象スライス上の全点に反映 5. Output Feature Extraction Slice Unpooling Layerの出力を 各点ごとに結合,Shared MLPで最終的なクラスに変換 Slice Pooling Layer Slice Unpooling Layer 過去の資料より:今になると思い出される論文 148
  93. 8. RSNet (Ver. 1収録) [Q. Huang+, CVPR2018, arXiv:1802.04402, 2018-02-13] ネットワークの構造

    x,y,zの各軸に 対して行う Slice Pooling Layer RNN Layer Slice Unpooling Layer Shared MLP Shared MLP 過去の資料より:今になると思い出される論文 149
  94. 49. 3P-RNN [X. Ye+, ECCV2018, 2018-10-08] Pointwise Pyramid Pooling (3P)と軸に沿ったRNNで

    局所形状・広域形状を考慮したセグメンテーション を行うネットワークの提案 3P: 各点に対して複数の範囲のWindowでPoolingを行う 局所形状を取り扱う RNN: x, y軸に沿ってグリッドベースでRNN 大域形状を取り扱う 評価 • セグメンテーション S3DIS, ScanNet , vKITTI , KITTI Raw , 3DRMS Challenge 過去の資料より:今になると思い出される論文 150
  95. 49. 3P-RNN [X. Ye+, ECCV2018, 2018-10-08] Pointwise Pyramid Pooling (3P)

    点ごとにいくつかのwindowでPoolingし,それぞれの windowでPoolingされた特徴量をその点の出力とする 左: 1点に対する3P,右: 3Pの各windowがPoolingしている領域の図示 過去の資料より:今になると思い出される論文 151
  96. 49. 3P-RNN [X. Ye+, ECCV2018, 2018-10-08] RNNによる広い範囲での形状特徴の抽出 上方向(z方向)は既知とし,x, y方向にRNNを走らせる x軸に沿って

    グリッドごとに 特徴量を入力 各グリッドの 出力特徴量を 順に出力 y軸についても同様 過去の資料より:今になると思い出される論文 152
  97. 49. 3P-RNN [X. Ye+, ECCV2018, 2018-10-08] ネットワークの構造 • 前半はPointNetに3Pを導入したネットワーク •

    後半はx, y軸方向にRNN • 点ごとの特徴量と局所/大域形状特徴量を合わせて MLPに入力しセグメンテーション 3P RNN 過去の資料より:今になると思い出される論文 153
  98. 参考文献 • [Point Transformer] Hengshuang Zhao, Li Jiang, Jiaya Jia,

    Philip H.S. Torr, Vladlen Koltun. Point Transformer. ICCV2021. • [Point Transformer V2] Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao. Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS2022. • [Point Transformer V3] Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao. Point Transformer V3: Simpler, Faster, Stronger. CVPR2024. • [PointMLP] Xu Ma, Can Qin, Haoxuan You, Haoxi Ran, Yun Fu. Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework. ICLR2022. • [PointNeXt] Guocheng Qian, Yuchen Li, Houwen Peng, Jinjie Mai, Hasan Hammoud, Mohamed Elhoseiny, Bernard Ghanem. PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies. NeurIPS2022. • [PCT] Meng-Hao Guo, Jun-Xiong Cai, Zheng-Ning Liu, Tai-Jiang Mu, Ralph R. Martin, Shi-Min Hu. PCT: Point cloud transformer. Computational Visual Media(2021). • [Stratified Transformer] Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia. Stratified Transformer for 3D Point Cloud Segmentation. CVPR2022. • [Swin3D] Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo. Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding. arXiv:2304.06906. • [SPoTr] Jinyoung Park, Sanghyeok Lee, Sihyeon Kim, Yunyang Xiong, Hyunwoo J. Kim. Self-Positioning Point-Based Transformer for Point Cloud Understanding. CVPR2023. • [OctFormer] Peng-Shuai Wang. OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH2023. • [OA-CNN] Bohao Peng, Xiaoyang Wu, Li Jiang, Yukang Chen, Hengshuang Zhao, Zhuotao Tian, Jiaya Jia. OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation. CVPR2024. • [PointContrast] Saining Xie, Jiatao Gu, Demi Guo, Charles R. Qi, Leonidas J. Guibas, Or Litany. PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding. ECCV2020. • [OcCo] Hanchen Wang, Qi Liu, Xiangyu Yue, Joan Lasenby, Matthew J. Kusner. Unsupervised Point Cloud Pre-Training via Occlusion Completion. ICCV2021. • [Mix3D] Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann. Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV2021. • [CSC] Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie. Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR2021. • [Point-BERT] Xumin Yu, Lulu Tang, Yongming Rao, Tiejun Huang, Jie Zhou, Jiwen Lu. Point-BERT: Pre-Training 3D Point Cloud Transformers With Masked Point Modeling. CVPR2022. • [Point-MAE] Yatian Pang, Wenxiao Wang, Francis E.H. Tay, Wei Liu, Yonghong Tian, Li Yuan. Masked Autoencoders for Point Cloud Self-supervised Learning. ECCV2022. • [Point-M2AE] Renrui Zhang, Ziyu Guo, Peng Gao, Rongyao Fang, Bin Zhao, Dong Wang, Yu Qiao, Hongsheng Li. Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training. NeurIPS2022. • [MSC] Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao. Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning. CVPR2023. • [ReCon] Zekun Qi, Runpei Dong, Guofan Fan, Zheng Ge, Xiangyu Zhang, Kaisheng Ma and Li Yi. Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining. ICML2023. • [IAE] Siming Yan, Zhenpei Yang, Haoxiang Li, Chen Song, Li Guan, Hao Kang, Gang Hua, Qixing Huang. Implicit Autoencoder for Point-Cloud Self-Supervised Representation Learning. ICCV2023. • [Point-FEMAE] Yaohua Zha, Huizhen Ji, Jinmin Li, Rongsheng Li, Tao Dai, Bin Chen, Zhi Wang, Shu-Tao Xia. Towards Compact 3D Representations via Point Feature Enhancement Masked Autoencoders. AAAI2024. • [PointGPT] Guangyan Chen, Meiling Wang, Yi Yang, Kai Yu, Li Yuan, Yufeng Yue. PointGPT: Auto-regressively Generative Pre-training from Point Clouds. NeurIPS2024. • [PPT] Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao. Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR2024. • [Sonata] Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub. Sonata: Self-Supervised Learning of Reliable Point Representations. CVPR2025. • [IDPT] Yaohua Zha, Jinpeng Wang, Tao Dai, Bin Chen, Zhi Wang, Shu-Tao Xia. Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models. ICCV2023. • [Point-PEFT] Yiwen Tang, Ray Zhang, Zoey Guo, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li. Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models. AAAI2024. • [DAPT] Xin Zhou, Dingkang Liang, Wei Xu, Xingkui Zhu, Yihan Xu, Zhikang Zou, Xiang Bai. Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis. CVPR2024. • [PointGST] Dingkang Liang, Tianrui Feng, Xin Zhou, Yumeng Zhang, Zhikang Zou, Xiang Bai. Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning. arXiv:2410.08114. • [LION] Zhe Liu, Jinghua Hou, Xinyu Wang, Xiaoqing Ye, Jingdong Wang, Hengshuang Zhao, Xiang Bai. LION: Linear Group RNN for 3D Object Detection in Point Clouds. NeurIPS2024. • [PointMamba] Dingkang Liang, Xin Zhou, Wei Xu, Xingkui Zhu, Zhikang Zou, Xiaoqing Ye, Xiao Tan, Xiang Bai. A Simple State Space Model for Point Cloud Analysis. NeurIPS2024. • [PoinTramba] Zicheng Wang, Zhenghao Chen, Yiming Wu, Zhen Zhao, Luping Zhou, Dong Xu. PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis. arXiv:2405.15463. • [Mamba3D] Xu Han, Yuan Tang, Zhaoxuan Wang, Xianzhi Li. Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model. ACMMM2024. • [PointABM] Jia-wei Chen, Yu-jie Xiong, Yong-bin Gao. PointABM: Integrating Bidirectional State Space Model with Multi-Head Self-Attention for Point Cloud Analysis. International Conference on Intelligent Technology and Embedded Systems (ICITES) 2024. • [PCM] Tao Zhang, Haobo Yuan, Lu Qi, Jiangning Zhang, Qianyu Zhou, Shunping Ji, Shuicheng Yan, Xiangtai Li. Point Cloud Mamba: Point Cloud Learning via State Space Model. AAAI2025. • [SI-Mamba] Ali Bahri, Moslem Yazdanpanah, Mehrdad Noori, Sahar Dastani, Milad Cheraghalikhani, Gustavo Adolfo Vargas Hakim, David Osowiechi, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers. Spectral Informed Mamba for Robust Point Cloud Processing. CVPR2025. • [StruMamba3D] Chuxin ang, Yixin Zha, Wenfei Yang, Tianzhu Zhang. StruMam3D: Exploring Structural Mamba for Self-supervised Point Cloud Representation Learning. ICCV2025. 154
  99. 補完関係にある資料 • 点群データにおける表現学習(株式会社Ridge-I @obarads様) • https://iblog.ridge-i.com/entry/2021/05/19/110000 • 執筆時点(2021年)までの点群の表現学習をレビュー • 点群SegmentationのためのTransformerサーベイ

    (ビジョン&ITラボ 皆川 卓也様) • https://speakerdeck.com/takmin/dian-qun- segmentationnotamenotransformersabei • 点群Transformerの網羅的な調査・紹介 • 過去の資料(千葉) • 三次元点群を取り扱うニューラルネットワークのサーベイ Ver. 2 • https://speakerdeck.com/nnchiba/point-cloud-deep-learning-survey-ver-2 • 深層学習を用いた三次元点群処理入門 • https://speakerdeck.com/nnchiba/shen-ceng-xue-xi-woyong-itasan-ci-yuan-dian-qun-chu-li-ru-men • 初期の点群深層学習~点群畳み込みの歴史を紹介していますが, この頃に重視されていた対称性・不変性などが見直されており 現時点からみるとすでに古い内容です 155