点群処理Backbone Networkと点群の事前学習/表現学習

点群処理Backbone Networkと点群の事前学習/表現学習大阪大学千葉直也

目次 •過去の点群深層学習における局所特徴量 •点群Transformerの発展 • PointTransformerの歴史 • その他の点群Transformerや点群Backbone •点群の事前学習/表現学習 •Parameter Efficient
Fine-Tuning (PEFT)の利用 •Mambaによる点群処理 •思い出される過去の論文 2 図等は各論文から引用しています

三次元点群に対する畳み込み疎な点群に対する畳み込み手法隣接関係の自明な定義がない → PointNet以降，多数の手法が提案された畳み込みでやりたいこと：局所特徴量の抽出 • 畳み込みを用いることで，並進（など）に不変な局所特徴量を得ることができる（画像における2D畳み込みであれば2D並進不変）
• 例）こちらのカドとあちらのカドで同じ特徴量が抽出 3 過去の資料より

二次元での畳み込みカーネルを重畳，それぞれ掛けて足し合わせる 4 ⊗ ∑ � Δ𝒙𝒙∈𝐴𝐴 𝒇𝒇 𝒙𝒙 +
Δ𝒙𝒙 ⊤𝒌𝒌 Δ𝒙𝒙 𝒙𝒙: 着目点 𝒇𝒇 𝒙𝒙 : 着目点の入力特徴量 𝐴𝐴: 着目点周辺の領域 Δ𝒙𝒙: カーネル内での相対座標 𝒌𝒌 Δ𝒙𝒙 : Δ𝒙𝒙でのカーネルの値カーネル過去の資料より

点群における畳み込み基本方針は二次元での畳み込みを拡張 • 𝒇𝒇 𝒙𝒙 : 入力特徴量， 𝒇𝒇 𝒙𝒙 +
Δ𝒙𝒙 でそれぞれ定義されている • 𝒌𝒌 Δ𝒙𝒙 : カーネル（一般にはΔ𝒙𝒙による関数） • 𝛥𝛥𝒙𝒙 ∈ 𝐴𝐴 𝒙𝒙 : 近傍点と近傍領域（一般には𝒙𝒙による集合） • Agg: 集約関数 5 AggΔ𝒙𝒙∈𝐴𝐴 𝒙𝒙 𝒇𝒇 𝒙𝒙 + Δ𝒙𝒙 ⊤𝒌𝒌 Δ𝒙𝒙 入力特徴量カーネル各点で掛け合わせる局所領域について集約過去の資料より

点群における畳み込み基本方針は二次元での畳み込みを拡張 • 𝒇𝒇 𝒙𝒙 : 入力特徴量， 𝒇𝒇 𝒙𝒙 +
Δ𝒙𝒙 でそれぞれ定義されている • 𝒌𝒌 Δ𝒙𝒙 : カーネル（一般にはΔ𝒙𝒙による関数） • 𝛥𝛥𝒙𝒙 ∈ 𝐴𝐴 𝒙𝒙 : 近傍点と近傍領域（一般には𝒙𝒙による集合） • Agg: 集約関数手法ごとに違うのは • 近傍をどう決めるか • カーネルをどう決めるか（≒どう学習可能にするか） • どう集約するか 6 過去の資料より

近傍をどう決めるか多くはkNN (k-Nearest Neighbor) か radius Neighbor メッシュが入力の場合は接続関係を利用する場合も 7 kNN:
近傍点k個を選択 rN: 半径r以内の点を選択過去の資料より

集約をどうするか順不同な関数であればOK PointNetでMax-poolingを使うのと同じ • Sum: 元の畳み込みに近い構造になる • Max, Mean: 個数が変化しても対応できる
8 ℎ(𝑥𝑥1 ) ℎ(𝑥𝑥2 ) ℎ(𝑥𝑥3 ) ℎ(𝑥𝑥𝑁𝑁 ) ・・・ 𝑔𝑔 ℎ 𝑥𝑥1 , ℎ 𝑥𝑥2 , ⋯ , ℎ 𝑥𝑥𝑁𝑁 ・・・ 𝑔𝑔(⋅) ℎ(𝑥𝑥𝑖𝑖 ) 局所点群の点ごとの特徴量集約した特徴量過去の資料より

Fine-Tuning (PEFT)の利用 •Mambaによる点群処理 •思い出される過去の論文 9

点群をTransformerで処理する Transformerによる点群処理は自然な発想 • 他モーダルでの成功 • 集合データ処理との相性の良さ点群Transformerの課題：トークン化の難しさ • 全点独立したトークンは非現実的 •
FPS (Farthest Point Sampling) + kNNでパッチ化点群畳み込みからの派生で自然な発想処理が遅い，デコード方法が非自明などの問題 • 点群を並べて区切ってトークン化（PTv3）過去の点群畳み込みがこだわってきた順序不変性を気にしない 10

Point Transformer [H. Zhao+, ICCV2021] 点群をTransformerで処理する初期の論文 Transformerを導入する枠組み • kNNグラフ上でAttention •
FPS + Max Poolingでのダウンサンプリング • 特徴量線形補間でのアップサンプリング • Skip-connectionありのU-Net構造提案法の工夫 • Vector (Self-)Attention • Relative Position Encoding 11

Point Transformer [H. Zhao+, ICCV2021] Vector (Self-)Attention • 同著者がCVPR2020で提案 •
チャンネルごとに異なるAttention Weightを出力 Relative Position Encoding • 座標の差をMLPで変換SharedなMLPで変換 • 相対位置に応じた特徴を抽出できるように • 特徴量とAttentionに加法的に与える 12

Point Transformer [H. Zhao+, ICCV2021] ネットワーク構造 Transformerを挿入したU-Net構造 13

Point Transformer [H. Zhao+, ICCV2021] kNNが遅い • ヒープソートで高速化し一応の解決 • 近傍点数kの選び方が性能に重要であることも示唆
14

Point Transformer V2 [X. Wu+, NeurIPS2022] PTv1の限界 • FPS +
kNNが遅い • Vector Attentionが過学習しやすい Partition-based Pooling • kNNをやめてグリッドベースのプーリングにすることで大幅に高速化 • 座標はMean（重心），特徴量はMax • Shifted-Gridも検討したが点群とは相性が悪い • 性能も向上 • Unpoolも線形補間ではなく，単にマッピング 15 PTv1 (FPS + kNN) PTv2 (Grid Pooling)

Point Transformer V2 [X. Wu+, NeurIPS2022] Grouped Vector Attention (GVA)
Vector Attentionの重みをグループで共有することで過学習を抑制・パラメータ削減 • Instance NormalizationとGroup Normalizationのようなイメージ • 普通のMHAはLayer Normalizationのようなイメージ Grouped Linear：重みを適用するチャンネルもグループ化することで，パラメータをさらに削減 Improved Position Encoding • 位置エンコーディングの効果を加法的から線形（係数＆バイアス）に変更 • PTv1では効果はなかったが，PTv2のGVAと相性が良い 16

Point Transformer V2 [X. Wu+, NeurIPS2022] ネットワーク構造はあまり変化なし Grid PoolingとGVA Blockに置き換え
17

Point Transformer V3 [X. Wu+, CVPR2024] PTv2からさらに省メモリ・高速に少数データでも高性能データセットを跨いで事前学習できる Point
Prompt Training (PPT)も追加で利用 18

Point Transformer V3 [X. Wu+, CVPR2024] ストーリー • 点群Transformerでは，近傍を計算させる kNNやRelative
Position Encoding (RPE)が遅い • 順序不変性は気にせず，良い順序を設定してパッチに変換してTransformerを走らせたほうが良い → Serialization-based method • Grid Poolは続投して用いる，空間的な近傍はこちらでも処理されている • パッチ中の点数は1024点に 19

Point Transformer V3 [X. Wu+, CVPR2024] Serialization-based method • Z-orderやHilbert曲線による
空間充足曲線で点群に順序を与える空間的な距離をある程度反映される • 軸を入れ替えて様々な順序に投影 • 点群をパッチに分けてその中でAttention • パッチの切り方をシフト • パッチの区切り方を変える（Shift Dilation, Shift Patch） • 順序の取り方を複数使う（Shift Order） • 順序の取り方をシャッフル（Shuffle Order） 20

Point Transformer V3 [X. Wu+, CVPR2024] 空間充足曲線の例複数組み合わせて，シャッフルして使うと性能向上
21

Point Transformer V3 [X. Wu+, CVPR2024] Positional Encodingの工夫：xCPE • ペアワイズの距離を計算するRPEは計算コストが高い
• Attention Layerの前にSkip connectionを持つスパース畳み込みを入れることで対応 Attentionの変更 • 過学習しやすいGVAを使わない • Dot-product Attentionに変更 22

Point Transformer V3 [X. Wu+, CVPR2024] ネットワークアーキテクチャ FPSがなくなり，PTv2よりもシンプルに 23

PointTransformerと同世代の研究 •点群処理にTransformerを用いる手法の提案 • 基本的にはFPS + kNNでのパッチ化 • パッチ内Transformerか，パッチ間Transformerかは手法によるパッチ間＝パッチをトークン化する場合，Poolingか順序付けが必要
•その他のBackbone • PointNeXtがPointNet++の正統進化として提案 • 点群畳み込みの系譜ではPointMLPが高い性能を達成 • OA-CNNがスパースボクセルCNNで高性能 25

PointMLP [X. Ma+, ICLR2022] 精度・推論/学習速度ともに優れた点群Backbone • 局所点群をアフィン変換する軽量なモジュール •
Residual接続を用いた Shared-MLPとPoolingで処理 26 過去の資料より

PointNeXt [G. Qian+, NeurIPS2022] PointNet++の正統進化単に深くしても性能向上しないことを指摘高速で高精度，モデルサイズでバランス調整可能主な工夫 • 訓練戦略
データ拡張：ランダム回転，スケール，並進，ジッター，リサンプリング，シーン全体の入力（区切らない）， Z方向（高さ）の追加入力，色のコントラスト自動調整，色の削除 • 最適化戦略 • Label Smoothing付きCrossEntropyを利用 • オプティマイザーにAdamWを選択 • スケジューラーとしてCosine Decayを利用 • ハイパラの調整 • モデルのバリエーションを提供 PointNeXt-S, -B, -L, -XL 27

PointNeXt [G. Qian+, NeurIPS2022] アーキテクチャの改善 • クエリする半径の拡大 • 相対座標の正規化 •
Inverted Residual MLP (InvResMLP) 逆ボトルネック構造 • Stem MLP：高次元へのマッピング 28

PCT [M.-H. Guo+, CVA, 2021] Transformerを点群に利用した初期の論文 FPS + kNNでパッチ化，近傍に対してAttention Offset
Attention • 特徴量の差分でAttention 隣接行列とみなすとグラフラプラシアンに近い構造として理解できる • 正規化をSoftmax（ソース点）と L1 Normalization（ターゲット点）に対して行う工夫． SPCTとして提案 29

PCT [M.-H. Guo+, CVA, 2021] FPS + kNNでパッチ化，近傍に対してAttention Offset Attention
• 特徴量の差分でAttention 隣接行列とみなすとグラフラプラシアンに近い構造として理解できる • ソース点にSoftmax，ターゲット点にL1 Normalizationで正規化を行う 30

PCT [M.-H. Guo+, CVA, 2021] MA-Pool • MaxとAverageによる特徴量のPooling • バリエーション
• LBR: Linear, BatchNorm, ReLU • LBRD: LBR + Dropout 31

PCT [M.-H. Guo+, CVA, 2021] Attention Mapの可視化意味的に近いことを捉えていると解釈できる 32

Stratified Transformer [X. Lai+, CVPR2022] 点群Transformerで離れた領域のコンテキストを利用できるよう拡張工夫 • Stratified
Key-sampling Strategy（後述） • contextual Relative Position Encoding (cRPE) （後述） • KPConvによる特徴抽出を第一層で行う • メモリ効率の良い実装 33

Stratified Transformer [X. Lai+, CVPR2022] Stratified Key-sampling Strategy • 密な近傍点と疎な遠隔点で
キーを設定しAttention • FPSでサブサンプリングして疎な点群を得る contextual Relative Position Encoding (cRPE) クエリとキーの間で相対座標を計算し量子化， LUTで学習可能なPosition Encodingを保持し学習 34

Swin3D [Y.-Q. Yang+, arXiv:2304.06906] Swin Transformerを三次元点群に利用 • シフトしたパッチでSelf-Attentionを適用 • 事前学習としての利用を想定
Contextual Relative Signal Encoding (cRSE) • 特徴量についても差分を計算，LUTで離散化し Attentionを計算 • cRPEよりもスケーラビリティが高い 35

Swin3D [Y.-Q. Yang+, arXiv:2304.06906] 手法の設計 • スパース畳み込みでFeature Embeddingsに変換計算順序を変えてSoftmaxを外に出すことでスパースなSelf-Attentionをメモリ効率よく計算
• 通常とシフトしたパッチでSelf-Attention • kNNでプーリング • 階層的に特徴抽出 36

SPoTr [J. Park+, CVPR2023] Self-Positioning point-based Transformer (SPoTr) 点群のTransformerに，データに合わせたキーポイントの自動設定を導入
• Local Point Attention (LPA)とSelf-Positioning Point-based Attention (SPA) を組み合わせる • Attentionの分離スケーラビリティと長距離依存性の両立を目指す 37

SPoTr [J. Park+, CVPR2023] SPA (Self-Positioning Point-based Attention) キーポイントを点群から生成しグルーピング Local
Point Attention (LPA) 特徴点と入力点でCross-Attentionを行う • Channel-Wise Point Attention (CWPA) • 特徴量の差分からAttentionを計算 • チャンネルごとにAttentionを計算することでコンテキストを考慮，より柔軟な表現学習に 38

SPoTr [J. Park+, CVPR2023] ネットワーク構造 • クラス分類には階層的なネットワーク • セグメンテーションには階層的なU-Net構造 39

SPoTr [J. Park+, CVPR2023] キーポイントとAttentionの可視化 • それらしい点にキーポイントが配置されている • 空間局所的にAttentionが貼られている 40

OctFormer [P.-S. Wang, SIGGRAPH2023] Octreeを使い局所領域を設定することで Transformerを点群に適用する • グリッドベースだと点数が不均衡になり， GPU計算と相性が悪い．Octreeで不均衡を解決 •
高速で省メモリな実装が可能 • Conditional Positional Encoding (CPE) [X. Chu+, ICLR2023] を利用 41

OctFormer [P.-S. Wang, SIGGRAPH2023] OctreeがZ-orderで配置されることを利用 • Reshapeだけで自然に固定で区切ることができる • 個々の領域の形状はまちまち（ボクセル領域とは限らない） •
実装しやすく，計算密度も高い • 密なデータの場合，ボクセルでのTransformerと同じ挙動 Dilated Octree Attention • ReshapeとTransposeで，飛び飛びの領域をまとめて Transformerに入力する 42

OA-CNN [B. Peng+, CVPR2024] スパースボクセル上の3D CNNに， Adaptive Relationというアイデアを入れる Self-Attentionなしで省メモリ・高速・高精度 43

OA-CNN [B. Peng+, CVPR2024] Adaptive Relation Convolution (ARConv) カーネルの重みは特徴量の差分から計算しSoftmax Adaptive
Aggregator 固定の3段階の領域でARConvを計算，着目点の特徴量からそれぞれの領域の重みを計算し集約 44

OA-CNN [B. Peng+, CVPR2024] ネットワーク構造 ARConvとAggregatorを組み込んだSparse CNN 45

OA-CNN [B. Peng+, CVPR2024] Multi-One-Multi構造なので軽量，kNNも不要畳み込みにおける特徴量の集約と再配置に Gridを用いるため，近傍探索が不要になる 46

点群の事前学習/表現学習 •基本的には流行に追従 • 対照学習: PointConstrast, OcCo, CSC, MSC • BERT:
Point-BERT • MAE: Point-MAE, Point-M2AE, MSC • GPT: ReCon, RointGPT •3D特有の性質 • シーンから複数のビューを切り出せる • データセットの不足・性質のばらつき（合成/実世界） •Sonataが幾何学的ショートカットの回避という方針を提示 48

PointContrast [S. Xie+, ECCV2020] 点群における事前学習の枠組みを構成したエポックメイキングな論文 • 線形プロービングでの検証 • 物体認識
• 少数データでのファインチューン事前学習が教師あり/なしの性能差がほぼなくなった • データセットの規模拡大が重要と主張 • アノテーションよりデータサイズ 49

PointContrast [S. Xie+, ECCV2020] 点群におけるシーン位置合わせによる対照学習ストーリー • ShapeNet事前学習が性能を下げることを指摘 • 後のPPTとも同じ着眼点
• Fully Convolutional Geometric Features (FCGF)を参考に • 位置合わせを想定して，対応点かどうかを利用した Positive/Negative判定で特徴量を学習 • PointContrastはこれを一般の点群事前学習に拡張 50

PointContrast [S. Xie+, ECCV2020] 点群における対照学習 • 変換された点群間の対応で学習 • 剛体変換を考慮 •
単一視点だとうまくいかないことを検証，多視点で対照学習することが重要と示唆 → 後にMCTが拡張 • Hardest Contrastive Loss FCGFで提案された損失関数を利用 • PointInfoNCE • 分類問題として正例のみSoftmaxで学習 • シンプル・少ないハイパラ • モード崩壊しにくい • 規模の都合でScanNetで事前学習 51

PointContrast [S. Xie+, ECCV2020] ネットワーク構造 Sparse Residual U-Net：スパース畳み込みを入れたU-Net 52

OcCo [H. Wang+, ICCV2021] 隠れを利用したデータ拡張による点群の事前学習手法 • カメラ視線から隠れる点をマスク • Encoder-Decoder
+ MAEで隠れた点を再構成 • 空間的な理解を促す 53

OcCo [H. Wang+, ICCV2021] ネットワーク • エンコーダー：PointNet, PCN, DGCNNで検証 •
デコーダー：PCN形式のFoldingNet 既存の表現学習よりも優れた Few-shot性能/転移学習性能を達成 54

OcCo [H. Wang+, ICCV2021] OcCoファインチューニング後のモデルが平坦な局所解であることを確認 • ランダムな摂動ベクトルに対して評価 • 間接的に，獲得された表現が優れることを示唆
55

Mix3D [A. Nekrasov+, 3DV2021] セグメンテーションのためのデータ拡張手法種々のネットワークで利用可能アイデア • 学習データをランダムに空間的に重畳 •
シーンごと重畳するので，グローバルコンテキストに過度に依存しないように学習できると期待 • 結果として局所特徴量をよく抽出できる 56

Mix3D [A. Nekrasov+, 3DV2021] 手法の流れ • シーン2つランダムに選択 • それぞれにランダムな幾何変換・カラーの変換を適用 •
空間的に重畳し，もとのラベルを教師として予測するように学習 57

Mix3D [A. Nekrasov+, 3DV2021] Ablation Study • ノイズやCutOutよりもMixingが優れることを検証 • Mix時に空間的に重畳することが有効
58

CSC [J. Hou+, CVPR2021] ShapeContextから着想した点群に対する対照学習 Contrastive Scene Context (CSC) •
PointConstrastの拡張 • 空間コンテキストの拡張：空間分割して独立して対照学習を適用する 59

CSC [J. Hou+, CVPR2021] Scene Contexts • PointConstrastでは点の対応だけに着目 • CSCではどのビンに入っているかを利用し，
相対角度・相対距離の空間的なコンテキストを利用これを目的関数に含めることができる • うまく分割数を設定すると性能向上 60

CSC [J. Hou+, CVPR2021] 評価シナリオ • 自己教師あり事前学習 • データ数が限定 •
アノテーションのみが限定 61

CSC [J. Hou+, CVPR2021] 想定している利用シナリオの一つ： Limited Annotations (LA) • アノテーションが限定
• アクティブラベリング戦略：特徴量空間でk-meansを行い特徴量クラスタの中心に対してラベリング 62

Point-BERT [X. Yu+, CVPR2022] 点群を事前学習付きのTransformerで処理 • 点群のトークナイザーの導入 • 相対位置によるPositional Encoding
• Masked Point Modeling (MPM)による事前学習 • Class Token [CLS]を導入 63

Point-BERT [X. Yu+, CVPR2022] 点群のトークナイザー • dVAE (discrete VAE) ベースのトークナイザー
• FPS + kNNで局所パッチ化 • デコーダー DGCNNでトークンを再構成，FoldingNetで点群に戻す • Gambel-Softmax緩和潜在空間が離散なので，温度スケジューリングして緩和 64

Point-BERT [X. Yu+, CVPR2022] Masked Point Modeling (MPM) • BERTインスパイヤの自己教師あり学習
(SSL) • ブロックワイズマスキング：ランダムより優れる • Point Patch Mixing • MoCoによる対照学習（蒸留＋辞書学習） 65

Point-BERT [X. Yu+, CVPR2022] 事前学習タスクの結果マスクの下部分の推定が出来ていることを確認 66

Point-MAE [Y. Pang+, ECCV2022] 点群TransformerにMasked Auto-Encoderを適用し，自己教師あり学習を行う • Point-BERTではトークン化のためにDGCNNによる
dVAEが必要 • 性能向上＆高速化 • Transformerだけの構成にしたい • マスクトークンをエンコーダではなくデコーダーの入力にする • エンコーダーは特徴学習に集中 • エンコード時点でマスクされた箇所が明らかになることを避ける • デコーダーは再構成 67

Point-MAE [Y. Pang+, ECCV2022] FPS + kNNでパッチ化 • 座標はパッチ中心で正規化 •
Shared MLP + Poolingで集約 • Positional Embeddingと合わせてトークン化デコーダーもTransformer • 全結合ネットワークでパッチから点群に戻す • マスクトークンはデコーダーにのみ入力 68

Point-MAE [Y. Pang+, ECCV2022] 事前学習タスクマスクした後の再構成の可視化 69

Point-M2AE [R. Zhang+, NeurIPS2022] Multi-scale Masked Autoencoders (M2AE) • 点群にMAEを適用するにあたり，階層的なモデルに
• 詳細な形状と大まかな形状を両方うまく捉えるように手法 • Multi-scale Masking Strategy • Local Spatial Self-Attention （Fine-Tuning時） 70

Point-M2AE [R. Zhang+, NeurIPS2022] Multi-scale Masking Strategy • Transformerベースで，FPS +
kNNでダウンサンプリング， Shared MLP + Poolingで集約 • デコード時にトークンをマスク • Skip-connectionでマスクされていないトークンに対応するエンコーダーのトークンを渡すエンコーダーのトークンが局所形状を再現するように 71

Point-M2AE [R. Zhang+, NeurIPS2022] Local Spatial Self-Attention • エンコーダーにおいて，Fine-Tuning時に担当する局所領域以外のトークンをマスクする
• これにより局所形状に着目して特徴を捉えることを期待 72

Point-M2AE [R. Zhang+, NeurIPS2022] 可視化マルチスケールで再構成がなされていることを検証 73

MSC [X. Wu+, CVPR2023] シーン分割による教師なし点群表現学習 • PointContrastのFrame MatchingはRGB-Dに依存，オーバーラップのあるフレームを利用している •
提案：Scene Augmentation • シーン点群をランダムに分割して利用 • 幾何・カラー両方にランダムなデータ拡張 • サンプリング拡張：クロップ・ボクセル化 • 高速な前処理と高い汎用性 74 Frame Matching Scene Augmentation

MSC [X. Wu+, CVPR2023] Scene augmentation • シーン点群をランダムに分割して利用 • 幾何・カラー両方にランダムなデータ拡張
• サンプリング拡張：クロップ・ボクセル化 75

MSC [X. Wu+, CVPR2023] 対称学習としての設計 • 同じ点を共有しないようにクエリービューとキービューをマスク • マスクした部分は学習可能なマスクトークンを割り当て
• マスク以外とマスクをそれぞれ再構成 • 空間的に近い点を正例としてInfoNCEで学習 • テクスチャと法線を推定させる再構成ロスも利用 76

MSC [X. Wu+, CVPR2023] View Mixing • クエリビューのみをランダムに混ぜ合わせてから Backboneに入力，特徴抽出後分離する InfoNCEロスでボキャブラリーを形成するキービューが
安定しているべき，と説明 • 汎化性能が向上 77

ReCon [Z. Qi+, ICML2023] 点群の表現学習で，対照学習と生成モデルを組み合わせる Student-Teacher with Student-Student
Assistance 事前学習済の画像やテキストをクロスモーダルな Contrastive Lossとして利用可能 78

ReCon [Z. Qi+, ICML2023] Student-Teacher with Student-Student Assistance • Teacher
Encoderがローカルとグローバルのトークンを出力 • Local Student Encoderがトークン列を生成 • これを参照しGlobal Student Decoderがグローバルトークンを出力して対照学習 • Global Student DecoderからLocal Student Encoderへの勾配は止める • 対照学習にはSmooth L1, おそらくセマンティックな多様性の少なさによる 79

IAE [S. Yan+, ICCV2023] 点群エンコーダーの事前学習として，パッチ単位でのImplicit Decoderを導入 • 対応付けを必要とする再構成ロス（CD, EMDなど）を
利用せずに学習できる • Field表現を比較するとSDFが優れた性能 80

IAE [S. Yan+, ICCV2023] ストーリー • 表面形状に対して表面点群のサンプリング方法は無数にある • 点群をそのまま使うと
サンプリングによるバイアスの影響をうける • 表面をImplicit Representationで記述するようなDecoderと組み合わせて学習真値の設定 • 合成データで水密メッシュが使える場合は SDFやOccupancyが利用できる • そうでない場合でも，近傍探索でUDFが利用できる 81

Point-FEMAE [Y. Zha+, AAAI2024] MAEによる点群の表現学習 • Linear Headで点群を再構成してロスを計算 • クロスモーダルでも検証
グローバルマスク/ブランチとローカルマスク/ブランチを組み合わせる • 最終的にローカルブランチを学習済みモデルとして利用 • グローバルとローカルをうまく組み合わせることで性能向上 82

Point-FEMAE [Y. Zha+, AAAI2024] Local Enhancement Module (LEM) • ローカルブランチのみで適用し局所特徴量を取り出す
Max-Poolingだけでは局所形状特徴の記述が不足 • kNNで近傍グラフを張り，各点で畳み込み Edge-Convとほぼ同様の処理 83

Point-FEMAE [Y. Zha+, AAAI2024] 処理の流れ • FPS + kNNでパッチに分割，Shared MLP
+ Pooling • ローカル・グローバルなマスクの適用，重みは共有しそれぞれのブランチで処理ローカルのみLEMを適用 • 再構成ロスで学習 84

PointGPT [G. Chen+, NeurIPS2024] 点群の自己回帰生成による事前学習 GPT: Generative Pre-trained Transformer Morton-order
curveによる順序付け FPS + kNNでパッチ化正規化座標をShared MLP + Pooling 85

PointGPT [G. Chen+, NeurIPS2024] Extractor-generator based Transformer Extractorで特徴抽出，Generatorは生成で学習し事前学習のみで用いる 86

PointGPT [G. Chen+, NeurIPS2024] Extractor-generator based Transformer Extractorで特徴抽出，Generatorは生成で学習し事前学習のみで用いる •
Extractor • Dual Masking Strategy • 点群は冗長な情報が多い • パッチ単位でのマスクに加え，Transformer上のAttentionをさらにマスク • グローバルな位置を正弦波エンコードでAPE (Absolute Positional Encoding)として利用 • Generator GeneratorにはRelative Direction Prompt (RDP)を入力，相対位置でパッチ順序の曖昧さを回避 Decoder出力からMLPでパッチ点群を復元 87

PointGPT [G. Chen+, NeurIPS2024] ロス関数の工夫下流タスクでも補助的に生成タスクを組み込む Post-Pre-Training • データセットを超えた自己教師あり学習が難しい •
Labeled Hybrid Dataset (LHD)の提案 • ラベルの対応付けは（明記はないが）人間がアノテーションデータセットのラベル単位なので低コスト事前学習・サイズでモデルのバリエーション • PointGPT-S: ShapeNet事前学習 • PointGPT-B, PointGPT-L: LHD事前学習 88

PPT [X. Wu+, CVPR2024] 点群データセットの不足ドメインギャップが大きく，単純にデータセットを結合しても性能が向上しない → Point Prompt
Pre-Training (PPT) 手法 • PDNorm: データセットごとのプロンプトを与える • Categorical Alignment: 言語モデルでクラスをアラインメントする 89

PPT [X. Wu+, CVPR2024] Domain Prompt Adapter (PDNorm) • Normalizationとして実装
• Zero-initialization：プロンプトの影響が無いように初期化 • Learning rate scaling：Backboneより学習しにくくする Categorical Alignment • クラス名を言語の埋め込みで対応させる． • InfoNCEを用いて評価 90

PPT [X. Wu+, CVPR2024] 性能評価 • 単にデータを混ぜるだけだと性能悪化 • PPTにより性能向上，Fine-Tuningでより優れた性能 91

Sonata [X. Wu+, CVPR2025] PTv3ベースの点群の自己教師あり表現学習同じ点は同じ特徴量で表現される，を体現 “In essence, (point) self-supervised
learning aims to make things (points) that should be the same, the same (identical in representation)” 92

Sonata [X. Wu+, CVPR2025] ストーリー • 既存のSSL手法は線形プロービングで性能が出ない • 「Geometric shortcut」を生じるのが原因
局所的すぎる幾何的な特徴を見てしまう（高さ，法線など） • 図：ソファーのアームと似ている点は？既存手法：局所形状，Sonata：ソファーのアーム全体 93

Sonata [X. Wu+, CVPR2025] デコーダーフリーな設計 • 幾何学的ショートカットへの対策 • U-Net構造を用いると，Skip-connection経由で局所形状を重視
• デコーダーなしで自己蒸留で学習する • 空間解像度を戻すためにUp-castingを入れるが，積極的には導入しない．Ablationで2回が良い結果に 94

Sonata [X. Wu+, CVPR2025] 自己蒸留の設計 • 点群に対して複数のビューを生成 → 後述 •
EMAによるStudent-Teacher形式で対照学習 • Progressive Parameter Scheduler • マスクを徐々に難しく • 学習率スケジューリング • Weight Decayスケジューリング • 蒸留における温度パラメータのスケジューリング 95

Sonata [X. Wu+, CVPR2025] ビューの作り方 • Global View：教師モデルで特徴抽出 •
Local View：生徒モデルで特徴抽出・学習 • Mask View （パッチ単位でマスク）：生徒モデルで特徴抽出・学習ランダムなデータ拡張クロップ，回転，歪み，ジッターなど 96

Sonata [X. Wu+, CVPR2025] Self-Distillation Loss • 教師モデルと生徒モデルの間で特徴量を一致させる • 複数のLocal
ViewとMask Viewを同時に用い，さらに複数の教師となるGlobal Viewと対応させる • DINOv2を参照し以下を導入 • Sinkhorn-Knopp centering：クラスタの偏りを避ける • KoLeo regularization：特徴量の分布を広げる 97

Sonata [X. Wu+, CVPR2025] 学習した特徴量の性質 • DINOv2と比較・組み合わせを検証 • 相補的な特徴量を獲得 98

Sonata [X. Wu+, CVPR2025] 可視化：高いゼロショット性能を達成 99

点群におけるPEFT Parameter Efficient Fine-Tuning (PEFT) • 事前学習済みモデルを少数パラメータでFine-Tuning • 画像生成でのLoRAなどが有名点群Transformerではデコード時のPromptで
Fine-Tuningするアプローチ（Prompt-Tuning）が多く提案されている IDPT, Point-PERT, DAPT 三次元点群に特有の技術グラフスペクトルの利用：PointGST 101

IDPT [Y. Zha+, ICCV2023] 動的なプロンプトチューニング • Transformerによる事前学習済モデルをfine-tuning • 単にPromptを最適化（Static）するのではなく，データに合わせてプロンプトを調整する（Dynamic）
ように学習 • Transformerの最終層に挿入する 102

IDPT [Y. Zha+, ICCV2023] 全体のパイプライン • FPS + kNNでトークン化してTransformerに入力 •
Transformerの最終層で Dynamic Prompt Generationを適用 • トークンの集合をEdgeConv + Poolingで処理しDynamic Promptを計算 • Transformerの入力トークンに加える • Ablationにより，最終層だけで十分であることを検証 103

IDPT [Y. Zha+, ICCV2023] t-SNEによる可視化からの観察 • Point-MAEの事前学習済みモデルの特徴量 • 合成データセット（ModelNet40やShapeNetPart）ではクラスごとに密なクラスタを形成
• 実世界データセット（ScanObjectNN）では散らばっており，複雑なサブモードをなしている • この多様性を捉えるには，インスタンスに応じた動的な調整が必要という示唆 104

Point-PEFT [Y. Tang+, AAAI2024] 点群の事前学習済モデルの少数パラメータでのFine-Tuning • 事前学習済みのTransformerを固定 • Point-PEFTモジュールとタスク固有のHead，
バイアスだけチューニング • Point-BERT，Point-M2AE， Point-MAEで検証構成要素 • Point-prior Prompt • Geometry-aware Adapter 105

Point-PEFT [Y. Tang+, AAAI2024] Point-prior Prompt • 点群の事前バンクの構築：Key-Value • 入力点群をクエリとする
• コサイン類似度でAttention Scoreを計算，上位の特徴量とその重み付き平均を出力 • 入力の点群特徴と結合してトークンに加算する 106

Point-PEFT [Y. Tang+, AAAI2024] Geometry-aware Adapter • 局所形状を点群に合わせて抽出することを意図 • 処理の流れ
• 入力トークンをMLPで変換してから FPS + kNNでグループ化 • グループごとにSelf-Attentionを適用 • プーリングしてグループで集約 • 局所点群に伝搬 107

Point-PEFT [Y. Tang+, AAAI2024] Attentionの可視化 • 判別性の高い部分にAttentionされていることがわかる • 単に[CLS]トークンでは情報を捉えていない •
単に学習可能なプロンプトトークンでは重要な箇所を捉えられていない • Prompt-Priorであれば顕著で重要な部分に着目できる 108

DAPT [X. Zhou+, CVPR2024] 事前学習済みTransformerモデルの転移学習で，インスタンス固有の特徴を捉える Point-BERT，Point-MAE，ReConで検証構成要素 • Dynamic
Adapter 各トークンに動的にスケールを付与しプロンプトを調整 • Internal Prompt Tuning Dynamic Adapterで動的なプロンプトを計算 109

DAPT [X. Zhou+, CVPR2024] Task-agnostic Feature Transform Strategy (TFTS) •
Scaling and Shifting your deep Features (SSF) [D. Lian+, NeurIPS2022]を適用 • プロンプトを線形変換でタスクに合わせて調整 Dynamic Adapter 各トークンに動的にスケールを付与しプロンプトを調整 110

DAPT [X. Zhou+, CVPR2024] 推定されたトークンのスケールの可視化インスタンスに応じて動的に調整されている 111

DAPT [X. Zhou+, CVPR2024] Internal Prompt Tuning • 前層の出力トークンにDynamic Adapterを適用
• 重み付き平均 + TFTSの適用 • グローバルな情報とインスタンス固有の情報を捉えることを期待 112

PointGST [D. Liang+, arXiv:2410.08114] Transformerによる事前学習済み点群の Parameter Efficient Fine-Tuning (PEFT) •
事前学習モデルを固定 • Point cloud Graph Spectral Tuning (PGST)：スペクトルに対してFine-Tuningする 113

PointGST [D. Liang+, arXiv:2410.08114] Point cloud Graph Spectral Tuning (PGST)
• 既存のファインチューニングは空間領域で行われており，トークン間での依存関係を壊すと指摘 • スペクトル領域であればデカップリングがしやすいはずグラフフーリエ変換からの着想 • 軽量なPoint Cloud Spectral Adapter (PCSA)を導入，スペクトル領域でファインチューニング 114

PointGST [D. Liang+, arXiv:2410.08114] 各コンポーネントの実装 • Transformerとしての設計 • FPS +
kNNでトークン化，AttentionとFFNを配置 • Trans Z-orderソートと近傍k=4を利用 • PGST マルチスケールな点群グラフを作成グローバルグラフ：点群全体，ローカルグラフ：局所点群 • PCSA • スペクトルに変換してスペクトル領域でトークンを変換 • TransformerのFFNにPCSAの出力を結合 115

Mambaによる点群処理 •Mambaを用いた点群処理Backboneも登場 Mamba: 選択的状態空間モデルでシーケンスを処理 𝑂𝑂(𝑁𝑁)でシーケンスを扱えて高速という評判（Transformerは𝑂𝑂 𝑁𝑁2 ないし𝑂𝑂 𝑁𝑁𝐾𝐾2 ）
•直列化をどうするかが問題 • PTv3など，点群Transformerでも同様の問題 • グラフスペクトルを用いる手法も登場 •本当に点群で離れた点の依存関係を直列化で解決できる？ 117

LION [Z. Liu+, NeurIPS2024] Linear RNN (Mambaなど)による3Dデータ処理 • 3Dバックボーン +
BEVバックボーン + Detection Head 3Dバックボーンにはスパースボクセル畳み込み • 自動運転用のデータを対象とし，地面方向が既知とする • スパースボクセルをデータがある部分で詰めて，同じトークン数になるようにグループ化して Linear RNNで処理 FlatFormerと同様のアイデア 118

LION [Z. Liu+, NeurIPS2024] LION: LInear grOup RNN • 3DボクセルをX軸主，Y軸主で並び替えてRNNで処理
軸に沿わない関係は，その軸では扱われない • 長距離依存関係を記述できるように • Linear RNNとしてMamba, RWKV, RetNetで検証 119

LION [Z. Liu+, NeurIPS2024] スパースボクセルの値があるボクセル周囲にもトークンを配置出力特徴量が大きい場合は値を保持ゼロ初期化で初めから余計なボクセルが現れないように 120

PointMamba [D. Liang+, NeurIPS2024] 点群にMambaを適用し線形計算量で点群処理点群に利用するには順序付けが必要 → パッチ化してから空間充足曲線に沿って順序付け 121

PointMamba [D. Liang+, NeurIPS2024] kNN + FPSでキーポイント・局所領域選択，相対座標化 + Shared
MLP + Poolingで特徴抽出空間充足曲線に沿って順序付け • Hilbert曲線，Trans-Hilbert曲線（軸順の変更） • 空間局所性を維持 122

PointMamba [D. Liang+, NeurIPS2024] Order Indicator どの順序で並べられたかを示すトークンを結合 123

PointMamba [D. Liang+, NeurIPS2024] グローバルモデリング異なる順序で集約されたグローバルな特徴量を両方とも利用することで，それぞれのシーケンスが捉えた情報を共有 124

PointMamba [D. Liang+, NeurIPS2024] 基本的にはMAEで事前学習することを前提 • マスクして再構成することで事前学習 • 線形なヘッドでの出力とChamfer Distanceで学習
• 60%マスクが実験的に高性能 125

PoinTramba [Z. Wang+, arXiv:2405.15463] TransformerとMambaのハイブリッド手法 • FPS + kNNでパッチに切り分ける •
Transformerでパッチ内，Mambaでパッチ間を処理 126

PoinTramba [Z. Wang+, arXiv:2405.15463] Bi-directional Importance-aware Ordering (BIO) • Mambaに入力する際の順序を決定するために使用
• グローバル特徴量とのコサイン類似度を重要度の教師として利用 • 順序付けの際には重要度がわからないので，パッチ特徴量から予測 127

PoinTramba [Z. Wang+, arXiv:2405.15463] Importance-Aware Pooling • 重要度≒グローバル特徴量とのコサイン類似度の予測が負のパッチを棄却 •
重み付け和を計算して，そのトークン列のグローバル特徴量として出力 128

PoinTramba [Z. Wang+, arXiv:2405.15463] 129 Ablation Study • 既存の順序付け手法よりも提案する順序付け（BIO）が優れた性能を達成
• Poolingも単にAverageやWeighted Sumよりも IAPが優れる

Mamba3D [X. Han+, ACMMM2024] Mambaを用いて点群を処理するネットワーク順序依存性への対策として，チャンネル方向に順序を反転させるC-SSMを組み合わせる 130

Mamba3D [X. Han+, ACMMM2024] 構成要素 • FPS + kNNとShared MLP
+ Poolingでパッチ化 • Local Norm Pooling (LNP) • K-norm: スケールを正規化した相対特徴量 • K-pooling: Softmaxによる集約 • bidirectional SSM (bi-SSM) 131

PointABM [J.-W, Chen+, ICITES2024] MambaとTransformerを統合したモデル FPS + kNNでパッチ分割 bidirectional SSM
(bi-SSM) • 単方向だとグローバルな特徴を捉えにくい • 双方向と残差接続を導入 132

PCM [T. Zhang+, AAAI2025] Point Cloud Mamba (PCM) 概要 •
Geometry Affine Moduleの利用（PointMLP） • ダウンサンプリングしつつMambaをレイヤーとして利用 MambaはGlobalで走る • 事前学習はしていない 133

PCM [T. Zhang+, AAAI2025] Consistent Traverse Serialization (CTS) • 隣接点が連続するように
• 軸の組み合わせてバリアント Order Prompt シーケンスの配置順をMambaに入力 134

PCM [T. Zhang+, AAAI2025] Positional Encoding • RoPEや学習可能なEmbeddingは点群に向かない • 線形な座標のマッピング
Decoupled Local Aggregation for Point Cloud Learning (DeLA) の利用 • 点群の局所特徴量抽出手法 [B. Chen+, arXiv:2308.16532] • PCMはDeLAブロックによる局所特徴量抽出と組み合わせると性能向上 • PTv3ではDeLAを組み合わせても性能向上がない 135

SI-Mamba [A. Bahri+, CVPR2025] Spectral Informed Mamba (SI-Mamba) • Mambaを点群に応用
• スペクトルによる順序付けを提案 • 教師あり学習と自己教師あり学習を想定 136

SI-Mamba [A. Bahri+, CVPR2025] SAST: Surface-Aware Spectral Traversing • FPS
+ kNNでトークン化 • 局所パッチのグラフラプラシアンのスペクトルによる順序付けグラフスペクトルなので等長写像不変 TAR: Traverse-Aware Repositioning • Pretrainingのときにマスクし再構成 • Mambaがトークン順に鋭敏であることを考慮し，マスクされた位置に予測されたトークンを戻す 137

SI-Mamba [A. Bahri+, CVPR2025] HLT: Hierarchical Local Traversing • グラフスペクトルを考慮し，SASTの順序を
二部グラフでセグメンテーションしパッチに分割 • すべてのスペクトルシーケンスを考慮 • SASTすべての固有ベクトルに沿った順序で走査するので，全体を捉えるセグメンテーションに向く 138

StruMamba3D [C. Wang+, ICCV2025] StruMamba3D • 空間的な依存関係の維持 • 空間的局所な関係を捉えるためのSpatial States
• State-wise Update Strategy：軽量な畳み込みで相互作用をキャプチャ → 直列化が不要 • 長期シーケンスメモリ既存のMambaベースの手法の問題を解決 139

StruMamba3D [C. Wang+, ICCV2025] Structural SSM Block • 状態の初期化にFPS +
kNN • StateとTokenを相互に線形でアップデート • 軽量なkNNでの畳み込み 1D畳み込みの置き換え 140

StruMamba3D [C. Wang+, ICCV2025] シーケンス長適応 • 状態更新のためのサンプリング間隔Δを点数に応じて調整 • Stateを共有したTeacher-StudentモデルをEMA更新 •
Embeddingsの一致と，デコードした点群としての一致 141

まとめ •研究動向 • 点群を処理するTransformerが発展 • 現時点ではPTv3がベースライン • FPS + kNNから直列化へ
• Transformerベースと相性の良い事前学習/表現学習が台頭 • Sonataがベースライン • PEFTも流行しつつある • Mambaを用いる手法も研究が進んでいる •共通の課題 • 直列化をどうするか＝空間近傍をどうキャプチャするか • 計算コストをどうやって抑えるか 142

触れなかった話題 • マルチモーダル，特にVLMとの連携 • 他のモーダルを使った事前学習などは対象外とした • CLIPなどと繋げられるとやはり強い • 微分可能レンダリングとの連携 •
具体的なタスク • 三次元点群で何をするか，点群でないと解けないか • 多くの問題が2Dで解決しつつある，3Dの役割は？ • 2Dの学習済モデルと組み合わせる場合，レンダリングできる NeRFや3DGSで空間的一貫性をとるほうが妥当なアプローチ • 形状生成 • 他の3D表現や三次元再構成との関係 • 計測系の考慮：VGGTなどの波及効果が今後あるはず • 3D Gaussian Splattingへの応用や技術の共有，相互変換など 143

44. MortonNet [A. Thabet+, CVPR2020WS, arXiv:1904.00230, 2019-03-30] 点群に対する三次元特徴量を教師無しで学習するネットワーク MortonNetの提案
• 三次元点群に順序を与え，Multi-layer RNNで次の点を予測するように学習 • RNNの隠れ状態を特徴量とする評価 • セグメンテーション S3DIS, vKITTI, ShapeNet 過去の資料より：今になると思い出される論文 144

44. MortonNet [A. Thabet+, CVPR2020WS, arXiv:1904.00230, 2019-03-30] Sparse Filtering Curves
(SFC) • 多次元のデータを一次元にマッピングする手法 • いくつか種類があるが，今回はZ-orderを採用 SFCで生成された順序の例（赤線）過去の資料より：今になると思い出される論文 145

44. MortonNet [A. Thabet+, CVPR2020WS, arXiv:1904.00230, 2019-03-30] 処理の流れ 1. Z-orderに従う点のシーケンスをShared
MLPで点ごとの高次元の特徴量に変換 2. シーケンス順にRNNに入力し，次の点の相対位置を予測するように学習 3. 最終的なRNNの状態を特徴量とする Shared MLP 次の点の相対座標の予測過去の資料より：今になると思い出される論文 146

8. RSNet （Ver. 1収録） [Q. Huang+, CVPR2018, arXiv:1802.04402, 2018-02-13] 点群を順序付きのボクセルに変換し入力する
ネットワークRecurrent Slice Network (RSNet) を提案順不同な点群入力に軸に沿った順序構造を導入 RSNetの構成要素 • Slice Pooling Layer • RNN layers • Slice Unpooling Layer 評価 • セグメンテーション S3DIS, ScanNet, ShapeNet-Part 過去の資料より：今になると思い出される論文 147

8. RSNet （Ver. 1収録） [Q. Huang+, CVPR2018, arXiv:1802.04402, 2018-02-13] 処理の流れ
1. Input Feature Extraction 入力前にShared MLP 2. Slice Pooling Layer x,y,zの各軸に沿って点群をスライスしてMax Pooling 3. RNN layers スライスした点群を順に bidirectional RNNに入力 4. Slice Unpooling Layer RNNからの出力を対象スライス上の全点に反映 5. Output Feature Extraction Slice Unpooling Layerの出力を各点ごとに結合，Shared MLPで最終的なクラスに変換 Slice Pooling Layer Slice Unpooling Layer 過去の資料より：今になると思い出される論文 148

8. RSNet （Ver. 1収録） [Q. Huang+, CVPR2018, arXiv:1802.04402, 2018-02-13] ネットワークの構造
x,y,zの各軸に対して行う Slice Pooling Layer RNN Layer Slice Unpooling Layer Shared MLP Shared MLP 過去の資料より：今になると思い出される論文 149

49. 3P-RNN [X. Ye+, ECCV2018, 2018-10-08] Pointwise Pyramid Pooling (3P)と軸に沿ったRNNで
局所形状・広域形状を考慮したセグメンテーションを行うネットワークの提案 3P: 各点に対して複数の範囲のWindowでPoolingを行う局所形状を取り扱う RNN: x, y軸に沿ってグリッドベースでRNN 大域形状を取り扱う評価 • セグメンテーション S3DIS, ScanNet , vKITTI , KITTI Raw , 3DRMS Challenge 過去の資料より：今になると思い出される論文 150

49. 3P-RNN [X. Ye+, ECCV2018, 2018-10-08] Pointwise Pyramid Pooling (3P)
点ごとにいくつかのwindowでPoolingし，それぞれの windowでPoolingされた特徴量をその点の出力とする左: 1点に対する3P，右: 3Pの各windowがPoolingしている領域の図示過去の資料より：今になると思い出される論文 151

49. 3P-RNN [X. Ye+, ECCV2018, 2018-10-08] RNNによる広い範囲での形状特徴の抽出上方向（z方向）は既知とし，x, y方向にRNNを走らせる x軸に沿って
グリッドごとに特徴量を入力各グリッドの出力特徴量を順に出力 y軸についても同様過去の資料より：今になると思い出される論文 152

49. 3P-RNN [X. Ye+, ECCV2018, 2018-10-08] ネットワークの構造 • 前半はPointNetに3Pを導入したネットワーク •
後半はx, y軸方向にRNN • 点ごとの特徴量と局所/大域形状特徴量を合わせて MLPに入力しセグメンテーション 3P RNN 過去の資料より：今になると思い出される論文 153

参考文献 • [Point Transformer] Hengshuang Zhao, Li Jiang, Jiaya Jia,
Philip H.S. Torr, Vladlen Koltun. Point Transformer. ICCV2021. • [Point Transformer V2] Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao. Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS2022. • [Point Transformer V3] Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao. Point Transformer V3: Simpler, Faster, Stronger. CVPR2024. • [PointMLP] Xu Ma, Can Qin, Haoxuan You, Haoxi Ran, Yun Fu. Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework. ICLR2022. • [PointNeXt] Guocheng Qian, Yuchen Li, Houwen Peng, Jinjie Mai, Hasan Hammoud, Mohamed Elhoseiny, Bernard Ghanem. PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies. NeurIPS2022. • [PCT] Meng-Hao Guo, Jun-Xiong Cai, Zheng-Ning Liu, Tai-Jiang Mu, Ralph R. Martin, Shi-Min Hu. PCT: Point cloud transformer. Computational Visual Media(2021). • [Stratified Transformer] Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia. Stratified Transformer for 3D Point Cloud Segmentation. CVPR2022. • [Swin3D] Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo. Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding. arXiv:2304.06906. • [SPoTr] Jinyoung Park, Sanghyeok Lee, Sihyeon Kim, Yunyang Xiong, Hyunwoo J. Kim. Self-Positioning Point-Based Transformer for Point Cloud Understanding. CVPR2023. • [OctFormer] Peng-Shuai Wang. OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH2023. • [OA-CNN] Bohao Peng, Xiaoyang Wu, Li Jiang, Yukang Chen, Hengshuang Zhao, Zhuotao Tian, Jiaya Jia. OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation. CVPR2024. • [PointContrast] Saining Xie, Jiatao Gu, Demi Guo, Charles R. Qi, Leonidas J. Guibas, Or Litany. PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding. ECCV2020. • [OcCo] Hanchen Wang, Qi Liu, Xiangyu Yue, Joan Lasenby, Matthew J. Kusner. Unsupervised Point Cloud Pre-Training via Occlusion Completion. ICCV2021. • [Mix3D] Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann. Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV2021. • [CSC] Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie. Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR2021. • [Point-BERT] Xumin Yu, Lulu Tang, Yongming Rao, Tiejun Huang, Jie Zhou, Jiwen Lu. Point-BERT: Pre-Training 3D Point Cloud Transformers With Masked Point Modeling. CVPR2022. • [Point-MAE] Yatian Pang, Wenxiao Wang, Francis E.H. Tay, Wei Liu, Yonghong Tian, Li Yuan. Masked Autoencoders for Point Cloud Self-supervised Learning. ECCV2022. • [Point-M2AE] Renrui Zhang, Ziyu Guo, Peng Gao, Rongyao Fang, Bin Zhao, Dong Wang, Yu Qiao, Hongsheng Li. Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training. NeurIPS2022. • [MSC] Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao. Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning. CVPR2023. • [ReCon] Zekun Qi, Runpei Dong, Guofan Fan, Zheng Ge, Xiangyu Zhang, Kaisheng Ma and Li Yi. Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining. ICML2023. • [IAE] Siming Yan, Zhenpei Yang, Haoxiang Li, Chen Song, Li Guan, Hao Kang, Gang Hua, Qixing Huang. Implicit Autoencoder for Point-Cloud Self-Supervised Representation Learning. ICCV2023. • [Point-FEMAE] Yaohua Zha, Huizhen Ji, Jinmin Li, Rongsheng Li, Tao Dai, Bin Chen, Zhi Wang, Shu-Tao Xia. Towards Compact 3D Representations via Point Feature Enhancement Masked Autoencoders. AAAI2024. • [PointGPT] Guangyan Chen, Meiling Wang, Yi Yang, Kai Yu, Li Yuan, Yufeng Yue. PointGPT: Auto-regressively Generative Pre-training from Point Clouds. NeurIPS2024. • [PPT] Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao. Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR2024. • [Sonata] Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub. Sonata: Self-Supervised Learning of Reliable Point Representations. CVPR2025. • [IDPT] Yaohua Zha, Jinpeng Wang, Tao Dai, Bin Chen, Zhi Wang, Shu-Tao Xia. Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models. ICCV2023. • [Point-PEFT] Yiwen Tang, Ray Zhang, Zoey Guo, Dong Wang, Zhigang Wang, Bin Zhao, Xuelong Li. Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models. AAAI2024. • [DAPT] Xin Zhou, Dingkang Liang, Wei Xu, Xingkui Zhu, Yihan Xu, Zhikang Zou, Xiang Bai. Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis. CVPR2024. • [PointGST] Dingkang Liang, Tianrui Feng, Xin Zhou, Yumeng Zhang, Zhikang Zou, Xiang Bai. Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning. arXiv:2410.08114. • [LION] Zhe Liu, Jinghua Hou, Xinyu Wang, Xiaoqing Ye, Jingdong Wang, Hengshuang Zhao, Xiang Bai. LION: Linear Group RNN for 3D Object Detection in Point Clouds. NeurIPS2024. • [PointMamba] Dingkang Liang, Xin Zhou, Wei Xu, Xingkui Zhu, Zhikang Zou, Xiaoqing Ye, Xiao Tan, Xiang Bai. A Simple State Space Model for Point Cloud Analysis. NeurIPS2024. • [PoinTramba] Zicheng Wang, Zhenghao Chen, Yiming Wu, Zhen Zhao, Luping Zhou, Dong Xu. PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis. arXiv:2405.15463. • [Mamba3D] Xu Han, Yuan Tang, Zhaoxuan Wang, Xianzhi Li. Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model. ACMMM2024. • [PointABM] Jia-wei Chen, Yu-jie Xiong, Yong-bin Gao. PointABM: Integrating Bidirectional State Space Model with Multi-Head Self-Attention for Point Cloud Analysis. International Conference on Intelligent Technology and Embedded Systems (ICITES) 2024. • [PCM] Tao Zhang, Haobo Yuan, Lu Qi, Jiangning Zhang, Qianyu Zhou, Shunping Ji, Shuicheng Yan, Xiangtai Li. Point Cloud Mamba: Point Cloud Learning via State Space Model. AAAI2025. • [SI-Mamba] Ali Bahri, Moslem Yazdanpanah, Mehrdad Noori, Sahar Dastani, Milad Cheraghalikhani, Gustavo Adolfo Vargas Hakim, David Osowiechi, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers. Spectral Informed Mamba for Robust Point Cloud Processing. CVPR2025. • [StruMamba3D] Chuxin ang, Yixin Zha, Wenfei Yang, Tianzhu Zhang. StruMam3D: Exploring Structural Mamba for Self-supervised Point Cloud Representation Learning. ICCV2025. 154

補完関係にある資料 • 点群データにおける表現学習（株式会社Ridge-I @obarads様） • https://iblog.ridge-i.com/entry/2021/05/19/110000 • 執筆時点（2021年）までの点群の表現学習をレビュー • 点群SegmentationのためのTransformerサーベイ
（ビジョン&ITラボ皆川卓也様） • https://speakerdeck.com/takmin/dian-qun- segmentationnotamenotransformersabei • 点群Transformerの網羅的な調査・紹介 • 過去の資料（千葉） • 三次元点群を取り扱うニューラルネットワークのサーベイ Ver. 2 • https://speakerdeck.com/nnchiba/point-cloud-deep-learning-survey-ver-2 • 深層学習を用いた三次元点群処理入門 • https://speakerdeck.com/nnchiba/shen-ceng-xue-xi-woyong-itasan-ci-yuan-dian-qun-chu-li-ru-men • 初期の点群深層学習～点群畳み込みの歴史を紹介していますが，この頃に重視されていた対称性・不変性などが見直されており現時点からみるとすでに古い内容です 155

謝辞 • 本資料の内容についてSpatial AI Network 勉強会 (2025/07/08) で発表の機会を頂き，多くのご質問やフィードバックを頂戴しました．発表の機会と多くのコメントをありがとうございました．
• 「補完関係にある資料」はそれぞれ大変参考にさせていただいています．作成者の皆さま，ありがとうございます． 156

点群処理Backbone Networkと点群の事前学習/表現学習

点群処理Backbone Networkと点群の事前学習/表現学習

More Decks by Naoya Chiba

Featured

Transcript