Upgrade to Pro — share decks privately, control downloads, hide ads and more …



主に点群に対するSemantic Segmentationを目的として、Transformerを適用した研究のサーベイ資料です。


May 23, 2023

More Decks by Takuya MINAGAWA

Other Decks in Technology


  1. 自己紹介 3 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード

    技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp
  2. ソリューション/製品 7 深層学習 (Deep Learning) Virtual / Augmented Reality ナンバープレート認識

    ビジョン&ITラボの代表的なソリューション や製品の例を紹介いたします。
  3. ナンバープレート認識: Number Plate Recognizer  画像や動画からナンバープレートを読み取ります 入力画像/動画 文字+座標 Number Plate

    Recognizer 札幌000 (み) 0000 • Web APIまたはSDKで提供可能 • SDK • LinuxまたはWindows • C++またはPython • アルファベット分類番号および図柄入りナンバープレートにも対応 • GPU不要でロバストかつ高速な認識
  4. 本資料の目的 15  主にSemantic Segmentationを目的と して、点群にTransformerを適用した 手法について調査  どのように適用したのか? 

    Vision Transformer、MLP Mixer、Pool Formerなどと何が違うのか?  PointNet/PointNet++と何が違うの か?
  5. 本資料の内容 16  PointNetのおさらい  PointNet  PointNet++  PointNeXt

     Transformerのおさらい  Transformer  Vision Transformer  MLP Mixer  Meta Former (Pool Former)  点群+Transformer  Point Transformer  Point Transformer V2  Point Mixer  Point Cloud Transformer  Point Voxel Transformer  Dual Transformer  Fast Point Transformer  Point BERT  Stratified Transformer  OctFormer  Self-positioning Point-based Transformer  まとめ
  6. PointNetおさらい:出典 18  PointNet  Qi, C. R., Su, H.,

    Mo, K., & Guibas, L. J. (2017). PointNet : Deep Learning on Point Sets for 3D Classification and Segmentation Big Data + Deep Representation Learning. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  PointNet++  Qi, C. R., Yi, L., Su, H., & Guibas, L. J. (2017). PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space. Conference on Neural Information Processing Systems (NeurIPS)  PointNeXt  Qian, G., Li, Y., Peng, H., Mai, J., Hammoud, H. A. A. K., Elhoseiny, M., & Ghanem, B. (2022). PointNeXt: Revisiting PointNet++ with Improved Training and Scaling Strategies. Conference on Neural Information Processing Systems (NeurIPS).
  7. PointNet 22  各点群の点を独立に(周辺の点を参照せず)MLPで特徴量を学習  Global Max Poolingで点群全体の特徴量を取得 直交行列(≒回 転行列)を学習

    し、座標変換 座標値(3次元) を特徴量(64次 元)へ変換 64次元の直 交行列を学 習し、特徴量 を変換
  8. PointNet 23  各点群の点を独立に(周辺の点を参照せず)MLPで特徴量を学習  Global Max Poolingで点群全体の特徴量を取得 直交行列(≒回 転行列)を学習

    し、座標変換 座標値(3次元) を特徴量(64次 元)へ変換 64次元の直 交行列を学 習し、特徴量 を変換 特徴量の変換 (点ごと)
  9. PointNet 24  各点群の点を独立に(周辺の点を参照せず)MLPで特徴量を学習  Global Max Poolingで点群全体の特徴量を取得 直交行列(≒回 転行列)を学習

    し、座標変換 座標値(3次元) を特徴量(64次 元)へ変換 64次元の直 交行列を学 習し、特徴量 を変換 特徴量の変換 (点ごと) Max Poolingで全点 の特徴を統合し、 Global特徴を算出
  10. PointNet 25  各点群の点を独立に(周辺の点を参照せず)MLPで特徴量を学習  Global Max Poolingで点群全体の特徴量を取得 直交行列(≒回 転行列)を学習

    し、座標変換 座標値(3次元) を特徴量(64次 元)へ変換 64次元の直 交行列を学 習し、特徴量 を変換 特徴量の変換 (点ごと) Max Poolingで全点 の特徴を統合し、 Global特徴を算出 Classification Score
  11. PointNet 26  各点群の点を独立に(周辺の点を参照せず)MLPで特徴量を学習  Global Max Poolingで点群全体の特徴量を取得 直交行列(≒回 転行列)を学習

    し、座標変換 座標値(3次元) を特徴量(64次 元)へ変換 64次元の直 交行列を学 習し、特徴量 を変換 特徴量の変換 (点ごと) Max Poolingで全点 の特徴を統合し、 Global特徴を算出 Global特徴 を各点の特 徴に追加 Segmentation Task
  12. PointNet 27  各点群の点を独立に(周辺の点を参照せず)MLPで特徴量を学習  Global Max Poolingで点群全体の特徴量を取得 直交行列(≒回 転行列)を学習

    し、座標変換 座標値(3次元) を特徴量(64次 元)へ変換 64次元の直 交行列を学 習し、特徴量 を変換 特徴量の変換 (点ごと) Max Poolingで全点 の特徴を統合し、 Global特徴を算出 Global特徴 を各点の特 徴に追加 特徴量の変換 (点ごと)
  13. PointNet 28  各点群の点を独立に(周辺の点を参照せず)MLPで特徴量を学習  Global Max Poolingで点群全体の特徴量を取得 直交行列(≒回 転行列)を学習

    し、座標変換 座標値(3次元) を特徴量(64次 元)へ変換 64次元の直 交行列を学 習し、特徴量 を変換 特徴量の変換 (点ごと) Max Poolingで全点 の特徴を統合し、 Global特徴を算出 Global特徴 を各点の特 徴に追加 特徴量の変換 (点ごと) 特徴量から各点 のラベルスコア 算出 (Segmentation)
  14. Transformerおさらい: 出典 38  Transformer  Vaswani, A., Shazeer, N.,

    Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems (NeurIPS).  Vision Transformer  Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale. International Conference on Learning Representations (ICLR).
  15. Transformerおさらい: 出典 39  MLP Mixer  Tolstikhin, I., Houlsby,

    N., Kolesnikov, A., Beyer, L., Zhai, X., Unterthiner, T., Yung, J., Steiner, A., Keysers, D., Uszkoreit, J., Lucic, M., & Dosovitskiy, A. (2021). MLP-Mixer: An all-MLP Architecture for Vision. Advances in Neural Information Processing Systems  Meta Former (Pool Former)  Yu, W., Luo, M., Zhou, P., Si, C., Zhou, Y., Wang, X., Feng, J., & Yan, S. (2022). MetaFormer is Actually What You Need for Vision. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition
  16. Transformer 40  自然言語処理の分野で提案され た手法で、EncoderとDecoderで構 成される。  Encoderは単語列や時系列信号 等のシーケンスを入力として、特 徴ベクトルのシーケンスへ変換す

    る。  Decoderは特徴ベクトルのシーケ ンスを受け取り、入力シーケンス の再現、または別のシーケンスを 出力する(例:翻訳)  Attention(注意機構)という仕組み を用いることで、例えば単語同士 の関係の重要度などを特徴ベクト ルに埋め込んでいる。
  17. Attention 41  Queryによって、メモリ(Key- Value)の中から必要な情報 を選択的に取得する仕組み  例:翻訳のケース  Query:

     日本語の単語(特徴ベクトル)  Key, Value:  英語の文章(英単語特徴ベク トル群)  出力:  英語の各単語ベクトルの重み 付き和  重みはQueryと関連が高いも のほど大きい Query Key Value
  18. Point Transformer 50  Zhao, H., Jiang, L., Jia, J.,

    Torr, P., & Koltun, V. (2021). Point Transformer. International Conference on Computer Vision (ICCV).  点群にTransformerを適用した最初期の論文の一つ  Vector AttentionやPositional Embeddingに相対座標を利用す る等、Transformerを点群に適用するにあたり、様々な工夫を 施している。  SegmentationおよびClassificationタスクで当時のState-of-the- Artを達成
  19. Point Transformer ブロック 56 入力特徴量 座標 x p x φ

    x𝑖 − 𝜓(x𝑗 ) Query Key x𝑗 , 𝑝𝑗 x𝑖 , 𝑝𝑖 𝛿 = 𝜃 p𝑖 − p𝑗 MLP 相対座標 Positional Embedding 𝛼 x𝑗 MLP Value K近傍
  20. Point Transformer ブロック 57 入力特徴量 座標 x𝑗 , 𝑝𝑗 x𝑖

    , 𝑝𝑖 𝛾 φ x𝑖 − 𝜓 x𝑗 + 𝛿 Query Key Positional Embedding 𝛾𝑖−1 𝛾𝑖−𝐾 𝛾𝑖−𝑗 … … 𝛼 x𝑗 + 𝛿 Value Positional Embedding 𝛼1 𝛼𝐾 𝛼𝑗 … … K近傍
  21. K近傍 Point Transformer ブロック 58 入力特徴量 座標 x𝑗 , 𝑝𝑗

    x𝑖 , 𝑝𝑖 y𝑖 = ෍ x𝑗∈𝜒(𝑖) 𝜎 𝛾 φ x𝑖 − 𝜓 x𝑗 + 𝛿 ⊙ 𝛼 x𝑗 + 𝛿 チャネル方向にSoftmax ⊙ 要素ごと の積 総和 Vector Attention 𝜎
  22. Vision TransformerとPoint Transformerの違 い 63 Vision Transformer Point Transformer QueryとKey

    の相関 内積 差分+MLP Attention • スカラー • Multi-Head • ベクトル(チャネ ル方向にも重み づけ) • Single-Head Positional Embedding ランダムな初期値 から学習 点の相対座標+ MLP Token Mixing 画像全体 K近傍点 PointTransformerV2 ではMulti-Head
  23. Point Transformer V2 64  Wu, X., Lao, Y., Jiang,

    L., Liu, X., & Zhao, H. (2022). Point Transformer V2: Grouped Vector Attention and Partition- based Pooling. Advances in Neural Information Processing Systems (NeurIPS), NeurIPS  Point Transformerに対して、以下を導入することで性能改善  Grouped Vector Attention  より強力なPositional Embedding  Partition Based Pooling
  24. PointMixer 70  Choe, J., Park, C., Rameau, F., Park,

    J., & Kweon, I. S. (2022). PointMixer: MLP-Mixer for Point Cloud Understanding. European Conference on Computer Vision (ECCV)  MLP Mixerを、点群のような疎で乱雑なデータに対して適用す るために、Token-Mixing部分をChannel-MixingとSoftmaxの組 み合わせで置き換え  Inter-Set、Intra-Set、Hierarchical-Setの3パターンでmixing  高効率
  25. MLP MixerとPointMixerの違い 83 MLP Mixer PointMixer MLP Mixing トークンの転置 チャネル方向の

    Sotmaxによる重み 付き和 Positional Embedding なし。(トークンの順 番に含まれている) 点の相対座標+ MLP Token Mixing 画像全体 K近傍点 所感:PointMixerはMLP Mixerとはまるで別物
  26. Point TransformerとPointMixerの違い 84  Point Transformer  y𝑖 = σx𝑗∈𝜒(𝑖)

    𝜎 𝛾 φ x𝑖 − 𝜓 x𝑗 + 𝛿 ⊙ 𝛼 x𝑗 + 𝛿  PointMixer  y𝑖 = σx𝑗∈𝜒(𝑖) 𝜎 𝑔2 𝑔1 x𝑗 ; 𝛿 ⊙ 𝑔3 x𝑗 KeyとQueryの差分 +Positional Embedding KeyにPositional EmbeddingをConcat Value + Positional Embedding Value PointMixerのToken Mixingは、シンプルにSoftmaxによる チャネル方向の重み付き和のみ Softmax チャネル方向の 重み付き和
  27. PCT: Point Cloud Transformer 89  Guo, M. H., Cai,

    J. X., Liu, Z. N., Mu, T. J., Martin, R. R., & Hu, S. M. (2021). PCT: Point cloud transformer. Computational Visual Media, 7(2), 187–199.  点群の座標を特徴量へ変換し、通常のTransformerと同様、 Key、Queryの内積を用いてAttentionを生成し、Valueに重み づけ  全ての点同士でSelf-Attentionを計算  グラフ理論で用いられるラプラシアン行列を用いたOffset Attentionを導入することで、順序不変なAttentionを実装
  28. PCT: Point Cloud Transformer 99 通常のSelf Attention Offset-Attention 𝑭𝑜𝑢𝑡 =

    (𝑰 − 𝑨)𝑭𝑖𝑛 Attention Mapを隣 接行列とみなす Laplacian Matrix
  29. Vision TransformerとPCTの違い 102 Vision Transformer Point Transformer QueryとKey の相関 内積

    内積 Attention Multi-Head Offset-Attention Positional Embedding ランダムな初期値 から学習 Sampling + Groupingで周辺領 域から特徴量算出 Token Mixing 画像全体 点群全体
  30. PVT: Point Voxel Transformer 103  Zhang, C., Wan, H.,

    Shen, X., & Wu, Z. (2022). PVT: Point- voxel transformer for point cloud learning. International Journal of Intelligent Systems  点群ベースのAttentionとVoxelベースのAttention (Sparse Window Attention)を組み合わせることで、高速高性能なモデ ルを実現  VoxelベースのAttentionでは、点が内在するVoxelのみ使用し、 Voxel化されたWindow内でSelf-Attentionを取ることで、計算 量削減し、また点群密度の影響を低減
  31. PVT: Point Voxel Transformer 104  Point Voxel Transformer Block

     Voxel Branch:  点群をボクセル化し、局所領域でSelf Attention  Point Branch:  領域全体で点群同士の相対座標も考慮したSelf Attention。巨大な 点群に対しては簡易な External Attentionを使用
  32. PVT: Point Voxel Transformer 105  Point Voxel Transformer Block

     Voxel Branch:  点群をボクセル化し、局所領域でSelf Attention  Point Branch:  領域全体で点群同士の相対座標も考慮したSelf Attention。巨大な 点群に対しては簡易な External Attentionを使用 Voxel Branch Window内で、疎な点群に対し、 ハッシュテーブルを用いてSelf- Attention 特徴量をVoxel 上へ割り当て
  33. PVT: Point Voxel Transformer 106  Point Voxel Transformer Block

     Voxel Branch:  点群をボクセル化し、局所領域でSelf Attention  Point Branch:  領域全体で点群同士の相対座標も考慮したSelf Attention。巨大な 点群に対しては簡易な External Attentionを使用 Point Branch 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝐾𝑇 + 𝐵 ∙ 𝑉 点同士の相対位置
  34. Dual Transformer 108  Han, X. F., Jin, Y. F.,

    Cheng, H. X., & Xiao, G. Q. (2022). Dual Transformer for Point Cloud Analysis. IEEE Transactions on Multimedia.  Self-Attentionを点群同士、およびチャネル方向に対して適用 するDual Transformer Blockを導入
  35. Dual Transformer 109  Dual Point Cloud Transformer Blockを導入 

    点群同士、およびチャネル同士のMulti-Head Self-Attentionを それぞれ独立に計算し、和を取る。
  36. Dual Transformer 110  Dual Point Cloud Transformer Blockを導入 

    点群同士、およびチャネル同士のMulti-Head Self-Attentionを それぞれ独立に計算し、和を取る。 点群同士のSelf- Attention softmax 𝑄𝐾𝑇 ∙ 𝑉 チャネル間のSelf- Attention softmax 𝑄𝑇𝐾 ∙ 𝑉
  37. Fast Point Transformer 112  Park, C., Jeong, Y., Cho,

    M., & Park, J. (2022). Fast Point Transformer. Conference on Computer Vision and Pattern Recognition (CVPR)  Light Weightな局所領域でのSelf-Attention Blockを導入  Voxel-Hashingベースアーキテクチャによって、Point Transformerと比較して129倍の推論の高速化
  38. Fast Point Transformer 119 Light-Weight Self-Attention 𝐠𝑖 = 𝐟𝑖 +

    δabs 𝐜𝑖 − 𝐯𝑖 CentroidとVoxelの 相対座標+MLP
  39. Fast Point Transformer 120 Light-Weight Self-Attention 𝐠𝑖 = 𝐟𝑖 +

    δabs 𝐜𝑖 − 𝐯𝑖 𝐟𝑖 ′ = ෍ 𝑗∈𝒩 𝑖 𝑎 𝐠𝑖 , δabs 𝐯𝑖 − 𝐯𝑗 𝜓 𝐠𝑖 CentroidとVoxelの 相対座標+MLP 隣接Voxelの相対座 標+MLP cosine 類似度
  40. Fast Point Transformer 121 Light-Weight Self-Attention 𝐠𝑖 = 𝐟𝑖 +

    δabs 𝐜𝑖 − 𝐯𝑖 𝐟𝑖 ′ = ෍ 𝑗∈𝒩 𝑖 𝑎 𝐠𝑖 , δabs 𝐯𝑖 − 𝐯𝑗 𝜓 𝐠𝑖 Positional Embedding Query Key Value
  41. Fast Point Transformer 122 Light-Weight Self-Attention 𝐠𝑖 = 𝐟𝑖 +

    δabs 𝐜𝑖 − 𝐯𝑖 𝐟𝑖 ′ = ෍ 𝑗∈𝒩 𝑖 𝑎 𝐠𝑖 , δabs 𝐯𝑖 − 𝐯𝑗 𝜓 𝐠𝑖 Positional Embedding Query Key Value 全ての(i, j)の組み合わせで、 Kパターンのみ
  42. Point-BERT 126  Yu, X., Tang, L., Rao, Y., Huang,

    T., Zhou, J., & Lu, J. (2022). Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling. Conference on Computer Vision and Pattern Recognition (CVPR)  点群解析のための事前学習モデルの作成  Classificationは2層のMLPを加えて識別。  Object Part Segmentationは、Transformerのいくつかの中間 層と最終層の特徴量を元に、各点のラベルを計算
  43. Point-BERT 132 点群をパッ チに分割 dVAEを用いて パッチ特徴量か ら離散トークンを、 元点群が復元で きるよう学習 トークン

    点群パッ チから特 徴量算出 パッチ特徴量の シーケンス Transformerで マスク部も含 め、トークンを 予測するよう 学習 マスクをかける
  44. Point-BERT 133 点群をパッ チに分割 dVAEを用いて パッチ特徴量か ら離散トークンを、 元点群が復元で きるよう学習 トークン

    点群パッ チから特 徴量算出 パッチ特徴量の シーケンス Transformerで マスク部も含 め、トークンを 予測するよう 学習 マスクをかける データ拡張 (CutMixの点 群版)を用い てContrastive Learningで表 現学習
  45. Stratified Transformer 135  Lai, X., Liu, J., Jiang, L.,

    Wang, L., Zhao, H., Liu, S., Qi, X., & Jia, J. (2022). Stratified Transformer for 3D Point Cloud Segmentation. Conference on Computer Vision and Pattern Recognition (CVPR)  近傍に対しては密に、遠方に対しては疎にサンプリングする ことで、局所領域の特徴と広域での特徴、両方を集約できる モデルを提案
  46. 141 Layer Normalization 通常のTransformerと同様にKeyとQueryの内積を用い る(Multi-Head Self Attention) y𝑖 = ෍

    𝑗 softmax 𝑄𝑢𝑒𝑟𝑦𝑖 ∙ 𝐾𝑒𝑦𝑗 ∙ 𝑉𝑎𝑙𝑢𝑒𝑗
  47. OctFormer 149  Wang, P.-S. (2023). OctFormer: Octree-based Transformers for

    3D Point Clouds. ACM Transactions on Graphics (SIGGRAPH), 42(4), 1–11.  点群をWindowで区切ってSelf-Attentionを計算することで、計 算量削減  Windowごとの点の数が異なるという課題を解決するために、 Windowの形状を柔軟に変更  Windowの位置をずらして再計算することで、Receptive Field を拡大(Dilated Partition)
  48. OctFormer 151 • 点群からOctreeを生成 (ここでは2次元で説明)。 • 赤が点群、点が存在す るノードはグレー。 • Z-Order

    Curveを用いて、 Octreeノードを1列に並 べる。 • 点の存在するノードお よび同じ親をもつノード のみ並べる。 • ノード配列をオーバー ラップの無いWindow で分割(同じ色が同じ Window) • Window内のノード数 は一定(ここでは7) • 設定したWindow内で Self-Attentionを計算 • Windowの位置をずら すことで受容野を広げ る。 • Dilation=2の例 • Z-Order Curve上(ただ し空ノードは含まない) で2個おきのノードを同 じWindowに設定
  49. Self-Positioning Point-based Transformer (SPoTr) 153  Park, J., Lee, S.,

    Kim, S., Xiong, Y., & Kim, H. J. (2023). Self-positioning Point-based Transformer for Point Cloud Understanding. Conference on Computer Vision and Pattern Recognition (CVPR).  リソース削減のために、全ての点同士のSelf- Attentionを取るのではなく、グローバルおよびロー カルの特徴を捉えたself-positioning point (SP point) を使用。  SP pointを用いてローカルおよびグローバルなCross- Attentionを取ることで、3つのベンチマーク(SONN, SN-Part, and S3DIS)でSOTA達成
  50. Self-Positioning Point-based Transformer (SPoTr) 157 SP Pointの算出方法 SP Pointに近い点ほど大きい重み 𝑔

    𝛿𝑠 , 𝑥𝑖 = exp −𝛾 𝛿𝑠 − 𝑥𝑖 2 潜在変数に近い特徴ほど大きい重み ℎ 𝒛𝑠 , 𝒇𝑖 = exp 𝒇𝑖 T𝒛𝑠 σ 𝑗 exp 𝒇𝑗 T𝒛𝑠 各SP Pointの特徴ベクトル 𝝍𝑠 = ෍ 𝑖 𝑔 𝛿𝑠 , 𝑥𝑖 ∙ ℎ 𝒛𝑠 , 𝒇𝑖 ∙ 𝒇𝑖
  51. Self-Positioning Point-based Transformer (SPoTr) 159 Channel-wise Point Attention (CWPA) SP

    Pointと入力点群の相 対座標算出 (Positional Embedding) 入力点群座標 SP Point座標
  52. Self-Positioning Point-based Transformer (SPoTr) 160 Channel-wise Point Attention (CWPA) 入力点群の特徴ベクトル

    (Query) SP Pointの特徴ベクトル (Key) SP Pointと入力点群間の 特徴ベクトル差分 SP Pointと入力点群間の 特徴ベクトル差分
  53. 点群+Transformerまとめ 165 Attentionの計算範囲 Attentionの取り方 Positional Embedding Point Transformer 局所領域のみ 差分+Vector

    Attention 相対座標+MLP PointMixer 局所領域のみ 差分+Vector Attention 相対座標+MLP PCT 点群全体(小さな点群) 内積+Offset Attention 特徴量がすでに座標情報を含 んでいるという考え方 PVT 局所領域+全体点群(た だし大規模点群に対して は簡易処理) 内積+Scalar Attention 相対座標 Dual Transformer 点群全体(小さな点群) 内積+Scalar Attention 記載なし Fast Point Transformer 局所領域のみ Light-Weight Self- Attention 相対座標(Voxel間 or Voxel- Centroid間)+MLP Point BERT 点群全体(局所領域を トークンとして) 内積+Scalar Attention クラスタ中心座標+MLP Stratified Transformer 局所領域(マルチスケー ル)+Shifted Window 内積+Scalar Attention 相対座標を量子化したLook Up Table OctFormer 局所領域(可変形状) +Dilated Window 内積+Scalar Attention Conditional Positional Encoding (Depth Wise Conv + Batch Norm) SPoTr Self-Positioning Point 差分+Vector Attention 相対座標+MLP