Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sparc3D: Sparse Representation and Construction...

Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling

Avatar for Spatial AI Network

Spatial AI Network

July 29, 2025
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. Sparc3D: Sparse Representation and Construction for High- Resolution 3D Shapes

    Modeling 紹介 2025/06/29 Spatial AI Network 勉強会 Niko Huang (黄 宇航) D3 東京大学 金井研究室
  2. 論文情報 • Sparc3D: Sparse Representation and Construction for High-Resolution 3D

    Shapes Modeling (6月12日 ArXiv 最終投稿) Project Page:https://lizhihao6.github.io/Sparc3D/ arXiv:https://arxiv.org/pdf/2505.14521 Code(公開前):https://github.com/lizhihao6/Sparc3D Demo:https://huggingface.co/spaces/ilcve21/Sparc3D ※ 以降の図は上記の論文及び引用する参考文献の Teaser から参照 論文選定のモチベーション 生成的な破壊アニメーション・汎用的な分割形状生成学習における, Fine-Tuning 可能な Image-To-Mesh の Large 3D Mesh Network についての選定.
  3. 今までの研究成果 Run-time Process Dataset Squirrel Dataset Pot Thingi10K Objects ɾ

    ɾ ɾ ɾ ɾ ɾ Dataset Bunny Generator Bunny Generator Bunny Generator Bunny (A) (B) Learning Process DeepFracture: A Generative Approach for Predicting Brittle Fractures with Neural Discrete Representation Learning, 2025
  4. 手法選定の基準 • 高品質のメッシュ復元 • Image-to-Shape 可能の手法 • 高速化可能なメッシュ再構築 • 安定・汎用的な(Versatile)

    再現性 破壊における 3D 分割形状表現 Sparc3D Sparse-VAE, Latent Diffusion Voxel-Based Data Image-to-Mesh Large Model Fine-Tuned from Trellis Trellis Sparse-VAE, Latent Diffusion Voxel-Based Data Image(Text)-to-Mesh Large Model
  5. Hunyuan 3D Ver.2 Tencent AI Lab VecSet-Based VAE and Diffusion

    3DShape2VecSet Data Image(Text)-to-Mesh Large Model 関連研究-アプローチ概要 LION Latent Diffusion Point Clouds-Based Data XCube Sparse-VAE, Latent Diffusion Voxel-Based Data Trellis Sparse-VAE, Latent Diffusion Voxel-Based Data Image(Text)-to-Mesh Large Model Unique3D Image-to-Normal Network Multi-View Images Data Image-to-Mesh Large Model 3DShapeToVecSet GPT Point Clouds-Based Data
  6. 関連研究-T-SDFからDeepSDFからEikonal Loss から Tri-planeへ • 形状の定義 • T-SDF Voxel-Based SDF

    • DeepSDF • Eikonal Loss • Tri-Plane (Hybrid ・ Octree etc.) T-SDF(3D-GAN) Neural Implicit Fields (DeepSDF) Eikonal Loss (Neural Signed Distance Fields) Tri-plane (EG3D)
  7. 関連研究-Multi-View Based 3D Generation Unique3D Image-to-Normal Network Multi-View Images Data

    Image-to-Mesh Large Model Make-It-3D Image-to-Normal Network Multi-View Images Data
  8. 関連研究-VecSet Based VAE + Latent Diffusion • Density + Normals

    -> Latent Vec Set • VecSet-Based VAE • Latent Vec Features 3DShapeToVecSet TripoSG Dora Hunyuan2 CLAY Vec Latent (Latent Queries) LION DeepSDF
  9. 関連研究-Sparse-Voxel Based VAE + Latent Diffusion • DINO v2 Feature

    -> Voxels • Sparse-Voxel Based VAE • Voxels Based Features XCube Trellis TripoSF Sparc3D Voxel Latent DINOv2 Voxel-VAE (Voxel-CNN)
  10. まとめ • Watertight の学習形状表現を提案していた. • 本当の学習スピードや収束の速さはコード公開前は不明. • 一致性及び安定性は Hunyuan と

    Trellis 比べてデータセットではないケース良くなってい る実感 展望 • Texture の学習適用 • Flood Filling 依存しているため,内包している構造のメッシュに適用できない • Multiple View Reconstruction や への拡張
  11. SDFs vs UDFs vs Multiple-Phase DFs Fragment-Aware Segmentation vs Fragment-Aware

    Generation 密接分割形状に着目した分割形状生成 Object-Space Multiphase Implicit Functions (Zhan et al. 2012) Single Phase Multiple Phase
  12. 3D Asset-Aware 生成 vs Part-Aware 生成 vs Part-Aware Segmentation Hunyuan

    3D Ver.2 VecSet-Based VAE and Diffusion 3DShape2VecSet Data Image(Text)-to-Mesh Large Model Trellis Sparse-VAE, Latent Diffusion Voxel-Based Data Image(Text)-to-Mesh Large Model
  13. 3D Asset-Aware 生成 vs Part-Aware 生成 vs Part-Aware Segmentation 形状・画像を

    Feature Fields で変換し 比較学習(contrastive learning)で K-means による教師データなし形状分割 分割した形状を大きさ編集
  14. SDF(UDF) vs MPDF による学習と復元の違い ネットワークの選択 • Point Cloud-Based Networks •

    Voxel-based Networks • Neural Implicit Field-Based Nets • その他の分割表現における Nets Object Based Fragment Based 復元の手法 • Dual Marching Cube • FlexiCube • Flood Filling + Marching Cube • Different Labels + Marching Cube
  15. 学習における Multiple-Phase Distance Fields の進展 MPDF Highlight Sampling Voxel-based Network

    (画像で) 64^3 Neural Implicit Field-Based Network 256^3 MPDF with nomralization Highlight Sampling MPDF Naïve Sampling NIFs-Based Network with SIREN Layer 256^3
  16. 困難点と Future Work 要件定義 • 復元の時間: < 1s • 精度:

    external mesh ほぼ 維持 • Robust: なるべくRobust • Versatile Shape: 異なる形状における汎用性 困難点 • Latent Diffusion における復元時間が高い • Eikonal Loss を MPDF で利用できない • 分割形状のデータセット作成と計算資源 • MPDF における Sparse-Conv VAE の設計 • 内部テキスチャの表現の作成 • Graph-Based の Implicit Function は? Ours: Fragment-Aware 1 second 以内 Others: Part-Aware Asset-Aware 1 second 以内
  17. 所感 Shape VAE + Image-To-Shape GPT でほぼフレームワークが固められる(2024-2025) 今まで Image-To-Shape はあんまり見てなかった

    Trellis と Hunyuan よりいい目視一致性 • 3D Shape Single View Generation そろそろ解かれている • Large 3D Shape Model の大規模商業利用 • Fine-Tune で物理アニメーション • 上記だと,Image-based 表現ではなく,3DGS,NeRF などの表現も Large Model • VecSet Features より Voxel Fields は推せる. • Physical-Aware Video Generation vs 3D Animation Generation はしばらく併存 • Video-Based Generation の物理法則・編集可能 (CV) ーー 3DGSなど表現の開発 (CG)
  18. 最近哲学の本をやたらに読みます. (カント・純粋理性批判) ア・プリオリ ア・ポステリオリ ユークリッド空間の距離直感 質量保存の法則 Position Based Dynamicsなど Real-time物理エンジン空間

    最適化問題 深層学習 LLM・VLM パラメータ空間 学習問題 剛体は排他的なもの 慣性の法則の直感 レンダリング Text-To-Viceo Motion の補間と生成 Image-To-Video レンダリング Robotics World Model Video 生成 深層学習 識別器 Discriminator で ア・プリオリ 法則でReward・Loss 学習問題のアプローチ NeRF Data-Driven CG・CV 生成系以外:現実世界と向き合う CV 生成系:Dreamer 生成タスクと向き合う