Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling

Sparc3D: Sparse Representation and Construction for High- Resolution 3D Shapes
Modeling 紹介 2025/06/29 Spatial AI Network 勉強会 Niko Huang (黄宇航) D3 東京大学金井研究室

簡単な自己紹介・PhD前に前職で取り組んできたこと Unity・C++ スマホゲーム開発 IoT Sptial Traffic Visualization System

論文情報 • Sparc3D: Sparse Representation and Construction for High-Resolution 3D
Shapes Modeling (6月12日 ArXiv 最終投稿) Project Page：https://lizhihao6.github.io/Sparc3D/ arXiv：https://arxiv.org/pdf/2505.14521 Code（公開前）：https://github.com/lizhihao6/Sparc3D Demo：https://huggingface.co/spaces/ilcve21/Sparc3D ※ 以降の図は上記の論文及び引用する参考文献の Teaser から参照論文選定のモチベーション生成的な破壊アニメーション・汎用的な分割形状生成学習における， Fine-Tuning 可能な Image-To-Mesh の Large 3D Mesh Network についての選定．

学習における破壊アニメーションの研究

Veo3 vs Generative 3D Models

今までの研究成果 Run-time Process Dataset Squirrel Dataset Pot Thingi10K Objects ɾ
ɾ ɾ ɾ ɾ ɾ Dataset Bunny Generator Bunny Generator Bunny Generator Bunny (A) (B) Learning Process DeepFracture: A Generative Approach for Predicting Brittle Fractures with Neural Discrete Representation Learning, 2025

現在取り組んでいること入力：メッシュ or 画像出力：破壊済みのメッシュ復元学習による分割形状予測

手法選定の基準 • 高品質のメッシュ復元 • Image-to-Shape 可能の手法 • 高速化可能なメッシュ再構築 • 安定・汎用的な(Versatile)
再現性破壊における 3D 分割形状表現 Sparc3D Sparse-VAE, Latent Diffusion Voxel-Based Data Image-to-Mesh Large Model Fine-Tuned from Trellis Trellis Sparse-VAE, Latent Diffusion Voxel-Based Data Image(Text)-to-Mesh Large Model

Hunyuan 3D Ver.2 Tencent AI Lab VecSet-Based VAE and Diffusion
3DShape2VecSet Data Image(Text)-to-Mesh Large Model 関連研究-アプローチ概要 LION Latent Diffusion Point Clouds-Based Data XCube Sparse-VAE, Latent Diffusion Voxel-Based Data Trellis Sparse-VAE, Latent Diffusion Voxel-Based Data Image(Text)-to-Mesh Large Model Unique3D Image-to-Normal Network Multi-View Images Data Image-to-Mesh Large Model 3DShapeToVecSet GPT Point Clouds-Based Data

関連研究-T-SDFからDeepSDFからEikonal Loss から Tri-planeへ • 形状の定義 • T-SDF Voxel-Based SDF
• DeepSDF • Eikonal Loss • Tri-Plane (Hybrid ・ Octree etc.) T-SDF(3D-GAN) Neural Implicit Fields (DeepSDF) Eikonal Loss (Neural Signed Distance Fields) Tri-plane (EG3D)

関連研究-Multi-View Based 3D Generation Unique3D Image-to-Normal Network Multi-View Images Data
Image-to-Mesh Large Model Make-It-3D Image-to-Normal Network Multi-View Images Data

関連研究-VecSet Based VAE + Latent Diffusion • Density + Normals
-> Latent Vec Set • VecSet-Based VAE • Latent Vec Features 3DShapeToVecSet TripoSG Dora Hunyuan2 CLAY Vec Latent (Latent Queries) LION DeepSDF

関連研究-Sparse-Voxel Based VAE + Latent Diffusion • DINO v2 Feature
-> Voxels • Sparse-Voxel Based VAE • Voxels Based Features XCube Trellis TripoSF Sparc3D Voxel Latent DINOv2 Voxel-VAE (Voxel-CNN)

提案手法 Flood Filling → ① ① ② ③ ④

提案手法

異なるモデルの再構築品質比較-1

異なるモデルの再構築品質比較-2

異なるデータセットの改善比較-1

異なるデータセットの改善比較-2

実験の詳細

まとめ • Watertight の学習形状表現を提案していた． • 本当の学習スピードや収束の速さはコード公開前は不明． • 一致性及び安定性は Hunyuan と
Trellis 比べてデータセットではないケース良くなっている実感展望 • Texture の学習適用 • Flood Filling 依存しているため，内包している構造のメッシュに適用できない • Multiple View Reconstruction やへの拡張

SDFs vs UDFs vs Multiple-Phase DFs Fragment-Aware Segmentation vs Fragment-Aware
Generation 密接分割形状に着目した分割形状生成 Object-Space Multiphase Implicit Functions (Zhan et al. 2012) Single Phase Multiple Phase

内部構造視点の生成 Quality Verification (Sparc3D) Sparse-Voxel-Based VAE

内部構造視点の生成 Quality Verification (Hunyuan2) VecSet-Based VAE

3D Asset-Aware 生成 vs Part-Aware 生成 vs Part-Aware Segmentation Hunyuan
3D Ver.2 VecSet-Based VAE and Diffusion 3DShape2VecSet Data Image(Text)-to-Mesh Large Model Trellis Sparse-VAE, Latent Diffusion Voxel-Based Data Image(Text)-to-Mesh Large Model

3D Asset-Aware 生成 vs Part-Aware 生成 vs Part-Aware Segmentation Partsの数を指定して学習
SOSとEOSを特徴量として不定数の数のParts を学習

3D Asset-Aware 生成 vs Part-Aware 生成 vs Part-Aware Segmentation 形状・画像を
Feature Fields で変換し比較学習(contrastive learning)で K-means による教師データなし形状分割分割した形状を大きさ編集

SDF(UDF) vs MPDF による学習と復元の違いネットワークの選択 • Point Cloud-Based Networks •
Voxel-based Networks • Neural Implicit Field-Based Nets • その他の分割表現における Nets Object Based Fragment Based 復元の手法 • Dual Marching Cube • FlexiCube • Flood Filling + Marching Cube • Different Labels + Marching Cube

SDF(UDF) vs MPDF による学習と復元との違い

学習における Multiple-Phase Distance Fields の進展 MPDF Highlight Sampling Voxel-based Network
(画像で) 64^3 Neural Implicit Field-Based Network 256^3 MPDF with nomralization Highlight Sampling MPDF Naïve Sampling NIFs-Based Network with SIREN Layer 256^3

困難点と Future Work 要件定義 • 復元の時間： < 1s • 精度：
external mesh ほぼ維持 • Robust：なるべくRobust • Versatile Shape：異なる形状における汎用性困難点 • Latent Diffusion における復元時間が高い • Eikonal Loss を MPDF で利用できない • 分割形状のデータセット作成と計算資源 • MPDF における Sparse-Conv VAE の設計 • 内部テキスチャの表現の作成 • Graph-Based の Implicit Function は? Ours: Fragment-Aware 1 second 以内 Others: Part-Aware Asset-Aware 1 second 以内

所感 Shape VAE + Image-To-Shape GPT でほぼフレームワークが固められる（2024-2025）今まで Image-To-Shape はあんまり見てなかった
Trellis と Hunyuan よりいい目視一致性 • 3D Shape Single View Generation そろそろ解かれている • Large 3D Shape Model の大規模商業利用 • Fine-Tune で物理アニメーション • 上記だと，Image-based 表現ではなく，3DGS，NeRF などの表現も Large Model • VecSet Features より Voxel Fields は推せる． • Physical-Aware Video Generation vs 3D Animation Generation はしばらく併存 • Video-Based Generation の物理法則・編集可能 (CV) ーー 3DGSなど表現の開発 (CG)

最近哲学の本をやたらに読みます． (カント・純粋理性批判) ア・プリオリア・ポステリオリユークリッド空間の距離直感質量保存の法則 Position Based Dynamicsなど Real-time物理エンジン空間
最適化問題深層学習 LLM・VLM パラメータ空間学習問題剛体は排他的なもの慣性の法則の直感レンダリング Text-To-Viceo Motion の補間と生成 Image-To-Video レンダリング Robotics World Model Video 生成深層学習識別器 Discriminator でア・プリオリ法則でReward・Loss 学習問題のアプローチ NeRF Data-Driven CG・CV 生成系以外：現実世界と向き合う CV 生成系：Dreamer 生成タスクと向き合う

Sparc3D: Sparse Representation and Construction...

Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling

More Decks by Spatial AI Network

Other Decks in Technology

Featured

Transcript