Upgrade to Pro — share decks privately, control downloads, hide ads and more …

3DCodeBench: Benchmarking Agentic Procedural 3D...

3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

VLM agent がテキスト・画像参照から Blender Python を生成し、実行可能な3Dアセットを作れるかを評価するベンチマークを提案
約26Kの prompt / code / mesh triplet と 12種のfrontier VLMを用いて、実行可能性・render類似度・3D形状品質・人間選好を多面的に評価
LLM/VLMは3Dコード生成やruntime errorの修正には強い一方、画像差分を読んで形状を改善するvisual feedback / critic能力にはまだ課題が残る

Avatar for Spatial AI Network

Spatial AI Network

June 23, 2026

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. Motivation PAPER TALK 3DCodeBench:Benchmarking Agentic Procedural 3D Modeling Via Code

    Yipeng Gao1,3 Lei Shu1 Genzhi Ye1 Xi Xiong1 Ameesh Makadia2 Meiqi Guo1 Laurent Itti3 Jindong Chen1 Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 1 2 3 Presented by Kai Katsumata 1/32
  2. Motivation WHY THIS PAPER 問い: image to 3Dモデルのvision criticの性能がボトルネックなのか ?

    coding agent の実装能力はかなり高く、1000行近いコードを生成し、3Dモデルをつくれる 残る問題は render を見て正しく自己修正できるか generator だけでなく critic 側がボトルネックになる Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 2/32
  3. Motivation PROBLEM タスク: 3D生成 入力: テキスト、画像... mesh や 3DGS は形状表現

    procedural code は実行可能で編集可能な作 り方 Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 3/32
  4. Motivation BIBLIOGRAPHY 書誌情報 Authors: Yipeng Gao Lei Shu Genzhi Ye

    Xi Xiong Ameesh Makadia Meiqi Guo Laurent Itti Jindong Chen Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. Inituitions: Google DeepMind Google Research USC https://www.3dcodebench.com/ arXiv:2606.01057 4/32
  5. Motivation TOOL CONNECTORS Claude の Blender / Autodesk connector はすごい

    自然言語から実ツールを操作できる段階に来 ている Blender や Fusion で3Dモデルを作るUXが現 実味を持つ ツールを呼べるかからどこまでできるか claude blender clip Anthropic Claude for Creative Work / Blender and Autodesk connectors. 5/32
  6. Motivation RESEARCH LINEAGE text-to-3D と image-to-3D の研究系統 text-to-3D: 言語仕様から3D表現へ image-to-3D:

    画像観測から3D表現へ executable inverse graphics: 画像からプログ ラムへ戻す Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. / Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal R... 2020 2026 2023 DeepSDF NeRF 3DGS Triplane 3D表現の獲得 2D拡散 3D拡散 DreamFields DreamFusion Zero-1-to-3 3DShape2VecSet MV拡散 InstantMesh TripoSR TRELLIS Hunyuan Rodin 3D生成サービスの登場 Producion-ready PBR tex QuadGPT UV VIGA PartSAM SEIG 6/32
  7. Motivation SPECIALIZED CAD image-to-CAD Img2CADSeq: Image-to-CAD Generation via Sequence-Based Diffusion

    GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors 拡散モデルベースのCAD生成モデルは高い画像忠実度を達成している GenCAD / gen shapen Img2CADSeq / gen shape Img2CADSeq: Image-to-CAD Sequence Generation, arXiv:2605.13293, 2026. / GenCAD: Image-Conditioned Computer-Aided Design Generation, arXiv:2409.16294, 2024. 7/32
  8. Motivation IMAGE-TO-3D Image-to-3D Pixal3D TripoSplat Feedforward 3DGSやピクセル特徴量を使っ た生成モデル Pixal3D /

    singleview pixal3d 102 Pixal3D / singleview triposg 102 Pixal3D: Pixel-Aligned 3D Generation from Images, arXiv:2605.10922, 2026. / TripoSplat: fast feed-forward 3D Gaussian asset generation from images. 8/32
  9. Motivation GENERAL PURPOSE General-purpose model も3D ツールに入り始めている solid modeling をLLMに教える試みが出てい

    る BlenderAlchemy は VLM で3D編集状態を評 価する 汎用モデル + API + visual feedback の流れが 強い willpatrick flange clip willpatrick iphone clip Will Patrick, Teaching LLMs how to solid model, 2025. / BlenderAlchemy: Editing 3D Graphics with Vision-Language Models, arXiv:2404.17672, 2024. 9/32
  10. Motivation CALLENGES IN GENERAL-PURPOSE MODELS image-to-CAD / image-to-3D は難しい Tex-to-3Dでは結構うまくできていそう

    入力が画像になるとめちゃくちゃ難しい テキストに比べて画像は情報量(制約)が多い mikushrab cad clip b MikushRab X post, image-to-CAD difficulty discussion, 2026. 10/32
  11. Motivation WHY GENERAL MODELS なぜ general-purpose model で頑張るのか 専用モデルは復元器として強い 汎用モデルは対話・意図変更・編集のインターフェイスになる

    価値は生成器だけでなく共同編集者としての能力にある Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. / Pixal3D: Pixel-Aligned 3D Generation from Images, arXiv:2605.10922, 2026. 11/32
  12. Motivation HYPOTHESIS 仮説: 問題は vision critic で はないか render差分を検出する 2D差分から3D空間における差分を推測

    Blender/CADコード修正へ変換する 3DCodeBench / visual comparisons VIGA / verifier traj Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. / Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal R... 12/32
  13. 3DCodeBench MAIN PAPER 主論文: 3DCodeBench へ VLM agent の procedural

    3D code generation を評価 text / image reference から Blender Python を生成 実行可能性・形状品質・人間選好を同時に見 る Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 3DCodeBench / visual comparisons VIGA / verifier traj 13/32
  14. 3DCodeBench TASK DEFINITION 3DCodeBench の問題 設定 入力プロンプト から Blenderスクリプトを生成 する

    Blender 5.0 がスクリプト をメッシュに変換 single-shot と multi-turn refinement を比較 する 3DCodeBench Sec. 3.1, p04:051-p04:061. 3DCodeBench / visual comparisons VIGA / verifier traj 14/32
  15. 3DCodeBench CODE AS OUTPUT 通常の3D生成タスクとの違い 評価対象は procedural 3D modeling via

    code メッシュを直接出すのではなく Blender Python を書く Pythonコードが実行され、3Dアセットになる coding agent 評価として重要な設定 3DCodeBench Sec. 3.1 and Appendix C. 15/32
  16. 3DCodeBench BENCHMARK DESIGN ベンチマーク設計 プロシージャルな3Dシーン生成手法である InfiniGenを参考に212物体カテゴリ organic (flora, fauna, mollusks),

    manufacture (furniture and kitchenware), and architectural fragments. 約26K code / object triplets (input prompt, 3D code, mesh) 12 frontier VLMs across providers 3DCodeBench / statistics 3DCodeBench Sec. 3.3 and Appendix A.3. 3DCodeBench / statistics Code Mesh Prompt 16/32
  17. 3DCodeBench EVALUATION 評価指標 Executability: script が実行できるか Image-grounded metrics: render 類似度

    SigLIP-2/DINOv3 3D shape metrics (Chamfer距離、Uni3D 3D-3D/3D-image/3D-text) 3DCodeBench / elo vs metrics 3DCodeBench Sec. 3.4, p06:017-p06:041. LLM-as-judge, human preference (ELO) 17/32 3DCodeArena Evaluation Protocol
  18. 3DCodeBench 18 / 39 QUALITATIVE COMPARISON Image-to-3D 定性結果 3DCodeBench Sec.

    4.3, p09:044-p10:034. カテゴリやオブジェクトの特徴は捉え ている サイズや詳細形状の再現はむずかし い メッシュが生成できている 18/32 HF公開データの image_to_3D_agent 出力コードを同一カメラ・同一 clay材質で再レンダー
  19. 3DCodeBench RESULT 1 人間選好に近いのは Executability ではなく視 覚・形状指標 3DCodeBench Sec. 4.3,

    p09:044-p10:034. 3DCodeArena は pairwise human preference を集める SigLIP / Uni3D は人間評価に近い Executability は人間選好の弱い説 明変数 20/32
  20. 3DCodeBench RESULT 1 人間選好に近いのは Executability ではなく視 覚・形状指標 3DCodeBench Sec. 4.3,

    p09:044-p10:034. 3DCodeArena は pairwise human preference を集める SigLIP / Uni3D は人間評価に近い Executability は人間選好の弱い説明変数 21/32
  21. 3DCodeBench RESULT 2 thinking budget は軽量モデル に効くが、強いモデルでは飽和 する 3DCodeBench Finding

    2, Sec. 4.2 / Appendix A.3. 低〜中性能モデルでは reasoning budget を増やすと品質が改善する frontier model では改善幅が小さく、早い段 階で飽和する 3D生成の失敗は「考える時間が足りない」だ けでは説明できない 22/32
  22. 3DCodeBench RESULT 3 image-to-3D で view 数を増 やしても品質改善は限定的 3DCodeBench Finding

    3, Sec. 4.2 / Appendix A.4. image-to-3D では入力画像を 1 view から 4 views に増 やしても、形状品質は一貫して改善しない 追加 view は情報量を増やすが、モデルがそれを安定し て 3D構造へ統合できているとは限らない 与えられた情報が活用できていないのではないか ? 23/32
  23. 3DCodeBench RESULT 4 error feedback retry は Executability をほぼ天井まで 上げる

    3DCodeBench Finding 4, Sec. 4.3 / Appendix D.1. error feedback retry が実行失敗を大きく減らす API mismatch は traceback で直しやすい LLM agent は3D APIをかなり扱える 品質指標への影響は限定的 24/32
  24. 3DCodeBench RESULT 5 agent harness は実行可能性 を上げるが、形状品質はほぼ改 善しない 3DCodeBench Finding

    5, Sec. 4.3 / Appendix C.6. ST: Single Turn (no agent) -0.010 -0.008 +0.000 harness は Executability を上げる 成功集合では shape fidelity はほ ぼ改善しない 実行できることは必要条件であって 十分条件ではない 25/32
  25. 3DCodeBench READING 観察 LLM/VLMはコードを書ける runtime feedback で実行エラーも直せる visual feedback を読んで直す力が残る

    Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. 26/32
  26. Vision Critic RELATED WORK BlenderAlchemy: Editing 3D Graphics with Vision-Language

    Models edit generator と state evaluator を分ける 進化計算的にプログラム生成、選択をくりかえす Visual criticを使ったイテレーションによって性能 が改善 BlenderAlchemy / eccv vs baseline BlenderAlchemy / geonodes placements BlenderAlchemy: Editing 3D Graphics with Vision-Language Models, arXiv:2404.17672, 2024. イテレーション数x仮説数 Blender programのAgenticな編集モデル 28/32
  27. Vision Critic RELATED WORK VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal

    Reasoning Code Generation AgentとPerceptual Feedback Agentで反復改善をする Perceptual Feedback Agentは画像差分と編集 サジェストを行う fine-grained spatial grounding を反復で補う Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning, arXiv:2601.11109, 2026. 29/32
  28. Vision Critic RELATED WORK VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal

    Reasoning Code Generation AgentとPerceptual Feedback Agentで反復改善をする Perceptual Feedback Agentは画像差分と編集 サジェストを行う fine-grained spatial grounding を反復で補う Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning, arXiv:2601.11109, 2026. 30/32
  29. Vision Critic RELATED WORK Thinking in Blender: Staged Executable Inverse

    Graphics with Vision-Language Models Staged Scene Constructionでgeometry / material / composition / lightingのステージご とに生成 Verifierが特化しより適切なフィードバックができ る Stageの内部ループはチェックリストを用いる。 Thinking in Blender: Staged Executable Inverse Graphics with VLMs, arXiv:2606.02580, 2026. 31/32
  30. Vision Critic TAKEAWAY まとめ LLM agent は実行可能3Dコードを書ける 自己修正は不安定 generator だけでなく

    critic / verifier / geometry model が必要 Gao et al., 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code, arXiv:2606.01057, 2026. / Yin et al., VIGA: Vision-as-Inverse-Graphics Agent via Interleaved Multimodal R... Image-3D間のGroundingに問題があるかも 32/32 3D生成はかなり高い品質を達成している