非CUDAの悲哀〜Claude Code と挑んだ image to 3D “Hunyuan3D”を EVO-X2(Ryzen AI Max+395)で動作させるチャレンジ〜

2024-11-28 非CUDAの悲哀 Claude Code と挑んだ image to 3D “Hunyuan3D”を EVO-X2(Ryzen
AI Max+395)で動作させるチャレンジ

自己紹介ほーきー(Hawkie) 逸般のツイ廃。昼の仕事はデータアナリスト。 Twitter: @hawkymisc

CUDA vs ROCm 比較 NVIDIA CUDA PyTorch / TensorFlow cuDNN
/ cuBLAS CUDA Runtime NVIDIA GPU ✓ 業界標準・エコシステム成熟 ✓ ほぼ全てのAIフレームワークが対応 ⇔ 移植 AMD ROCm PyTorch (ROCm版) MIOpen / rocBLAS HIP Runtime AMD GPU △ エコシステム発展途上 △ CUDA前提コードの移植が必要

検証環境ハードウェア CPU/APU AMD Ryzen AI MAX+ 395 GPU Radeon
8060S アーキテクチャ gfx1151 (RDNA 3.5) VRAM 64GB (共有) 統合GPUのため、ROCmサポートは限定的ソフトウェア ROCm 7.1 PyTorch 2.8.0+rocm7.1 コンテナ rocm/pytorch rocm7.1_ubuntu24.04_py3.12_pytorch_release_2.8.0

結論：動いた？動かなかった？シェイプ生成成功！ •環境変数設定で動作 •所要時間：約3分10秒 •頂点数 348,353 / 面数 696,714
テクスチャ生成未完 •ハードコードされたCUDA参照 •マルチGPU前提の設計 •大規模な改修が必要

シェイプ生成：2つの壁を越えた課題1: SDPAカーネル不在 Flash/Memory Efficient Attentionが ROCmでは実験的機能として無効化解決策実験的カーネルを明示的に有効化課題2:
GFXアーキテクチャ互換性実機はgfx1151 (RDNA 3.5) ライブラリは gfx1100 (RDNA 3) 向け →GPU Hangやクラッシュが発生解決策 export HSA_OVERRIDE_GFX_VERSION=11.0.0 export PYTORCH_ROCM_ARCH=gfx1100 GFXバージョンをエミュレート

テクスチャ生成：立ちはだかる壁ハードコードされたCUDA参照複数箇所で直接指定されているマルチGPU前提設計 albedoとPBRを別GPUで処理メモリ要求量 64GB共有メモリでも不足動作に必要な改修デバイス参照の動的化 "cuda:X"
→ tensor.device マルチGPU設計の見直しシングルGPU対応へ再設計メモリ効率化チャンク処理・CPUオフロード MIOpen回避 Math SDPへフォールバックアーキテクチャレベルの変更が必要

ROCm 環境変数チェックリスト HSA_OVERRIDE_GFX_VERSION=11.0.0 → GFXアーキテクチャ互換性の確保 PYTORCH_ROCM_ARCH=gfx1100 → ターゲットアーキテクチャの指定 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=1 →
実験的カーネル (Flash Attention等) の有効化 PYTORCH_HIP_ALLOC_CONF=expandable_segments:True → メモリ断片化対策 Docker実行時の設定例 docker run --rm -it --device=/dev/kfd --device=/dev/dri \ -e HSA_OVERRIDE_GFX_VERSION=11.0.0 \ -e TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=1 \ rocm/pytorch:rocm7.1_ubuntu24.04_py3.12_pytorch_release_2.8.0

まとめ 1 ROCmでのシェイプ生成は成功（環境変数設定で動作） 2 テクスチャ生成は要改修（CUDA依存コードの修正が必要） 3 ハードウェア非依存なコード設計が移植性の鍵 ROCmエコシステムは発展途上だが、 AMD GPUでAIを動かす選択肢は確実に広がっている

非CUDAの悲哀〜Claude Code と挑んだ image to 3D “Hunyuan...

非CUDAの悲哀〜Claude Code と挑んだ image to 3D “Hunyuan3D”を EVO-X2(Ryzen AI Max+395)で動作させるチャレンジ〜

hawky the miscellaneous

More Decks by hawky the miscellaneous

Other Decks in Technology

Featured

Transcript

2024-11-28 非CUDAの悲哀 Claude Code と挑んだ image to 3D “Hunyuan3D”を EVO-X2(Ryzen

自己紹介ほーきー(Hawkie) 逸般のツイ廃。昼の仕事はデータアナリスト。 Twitter: @hawkymisc

CUDA vs ROCm 比較 NVIDIA CUDA PyTorch / TensorFlow cuDNN

検証環境ハードウェア CPU/APU AMD Ryzen AI MAX+ 395 GPU Radeon

結論：動いた？動かなかった？シェイプ生成成功！ •環境変数設定で動作 •所要時間：約3分10秒 •頂点数 348,353 / 面数 696,714

シェイプ生成：2つの壁を越えた課題1: SDPAカーネル不在 Flash/Memory Efficient Attentionが ROCmでは実験的機能として無効化解決策実験的カーネルを明示的に有効化課題2:

テクスチャ生成：立ちはだかる壁ハードコードされたCUDA参照複数箇所で直接指定されているマルチGPU前提設計 albedoとPBRを別GPUで処理メモリ要求量 64GB共有メモリでも不足動作に必要な改修デバイス参照の動的化 "cuda:X"

ROCm 環境変数チェックリスト HSA_OVERRIDE_GFX_VERSION=11.0.0 → GFXアーキテクチャ互換性の確保 PYTORCH_ROCM_ARCH=gfx1100 → ターゲットアーキテクチャの指定 TORCH_ROCM_AOTRITON_ENABLE_EXPERIMENTAL=1 →

非CUDAの悲哀 〜Claude Code と挑んだ image to 3D “Hunyuan...

非CUDAの悲哀 〜Claude Code と挑んだ image to 3D “Hunyuan3D”を EVO-X2(Ryzen AI Max+395)で動作させるチャレンジ〜

More Decks by hawky the miscellaneous

Other Decks in Technology

Featured

Transcript

非CUDAの悲哀〜Claude Code と挑んだ image to 3D “Hunyuan...

非CUDAの悲哀〜Claude Code と挑んだ image to 3D “Hunyuan3D”を EVO-X2(Ryzen AI Max+395)で動作させるチャレンジ〜