自宅LLMの話

Kazuto Kusama @jacopen Product Evangelist @PagerDuty Japan 理事 @一般社団法人SREコネクト代表理事
@一般社団法人クラウドネイティブイノベーターズ協会

自分と自宅サーバー普段の活動範囲 • クラウドネイティブ • プラットフォームエンジニアリング • インシデント管理自宅サーバー歴はめっちゃ長い(今年で24年) 自分のキャリアは自宅サーバーに支えられて
きたと思っており、そういった登壇もした Software Designで「はじめよう、おうちクラウド」を連載したはじめての自宅サーバーのCPUはPentiumII 400MHz

最近やっていること 3Dプリンターで自作10インチラックを育てていますこれも結構面白いのでどこかでお話したい

今日のネタ自宅LLM

自鯖愛好家として、LLMは複雑な想い

だいたいAIのせい

とはいえ、あれだけの仕組みが手元で動くのもなかなかロマンがある

自宅LLMって使い物になるの？ちょっと前まで、自分も懐疑的だったしかし2026年に入り、自宅で動かせるレベルのものでも、それなりの質が出せるようになってきたと感じるちょっとしたタスクの自動化であれば十分こなせる

単に「LLMを動かす」だけなら割とどこでも動く Gemini Nano (Chrome内蔵)のようなオンデバイスLLMであれば、16GB程度のメモリを積んだPCや4GB程度のVRAM環境で動く･･･が、自宅サーバー派の観点でLLMを飼うのなら、この辺はスコープ外

現実的な範囲でとれる選択肢 2026年6月現在、オープンモデルで、4B〜32B程度のパラメータが提供されているもの • gemma4 • Qwen3.6 • GLM4.7-ﬂash あたり
VRAM8GB〜32GBあたりで動かせる。

選択肢1: nvidia まあ鉄板エコシステムがCUDA前提に成り立っているので、無用なトラブル避けたければnvidia一択ハイエンド: RTX 5090 32GB ･･･
しかし価格･･･次点: RTX 4090 24GB RTX 3090 24GB ･･･このあたりは中古を狙う 7B〜14B程度のモデルを動かすなら、16GB VRAMのものをチョイス。ここは選択肢が多い

選択肢2: Mac ユニファイドメモリの強みがあるのでこちらも定番。大きいモデル動かしたいならコスパが良い低コスト構成でM4 Mac Miniは定番。でも OpenClaw需要があったのとモデル末期なおかげで在庫微妙金に糸目をつけないのであればMac
StudioでM3 Ultra 512GBが定番だったが、これも買えなくなってしまった。

選択肢2: Ryzan AI MAX “Strix Halo” ユニファイドメモリの選択肢その2 最上位のRyzen AI Max+
395は128GBのメモリを積んでいるので、96GBをVRAMに充てれば 70B〜120B程度のモデルが動かせるモバイル/ミニPC用途のAPUなので、筐体がとても小さくできるのもメリットいいじゃん・・・

ということで買いました Strix Haloが発表された時点でLLMで遊ぶ向けだなと感じたので、先陣を切って発売されたGMKtecの EVO-X2を購入(2025年5月)。その時の金額で $1,999

もう一台 2025年11月ごろからメモリ価格が急騰。 Strix Halo PCの価格は変わっていなかったが、そう遠くないうちに値上げになると感じたのでもう1台購入。 MinisforumのMS-S1 Maxで、割引込み ¥407,999

なにもかも高くなった予想通りめっちゃ高くなってしまった EVO-X2: 31万円(購入時) → 51万円(現在) MS-S1 Max 40.7万円(購入時) →
64万円(現在) でも、他の選択肢(nvidia, mac)も同様に値上がりしているので、何もかもが高い・・・

Strix Haloで遊ぶ

LLMを動かす WindowsかLinux 自宅サーバー勢であれば、たぶんLinuxで組む方がいい。推論サーバーとして動かしておき、ホームラボの各マシンから利用するという形推論エンジンとしてはollamaが鉄板インストールは簡単 curl -fsSL https://ollama.com/install.sh |
sh

注意点 Strix HaloはRyzen APUなのでCUDAは使えない。ROCmを使うことになるそのため、ROCm向けのセットアップが必要 AMDのドキュメントをみながらセットアップする。自宅サーバー勢からみるとそこまで難しくはない

利用するモデル Strix Haloは128GBのうち、フレキシブルに VRAMに割り当てることが可能。なので70Bや、量子化した120Bのモデルも動く。が、推論速度がめちゃ速いというわけではないので、使い物になるのはやっぱり32Bくらいまで。これ発表している時点では、Qwen3.6
35B-A3Bがもっとも速度のバランスがいいように感じる。

OpenClaw / Hermes Agentを動かす常時動かすワークロードとして、 OpenClawやHermes Agentが使い勝手良い ollamaで簡単にセットアップできる

LibreChatを動かすセルフホスト型のチャットプラットフォーム。さまざまなプロバイダーのモデルを利用できる。もちろんollamaも対応

OpenCodeを動かす OSSのコーディングエージェントさまざまなモデルが利用できる。 ollamaとopencode両方入っていれば、 ollama launch opencode するだけで使えるモデルの性能差があるのでちゃんとしたコード書かせるならフロンティアモデル使
いたくなるかも。ちょっとした作業程度に。

その他の活用方法アイディア次第でどうとでも遊べると思うやはり自宅サーバー派として、ホームラボをまとめて運用出来る、24365で動くエージェントを作りたい気持ちあり。

ちなみに Strix Halo 2台あるけど、両方使いこなすまでに至らなかったので片一方はForza Horizon 6で遊ぶマシンになりました。グラフィックかなり上げても60fps維持できます。
AIに飽きたらゲームにも使える神APU

今後やりたいこと vLLMがROCmに対応してそれなりに使えるようになってきたらしいので、そちらも試したい。そうしたら2台目もまたゲーム機から推論サーバーに転身してもらうかも

さいごにお知らせ

自宅サーバーのカンファレンスやります 11/15 (日) docomo R&D OPEN LAB ODAIBA

自宅LLMの話

自宅LLMの話

Kazuto Kusama

More Decks by Kazuto Kusama

Other Decks in Technology

Featured

Transcript