Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ローカルLLMでどこまでコードが書けるか -拡張版 / How much code can b...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

ローカルLLMでどこまでコードが書けるか -拡張版 / How much code can be written on a local LLM Extended

2026/6/19に開催された「コーディングのためのローカルLLM勉強会 in 福岡」での登壇資料です。
https://connpass.com/event/395614/

Avatar for Naoki Kishida

Naoki Kishida

June 19, 2026

More Decks by Naoki Kishida

Other Decks in Programming

Transcript

  1. 2026/06/19 2 自己紹介 • きしだ なおき • X(twitter): @kis •

    サブスクも始めました。 • blog: きしだのHatena • (nowokay.hatenablog.com) • 「プロになるJava」というJavaの本を書いてます
  2. 現在の状況(モデル) • 30Bくらいのモデル • 1往復でおわるチャットには十分 • 要約、翻訳、簡単な質問 • 最初のコーディングなら十分 •

    デバッグには ハマることがある • 500B以上のモデル • 高度なこと以外には十分 • おうちで使うのは厳しい • メモリ高騰が残念
  3. 今日の話 • 手元のマシンでコーディング作業を行う • 32GB-64GBの統合メモリでQwen3.6 / Gemma 4を動かす • 将来的には192GB-256GBで250B程度を動かす

    • 15万トークン以内の作業 • LLM用サーバーで共有はおすすめしない • コーディングの高負荷でサーバーを運用するのは大変 • ある程度をQwen3.6 / Gemma 4でまかなうならコスト回収も大変 • オープンモデルでもAPIを使ったほうがいい • 単にモデル選択と利用料金の問題になる
  4. いま使えるモデル • Dense / MoE • MoEは一部だけ動かす • 速いし知識がある •

    Denseは全部動かす • 重いけど賢い • アテンション • フル – O(n^2) 重いけど賢い • スライド – 全体を見れないけど確実な作業 • スパース - 全体を見るけど少しあいまい • 線形 – 計算を工夫してO(n)、誤差で間違いが出やすい
  5. ハードウェア • SoC – CPU/NPU/GPUを統合したチップ • AMD Ryzen AI Max+

    395 – EVO-X2: 128GB / 48万円 • Intel Core Ultra 7 – MINISFORM M2 32GB / 22万円 • NVIDIA GB10 – Ascent GX10: 128GB / 58万円 • Apple Silicon – Mac Studio: 96GB / 60万円 • GPU(32GB) • RTX 5060 Ti 16GB x2 / 20万円 • Intel Arc Pro B70 / 22万円 • Radeon AI Pro R9700 / 25万円 • RTX 5090 / 60万円~ • RTX PRO 4500 / 60万円
  6. ソフトウェア • 推論エンジン • llama.cpp • MLX • チャット •

    Open WebUI • 統合ツール • LM Studio • Ollama • コーディングエージェント • OpenCode • Claude Code • Codex
  7. 推論エンジン • llama.cpp • 汎用 • GGUF • 量子化が多い •

    mlx-llm • Macのみ • vLLM, SGLang • 複数で同時に使うサーバー用
  8. チャットUI • Open WebUI • RAGやコード実行などもできる • LM Studio •

    UIついてる • llama.cpp • Web UIが結構つかえる
  9. 統合ツール • 実行エンジン、モデル管理、UIなどの統合 • いずれもllama.cpp, mlx-llm対応 • LM Studio •

    GUIツール • モデル管理しやすい • Ollama • CLIツール • 独自管理で慣れるとかなり不便
  10. 実際にローカルでコード書けるの? • Qwen3.6-27B + OpenCodeでQwen3のJavaScript実装つくった • 可能といえば可能 • 一応コードは全部Qwen3.6が書いた •

    50000トークンから性能おちる • 細かい仕様をたくさん誤解している • 知識総量はパラメータ数依存なので細かい 知識があいまい • その誤解を元にコードを書くと 正しい仕様を信じなくなる。相当頑固 • 資料を可能な限り渡して仕様を吐き出させ誤解を修正してからの実装が必要
  11. 5年後は? • ハードウェアの進化だけでは動かせるモデルは増えない • メモリ → 年率40%成長 → 5年で5.3倍 •

    大きいモデルも乗るだけなら乗る • プロセッサ → 年率30%成長 → 5年で3.7倍 • もすこし足りない • 帯域 → 年率20%成長 → 5年で2.4倍 • 今でも2倍欲しいので、2.4倍になっても・・・ • 300Bくらいが主戦場では • 普通にコーディングできる • フロンティアモデルと使い分け(設計やデバッグはフロンティア、作業はローカル)
  12. 最適化 • メモリ削減 • TurboQuant • KVキャッシュ(それまでの出力の計算結果)を削減 • 速度向上 •

    MTP(multi-token prediction) • 投機的デコード • 軽いモデルに3トークン出させて本番モデルで答え合わせ • エージェントだと遅い
  13. まとめ • かなり実用になってきている • HTML画面の最初の作り起こしなどは十分にまかせれる • コスト削減 • デバッグや設計などはフロンティアモデルを使う •

    将来的にはかなりの作業を手元でできるはず • その準備は やっておいたほうがいい • あと、ローカルで動かすの楽しい