AIエージェントデザインパターンの選び方

ローカルLLM環境でのAgent構築 https://x.com/shindoy

2025 MaaS - GPUStack 2022 Jira - Atlassian

によるローカルLLM環境でのAgent構築 1.環境セットアップ（GPUStack導入含む）  　Homebrew等で開発環境を整えた後、GPUStack環境を構築（インストールTipsあり！）    2.LLMモデルの準備  　GGUF形式の量子化済みモデル（例：Mistral, LLaMA2など）等を取得しGPUStackで動作確認    3.プロンプトテンプレートの整備  　使用モデルに合わせてChatML/Alpaca/Vicuna等のプロンプト形式を設計 
  4.チャットエージェントの構築  　LangChainやllama-cpp-pythonを用い会話制御やRAG機能を備えたチャットエージェント構成    5.Dockerによる構成管理  　再現性・配布性のためGPUStackとエージェント環境をDockerfile/DockerComposeで管理    6.UI構築  　Gradio, Streamlit, FastAPI等を使って、LLMと連携するシンプルなWebチャットUIを提供    7.セキュリティ・最適化  　ローカル通信限定、Metal最適化、量子化モデル選定などで安全かつ効率的な実行を確保    8.テスト&チューニング  　チャット品質・応答速度・リソース使用量を評価し、推論パラメータやRetrieverの最適化

前提のお話皆さん、Agent構築はクラウド使ってますよね

今日のお話ローカルでの構築はいいぞそろそろ

1.ローカルLLM環境導入Tips 

https://docs.gpustack.ai/

https://docs.gpustack.ai/latest/installation/installation-requirements/

2.LLMモデルの準備Tips

量子化レベルメモリ削減精度への影響推奨用途 3bit 約75%削減中～高メモリ制約が厳しい環境（16GB RAM） 4bit
約65%削減低～中一般的な用途に最適なバランス 8bit 約50%削減最小限高精度が必要な用途（32GB以上のRAM推奨）

# モデルカタログの表示 gpustack models list # モデルのダウンロード（例：Llama 3.1 8B Instruct）
gpustack models download mlx-community/Llama-3.1-8B-Instruct-3bit # ダウンロード済みモデルの確認 gpustack models local モデル関係のコマンド

自作LLMのデプロイ

ローカル環境でのAgent開発メリット・試行錯誤の自由さ・APIコストの抑制・基礎技術の理解・セキュリティとプライバシー

エージェント開発w/GPUStackメリット・リソースの柔軟性  必要に応じて計算リソースをスケールアップ/ダウンできるため、プロジェクトの規模に応じた最適なリソース管理が可能・物理制約からの解放  HWによる物理的な制約から解放され、より柔軟でカスタマイズ性の高いシステム構築が可能

ローカルLLMの課題・初期構築コスト（HW購入、構築費用等）・維持管理コスト（電力、人材、Ops費用）・LLM選定ノウハウ（検証コスト）

ローカルLLMの課題・初期構築コスト→ ・維持管理コスト（電力、人材、Ops費用）・LLM選定ノウハウ（検証コスト）無料

https://note.com/cor_instrument/n/n6d2bc4db9175 ✗

異なるHWの組み合せによる構成でも異なるNW上のワーカーでも一元管理可能

アーキテクチャサーバワーカーワーカー:1 ワーカー:n

アーキテクチャ LLM 実行

GPUStackをGPUが入っていないLinuxサーバにインストール、そのサーバ上から、GPUが入っているサーバをワーカーに追加する、と言う構築方法は正しいですか？それとも、GPUStackがインストールされるサーバもGPUが必要ですか？実際にあった質問回答：サーバはGPU不要

UI AIエージェントデータソース Tokenize Detokenize API REST / WebSocket
ローカルLLM環境 Agent開発 LLM 実行環境 HW

・完全なデータ主権・入出力データが企業内で完結・自社の情報管理ポリシー完全準拠・顧客データや知財も保護可能 • ローカル環境でのAgent開発メリット（ビジネス目線）

オンプレミス・ローカルLLM クラウドサービス API使用某サービス有料版某サービス無料版学習されない
されないされないオプトアウトが必要データ自己保有ベンダー内ベンダー内ベンダー内されるセキュリティレベル高低準拠法日本国海外（一部日本）海外海外 ( ) ※完全なる正確性を保証するものではありません ※他社様のサービスを批判する目的ではありません

オンプレミス・ローカルLLM クラウドベンダーのAPI使用生成AIツール有料版生成AIツール無料版学習されない
されないされないオプトアウトが必要データ自己保有ベンダー内ベンダー内ベンダー内されるセキュリティレベル高低準拠法日本国海外（一部日本）海外海外 ( ) ※完全なる正確性を保証するものではありません ※他社様のサービスを批判する目的ではありませんクラウドサービス API使用某サービス有料版某サービス無料版

「ローカルLLM」参考情報

3.情報源Tips 

ありがとうございました！

AIエージェントデザインパターンの選び方

AIエージェントデザインパターンの選び方

Almondoイベント担当

More Decks by Almondoイベント担当

Featured

Transcript

ローカルLLM環境でのAgent構築 https://x.com/shindoy

2025 MaaS - GPUStack 2022 Jira - Atlassian

前提のお話皆さん、Agent構築はクラウド使ってますよね

今日のお話ローカルでの構築はいいぞそろそろ

1.ローカルLLM環境導入Tips

https://docs.gpustack.ai/

https://docs.gpustack.ai/latest/installation/installation-requirements/

2.LLMモデルの準備Tips

量子化レベルメモリ削減精度への影響推奨用途 3bit 約75%削減中～高メモリ制約が厳しい環境（16GB RAM） 4bit

# モデルカタログの表示 gpustack models list # モデルのダウンロード（例：Llama 3.1 8B Instruct）

自作LLMのデプロイ

ローカル環境でのAgent開発メリット・試行錯誤の自由さ・APIコストの抑制・基礎技術の理解・セキュリティとプライバシー

ローカルLLMの課題・初期構築コスト（HW購入、構築費用等）・維持管理コスト（電力、人材、Ops費用）・LLM選定ノウハウ（検証コスト）

ローカルLLMの課題・初期構築コスト→ ・維持管理コスト（電力、人材、Ops費用）・LLM選定ノウハウ（検証コスト）無料

https://note.com/cor_instrument/n/n6d2bc4db9175 ✗

異なるHWの組み合せによる構成でも異なるNW上のワーカーでも一元管理可能

アーキテクチャサーバワーカーワーカー:1 ワーカー:n

アーキテクチャ LLM 実行

UI AIエージェントデータソース Tokenize Detokenize API REST / WebSocket

・完全なデータ主権・入出力データが企業内で完結・自社の情報管理ポリシー完全準拠・顧客データや知財も保護可能 • ローカル環境でのAgent開発メリット（ビジネス目線）

オンプレミス・ローカルLLM クラウドサービス API使用某サービス有料版某サービス無料版学習されない

オンプレミス・ローカルLLM クラウドベンダーのAPI使用生成AIツール有料版生成AIツール無料版学習されない

「ローカルLLM」参考情報

͉

3.情報源Tips

ありがとうございました！