Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIエージェントデザインパターンの選び方

 AIエージェントデザインパターンの選び方

AI Agent勉強会 Vol.3での新藤さん(https://x.com/shindoy)の登壇資料

▼イベントリンク
https://almondo.connpass.com/event/355297/

Transcript

  1. によるローカルLLM環境でのAgent構築 1.環境セットアップ(GPUStack導入含む)
  Homebrew等で開発環境を整えた後、GPUStack環境を構築(インストールTipsあり!)
 
 2.LLMモデルの準備
  GGUF形式の量子化済みモデル(例:Mistral, LLaMA2など)等を取得しGPUStackで動作確認
 
 3.プロンプトテンプレートの整備
  使用モデルに合わせてChatML/Alpaca/Vicuna等のプロンプト形式を設計


    
 4.チャットエージェントの構築
  LangChainやllama-cpp-pythonを用い会話制御やRAG機能を備えたチャットエージェント構成
 
 5.Dockerによる構成管理
  再現性・配布性のためGPUStackとエージェント環境をDockerfile/DockerComposeで管理
 
 6.UI構築
  Gradio, Streamlit, FastAPI等を使って、LLMと連携するシンプルなWebチャットUIを提供
 
 7.セキュリティ・最適化
  ローカル通信限定、Metal最適化、量子化モデル選定などで安全かつ効率的な実行を確保
 
 8.テスト&チューニング
  チャット品質・応答速度・リソース使用量を評価し、推論パラメータやRetrieverの最適化
  2. 量子化レベル メモリ削減 精度への影響 推奨用途 3bit 約75%削減 中~高 メモリ制約が厳しい環境(16GB RAM) 4bit

    約65%削減 低~中 一般的な用途に最適なバランス 8bit 約50%削減 最小限 高精度が必要な用途(32GB以上のRAM推奨)
  3. # モデルカタログの表示 gpustack models list # モデルのダウンロード(例:Llama 3.1 8B Instruct)

    gpustack models download mlx-community/Llama-3.1-8B-Instruct-3bit # ダウンロード済みモデルの確認 gpustack models local モデル関係のコマンド
  4. UI AIエージェント データ ソース Tokenize Detokenize API REST / WebSocket

    ローカルLLM環境 Agent開発 LLM 実行環境 HW
  5. オンプレミス・ ローカルLLM クラウドサービス API使用 某サービス 有料版 某サービス 無料版 学習 されない

    されない されない オプトアウト が必要 データ 自己保有 ベンダー内 ベンダー内 ベンダー内 される セキュリティレベル 高 低 準拠法 日本国 海外 (一部日本) 海外 海外 ( ) ※完全なる正確性を保証するものではありません ※他社様のサービスを批判する目的ではありません
  6. オンプレミス・ ローカルLLM クラウドベンダー のAPI使用 生成AIツール 有料版 生成AIツール 無料版 学習 されない

    されない されない オプトアウト が必要 データ 自己保有 ベンダー内 ベンダー内 ベンダー内 される セキュリティレベル 高 低 準拠法 日本国 海外 (一部日本) 海外 海外 ( ) ※完全なる正確性を保証するものではありません ※他社様のサービスを批判する目的ではありません クラウドサービス API使用 某サービス 有料版 某サービス 無料版
  7. ͉