Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ローカルマシンで動くAIの未来についてby manus 03/2025

keitaro
March 16, 2025

ローカルマシンで動くAIの未来についてby manus 03/2025

AIエージェントmanusを使って資料作り。
markdownで作られるのでそれらをgammaで整形。

途中の調査段階の調査資料の方が、レベルが高い気もする。
最終的なアウトプットに少し追記&少し手作業て修正。

元となったアジェンダは下記。
- 今後のAI(LLMとエージェント)進化予想※特にローカルマシンでの起動
- ローカルで動かすメリット・デメリット - 今やるなら必要なパソコンとスペック(メモリ考えるとmacが良いか?)
- 今使うローカルで使うと面白いエージェント(OSS) - 参考にした情報、URLなど一覧
- この資料を作るために使ったツールやAI一覧

keitaro

March 16, 2025
Tweet

More Decks by keitaro

Other Decks in Technology

Transcript

  1. ローカルLLMのメリット セキュリティの向上 社内サーバーで学習・推論を行うため、 インターネット経由でのデータ送信が不 要となり、情報漏洩のリスクを大幅に低 減できます。特に機密性の高い情報を扱 う企業にとっては、セキュリティ面で大 きなメリットとなります。 ファインチューニングのコスト 削減

    自社内でLLMのファインチューニングを 行えるため、クラウドサービスを利用す る場合と比較して、大幅にコストを削減 できます。また、データ量に応じた柔軟 な調整が可能となり、費用対効果の高い 運用が実現します。 カスタマイズ性の高さ 自社専用のデータセットを用いてLLMを 学習させることで、特定の業務やタスク に特化した独自のモデルを構築できま す。これにより、汎用的なLLMでは実現 できない高度なカスタマイズが可能とな り、競争優位性を確立できます。
  2. ローカルLLMのデメリット 初期導入コストの高さ 自社でハードウェアを用意する必要があり ます。特に、ローカルで大規模言語モデル (LLM)を効率的に実行するためには、高 スペックなGPU(グラフィックスプロセッ シングユニット)を搭載したPCやサーバ ーが不可欠です。これらのGPUは非常に高 価であり、初期投資として大きな負担とな ります。

    管理と保守の負担が大きい システムの運用管理やセキュリティ対策を 全て自社で行う必要があります。これに は、モデルのアップデート、セキュリティ パッチの適用、および潜在的なハードウェ アの問題のトラブルシューティングが含ま れます。専門知識を持つITスタッフが必要 となり、継続的なリソースの投入が求めら れます。 スケーラビリティに限界がある ローカル環境では物理的リソースに制約が あります。クラウドベースのソリューショ ンとは異なり、必要に応じてコンピューテ ィングリソースを柔軟に拡張することは困 難です。データ量やユーザー数の増加に対 応するためには、追加のハードウェア投資 が必要となる場合があります。
  3. 必要なパソコンとスペック パラメータサイ ズ Float16 (16bit) 8bit量子化 4bit量子化 7B (70億) 約16.8GB

    約8.4GB 約4.2GB 14B (140億) 約33.6GB 約16.8GB 約8.4GB 32B (320億) 約76.8GB 約38.4GB 約19.2GB 72B (720億) 約172.8GB 約86.4GB 約43.2GB 最低要件としては、最新のマルチコアプロセッサ(8コア以上推奨) 、16GB以上の RAM(32GB以上推奨) 、NVIDIA RTX 3060以上(VRAM 8GB以上)のGPU、SSD 100GB以上の空き容量が必要です。 大規模モデル用の推奨スペックとしては、Intel Core i9/AMD Ryzen 9以上のCPU、 64GB以上のRAM、NVIDIA RTX 4070 Ti/4080/4090(VRAM 16GB以上)のGPU、 NVMe SSD 500GB以上のストレージが望ましいです。
  4. Macの利点 ユニファイドメモ リ コンシューマ向けGPU は24GBが最大で動作 可能なモデルが限られ ますが、Macはユニフ ァイドメモリによりよ り大きなメモリをGPU に割り当てることがで

    きます。次期モデル 5090でも32GB程度の 見込み(価格は高額) です。 導入の手軽さ GPUや筐体などの準備 が不要で、コンパクト で扱いやすいです。す ぐに使い始めることが できるため、初心者に も優しい環境です。 最適化されたフレ ームワーク MLXなどの最適化され た機械学習フレームワ ークにより、ローカル LLMの推論が速いで す。MLXに対応した形 式のモデルを実行可能 (ggufから変換可能) で、Loraなどのファイ ンチューニングもサポ ートしています。
  5. M4 Mac Book Proの性能と価格比較 M4 24GB M4 32GB M4 Pro

    24GB (16) M4 Pro 48GB (16) M4 Pro 48GB (20) M4 Max 32GB 0 300 600 900 PP [t/s] TG [t/s] LLMの性能指標には、入力トークンを処理するスピード(PP: プロンプト評価速度)とトークンの生成スピード(TG: テキスト生成速度)があります。PPはGPUの性能とコア数に比例し、TGはメモ リ帯域幅に比例します。 32Bの4bit量子化モデルを動かすには最低24GBのメモリが必要で、72Bモデルを4bit量子化で動かすには48GB以上のメモリが必要です。Mac miniはProチップまで選べてMac Book Proと同じ構成で 約10万円安く購入可能です。
  6. ローカルで使いやすいLLM(OSS) ローカル環境で使いやすいLLM(OSS)とその特徴を紹介します。これらのモデルは、研究用途や特定タスクでの利用に適しており、様々なツールを利用することで手軽に試すことが できます。 google / gemma-3-27B 軽量で扱いやすく、研究用途にも適しています。TPU上で の実行に最適化されており、APIも充実しているため、様々 なカスタムアプリケーションへの組み込みが容易です。小 規模なデータセットでの実験や、リソースが限られた環境

    での利用に適しています。 Qwen/QwQ-32B QwQ-32Bは、強化学習を最大限に活用してコンパクトで ありながら高性能を実現した注目の大規模言語モデルで す。競合モデルであるDeepSeek-R1と並ぶ推論能力を示し つつも、運用負荷を抑えられる点が大きなメリットとして 評価されています。今後もQwenチームのさらなる研究開 発によって、より洗練されたモデルが登場してくる可能性 が高いでしょう。 RekaAI/reka-flash-3-21B OpenAI o1-miniなどの独自モデルと競合するパフォーマン スを発揮し、低遅延やデバイス上での展開が必要なアプリ ケーションを構築するための優れた基盤となります。現 在、そのサイズカテゴリで最高のオープンモデルです。 実行ツールとしては、Ollama(簡単なコマンドでモデルのダウンロードと実行が可能) 、OpenWebUI(ブラウザベースのインターフェースでLLMと対話) 、LM Studio(GUIベースのロ ーカルLLM管理・実行ツール) 、Jan(macOS向けに最適化されたローカルAIアシスタント)などがあります。Ollamaは、Dockerのような手軽さでLLMを扱えるため、初心者にもおす すめです。OpenWebUIは、ブラウザ上でLLMの設定を調整したり、様々なプロンプトを試したりするのに便利です。LM Studioは、モデルのダウンロードから実行、管理までをGUIで 一括して行えるため、視覚的に操作したいユーザーに適しています。Janは、macOSに特化して最適化されているため、Apple Silicon搭載Macでの利用に最適です。これらのツールを 使うことで、簡単にローカルLLMを試すことができます。
  7. ローカルで使うと面白いエージェント(OSS) 1 マルチエージェントシステム AutoGen(Metaが開発したマルチエージェントシステム構築用OSSライブラリ)は、複数のエージ ェントが連携してタスクを達成するためのフレームワークを提供し、複雑な問題を分割して解決で きます。CrewAI(複数のエージェントが協力して複雑なタスクを解決するフレームワーク)は、役 割分担を通じて効率的なタスク遂行を支援します。LangGraph(LangChainの拡張で、複雑なエー ジェントワークフローを構築)は、エージェント間のインタラクションをグラフ構造で表現し、よ り高度な連携を実現します。 2

    コーディング支援 Cline(VSCodeなどのIDEで使用できるオープンソースのAIエージェント拡張機能)は、リアルタイ ムでのコード補完やエラーチェック、ドキュメント生成を支援し、開発効率を向上させます。 Continue(ローカルで動作するコード生成・補完ツール)は、AIによる高度なコード生成と補完を 提供し、開発者がより創造的な作業に集中できるようにします。Tabby(自己ホスト型のコード補完 エンジン)は、プライバシーを重視した環境で、セキュアなコード補完を実現します。 3 PC操作・自動化 browser-use(オープンソースのブラウザ操作エージェント)は、ブラウザの操作を自動化し、ウェ ブスクレイピングやフォーム入力などの反復作業を効率化します。LocalAGI(ローカル環境でのタ スク自動化フレームワーク)は、ローカル環境でのタスク自動化を支援し、様々なアプリケーショ ンやサービスとの連携を可能にします。Aider(ターミナルベースのコーディングアシスタント) は、ターミナル内でのコーディング作業を支援し、コマンドの提案やコードスニペットの生成を通 じて、開発者の生産性を向上させます。
  8. ローカルマシンで動くAIの進化予想 1 短期的展望(1-2年) モデルの小型化と効率化が加速し、一般的なPCやモバイルデバイスでも、高度 なAIモデルの実行が現実的になります。クラウドへの依存度が減少し、オフライ ン環境でのAI利用が拡大するでしょう。専用ハードウェアアクセラレータ (GPU、NPU)の普及が進み、OSレベルでのAIサポートが強化され、APIを通じ たAI機能へのアクセスが容易になります。量子コンピューティング技術がAIの特 定タスク(最適化、機械学習)に応用され始め、計算能力が飛躍的に向上する可 能性があります。

    2 中期的展望(3-5年) テキスト生成に加えて、画像・音声認識・生成を含むマルチモーダルAIのローカ ル実行が一般化します。これにより、より自然で直感的なユーザーインターフェ ースが実現し、クリエイティブな作業やコンテンツ制作が効率化されます。エー ジェント間の連携が高度化し、複雑なタスクを複数のAIエージェントが協力して 自動的に解決できるようになります。個人用データに特化した継続的学習モデル (ライフログ、行動履歴)が普及し、パーソナライズされたAI体験が提供されま す。法規制や倫理ガイドラインが整備され、AIの責任ある利用が促進されるでし ょう。 3 長期的展望(5-10年) 限定的な汎用人工知能(AGI)の要素技術がローカル環境で実行可能になり、よ り複雑な問題解決や意思決定支援が可能になります。人間の思考プロセスを模倣 した高度な推論能力、知識獲得、学習能力が実現し、研究開発、教育、医療な ど、様々な分野で革新的な応用が生まれるでしょう。物理世界とデジタル世界を シームレスに橋渡しするAIエージェントが登場し、現実世界のタスクを自律的に 実行できるようになります。AIと人間の共存が進み、人間の能力拡張や創造性支 援にAIが貢献するようになるでしょう。 ローカルマシンで動くAIは、プライバシー保護、高度なカスタマイズ性、リアルタイム処理能力、そしてコスト効率の面で大きな可能性を秘めています。ハードウェアの進化、モデル の効率化、そして法規制や倫理的配慮の進展により、今後数年でさらに普及が進み、私たちの生活や社会に大きな影響を与えるでしょう。