Intel Mac で雑にローカルLLM その2 雑にGPUも使ってみた

Intel Macで雑にローカルLLM その2 ~~雑にGPUも使ってみた~~

このスライド • 自宅のIntel MacBook Proで雑にローカルLLMを試した記録。 • 前回のスライドから結構変わった部分があるのでその部分を解説

自己紹介 • 氏名:木下　兼一 • 趣味： – 家のインフラいじり – FreeBSD、Linux、Raspberry Pi
いじり – サイクリング – キャンプ – ドローン(野外で飛ばせるのが欲しい＆資格取らんと) – 小田原で有害鳥獣駆除のお手伝い – 猟銃所持（安全な取り扱い練習中） ※技術相談、執筆依頼等お伺いいたします。

以前のスライドで • とりあえずローカルLLMは動く状態まで行った – llama.cpp – Ollama

そして • DeepSeek登場！！ • 学習モデルは・・・おっ出ている • 試してみようかな、何か色々変わっている • ということでちょっと変わったことについて話していこうかと
– llama.cpp – その他学習モデル – Intel Macで使えるローカルLLMアプリ

使用したマシン • 16インチ MacBook Pro 2019 – CPU:2.4GHz Intel Core
i9 (8core 16thread) – GPU:AMD Radeon Pro 5500M 8GB – メモリ:64GB – ストレージ:1TB ※前回と同じです

llama.cpp • リポジトリダウンロード – git clone https://github.com/ggerganov/llama.cpp.git • ビルド –
makeがcmakeに変わってビルドが大幅に変更 https://github.com/ggerganov/llama.cpp/blob/master/docs/build.md – パッケージ管理ソフトでcmakeをインストールして下記を実行　cmake -B build　← ビルド用のディレクトリ作成 – 　cmake --build build --config Release -j 8　← 実行ファイル作成 – gitでアップデート場合、一旦buildディレクトリを削除してから作り直した方がよい

llama.cpp • 実行ファイルが増えた – 以前は main のみだったが、色々と増えた – llama-cli :
前回使っていたテキストベースでの実行コマンド – llama-server : サーバーとして実行できるコマンド、実行するとWebブラウザからアクセスしてチャットとかを使える – その他多数

動かしてみる • 下記コマンドで実行 – ./buid/bin/llama-cli -ngl 0 -m 'Llama-3-ELYZA-JP-8B- Q4_K_M.gguf'
-n 2048 -p 'あなたは誠実で優秀な日本人のアシスタントです。仕事の熱意を取り戻すためのアイデアを5つ挙げてください。 ' -no-cnv • CPUだけで動かした方が早いのは変わらず・・・ – だと思ったが、ここ https://github.com/ollama/ollama/is sues/1016 での議論の内容を使ってみたらGPUで爆速になってしまった・・・

GPUで動かしてみる（パッケージ等のインストール） • 下記のパッケージをインストールする – $ brew install libomp ninja vulkan-headers
glslang molten-vk shaderc vulkan-loader • MoltenVKというものをクローン・ビルド – $ git clone https://github.com/KhronosGroup/MoltenVK.git $ cd MoltenVK $ git fetch origin pull/2434/head:p2434 $ git switch p2434 $ ./fetchDependencies –macos $ make macos

GPUで動かしてみる（llama.cppのビルド） • 下記コマンドでビルド – $ cmake -B build -DLLAMA_CURL=1 -DGGML_METAL=OFF
-DGGML_VULKAN=1 \ -DVulkan_INCLUDE_DIR=/usr/local/Cellar/molten-vk/1.3.0/include \ -DVulkan_LIBRARY=/usr/local/Cellar/molten-vk/1.3.0/lib/libMoltenVK.dylib \ -DOpenMP_ROOT=$(brew --prefix)/opt/libomp \ -DVulkan_GLSLC_EXECUTABLE=$(brew --prefix)/opt/shaderc/bin/glslc \ -DVulkan_GLSLANG_VALIDATOR_EXECUTABLE=$(brew --prefix)/opt/glslang/bin/glslangValidator \ -DOpenMP_C_FLAGS=-fopenmp=lomp \ -DOpenMP_CXX_FLAGS=-fopenmp=lomp \ -DOpenMP_C_LIB_NAMES="libomp" \ -DOpenMP_CXX_LIB_NAMES="libomp" \ -DOpenMP_libomp_LIBRARY="$(brew --prefix)/opt/libomp/lib/libomp.dylib" \ -DOpenMP_CXX_FLAGS="-Xpreprocessor -fopenmp $(brew --prefix)/opt/libomp/lib/libomp.dylib -I$(brew --prefix)/opt/libomp/include" \ -DOpenMP_CXX_LIB_NAMES="libomp" \ -DOpenMP_C_FLAGS="-Xpreprocessor -fopenmp $(brew --prefix)/opt/libomp/lib/libomp.dylib -I$(brew –prefix)/opt/libomp/include" – $ cmake --build build --config Release -j 8

結果 • GPU 使用 – llama_perf_context_print: eval time = 26647.52
ms / 578 runs ( 46.10 ms per token, 21.69 tokens per second) – llama_perf_context_print: total time = 27707.62 ms / 626 tokens • CPUのみ – llama_perf_context_print: eval time = 133206.50 ms / 527 runs ( 252.76 ms per token, 3.96 tokens per second) – llama_perf_context_print: total time = 140521.50 ms / 572 tokens • 生成速度が5倍くらいに

サーバも動かしてみる • 下記コマンドで実行 – ./llama-server -ngl 0 -m 'mmnga/Llama-3-ELYZA-JP-8B- Q4_K_M.gguf'
• Webブラウザで localhost:8080にアクセスすればUIが表示

サーバの初期表示 • こんな感じ

チャットしてみる

結果 • こんな感じ、これはまともに帰ってきているが・・・

モデルが違うと • モデルが違うと回答が大きく変わる・・・

学習モデルも • 日本語が使える学習モデルも増えた – Phi 3 – ELYZAはLlama3用のものが出てきていた – DeepSeekも日本語が使えるのがある

学習モデル(ELYZA Llama3) • https://huggingface.co/mmnga/Llama-3-ELYZA-JP-8B-gguf • 自分の環境の中では一番それなりの回答を返してくる • 出力速度としては – CPUのみ：ChatGPTやGeminiより遅いが、まぁまぁ我
慢できる程度 – GPUオフロード：ChatGPTやGeminiに近い速度で生成

学習モデル(Phi 3) • https://huggingface.co/mmnga/Phi-3-mini-128k-instruct- gguf • 動作は軽い • しかし下記のような状態だったりであまり実用的でない –
英語や記号が混じった回答が出力 – 延々とテキストを出力してくる • GPUオフロードについては適切にプロンプトを設定しないと出力しない

学習モデル(DeepSeek) • https://huggingface.co/mmnga/DeepSeek-R1-Distill-Qwen-14B-gguf • llama.cpp、Ollamaや後述するツールで一通り動作 • 回答前にthinkingという表示が出て中国語や英語で思考をしているかのような表示あり • 適切な回答をすることもあるが、中国語がダラダラ出てくるという場
合もあり • GPUオフロードすると激遅にorz

LLMツール • LLMの学習モデルをGUIで使えるようにするツール • MacではLM Studioが出ていたが – Apple Siliconでしか使えなかった
orz • しかしIntel Macでも使えるツールが出てきた

Intel Mac で使えるLLMツール • Sanctum : https://sanctum.ai – 出てきた当初はIntel Macで使うとエラーとなっていたが、現在は
問題なく動作 • GPT4All : https://gpt4all.io/index.html?ref=localhost – 現時点ではIntel Macで一番使い勝手がいい • AnythingLLM : https://anythingllm.com ※未使用 – 多機能なAIツール – 基本有償LLMサービスを使うのだが、サービス設定でOllamaをつかうことでローカルLLMを使うことも可能らしい

Sanctum • Sanctum : https://sanctum.ai • 学習モデルの一覧で、起動しているハードで無理なく動作できるかをサジェストしてくれる • 日本語チャットの入力に少し難がある（日本語変換を
確定した途端に質問を入力したと判定されるので、テキストエディタで質問を書いてコピペするという技が必要） • モデルを他のLLMツールとかと共有できない

Sanctumチャット

Sanctumモデルダウンロードハードウェアのリソースで快適に動作できるかを表示

GPT4All • GPT4All : https://www.nomic.ai/gpt4all • Intel MacのGUI LLMツールとしては使い勝手がいいと思う
• llama.cppとモデルの共有も可能

GPT4Allチャット

今回のまとめ • CPUだけでもそこそこ使えるが • GPUが（しかもRadeonでも）ちゃんと動けば速かった • それでもM3かM4のMacBook Proがやっぱり欲しい
orz

ご清聴ありがとうございました。

Intel Mac で雑にローカルLLM その2 雑にGPUも使ってみた

Intel Mac で雑にローカルLLM その2 雑にGPUも使ってみた

kenkino

More Decks by kenkino

Other Decks in Technology

Featured

Transcript