Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【初心者向け】ローカルLLMの色々な動かし方まとめ

Avatar for Aratako Aratako
September 05, 2025

 【初心者向け】ローカルLLMの色々な動かし方まとめ

生成AIなんでも展示会 Vol.4 LT資料

Avatar for Aratako

Aratako

September 05, 2025
Tweet

More Decks by Aratako

Other Decks in Technology

Transcript

  1. Hugging Face Transformers リポジトリ:https://github.com/huggingface/transformers Hugging Faceが開発、各種機械学習モデルを簡単に動かすためのライブラリ 推論だけでなく、学習などの基盤にもなる gpt-oss-20bの推論例: # pip

    install -U transformers kernels torch from transformers import pipeline import torch model_id = "openai/gpt-oss-20b" pipe = pipeline( "text-generation", model=model_id, torch_dtype="auto", device_map="auto", ) messages = [ {"role": "user", "content": "Explain quantum mechanics clearly and concisely."}, ] outputs = pipe( messages, max_new_tokens=256, ) print(outputs[0]["generated_text"][-1])
  2. llama.cpp リポジトリ:https://github.com/ggml-org/llama.cpp C/C++で実装されたLLMの高速推論エンジン GGUFを動かすことができ、様々なツールのバックエンドとして統合されている gpt-oss-20bの推論例: apt-get update apt-get install pciutils

    build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ./llama.cpp/llama-cli \ -hf unsloth/gpt-oss-20b-GGUF:F16 \ --jinja -ngl 99 --threads -1 --ctx-size 16384 \ --temp 1.0 --top-p 1.0 --top-k 0
  3. ollama / LMStudio / KoboldCpp 基本的にはllama.cppのラッパー 推論エンジンとChatbot的なGUIなどを統合したもの あまり大きな違いはないので、基本的に好みで使うのが良い 良い点:簡単にLLM推論サーバが立てられる、GUIのフロントエンドがある 微妙な点:

    一部クローズドソース、productionレベルには向いていない 用途:初心者の方が簡単に使ってみたいときにおすすめ コメント: かなり使いやすいので、初心者にお勧め。ollamaなどは最近      クローズドになりつつあり、ややコミュニティで嫌われ気味 ollama:https://ollama.com/ LMStudio:https://lmstudio.ai/ KoboldCpp:https://github.com/LostRuins/koboldcpp
  4. ExLlamaV2 / ExLlamaV3 ExLlamaV2:https://github.com/turboderp-org/exllamav2 ExLlamaV3:https://github.com/turboderp-org/exllamav3 EXL2 / EXL3形式への量子化、及びそれを推論するためのライブラリ 推論サーバとしての機能はTabbyAPIでサポート Qwen3-8Bの推論例:

    git clone https://github.com/turboderp-org/exllamav3 cd exllamav3 # torchなどはあらかじめ入れておく pip install -r requirements.txt pip install -r requirements_examples.txt pip install . # EXL3形式のモデルをダウンロード(または自分で量子化) hf download turboderp/Qwen3-8B-exl3 --revision 4.0bpw --local-dir ./Qwen3-8B-exl3-4.0bpw python examples/chat.py -m ./Qwen3-8B-exl3-4.0bpw -mode chatml
  5. vLLM リポジトリ:https://github.com/vllm-project/vllm オープンソースで非常にメジャーなLLM高速推論エンジン かなり老舗で開発も非常に活発、新モデルのDay 0サポートも多い gpt-oss-20bの推論例: # Dockerで動かす docker run

    --gpus all -p 8000:8000 --ipc=host \ vllm/vllm-openai:v0.10.1 --model openai/gpt-oss-20b # またはuvで環境構築 uv pip install vllm --torch-backend=auto vllm serve openai/gpt-oss-20b
  6. SGLang リポジトリ:https://github.com/sgl-project/sglang LMSYS製のオープンソースなLLM高速推論エンジン vLLMより高速な場合もある。Grokの推論エンジンとして採用されている gpt-oss-20bの推論例: # Dockerで動かす docker run --gpus

    all --shm-size 32g -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server --model-path Qwen/Qwen3-4B-Thinking-2507--host 0.0.0.0 --port 30000 # またはuvで環境構築 uv pip install "sglang[all]>=0.5.2rc1" python3 -m sglang.launch_server --model-path Qwen/Qwen3-4B-Thinking-2507 --host 0.0.0.0 --port 30000
  7. TensorRT-LLM リポジトリ:https://github.com/NVIDIA/TensorRT-LLM NVIDIA製のLLM高速推論エンジン 非常に高速でvLLM等より早い場面が多いが、導入がやや難しい Qwen3-4Bの推論例: # Dockerコンテナに入る docker run --rm

    -it --ipc=host --shm-size=2g --ulimit memlock=-1 \ --ulimit stack=67108864 --gpus=all -p 8000:8000 -v ~/models:/models \ nvcr.io/nvidia/tensorrt-llm/release:1.0.0rc2 # モデルをダウンロード hf download Qwen/Qwen3-4B-Thinking-2507 --local-dir /models/Qwen3-4B-Thinking-2507 # 量子化 python /app/tensorrt_llm/examples/quantization/quantize.py --model_dir /models/Qwen3-4B-Thinking-2507 \ --dtype bfloat16 --qformat fp8 --output_dir /models/quantized # engine build trtllm-build --checkpoint_dir /models/quantized \ --output_dir /models/engine \ --gemm_plugin auto \ --kv_cache_type paged \ --max_batch_size 64 \ --max_seq_len 32768 \ --max_num_tokens 1024 # 推論サーバの起動 trtllm-serve /models/engine –backend trt \ --tokenizer /models/Qwen3-4B-Thinking-2507 \ --max_batch_size 64 \ --max_seq_len 32768 \ --max_num_tokens 1024 \ --host 0.0.0.0
  8. まとめ 用途によって色々と使い分けると良い • とりあえず動作確認だけしたい! →Hugging Face Transformers • 高速な推論環境を簡単に使いたい! →llama.cppラッパー(ollama

    / LMStudioなど) • 自分でGGUFを作ったり量子化してみたい! →llama.cpp • Productionレベルで大規模 Servingしたい! →vLLM、SGLang、TensorRT-LLM →(本当に大規模ならllm-dやNVIDIA Dynamoなども)