Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMローカル動作方法(NvidiaGPU使用)

Avatar for dassimen dassimen
March 23, 2025
67

 LLMローカル動作方法(NvidiaGPU使用)

前回はCPUのみで動作させていたLLMをNvidiaのGPUを使用して動かしてみました。
PCのファンがうるさくなることなくLLMが動いていて感動しました。

Avatar for dassimen

dassimen

March 23, 2025
Tweet

Transcript

  1. Nvida Container Toolkitの設定1 1. Ubuntu(WSL2)環境にNvidaContainerToolKitをインストール 1. NvidiaのリポジトリをUbuntuに追加 aptでインストールできるようにする 2. 以下コマンドでツールのインストール

    $ sudo apt-get install -y nvidia-container-toolkit インストール詳細は以下を参照(NVIDIA公式Doc) https://docs.nvidia.com/datacenter/cloud-native/container- toolkit/latest/install-guide.html#installation “ “ 5
  2. Nvida Container Toolkitの設定2 2. Dockerの設定をする 1. Nvidiaのツールキットを使用するように設定ファイルを更新 $ sudo nvidia-ctk

    runtime configure --runtime=docker 2. Dockerの再起動 Docker Desktop for Windowsの場合はGUIから再起動する GPUをDockerで使用する詳細は以下を参照(Docker公式Doc) https://docs.docker.com/desktop/features/gpu/ “ “ 6
  3. 実行 1. まずOllamaコンテナを立ち上げる(モデルを実行するツール) $ docker run -d --gpus=all -v ollama:/root/.ollama

    -p 11434:11434 --name ollama ollama/ollama 2. 好きなモデルを以下から選び実行する 今回は Llama3.2の1bパラメータ の物を選んだ。 比較的容量が1.1GBと少なめ。 DeepSeek-R1も使ったが今回は省略する。 $ docker exec -it ollama ollama run llama3.2:1b 7
  4. 実行結果 >>> 日本語で対応してください。 我々は、以下のような方法でオプションをご提供しています。 1.質問を簡単な言葉で説明する 2.長い文書の部分についての詳細な説明 3.特定の問題に答えを調べるためのシナリオを提示します。 4.関連する情報と関連している情報をご紹介します。 5.複雑な概念を簡単に理解できるように、分解したリストを提供します。 >>>

    日本の首都はどこですか。 日本の首都は東京です。 Tokyo (, Tokyō) は、日本の人口の約半分の市民が住んでいる都市で、東京 metropolitan area の中心部である。 >>> が自分で入力した文章。その下がLLMの回答。 サイズが小さなモデルなので日本語での精度は少し落ちる。 精度を上げる場合は、容量の大きなモデルを使用するとよい。 ネットワークを切った状態でも問題なく動作した。 8
  5. Tips GitHub ( https://github.com/ollama/ollama ) Ollamaのコマンド使用法などが載っている Ollama (https://ollama.com) モデルの一覧はサイトの中で確認できる DeepSeek-R1を実行する場合のコマンド

    $ docker exec -it ollama ollama run deepseek-r1:1.5b Nvida Container Toolkit(https://docs.nvidia.com/datacenter/cloud- native/container-toolkit/latest/index.html) 10