Upgrade to Pro — share decks privately, control downloads, hide ads and more …

プログラムに組み込みたい人向けLLMの概要 / LLM for programmers

Naoki Kishida
July 19, 2024
290

プログラムに組み込みたい人向けLLMの概要 / LLM for programmers

2024/7/19(金)に開催された福岡LLM勉強会での登壇資料です
https://connpass.com/event/324157/

Naoki Kishida

July 19, 2024
Tweet

Transcript

  1. 2 LLMとは • Large Language Model • 言語を処理する深層学習モデルでパラメータ数が大きいもの • Largeとは?となりがちだけど、数億パラメータくらいから大規模と言

    われ始めた。 • いまでは数億パラメータのLLMは非常に小さいとみなされる・・・ • Microsoftは数十億程度のLLMをSLMと呼ぼうとしているけど、混乱するだけに 見える。
  2. 代表的なLLMサービス • OpenAI • ChatGPT https://chatgpt.com/ • Google • Gemini

    https://gemini.google.com/ • Anthropic • Claude https://claude.ai/
  3. 自分のシステムに組み込みたいよ! • Microsoft • Azure OpenAI Service • ChatGPTが使える •

    Google • Google Cloud Gemini API • Gemini Proが使える • AWS • Amazon Bedrock • Amazon独自のTitanやMetaのLlamaなども動くけど、現実的にはClaudeでは
  4. 手元で動かせるモデル • 要日本語と考えると日本語前提で作られたモデルか、既存モデル に日本語継続学習させたモデル モデル名 開発元 サイズ ベースモデル Stockmark-LLM Stockmark

    100B, 13B 独自 CyberAgentLM3 CyberAgent 22B 独自 Sarashina2 SB Institute 13B, 7B 独自(指示応答チューニングなし) CyberAgentLM2 CyberAgent 7B 独自 Llama 3 Swallow 70B Swallo Project 70B Llama 3 Nekomata 14B Rinna 14B Qwen ELYZA japanese Llama2 13B ELYZA 13B Llama 2 RakutenAI-7B Mistral-7B 7B 楽天 https://github.com/llm-jp/awesome-japanese-llm
  5. 性能は? • 13Bあたりだと性能以前にプロンプトに従わせるのが大変 • ファインチューニングが必要になりそう(LoRA) 異世界カフェてスローライフを満喫 -> 異世界カフェでまったり生活を楽しむ 転生したら無敵のスライムたった件 ->

    転生したら無敵のスライムだった件 USER: 次のタイトルに適切な濁点や半濁点をつけよ。 未来から来た人類の救世主 ASSISTANT: 未来から来た人類の救世主となった。 俺の隣の席の美少女か実は勇者たった -> 俺の隣の席の美少女は実は勇者だった 最強剣士の弟子は魔法学校て無双する -> 最強剣士の弟子が魔法学校で無双する トラコンと契約した俺か最強に君臨する日々 -> トラコンと契約した男が強大な力で君臨する日々 魔法少女たけと、魔王軍に入隊しました -> 魔法少女タケト、魔軍に入隊しました 引きこもりケーマーか現実世界て最強になった理由 -> 引きこもりオンラインゲーマーだったが現実世界に出てきて最強になった 冒険者キルトの受付嬢か教える生き残り術 -> 冒険者ギルドの受付嬢が教える生き残り術 転生したら乙女ケームの悪役令嬢てしたか、実は最強の魔導士てした -> 転生したら乙女ゲームの悪役令嬢だったか、実は最強の魔導士だった 異世界て始める農業ライフ 〜勇者は畑を耕す〜 -> 異世界て始める農業ライフ 〜勇者は魔法を耕す〜 期待した形式で返ってきていない USER: 次のタイトルに適切な濁点や半濁点をつけよ。 冒険者キルトの凄腕魔導士か驚異的な力て敵を撃破する ASSISTANT: 冒険者ギルドの凄腕魔導士が驚異的な力で敵を撃破する USER: 次のタイトルに適切な濁点や半濁点をつけよ。 %s ASSISTANT: CALM2 7Bでの濁点付与
  6. GPUのメモリ • 手元で32GB以上は現実的ではない • RTX 4060 Ti 16GB x2いいかも 型番

    VRAM 価格 H100 80GB 450万円 A100 80GB 80GB 250万円 A100 40GB 150万円 RTX A6000 48GB 65万円 RTX 4090 24GB 25万円 RTX 4060 Ti 16GB 16GB 9万円 RTX 3090 24GB 10万円(中古) RTX 3060 12GB 4万円(中古)
  7. CPU推論の時代 • GPUはメモリが高い • CPU(+NPU SoC)の時代が到来では • 各社がCPU+NPU SoCを出してきている •

    M2 / M3(Apple) • Snapdragon X Elite(Qualcomm) • Lunar Lake(Intel) • Ryzen AI 300(AMD) https://pc.watch.impress.co.jp/docs/column/ubiq/1608446.html
  8. 問題はメモリ幅 • JavaでLLMを組んでみる(Llama2.cppを移植) • 並列化しても速くならなくなる • 重みデータを8bitにすると処理は増えてるのに速くなる • メモリ読み込みの問題 •

    SoCが対応しても大きなモデルは厳しいかも https://gist.github.com/kishida/05656bfcbe840f269784f7dbbee5928e ベクトルの乗算で時間がかかる(ws.getで時間がかかる)