Max out Local LLM in Challenging Environments

ここまで使えるローカルLLM さしみもち弱小環境でも 💪 2024/4/30 【オンライン】エンジニア達の「完全に理解した」Talk #52

自己紹介 2 さしみもち @Sashimimochi343 普段は年間数十億件のトラフィックがある検索システムの開発・運用やデータ分析基盤の運用をしてます。最近は、検索エンジンとLLMの連携でなんかおもしろいことができないか日夜研究しています。

3 世は空前の第4次AIブーム https://speakerdeck.com/pfn/llmnoxian-zai?slide=14

富めるものだけが開発できる世界？ 4 GPT-4 APIは値段が... セキュリティ的に許可が下りない... 申請が通るまで時間がかかる Rate Limitが...

富めるものだけが開発できる世界？ 5 クラウド借りる費用もないし... APIじゃないとシステムに組み込みづらいし... GPUがあるわけじゃないし... あきらめるしかないの？

弱小環境でもなんとかなります！ 6 大丈夫！！

想定マシンスペック 7 CPU 6 Core (Ryzen) Memory 16GB ※2 Core
(Intel Core i5), Memory 8GB でも頑張れば動くことも確認しています標準的なスペックのノートPCがあれば動かせる！！

その他前提条件 8 使用するモデルお話ししないこと • Quality • パフォーマンス • コスパ
• Calm2-chat-7b • llava-v1.5-7b 素だと16GB程度のGPUが必要なモデル

弱小環境の強い味方！その名も「量子化」 9 量子化によってCPUだけでも動かせるようになる！イメージ：厳密さは捨ててざっくり計算するようにする ex. 円周率πはだいたい3で良いじゃんね！？ https://laboro.ai/activity/column/engineer/%e3%83%87%e3%82%a3%e3%83%bc%e3%83%97%e3%83%a9%e3%83%bc%e3%83%8b%e3%83%b3%e3%82%b0%e 3%82%92%e8%bb%bd%e9%87%8f%e5%8c%96%e3%81%99%e3%82%8b%e3%83%a2%e3%83%87%e3%83%ab%e5%9c%a7%e7%b8%ae/

おすすめの量子化ライブラリ 10 https://github.com/ggerganov/llama.cpp https://github.com/abetlen/llama-cpp-python LLMをローカルからクラウドまで幅広い環境で簡単かつベストパフォーマンスで動かせることを目指したC++製のツール

できること１：マルチターンチャット 11 https://github.com/Sashimimochi/llm-chat-playbook できます！

できること２：RAG 12 できます！ https://github.com/Sashimimochi/llm-chat-playbook

できること３：Function Calling 13 https://github.com/Sashimimochi/llm-chat-playbook https://zenn.dev/kazuwombat/articles/1f39f003298028 よりできます！

できること４：Vision and Language 14 https://github.com/Sashimimochi/llava-python-sample https://llava-vl.github.io/llava-interactive/ よりできます！

15 そのほかにも https://qiita.com/SH2/items/1d5ee5b898046ﬀ89458 より https://qiita.com/moritalous/items/76ba9f2ad200df335d07 より GitHub Copilot Like なツール
チャットのトレースやメトリクスを収集できるツールできます！

量子化モデルがない？自分ですればいいじゃない！ 16 https://github.com/Sashimimochi/llm-quantize-sample できます！

もっと知りたい方は 17 https://zenn.dev/sashimimochi/articles/be1122c813d989 https://zenn.dev/sashimimochi/articles/29d78fadaf8b17

詳細は来月の技術書典16 で出すかも 18

まとめ 19 • 量子化モデルを使えばノートPCでも動かせる • メジャーな機能がサポートされたAPI完備 • オフラインでも稼働するローカルモデルならではの強みこれでセキュリティやお金はLLM組み込みシステムを開発しない理由にはならなくなりましたね
😁

APPENDIX 20

参考文献 21 • 横須賀市役所の「ChatGPT実用化実験」の実施内容まとめ ◦ https://bocek.co.jp/media/news/1498/ • “生成AI”全国の自治体で約9割が導入業務の作業時間が平均3分の1に短縮の事例も ◦
https://news.tv-asahi.co.jp/news_society/articles/000343740.html • 生成AIカオスマップ国内向けサービスを初公開！掲載数は258製品！ ◦ https://aismiley.co.jp/ai_news/generativeai-chaosmap/ • 国産LLMに期待する企業は7割以上、MM総研が生成AIの利活用を調査 ◦ https://xtech.nikkei.com/atcl/nxt/news/24/00459/ • 緊急パネル：ChatGPTで自然言語処理は終わるのか？ ◦ https://www.anlp.jp/nlp2023/#special_panel

参考文献 22 • 言語処理学会第30回年次大会（NLP2024）併設ワークショップ自治体における生成 AI（ChatGPT）の利活用と問題点 ◦ https://broccoli-farm.jp/workshop-nlp2024/ • ELYZAとKDDIグループ、生成AIの社会実装に向け資本業務提携を締結
◦ https://news.kddi.com/kddi/corporate/newsrelease/2024/03/18/7333.html • AI Shift、カスタマーサポートに特化した各企業専用LLM構築サービスを提供開始 ◦ https://www.cyberagent.co.jp/news/detail/id=28841 • オフラインでも使えるAIチャットアプリ、ローカルLLMパッケージの販売を開始 ◦ https://prtimes.jp/main/html/rd/p/000000027.000065047.html • 日本語LLM 9種を量子化して回答内容を比較調査してみた ◦ https://qiita.com/wayama_ryousuke/items/50e36d0dcb37f8fb7dd8

素材集 23 • ぱくたそ ◦ https://www.pakutaso.com/

ローカルモデルとSaaSモデルのどっちを使う？ 24 https://jedworkshop.github.io/JLR2024/materials/b-1.pdf

もちろん、有償サービスにはそれだけの価値がある 25 • お金がかかるだけのことはある • 作り込むなら買った方が安いかも • ローカルLLMにくらべて適当なプロンプトでもよしなに解釈してくれる

Max out Local LLM in Challenging Environments

Max out Local LLM in Challenging Environments

Sashimimochi

More Decks by Sashimimochi

Other Decks in Technology

Featured

Transcript

ここまで使えるローカルLLM さしみもち弱小環境でも 💪 2024/4/30 【オンライン】エンジニア達の「完全に理解した」Talk #52

3 世は空前の第4次AIブーム https://speakerdeck.com/pfn/llmnoxian-zai?slide=14

富めるものだけが開発できる世界？ 4 GPT-4 APIは値段が... セキュリティ的に許可が下りない... 申請が通るまで時間がかかる Rate Limitが...

富めるものだけが開発できる世界？ 5 クラウド借りる費用もないし... APIじゃないとシステムに組み込みづらいし... GPUがあるわけじゃないし... あきらめるしかないの？

弱小環境でもなんとかなります！ 6 大丈夫！！

想定マシンスペック 7 CPU 6 Core (Ryzen) Memory 16GB ※2 Core

その他前提条件 8 使用するモデルお話ししないこと • Quality • パフォーマンス • コスパ

おすすめの量子化ライブラリ 10 https://github.com/ggerganov/llama.cpp https://github.com/abetlen/llama-cpp-python LLMをローカルからクラウドまで幅広い環境で簡単かつベストパフォーマンスで動かせることを目指したC++製のツール

できること１：マルチターンチャット 11 https://github.com/Sashimimochi/llm-chat-playbook できます！

できること２：RAG 12 できます！ https://github.com/Sashimimochi/llm-chat-playbook

できること３：Function Calling 13 https://github.com/Sashimimochi/llm-chat-playbook https://zenn.dev/kazuwombat/articles/1f39f003298028 よりできます！

できること４：Vision and Language 14 https://github.com/Sashimimochi/llava-python-sample https://llava-vl.github.io/llava-interactive/ よりできます！

15 そのほかにも https://qiita.com/SH2/items/1d5ee5b898046ﬀ89458 より https://qiita.com/moritalous/items/76ba9f2ad200df335d07 より GitHub Copilot Like なツール

量子化モデルがない？自分ですればいいじゃない！ 16 https://github.com/Sashimimochi/llm-quantize-sample できます！

もっと知りたい方は 17 https://zenn.dev/sashimimochi/articles/be1122c813d989 https://zenn.dev/sashimimochi/articles/29d78fadaf8b17

詳細は来月の技術書典16 で出すかも 18

APPENDIX 20

参考文献 21 • 横須賀市役所の「ChatGPT実用化実験」の実施内容まとめ ◦ https://bocek.co.jp/media/news/1498/ • “生成AI”全国の自治体で約9割が導入業務の作業時間が平均3分の1に短縮の事例も ◦

素材集 23 • ぱくたそ ◦ https://www.pakutaso.com/

ローカルモデルとSaaSモデルのどっちを使う？ 24 https://jedworkshop.github.io/JLR2024/materials/b-1.pdf

もちろん、有償サービスにはそれだけの価値がある 25 • お金がかかるだけのことはある • 作り込むなら買った方が安いかも • ローカルLLMにくらべて適当なプロンプトでもよしなに解釈してくれる