Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ELYA-japanese-Llama-2-7bを Rust(WASM)で動かしてみた

clouddev-code
January 30, 2024
330

ELYA-japanese-Llama-2-7bを Rust(WASM)で動かしてみた

clouddev-code

January 30, 2024
Tweet

Transcript

  1. About us Soushi Hiruta 2 https://www.totalsolution.biz/ X(twitter) web_se Bluesky clouddevcode.bsky.social

    github clouddev-code Zenn clouddevcode コンテナを中心にマイクロサービス基盤の構築、運用を行いつつ、 GenAIのキャッチアップを行っています。 Container、eBPF、GenAI
  2. Agenda ▸ LLMはGPUなどのComputeリソースを消費する ▸ WASM Runtimeのパフォーマンス ▹ Java等との違い ▹ 初期化プロセスとの違い

    ▸ WasmEdgeについて ▸ WASM-NN plugin ▸ ELYZA-japanese-Llhma-2-7b Model ▸ 上記モデルをRustで動かす点の注意点 ▸ デモ ▸ まとめ ▸ Q&A 4
  3. Python performance 6 There’s plenty of room at the Top:

    What will drive computer performance after Moore’s law? https://www.science.org/doi/10.1126/science.aam9744
  4. java, Python との違い 7 • Ahead-of-Time (AOT)は、実行前にバイトコードをマシンコードに変換 して最適化する • Java

    は実行中にコンパイルされる。一度しか利用されないケースと かには向かない 対比されるものとしてDocker Engineはどうか
  5. 11 WasmEdge Bring the cloud-native and serverless application paradigms to

    Edge Computing • High performance • WASI-like Extensions • JavaScript Support • Cloud Native Management Orchestration • Cross-platform Support • Eas Extensibility • Easy to Embed into a Host Application
  6. まとめ 17 • WASMはDocker Engineと比較してもオーバーヘッドが少ない • GGMAL pluginは使って、OSS LLMなOpenAI ChatCompletion

    互換なAPIを 構築できる • LlamaEdge 0.2.9が4h前にリリース(Phi-2などに対応)されるなど、アップ デートも活発です
  7. Appendix 18 • WasmEdgeRuntime https://wasmedge.org/ • WasmEdge Provides a Better

    Way to Run LLMs on the Edge https://www.secondstate.io/articles/wasmedge-ggml-plugin/ • WASM Runtimes vs. Containers: Cold Start Deplays (Part 1) https://levelup.gitconnected.com/wasm-runtimes-vs-containers-per formance-evaluation-part-1-454cada7da0b • Metaの「Llama 2」をベースとした商用利用な日本語LLMを公開しまし た。 https://note.com/elyza/n/na405acaca130 • GGUF Models • https://github.com/second-state/LlamaEdge/blob/main/models.md • ELYZA-japanese-Llama-2-7bをM1 Mac上でRustで動かす