Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo

Keisuke Kamata
December 16, 2024
170

生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo

W&B/NVIDIA/SB Intuitions 最先端のLLM開発から本番運用 W&Bミートアップ 2024/12/16 . NVIDIA様登壇資料

Keisuke Kamata

December 16, 2024
Tweet

More Decks by Keisuke Kamata

Transcript

  1. エンタープライズ向け生成 AI アプリケーションの構築 NVIDIA NeMo を使用して生成 AI モデルを構築、カスタマイズ、展開 展開 トレーニングとカスタマイズ

    データの準備 NeMo Curator NeMo Customizer … NVIDIA NIM NeMo Evaluator NeMo Retriever NeMo Guardrails API Gateway NVIDIA DGX Cloud
  2. NVIDIA NIM 最適化された推論マイクロサービス 生成AIのための高速化されたランタイム ビルド済みかつ継続的にメンテナンスされる マイクロサービスにより市場投入までの時間を短縮 最新のAIモデル、標準API、エンタープライズグ レードのツールにより開発者に力を与える 企業独自のデータを用いたモデルチューニングに より精度を向上

    最適化されたスループットとレイテンシにより トークン生成速度とレスポンス速度を最大化 プロダクションデプロイのための安定したAPI、セキュ リティパッチ、QA、エンタープライズサポート AIアプリケーションとデータを セキュリティと制御を維持しどこにでもデプロイ 最適化された推論エンジン NVIDIA NIM ドメイン特化のコード カスタムモデルのサポート 業界標準のAPI DGX & DGX Cloud 事前構築済みのコンテナとHelm Chart
  3. NVIDIA NIM for LLM アーキテクチャ • HTTP REST API は、開発者が簡

    単に統合できるようにOpenAIの仕 様に準拠 • モニタリングとエンタープライズ 管理の為の、有効性、ヘルス チェック、メトリックスのエンド ポイント • 複数のLLMランタイムを含む NVIDIA NIM • TensorRT-LLM と vLLM • ランタイムは、検出されたハード ウェアと利用可能な最適化済推論エ ンジンの中から選択される、 TensorRT-LLMによって最適化され たエンジンが優先される NIM Base Container OpenAI Compatible API FastAPI /v1/completions /v1/chat/completions LLM Executor TensorRT-LLM Runtime TensorRT-LLM & TensorRT vLLM Runtime vLLM & Torch Client API /v1/models /v1/metrics /v1/health/ready HTTP
  4. NIMの対応モデル 日本語モデルおよび多言語モデルを随時追加予定 • 日本語モデル (new!) • Llama 3.1 Swallow 8B

    / 70B [preview] • Llama 3 Swallow 70B • RakutenAI 7B [preview] • 多言語モデル • Llama 3.3 70B [preview] • Llama 3.2 Vison 90B/ 11B • Llama 3.1 8B / 70B / 405B • Llama 3 7B / 70B • Llama 3.2 3B / 1B [preview] • Llama 3.3 70B [preview] • Mixtral 8x7B / 8x22B • Mistral Large [preview] • Nemotron 4 340B • Gemma 2 2B / 9B / 27B [preview] • Phi 3 mini / small / medium [preview] • etc… ※[preview]は2024/12/13現在、APIのみでの提供
  5. TensorRT-LLM推論エンジンのローカルビルド SFTモデルをシームレスにデプロイ、あらゆるGPU上でTensorRT-LLMに最適化されたパフォーマンスを保証 シングルコマンドでカスタムモデルの重みを指定してNIM をデプロイ NIMは、TensorRT-LLMにより最適化された推論エンジンを自動的 にビルドしてロードし、ファインチューニングされたモデルを推 論の為にデプロイ あらゆるGPU上でTensorRT-LLMにより最適化されパフォー マンスを保証 する推論エンジンのローカルビルド

    もしNIM起動時にプリビルドしたTensorRT-LLMで最適化さ れた推論エンジンが利用できない場合、NIMは自動的に ローカル環境でビルドを行い、それをロードして、プリビ ルド推論エンジン使用時と同じシングルコマンドでデプロ イ可能 オプションで を使用し の為のデプロイ用のシングル コマンドでプリビルド済のエンジンの代わりにローカルビルドした 最適化されたエンジンのプロファイル一覧を表示し指定します。 レイテンシとスループットの最適化の優先順位を指定します(サポー トされるGPUのみ) 同じシングルコマンドでデプロイ
  6. NIMを試す build.nvidia.com • NVIDIA API Catalog • https://build.nvidia.com/ • オンライン

    APIでモデルの試用が可能 • NVIDIA AI Enterprise • https://www.nvidia.com/ja-jp/data- center/products/ai-enterprise/ • 90日の試用ライセンスあり • NVIDIA Developer Program • https://developer.nvidia.com/developer- program • 開発・研究・テストに無償利用可能 • 最大16GPU
  7. カスタム生成 AI の導入を加速する NVIDIA NeMo Microservices https://www.nvidia.com/ja-jp/ai-data-science/products/nemo/ データ キュレーションを 加速

    NeMo Curator ファインチューニングを 簡素化 NeMo Customizer モデルを評価 NeMo Evaluator シームレスなデータ検索 NeMo Retriever 生成 AI ガードレール NeMo Guardrails 生成 AI 推論 NVIDIA NIM
  8. NeMo Retrieverが RAGアプリケーションを強化 世界最高のオープンで商業的なテキストQ&A検索パイプライン ベクトル データベース データ 最適化された推論エンジン 世界トップクラスのモデルとコミュ ニティ・モデルのサポート

    柔軟でモジュール化されたデプロイ カスタマイズ可能なモデルとパイプ ライン プロダクションレディ プラン イベント プロンプト Retriever マイクロサービス LLM NIM Embedding NIM Reranking NIM
  9. NeMo Retriever NIM 多言語モデルを随時追加予定 nv-rerankqa-mistral4b-v3 Text reranking for high accuracy

    question answering nv-embedqa-e5-v5 Embedding model for text question answering nv-embedqa-mistral7b-v2 Multilingual text embedding model snowflake-arctic-embed-l Optimized community model PREVIEW llama-3.2-nv-rerankqa-1b-v1 Efficiently refine retrieval results over multiple sources and languages PREVIEW llama-3.2-nv-embedqa-1-v1 World-class multilingual and cross-lingual question-answering retrieval
  10. リファレンスアーキテクチャとしてのNVIDIA Blueprints APIカタログにデモを用意 リファレンスアプリ ケーション サンプルデータ リファレンスコード アーキテクチャ カスタマイゼーション ツール

    オーケーストレーション ツール Multimodal PDF Data Extraction for Enterprise RAG Vulnerability Analysis for Container Security AI Virtual Assistants for Customer Service Digital Humans for Customer Service Visual AI Agent for Video Search and Summarization
  11. NeMo Guardrailsを使う 開発者向けとエンタープライズ向けの選択肢を提供 Open Source SDK github.com/NVIDIA/NeMo-Guardrails NVIDIA NeMo Guardrails

    Microservice エンタープライズサポート付きのNVIDIA AI Enterprise90日間ライセンスでEarly Access https://developer.nvidia.com/nemo-microservices-early-access/join
  12. NeMo Guardrailsチュートリアル&サンプル NeMo Guardrailsを試す NVIDIA 技術ブログ • NeMo Guardrails により

    LLM の脆弱性を防ぐ: 導入編 • NeMo Guardrails により LLM の脆弱性を防ぐ: ジェイルブレイク防止編 NeMo Guardrails関連サンプルコード • NeMo-Guardrails github • GenerativeAIExamples: NVIDIA NIM microservices using NeMo Guardrails based RAG. • GenerativeAIExamples:NeMo Guardrails with basic langchain RAG
  13. NotebookLMとNotebookLlama NotebookLMはGoogleによって提供されているWebサービス NotebookLlamaはMetaによって作られたOSS版NotebookLM(のAudio Overview) • NotebookLM (Google):ドキュメントの要約やチャットが可能。Webサービス。 • 2024年9月にドキュメントからポッドキャストを生成する機能(Audio Overview)が発表され、大きな話題となった。

    • NotebookLlama (Meta):OSS版Audio Overview • LLM: Llama-3.2およびLlama-3.1、Text-to-Speech: Parler-TTSおよびsuno/bark NotebookLM https://notebooklm.google/ https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama NotebookLlamaのGitHubレポジトリ
  14. 「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用 台本作成 音声合成 VOICEVOX: 四国めたん VOICEVOX: ずんだもん 台本推敲

    英単語 →カタカナ 変換 テキスト化 PDFium テキスト分割 W&B Weaveによるロギング ・ ・ ・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ) 文章整形 文章整形 文章整形 PDF MP4
  15. 「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用 台本作成 音声合成 VOICEVOX 台本推敲 英単語 →カタカナ 変換

    テキスト化 PDFium テキスト分割 W&B Weaveによるロギング ・ ・ ・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ) 文章整形 文章整形 文章整形 PDF MP4 たったの数行で LangChainからNIMが 呼べます!
  16. 「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用 台本作成 台本推敲 英単語 →カタカナ 変換 テキスト分割 W&B

    Weaveによるロギング ・ ・ ・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ) 文章整形 文章整形 文章整形 PDF MP4 音声合成 VOICEVOX: 四国めたん VOICEVOX: ずんだもん テキスト化 PDFium
  17. まとめ NVIDIA NIM / NeMo Microservices / デモ • NVIDIA

    NIM: NVIDIAのGPUに最適化されたモデルの推論マイクロサービス • NeMo Microservices o NeMo Retriever: RAGの簡単な構築が可能なマイクロサービス o NeMo Guardrails: LLMの入出力を制御可能なライブラリ・マイクロサービス • NIMでつくるNotebookLM o NIM + LangChain + W&B Weaveを組み合わせることで、OSS版NotebookLMが簡単に構築可能
  18. リンク • API Catalog + LangChain: https://python.langchain.com/docs/integrations/chat/nvidia_ai_endpoints/#setup • NVIDIA NIM

    o institute-of-science-tokyo/Llama-3.1-Swallow-70B-instruct-v0.1: https://build.nvidia.com/institute-of-science-tokyo/llama-3- 1-swallow-70b-instruct-v01 o meta / Llama-3.1-405b-instruct: https://build.nvidia.com/meta/llama-3_1-405b-instruct • NotebookLM: https://notebooklm.google/ • NotebookLlama: https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama • VOICEVOX Engine: https://github.com/VOICEVOX/voicevox_engine/tree/master • pypdfium2: https://github.com/pypdfium2-team/pypdfium2