生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo

生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo Masaomi Tokunaga, Solution Architecture and Engineering |
NVIDIA | Dec 13th 2024

自己紹介 • 名前：徳永匡臣（とくながまさおみ） • 職種：ソリューションアーキテクト • 分野：RAG、埋め込み • 趣味：旅行、スノーボード、執筆活動（最近できてない・・）
o 写真：星野リゾートトマム

• NVIDIA NIM • NeMo Microservices • デモ: NIMでつくるNotebookLM Agenda

エンタープライズ向け生成 AI アプリケーションの構築 NVIDIA NeMo を使用して生成 AI モデルを構築、カスタマイズ、展開展開トレーニングとカスタマイズ
データの準備 NeMo Curator NeMo Customizer … NVIDIA NIM NeMo Evaluator NeMo Retriever NeMo Guardrails API Gateway NVIDIA DGX Cloud

NVIDIA NIM

NVIDIA NIM 最適化された推論マイクロサービス生成AIのための高速化されたランタイムビルド済みかつ継続的にメンテナンスされるマイクロサービスにより市場投入までの時間を短縮最新のAIモデル、標準API、エンタープライズグレードのツールにより開発者に力を与える企業独自のデータを用いたモデルチューニングにより精度を向上
最適化されたスループットとレイテンシによりトークン生成速度とレスポンス速度を最大化プロダクションデプロイのための安定したAPI、セキュリティパッチ、QA、エンタープライズサポート AIアプリケーションとデータをセキュリティと制御を維持しどこにでもデプロイ最適化された推論エンジン NVIDIA NIM ドメイン特化のコードカスタムモデルのサポート業界標準のAPI DGX & DGX Cloud 事前構築済みのコンテナとHelm Chart

NVIDIA NIM for LLM アーキテクチャ • HTTP REST API は、開発者が簡
単に統合できるようにOpenAIの仕様に準拠 • モニタリングとエンタープライズ管理の為の、有効性、ヘルスチェック、メトリックスのエンドポイント • 複数のLLMランタイムを含む NVIDIA NIM • TensorRT-LLM と vLLM • ランタイムは、検出されたハードウェアと利用可能な最適化済推論エンジンの中から選択される、 TensorRT-LLMによって最適化されたエンジンが優先される NIM Base Container OpenAI Compatible API FastAPI /v1/completions /v1/chat/completions LLM Executor TensorRT-LLM Runtime TensorRT-LLM & TensorRT vLLM Runtime vLLM & Torch Client API /v1/models /v1/metrics /v1/health/ready HTTP

https://youtu.be/WUBl6SMRy0g?t=44

NIMの対応モデル日本語モデルおよび多言語モデルを随時追加予定 • 日本語モデル (new!) • Llama 3.1 Swallow 8B
/ 70B [preview] • Llama 3 Swallow 70B • RakutenAI 7B [preview] • 多言語モデル • Llama 3.3 70B [preview] • Llama 3.2 Vison 90B/ 11B • Llama 3.1 8B / 70B / 405B • Llama 3 7B / 70B • Llama 3.2 3B / 1B [preview] • Llama 3.3 70B [preview] • Mixtral 8x7B / 8x22B • Mistral Large [preview] • Nemotron 4 340B • Gemma 2 2B / 9B / 27B [preview] • Phi 3 mini / small / medium [preview] • etc… ※[preview]は2024/12/13現在、APIのみでの提供

TensorRT-LLM推論エンジンのローカルビルド SFTモデルをシームレスにデプロイ、あらゆるGPU上でTensorRT-LLMに最適化されたパフォーマンスを保証シングルコマンドでカスタムモデルの重みを指定してNIM をデプロイ NIMは、TensorRT-LLMにより最適化された推論エンジンを自動的にビルドしてロードし、ファインチューニングされたモデルを推論の為にデプロイあらゆるGPU上でTensorRT-LLMにより最適化されパフォーマンスを保証する推論エンジンのローカルビルド
もしNIM起動時にプリビルドしたTensorRT-LLMで最適化された推論エンジンが利用できない場合、NIMは自動的にローカル環境でビルドを行い、それをロードして、プリビルド推論エンジン使用時と同じシングルコマンドでデプロイ可能オプションでを使用しの為のデプロイ用のシングルコマンドでプリビルド済のエンジンの代わりにローカルビルドした最適化されたエンジンのプロファイル一覧を表示し指定します。レイテンシとスループットの最適化の優先順位を指定します(サポートされるGPUのみ) 同じシングルコマンドでデプロイ

NIMを試す build.nvidia.com • NVIDIA API Catalog • https://build.nvidia.com/ • オンライン
APIでモデルの試用が可能 • NVIDIA AI Enterprise • https://www.nvidia.com/ja-jp/data- center/products/ai-enterprise/ • 90日の試用ライセンスあり • NVIDIA Developer Program • https://developer.nvidia.com/developer- program • 開発・研究・テストに無償利用可能 • 最大16GPU

NeMo Microservices

カスタム生成 AI の導入を加速する NVIDIA NeMo Microservices https://www.nvidia.com/ja-jp/ai-data-science/products/nemo/ データキュレーションを加速
NeMo Curator ファインチューニングを簡素化 NeMo Customizer モデルを評価 NeMo Evaluator シームレスなデータ検索 NeMo Retriever 生成 AI ガードレール NeMo Guardrails 生成 AI 推論 NVIDIA NIM

NeMo Retrieverが RAGアプリケーションを強化世界最高のオープンで商業的なテキストQ&A検索パイプラインベクトルデータベースデータ最適化された推論エンジン世界トップクラスのモデルとコミュニティ・モデルのサポート
柔軟でモジュール化されたデプロイカスタマイズ可能なモデルとパイプラインプロダクションレディプランイベントプロンプト Retriever マイクロサービス LLM NIM Embedding NIM Reranking NIM

NeMo Retriever NIM 多言語モデルを随時追加予定 nv-rerankqa-mistral4b-v3 Text reranking for high accuracy
question answering nv-embedqa-e5-v5 Embedding model for text question answering nv-embedqa-mistral7b-v2 Multilingual text embedding model snowflake-arctic-embed-l Optimized community model PREVIEW llama-3.2-nv-rerankqa-1b-v1 Efficiently refine retrieval results over multiple sources and languages PREVIEW llama-3.2-nv-embedqa-1-v1 World-class multilingual and cross-lingual question-answering retrieval

リファレンスアーキテクチャとしてのNVIDIA Blueprints APIカタログにデモを用意リファレンスアプリケーションサンプルデータリファレンスコードアーキテクチャカスタマイゼーションツール
オーケーストレーションツール Multimodal PDF Data Extraction for Enterprise RAG Vulnerability Analysis for Container Security AI Virtual Assistants for Customer Service Digital Humans for Customer Service Visual AI Agent for Video Search and Summarization

NeMo Guardrails 企業の生成AIを保護するためのスケーラブルなガードレールモジュール式フレームワークを使用して、アプリケーション間で複数のレールを効率的にオーケストレーション可能スマートなデフォルトのレールに加え、堅牢なサードパーティ製のエコシステムによるレールの拡張やカスタマイズ可能ビルトインの監査機能と分析機能により
レールとアプリケーションの有効性を継続的に改善オープンソースの公開に加え、エンタープライズグレードのマイクロサービスのエコシステムを提供

NeMo GuardrailsとRAGを用いたワークフロー例 NeMo Guardrailsの設定をカスタマイズし、NVIDIA NIMによるエンドツーエンドパイプラインを実装

NeMo Guardrailsを使う開発者向けとエンタープライズ向けの選択肢を提供 Open Source SDK github.com/NVIDIA/NeMo-Guardrails NVIDIA NeMo Guardrails
Microservice エンタープライズサポート付きのNVIDIA AI Enterprise９０日間ライセンスでEarly Access https://developer.nvidia.com/nemo-microservices-early-access/join

NeMo Guardrailsチュートリアル＆サンプル NeMo Guardrailsを試す NVIDIA 技術ブログ • NeMo Guardrails により
LLM の脆弱性を防ぐ: 導入編 • NeMo Guardrails により LLM の脆弱性を防ぐ: ジェイルブレイク防止編 NeMo Guardrails関連サンプルコード • NeMo-Guardrails github • GenerativeAIExamples: NVIDIA NIM microservices using NeMo Guardrails based RAG. • GenerativeAIExamples:NeMo Guardrails with basic langchain RAG

デモ: NVIDIA NIMでつくるNotebookLM

NotebookLMとNotebookLlama NotebookLMはGoogleによって提供されているWebサービス NotebookLlamaはMetaによって作られたOSS版NotebookLM（のAudio Overview） • NotebookLM (Google)：ドキュメントの要約やチャットが可能。Webサービス。 • 2024年9月にドキュメントからポッドキャストを生成する機能（Audio Overview）が発表され、大きな話題となった。
• NotebookLlama (Meta)：OSS版Audio Overview • LLM: Llama-3.2およびLlama-3.1、Text-to-Speech: Parler-TTSおよびsuno/bark NotebookLM https://notebooklm.google/ https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama NotebookLlamaのGitHubレポジトリ

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用台本作成音声合成 VOICEVOX: 四国めたん VOICEVOX: ずんだもん台本推敲
英単語 →カタカナ変換テキスト化 PDFium テキスト分割 W&B Weaveによるロギング・・・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ）文章整形文章整形文章整形 PDF MP4

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用台本作成音声合成 VOICEVOX 台本推敲英単語 →カタカナ変換
テキスト化 PDFium テキスト分割 W&B Weaveによるロギング・・・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ）文章整形文章整形文章整形 PDF MP4 たったの数行で LangChainからNIMが呼べます！

「NIMでつくるNotebookLM」デモの流れ NotebookLlamaをベースに、NIMおよびLangChainを用いて構築。ロギングとしてW&B Weaveを利用台本作成台本推敲英単語 →カタカナ変換テキスト分割 W&B
Weaveによるロギング・・・ meta / Llama-3.1-405b-instruct institute-of-science-tokyo / Llama-3.1-Swallow-70B-instruct-v0.1 BGM NVIDIA NIM (APIカタログ）文章整形文章整形文章整形 PDF MP4 音声合成 VOICEVOX: 四国めたん VOICEVOX: ずんだもんテキスト化 PDFium

TTS: VOICEVOX: 四国めたん / VOICEVOX: ずんだもん

まとめ NVIDIA NIM / NeMo Microservices / デモ • NVIDIA
NIM: NVIDIAのGPUに最適化されたモデルの推論マイクロサービス • NeMo Microservices o NeMo Retriever: RAGの簡単な構築が可能なマイクロサービス o NeMo Guardrails: LLMの入出力を制御可能なライブラリ・マイクロサービス • NIMでつくるNotebookLM o NIM + LangChain + W&B Weaveを組み合わせることで、OSS版NotebookLMが簡単に構築可能

リンク • API Catalog + LangChain: https://python.langchain.com/docs/integrations/chat/nvidia_ai_endpoints/#setup • NVIDIA NIM
o institute-of-science-tokyo/Llama-3.1-Swallow-70B-instruct-v0.1: https://build.nvidia.com/institute-of-science-tokyo/llama-3- 1-swallow-70b-instruct-v01 o meta / Llama-3.1-405b-instruct: https://build.nvidia.com/meta/llama-3_1-405b-instruct • NotebookLM: https://notebooklm.google/ • NotebookLlama: https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama • VOICEVOX Engine: https://github.com/VOICEVOX/voicevox_engine/tree/master • pypdfium2: https://github.com/pypdfium2-team/pypdfium2

生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo

生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo

Keisuke Kamata

More Decks by Keisuke Kamata

Featured

Transcript