MongoDB Atlas Vectorsearchではじめる生成AIアプリ開発

MongoDB Atlas Vectorsearchではじめる⽣成AIアプリ開発 Welcome 林⽥千瑛（Chie Hayashida) MongoDB Singapore
Solutions Architect

⾃⼰紹介林⽥千瑛 MongoDB Sigapore のソリューションアーキテクトインフラエンジニア→ソフトウェアエンジニア→ソリューションアーキテクト Web企業にてデータ基盤・機械学習基盤・検索サービス開発に従事した後、AWSのアナリティクススペシャリストソリューションアーキテクトを経て2023年11⽉からMongoDBに⼊社

お問い合わせ、技術質問等ありましたら、画⾯右上のQRコードのGoogle Formからお問い合わせお願いします

このセッション・デモの内容は、期限なし無料のMongoDB Atlas M0 クラスタでご利⽤いただけます ※本番環境としては、課⾦が必要なM10以上の利⽤をおすすめします ※ M0クラスタでは、インデックス作成は3つまで等の制限があります ※
デモの内容は別途OpenAIのAPIが必要です

LLMによる質問応答 LLM アプリケーション開発フレームワーク質問（プロンプト）⽣成された回答 LLM プロバイダ⽬⽟焼きの作り⽅を
教えて卵を割ってフライパンに⼊れて、、、

LLM の課題 LLMモデルの学習データに含まれない内容について答えられない • 「今⽇の天気」などのリアルタイムな情報、組織や個⼈固有のデータに基づく質疑応答ができない Retrieval Augmented Generation (RAG)
LLMモデルのコンテキスト不⾜による問題を情報検索技術との融合により解決 • 信頼性の低いデータに基づく回答が⾏われる場合がある • それっぽい嘘情報を答えてしまう（Hallucination）

Retrieval-Augmented Generation (RAG) ハリー、呪⽂の書を使うんだ︕ えっと、えっと、と、⾶べ︖ わかったぞ︕ “ウィンガーディアム・レヴィオーサ!”
ハリー︕ものを浮かせる呪⽂を答えよ︕ LLM RAG

Retrieval-Augmented Generation (RAG) ベクトル検索により不⾜するコンテキストを追加して回答を得るハリー、呪⽂の書を使うんだ︕ えっと、えっと、と、⾶べ︖
わかったぞ︕ “ウィンガーディアム・レヴィオーサ!” ハリー︕ものを浮かせる呪⽂を答えよ︕ LLM RAG

ベクトル検索データを数値配列で表し、距離の近いものを類似データとして抽出する Mozzarella [0.3, 0.9] Cheese [0.5, 0.7] Pizza [0.3,
0.4] Cheddar [0.9, 0.2] Added Mar 2023 ビーフチキンポーク⿅⾁⾺⾁ほうれん草ネギにんじんピーマンじゃがいも⾁野菜 [0.3, 0.4, 0.2, 0.1…] Vector

インデックスベクトルデータの⽣成⽅法 LLMとは別の「Embeddingモデル」というタイプの機械学習モデルを利⽤ Embedding モデル OpenAI, Cohere, Anthropic, HuggingFace, Vertex
などドキュメント画像⾳声動画 [0.4 0.7 0.9 … [0.2 0.3 0.8 … [0.1 0.6, 0.3 … [0.5 0.1 0.2 . . . [0.7 0.3 0.2 … [0.45 0.15 0.8 … Embeddings ベクターストア

LLMによる質問応答 LLM アプリケーション開発フレームワーク質問（プロンプト）⽣成された回答 LLM プロバイダ今⽇の天気は︖
今⽇の天気はわかりません

RAGによる質問応答 LLM アプリケーション開発フレームワーク質問（プロンプト）⽣成された回答 LLM プロバイダ今⽇の天気は︖
今⽇の天気は晴れです質問︓今⽇の天気は︖ 関連⽂書︓3⽉20⽇の天気は… 天気予報ニュースのベクトルデータ

RAGによる質問応答 LLM アプリケーション開発フレームワーク質問（プロンプト）⽣成された回答 LLM プロバイダ今⽇の天気は︖
質問︓今⽇の天気は︖ 関連⽂書︓3⽉20⽇の天気は… 天気予報ニュースのベクトルデータ今⽇の天気は晴れです

Retool 社によるState of AI 2023 SurveyのベクトルデータベースレビューにおいてダントツのNPS Linked

Atlas Vectorsearchの使いやすさベクトルデータとテーブルデータを⼀緒に保存統合的データプラットフォームとしての様々な機能を持つフルマネージドサービスエンタープライズレベルのセキュリティや機能マルチクラウド
検索とデータベースクエリのリソースを分離テーブルデータ、グラフデータ、地理空間データ、時系列データなども利⽤可能な柔軟なデータモデル

[0.3, 0.4, 0.2, 0.1…] Vector ベクトル検索と他のタイプのクエリを簡単に組み合わせることで、よりリッチな機能をより簡単に構築 "クエリ画像に似ている画像をすべて検索し、撮影者IDでグループ化する" "ユーザーのクエリに⼀致する、過去3ヶ⽉に公開された
コンテンツのみを検索する" "現在地から10マイル以内のレストランで、私の好みに合うものを推薦する" メタデータを利⽤したフィルタリングとの統合データベースのデータとの統合地理空間検索との統合

Vector Operational アーキテクチャをシンプルに保つ • ドキュメントデータモデルにより、構造化データ、⾮構造化データ、ベクトルデータを⼀つのスキーマで管理可能 • データ同期不要
• ⼀つのAPIでデータベースクエリとベクトル検索を組み合わせた複雑なクエリを実現 MongoDB Atlas Document ベクトル専⽤データベースの導⼊→複雑なデータ同期 /API管理が必要となる RDBMSへのベクトル保存→ベクトル化対象データが複数テーブルに散らばるので管理が難しい Operational data Vector data Newly added data as app requirements evolve

⽣成AIアプリ開発のためのツールやエコシステムとの統合 Developer Data Platform Atlas Any developer framework Any embedding
provider OpenAI, Cohere, AWS, Hugging Face, etc. Langchain, LlamaIndex, etc. Any foundation model OpenAI, Anthropic, Cohere, Hugging Face, AWS, Google あらゆるクラウド環境・地域で利⽤可能 AWS, Azure, and Google Cloud の110以上のリージョンに対応

Vector Search GEN AI powered APP LLM Prompt Context Orchestration
Layer Single View _id: ObjectID(‘62f13a3fe7321ca47aecb216’) symbol: “ABMD” quarter: 4 year: 2021 Date: 2021-04-29T20:10:40.000+00:00 Content: “Operator: Ladies and gentleman, thank you for standing by, and welcome…” Content_embeddings: Array 0: 0.03898080065846443 1: -0.05879044905304909 2: 0.04323239979442215 3: -0.021337900310754776 4: -0.036346953362226486 5: 0.028689613565802574 6: -0.03514527902007103 7: -0.07414846867322922 8: -0.00993054173886776 9: 0.007234036456793547 10: -0.03197460621595383 ドキュメントに格納される埋め込みベクトルの例ベクトル埋め込み

{ "mappings": { "fields": { "content_embedding": { "type": "knnVector", "dimensions":
1536, "similarity": "<euclidean | dotProduct | cosine>" }, "field1": { "type": "date" }, // optional "field2": { "type": "double" } // optional } } } Vector Search GEN AI powered APP LLM Prompt Context Orchestration Layer Single View Vector Search のインデックスディメンション類似度計算アルゴリズムの選定ベクトル埋め込みフィールド名

[{ "$vectorSearch": { "knnBeta": { "vector": [ 0.03898080065846443, ... ],
"path": "content_embedding", "k": 5 "filter": { // traditional point & range queries }, } } }] Vector Search GEN AI powered APP LLM Prompt Context Orchestration Layer Single View Vector Search のクエリとフィルタ _id: ObjectID(‘62f13a3fe7321ca4 symbol: “ABMD” quarter: 4 year: 2021 date: 2021-04-29T20:10:40.000+0 content: “Operator: Ladies and g content_embeddings: Array 0: 0.03898080065846443 1: -0.05879044905304909 2: 0.04323239979442215 3: -0.021337900310754776 4: -0.036346953362226486 5: 0.028689613565802574 6: -0.03514527902007103 7: -0.07414846867322922 8: -0.00993054173886776 9: 0.007234036456793547 10: -0.03197460621595383 Document Algorithm: HNSW

ベクトル検索とデータベースクエリを⼀つのクエリで実⾏ 1. ʻfilterʼによりメタデータでフィルタリング 2. ʻ$vectorSearchʼ でフィルタ後のデータに対してベクトル検索で類似データを10個抽出 3. ʻ$projectʼでベクトルフィールドを抽出対
象から排除

Demo https://github.com/chie8842/atlas-vector-search-rag/

Thank you!

MongoDB Atlas Vectorsearchではじめる生成AIアプリ開発

MongoDB Atlas Vectorsearchではじめる生成AIアプリ開発

chie8842

More Decks by chie8842

Other Decks in Technology

Featured

Transcript

MongoDB Atlas Vectorsearchではじめる⽣成AIアプリ開発 Welcome 林⽥千瑛（Chie Hayashida) MongoDB Singapore

お問い合わせ、技術質問等ありましたら、画⾯右上のQRコードのGoogle Formからお問い合わせお願いします

LLMによる質問応答 LLM アプリケーション開発フレームワーク質問（プロンプト）⽣成された回答 LLM プロバイダ⽬⽟焼きの作り⽅を

LLM の課題 LLMモデルの学習データに含まれない内容について答えられない • 「今⽇の天気」などのリアルタイムな情報、組織や個⼈固有のデータに基づく質疑応答ができない Retrieval Augmented Generation (RAG)

Retrieval-Augmented Generation (RAG) ハリー、呪⽂の書を使うんだ︕ えっと、えっと、と、⾶べ︖ わかったぞ︕ “ウィンガーディアム・レヴィオーサ!”

Retrieval-Augmented Generation (RAG) ベクトル検索により不⾜するコンテキストを追加して回答を得るハリー、呪⽂の書を使うんだ︕ えっと、えっと、と、⾶べ︖

ベクトル検索データを数値配列で表し、距離の近いものを類似データとして抽出する Mozzarella [0.3, 0.9] Cheese [0.5, 0.7] Pizza [0.3,

インデックスベクトルデータの⽣成⽅法 LLMとは別の「Embeddingモデル」というタイプの機械学習モデルを利⽤ Embedding モデル OpenAI, Cohere, Anthropic, HuggingFace, Vertex

LLMによる質問応答 LLM アプリケーション開発フレームワーク質問（プロンプト）⽣成された回答 LLM プロバイダ今⽇の天気は︖

RAGによる質問応答 LLM アプリケーション開発フレームワーク質問（プロンプト）⽣成された回答 LLM プロバイダ今⽇の天気は︖

RAGによる質問応答 LLM アプリケーション開発フレームワーク質問（プロンプト）⽣成された回答 LLM プロバイダ今⽇の天気は︖

Retool 社によるState of AI 2023 SurveyのベクトルデータベースレビューにおいてダントツのNPS Linked

Atlas Vectorsearchの使いやすさベクトルデータとテーブルデータを⼀緒に保存統合的データプラットフォームとしての様々な機能を持つフルマネージドサービスエンタープライズレベルのセキュリティや機能マルチクラウド

Vector Operational アーキテクチャをシンプルに保つ • ドキュメントデータモデルにより、構造化データ、⾮構造化データ、ベクトルデータを⼀つのスキーマで管理可能 • データ同期不要

⽣成AIアプリ開発のためのツールやエコシステムとの統合 Developer Data Platform Atlas Any developer framework Any embedding

Vector Search GEN AI powered APP LLM Prompt Context Orchestration

{ "mappings": { "fields": { "content_embedding": { "type": "knnVector", "dimensions":

[{ "$vectorSearch": { "knnBeta": { "vector": [ 0.03898080065846443, ... ],

Demo https://github.com/chie8842/atlas-vector-search-rag/

Thank you!