Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RAGだけじゃない! 古くて新しいベクトル検索の世界 | DevelopersIO 2024 福岡

RAGだけじゃない! 古くて新しいベクトル検索の世界 | DevelopersIO 2024 福岡

推薦システムやセマンティック検索やRAGでつかわれる「埋め込み」技術について発表しました

クラスメソッド主催「DevelopersIO 2024 福岡イベント」の登壇資料
https://classmethod.connpass.com/event/317870/

解説ブログ
https://dev.classmethod.jp/articles/basic-vector-search-devio-fukuoka-2024/

quiver

June 27, 2024
Tweet

More Decks by quiver

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 • 名前 : George Yoshida • Blog : https://dev.classmethod.jp/author/quiver/

    • 仕事 : AWS事業本部エンジニア • 所属 : HND󰏦 → TXL/BER󰎲 → FUK󰏦 • 2024 Japan APN AWS ◦ Top Engineer(Database) ◦ All Certifications Engineer 6
  2. RAGが解決すること • RAG = Retrieval-Augmented Generation cf.)情報検索(Information Retrieval) • 基盤モデルの外にあるナレッジを活⽤

    • 幻覚(ハルシネーション)の抑制や事前ト レーニングされていない社内ドキュメント や最新情報の検索などが可能 16
  3. 埋め込み • 埋め込み = Embedding = ベクトル = 数字の配列 •

    配列のサイズが次元 • 埋め込みモデルはデータをベクトルに変換 • 埋め込みモデル(“りんご”) = [0.1, -0.3, …, 0.2] 26
  4. ベクトル検索は類似検索 • ベクトル検索 = ベクトルでベクトルの集合を検索 • ベクトル同⼠の⽐較が必要 • ベクトル検索は類似検索 ◦

    ベクトル空間に距離を定義 ◦ ベクトル同⼠(2点間)の近さから類似度を定義 • ⽤途ごとに適切な類似度(コサイン類似度等)を選択 31
  5. データベースの⽬的を考えよう • Pinecone → ベクトルが得意 ◦ ベクトル検索に特化 • Elasticsearch →

    JSON が得意 ◦ 全⽂検索とベクトル検索のハイブリッド検索 • PostgreSQL → リレーショナルモデルが得意 ◦ データ資産を活⽤ 40
  6. 46