Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキスト埋め込み色々あるけどどれがいいの?

 テキスト埋め込み色々あるけどどれがいいの?

Avatar for ディップ株式会社

ディップ株式会社

June 18, 2025
Tweet

More Decks by ディップ株式会社

Other Decks in Technology

Transcript

  1. dip AI の検索のつらみ 
 4 1. フィルタ条件の影響が支配的
 • ベクトル検索のうまみを活かせていない
 •

    思ったような案件を出そうとするとどうしてもフィルタになる
 
 2. 検索クエリとお仕事内容のギャップ
 • シンプルにcos類似度をとってもうまくいかない
 この課題 に着目

  2. Retrieval でのギャップを埋める方法 
 6 1. クエリの内容をコーパスに寄せる
 HyDE:クエリに回答する仮の文章をLLMで生成してベクトル検索
 
 2. モデルを学習させる


    • クエリと回答のペアを学習させる
 • 最近はLLMで作成した合成データセットを学習して、LLMの知識を蒸留す るのがブーム
 ◦ 最近公開されたAmber, Ruri, GeckoなどのEncoderモデルは合成 データセットを利用している

  3. Gecko: Versatile Text Embeddigs from Lage Language Models 概要
 


    8 • LLMで合成データを作成(FRet)、Transfromer言語モデルを Pre-finetuningとfine-tuningで学習
 
 ◦ Pre-finetuning: 様々な形式の教師なしのテキストペアを Contrastive Learningで学習
 ▪ query側テキストの先頭には”question answering“や”search result”などの 識別子がデータセットに基づいて付与される 
 
 ◦ fine-tuning:後述のFRetデータセットと学術的データセットを混ぜて教師あり 学習

  4. FRet
 9 モチベーション
 • ラベルづけされた大量のデータを用意する のはコストが高い😢
 →LLMを活用して擬似データセット作成 
 
 1.

    LLMにWebの文書を与えタスクの説明と関 連するクエリを生成させる
 2. embedding modelをRetriverとして1.の クエリに関連するパッセージを検索し正例、 負例を作成
 • 検索結果とパッセージの関連性を LLM で計算
 • 関連性がより高いパッセージが存在す る場合正例を変える(約15%)
 →660万件のデータセットを作成
 
 https://arxiv.org/pdf/2403.20327より引用