Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] LLM2Vec: Large Language Models A...

[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders Parishad

    BehnamGhader1, Vaibhav Adlakha12, Marius Mosbach1, Dzmitry Bahdanau2, Nicolas Chapados2, Siva Reddy123 1: McGill University, Mila 2: ServiceNow Research 3: Facebook CIFAR AI Chair Keio Univ. M2 Otsuki P. BehnamGhader, V. Adlakha, M. Mosbach, D. Bahdanau, N. Chapados, and S. Reddy, “LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders,” in COLM, 2024. COLM 2024
  2. 5 関連研究 – LLMをテキスト埋め込みに利用する試み 最後のtokenに対応する最終層の隠れ状態を文埋め込みとするアプローチ: [Neelakantan+, 22], [Ma+, SIGIR24], [Wang+,

    ACL24] 同時期の研究 概要 [Muennighoff, ICLR24 workshop] 単方向注意によるLanguage modeling と双方向注意による対照学習を組み合 わせてマルチタスクfine-tuning Echo [Springer+, 24 (ICLR25 submission)] 入力を2回繰り返して入力することで将 来のtokenをみない問題に対応
  3. 1. 双方向注意の有効化 2. Masked Next Token Prediction (MNTP) 3. 対照学習

    (SimCSE) 6 LLM2Vec – Decoder-only LLMを埋め込みモデルに変換 1 2 3
  4. 対象decoder-only LLM: Sheared-LLaMA-1.3B, Llama-2-7B-chat, Mistral-7B-Instruct-v0.2, Meta-Llama-3-8B-Instruct 学習データ 上記LLMの事前学習に含まれているであろう 英語のWikipediaのデータを使用 MNTPにWikitext-103

    (100M+ tokens) SimCSEにはWikipediaの部分集合1M文 (本家SimCSEと同じ) 学習設定 (7-8Bモデル) MNTP: batch size 32, 1000 steps,100min, A100 (80G) x1 SimCSE: batch size 128, 1000 steps,3h, A100 (80G) x1 10 実験設定
  5. MTEB: 7つのタスクカテゴリに分類される 56データセットで構成されるベンチマーク Baselines: SimCSEで学習されたBERT Echo [Springer+, 24 (ICLR25 submission)]

    MNTP, SimCSE共に性能を大きく改善 Baselineの性能を大きく上回る 12 定量的結果 – Massive Text Embeddings Benchmark (MTEB)の教師なしSoTA 抜粋
  6. [Springer+, 24 (ICLR25 submission)]による E5 datasetの公開データの一部を 使用して対照学習 A100 (80G) x8,

    batch size 512, 1000steps LLM2Vecしたモデルはサンプル効率が良く 早い段階で性能が上がる (紫) 14 定量的結果 – 教師あり対照学習と組み合わせて MTEBの公開データ使用モデル内でSoTA 抜粋