Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] DoLa: Decoding by Contrasting La...

[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language

    Models Yung-Sung Chuang1, Yujia Xie2, Hongyin Luo1, Yoon Kim1, James Glass1, Pengcheng He2 1: MIT, 2: Microsoft 慶應義塾大学 杉浦孔明研究室 小槻誠太郎 Y.-S. Chuang, Y. Xie, H. Luo, Y. Kim, J. Glass, and P. He, “DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models,” in ICLR, 2024 ICLR’24 Poster
  2. 5 関連研究 – Contrastive Decoding及び後続研究 Language Modelingで学習したLMの出力を後から改善する研究が複数 概要 Contrastive Decoding

    [Li+, ACL’23] 弱モデルを用意し, 弱モデルの出力で強モデル が出力する尤度にペナルティを与えることで 強モデルのfluency及びcoherenceを改善 Context-Aware Decoding [Shi+, ’23] コンテキスト付きのクエリに対する尤度に対し, コンテキスト抜きのクエリに対する尤度で ペナルティを与える. 通常よりコンテキストに注目. 要約性能を向上 Autocontrastive Decoding [Gera+, ACL’23] 本研究と同様, 中間層と最終的な出力を対比 GPT2程度のサイズのモデルの出力の多様性を向 上
  3. 6 動機・着想 – transformerベースの言語モデル (LM) の性質 (LMで確認された事実ではないが) 埋め込みモデル (BERT) において,

    品詞タグのような低レベルの情報が浅い層で, より詳細な意味を持つ情報は深い層でencodeされる ([Tenney+, ACL’19]) 事実に関する情報を保持する “knowledge neuron” の多くは 最終層に分布 ([Dai+, ACL’22]) LMにおいても FFNの一部を操作することでLMの事実に関連する知識を書き換えられる ([Meng+, NeurIPS’22])
  4. 7 動機・着想 – transformerベースの言語モデル (LM) の性質 (LMで確認された事実ではないが) 埋め込みモデル (BERT) において,

    品詞タグのような低レベルの情報が浅い層で, より詳細な意味を持つ情報は深い層でencodeされる ([Tenney+, ACL’19]) 事実に関する情報を保持する “knowledge neuron” の多くは 最終層に分布 ([Dai+, ACL’22]) LMにおいても FFNの一部を操作することでLMの事実に関連する知識を書き換えられる ([Meng+, NeurIPS’22]) 考察: 浅い層からのearly-exitと最終層の出力を対比させることで 事実に関する知識に基づいた出力を強調できるのでは Contrastive Decoding + Early-exit