Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Language Model Inversion

Toma Tanaka
December 18, 2023

論文紹介:Language Model Inversion

Toma Tanaka

December 18, 2023
Tweet

More Decks by Toma Tanaka

Other Decks in Technology

Transcript

  1. 株式会社ブレインパッド データサイエンティストとしてマーケティング分析,広告文の自動生成などの自然 言語処理の業務に従事 Autores 松尾研究室の研究の自動化プロジェクト その他の活動 LLM 関連で論文執筆 Inductive-bias Learning:

    Generating Code Models with Large Language Model Data Science wiki データ分析手法,AI 関連の技術に関する民主化を目指しているサイトの作成 Qiita の執筆 LLM のプロンプト技術まとめ 自己紹介
  2. 私 は X1 x2 x3 p(x1 |私,は) = 猫 天才

    だ で す AI し を ・ ・ ※厳密に条件付き確率を計算しているわけではなく 確率値を返すような関数を近似したものです の中身の合計は1 ( 確率なので) 0.001 0.0004 0.0...1 0.0...3 0.0...4 0.01 0.0...2 0.0...7 ・ ・ ← 最も高い はモデルが出力で きる全トークン数 のベクトル ※ トークン... 文章を分割する際の最小単位 (LLM を作成する際に決めている) ※GPT-4 は約50,000 のトークン数で表現  BPE という手法を使っている
  3. 私 は AI x2 x3 p(x2 |私,は,AI) = 猫 天才

    だ で す AI し を ・ ・ 0.0...8 0.0...5 0.0001 0.003 0.0...4 0.0...1 0.0...2 0.0007 ・ ・ ← 最も高い
  4. 私 は AI で x3 p(x3 |私,は,AI ,で) = 猫

    天才 だ で す AI し を ・ ・ 0.0...2 0.0...1 0.0...1 0.0...3 0.004 0.0...6 0.002 0.0..7 ・ ・ ← 最も高い
  5. 私 は AI で す LLM は確率分布を出力し 最も確率値が高い言葉( トークン) を選び続けて文章生成が行われる

    →入力された文章の情報が確率分布に残されていれば復元できる ※ 温度パラメータが0 の場合 最も確率値が高いもの以外を選ぶ方法もある
  6. 機械学習を勉強するのが好き LLM 確率分布 です 機械学習を学ぶのが好き LLM 確率分布 です 検証 異なるか

    文章の一部を類似している言葉に置き換えLLM に入力した時の確率分布を比較する