Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Language Model Inversion

Avatar for Toma Tanaka Toma Tanaka
December 18, 2023

論文紹介:Language Model Inversion

Avatar for Toma Tanaka

Toma Tanaka

December 18, 2023
Tweet

More Decks by Toma Tanaka

Other Decks in Technology

Transcript

  1. 株式会社ブレインパッド データサイエンティストとしてマーケティング分析,広告文の自動生成などの自然 言語処理の業務に従事 Autores 松尾研究室の研究の自動化プロジェクト その他の活動 LLM 関連で論文執筆 Inductive-bias Learning:

    Generating Code Models with Large Language Model Data Science wiki データ分析手法,AI 関連の技術に関する民主化を目指しているサイトの作成 Qiita の執筆 LLM のプロンプト技術まとめ 自己紹介
  2. 私 は X1 x2 x3 p(x1 |私,は) = 猫 天才

    だ で す AI し を ・ ・ ※厳密に条件付き確率を計算しているわけではなく 確率値を返すような関数を近似したものです の中身の合計は1 ( 確率なので) 0.001 0.0004 0.0...1 0.0...3 0.0...4 0.01 0.0...2 0.0...7 ・ ・ ← 最も高い はモデルが出力で きる全トークン数 のベクトル ※ トークン... 文章を分割する際の最小単位 (LLM を作成する際に決めている) ※GPT-4 は約50,000 のトークン数で表現  BPE という手法を使っている
  3. 私 は AI x2 x3 p(x2 |私,は,AI) = 猫 天才

    だ で す AI し を ・ ・ 0.0...8 0.0...5 0.0001 0.003 0.0...4 0.0...1 0.0...2 0.0007 ・ ・ ← 最も高い
  4. 私 は AI で x3 p(x3 |私,は,AI ,で) = 猫

    天才 だ で す AI し を ・ ・ 0.0...2 0.0...1 0.0...1 0.0...3 0.004 0.0...6 0.002 0.0..7 ・ ・ ← 最も高い
  5. 私 は AI で す LLM は確率分布を出力し 最も確率値が高い言葉( トークン) を選び続けて文章生成が行われる

    →入力された文章の情報が確率分布に残されていれば復元できる ※ 温度パラメータが0 の場合 最も確率値が高いもの以外を選ぶ方法もある
  6. 機械学習を勉強するのが好き LLM 確率分布 です 機械学習を学ぶのが好き LLM 確率分布 です 検証 異なるか

    文章の一部を類似している言葉に置き換えLLM に入力した時の確率分布を比較する