Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデル第二回 Transformer

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Yosuke KOBAYASHI Yosuke KOBAYASHI
January 09, 2024
490

大規模言語モデル第二回 Transformer

Avatar for Yosuke KOBAYASHI

Yosuke KOBAYASHI

January 09, 2024
Tweet

Transcript

  1. 自己紹介 小林 要佑 大学院卒(専門は分子動力学法) → メーカー(研究開発) → EdTechベンチャー (エンジニア) →

    (現在)シンプルフォーム株式会社(エンジニア) ワンコと一緒に一人で暮らしてます。 休みの日は愛犬と散歩行ったり、 FPSゲームをやったり、 読書することが多いです。 最近、カンデル神経科学という医学の専門書を読むのにハマっ てます(専門書だけど意外と読みやすい)
  2. 入力トークン埋め込み トークン化 こたつでみかんを食べる こたつ / で / みかん / を

    / 食べる 入力トークン埋め込み トークンを数値ベクトルに変換 で を こたつ / で / みかん / を / 食べる -0.21 0.02 -0.34 0.1 -0.18 -0.94 0.17 0.71 0.67 0.23 … … … … … 語彙 D とすると、 D次元 Ex. 形態素に分解 イメージ図
  3. 位置符号の必要性 入力トークン埋め込みは、トークンの順序や位置に関する情報が含まれていない 「こたつでみかんを食べる」 「みかんでこたつを食べる」 こたつ / で / みかん /

    を / 食べる -0.21 0.02 -0.34 0.1 -0.18 -0.94 0.17 0.71 0.67 0.23 … … … … …  2つの文を区別できるようにするには、順序や位置情報を加算する必要がある → 位置符号 入力トークン埋め込み
  4. 位置符号 こたつ / で / みかん / を / 食べる

    1番目のトークン(こたつ)の位置符号 i番目のトークンの位置符号   低周波数域 → 広い範囲の関係を捉える   高周波数域 → 局所的な関係を捉える i=1 i=2 i=3 i=4 i=5 出典:https://kazemnejad.com/blog/transformer_architecture_positional_encoding/
  5. 自己注意機構の必要性 マウス / で / クリック / する ? 動物のマウスではなく、PC機器のマウスとして捉えるには

    「クリック」というトークンに注意を向ける必要がある → トークンの重要度を加味しながら文脈化を担うのが自己注意機構
  6. フィードフォワード層 出典:Diskshit Chauhan et al. "A multi-agent optimization algorithm and

    its application to training multilayer perceptron models," Evolving system , 2023. 目的:入力された層に対して、学習済みのデータに基づいて関連する情報を付加する役割 非線形関数であることが重要 → モデルの表現力が増す