。 </s> <s> エンコーダの 出力をデコーダで利用 This is a pen . </s > This is a pen . • エンコーダデコーダ型のモデルを用いて,テキストAからテキストBに変換(翻訳や要約など) • 代表モデル:Transformer [Vaswani+, NIPS’17],T5 [Raffel, JMLR’21]
Transformer デコーダ これ は ペン です </s> <s> This is a pen This is a pen </s> • 単語間の関係を理解(表現)するためにRNNやCNNを用いず,アテンションのみを用いたエンコーダデコーダ型 モデルを提案 • 機械翻訳で評価実験し,当時の最高性能を更新
is hairy … … My dog is hairy … 入力の一部をマスク マスク前の文章を予測 双方向アーキテクチャ マスク単語の前後の情報を 使って予測 • 穴埋め問題により,文脈の中で単語が出現する確率を予測する • 大量のテキストさえあれば,人間が追加で正解をアノテーションすることなく学習可能(自己教師あり学習)
my dog is cute [SEP] he likes play [MASK] [SEP] 2文目 1文目 IsNext my dog is cute [SEP] he likes play piano [SEP] 分類:2文が隣接か否か? 穴埋め • 自然言語理解(NLU)のタスクは2つの文の関係性理解が多い • そこで,文書中で隣接する文/ランダムな2文をセパレータで繋げて、隣接する文か否かの判定を穴埋め予測と同 時に学習
GPT-3(下図)は96層で合計175Bのパラメータを持つ.ChatGPTやGPT-4の構造・パラメータ数は不明 (Newton報「GPT-3.5は355B」は取り下げへ [Okumura, 2023/06]) アテンション層 (4 * 122882 + 2 * 12228) フィードフォワードネットワーク (8 * 122882 + 7 * 12288) 単語埋込層 (50257 * 12288)・位置埋込層 (2048 * 12288) 出力層 (50257 * 12288) The GPT family of models process text using tokens, which are common The GPT family of models process text using tokens, which are common トークナイザ GPT family of models process text using tokens, which are common sequences 入力 テキスト トークン 系列 ベクトル 系列 ベクトル系列 (トークン数 * 12228) ベクトル 系列 出力 トークン列 ベクトル系列 (トークン数 * 12228) ベクトル系列から次のトークンを予測 ※ 予測は入力側に戻り,逐次的に生成 ※ 学習時は全位置で次単語予測を学習 テキストからトークン系列へ, そしてベクトル系列へ変換 ※ GPT-3のオリジナルはトークン種類は 50257,系列⾧の最大値は2048 Transformerブロック96層により ベクトル系列を繰り返し変換 ※全体パラメータ数の99.2% x96
• ChatGPTをさらに上回る言語理解・生成能力を持つ.模擬司法試験を上位でパスするレベル [Katz+,2023/03] • MicrosoftはGPT-4が ”sparks of AGI” を示したと主張 [Bubbek+, 2023/03] User: Below is part of the InstuctGPT paper. Could you read and summarize it to me? GPT-4: The InstructGPT paper focuses on training large language models to follow instructions with human… 学生平均 合格ライン GPT-4 ChatGPT GPT-3 司法試験 4択問題(MBE)のスコア https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4389233
ジョージアの1日あたりの平均肉摂取量を特定する。 西アジアの1日あたりの平均肉摂取量を特定する。 手順1と2から得られた値を加算する。 手順1:提供されたチャートから、ジョージアの1日あた りの平均肉摂取量が1人当たり79.84グラムであることがわ かります。 手順2:チャートから、西アジアの1日あたりの平均肉摂 取量が1人当たり69.62グラムであることがわかります。 手順3:手順1と2から得られた値を加算する。 79.84 g (ジョージア)+ 69.62 g(西アジア)= 149.46 g したがって、ジョージアと西アジアの1日あたりの平均肉 摂取量の合計は、1人当たり149.46グラムです。 What is the sum of average daily meat consumption for Georgia and Western Asia? Provide a step-by-step reasoning before providing your answer. ※ 画像を発表用にトリミング ※ 回答をGPT-4で翻訳 https://arxiv.org/abs/2303.08774
code that creates a random graphical image that looks like a painting of Kandinsky 本物(Kandinskyの作品) GPT-4の生成例(論文) Draw a unicorn in TiKZ. GPT-4による生成例(初期版→学習進行) https://arxiv.org/abs/2303.12712
contributors, 2023/3/30~] • 最終ゴールを与えられると,GPT-4が自律的に必要なサブタスクに分解.ネットやその他ツールを使ってプランを修 正しながらゴールを達成する ユーザの入力した”Goals”の例 1. Do market research for different headphones on the market today 2. Get the top 5 headphones and list their pros and cons 3. Include the price for each one and save the analysis 4. Once you are done, terminate 実行結果 1. Google検索を”top 5 headphones 2023”で実施 2. 検索結果1位のページにアクセスして欲しい情報が無かったと認識 3. Google検索を”top 5 headphones 2023 with pros and cons”で再度実施 4. 検索結果1位のページにアクセスして欲しい情報を発見 5. 正規表現でページから情報抽出しようとするが失敗 6. BeautifulSoupに切り替えて抽出 7. 抽出結果をファイル保存