Context Window のお話

Context Window のお話もしトークン数を気にせず LLM が使えたら？林祐太 / ぬこぬこ
@schroneko ※このページは削除して構いません USE TEMPLATE Click 1

- 林祐太 / ぬこぬこ - 12 月から LLM 無職→転職
- 専門は核融合（核融合はいいぞ！）自己紹介 2

LLM において入力できるトークン数のこと Context Window とは？ 3 https://arxiv.org/abs/2212.10947

ChatGPT を使っていてこんな表示を見かけたら、どんな気持ちになりますか？ 4

😑 5

Claude を使ったことはありますか？✋ 6

- 性能評価で GPT-4 と僅差 - 100k Tokens まで入力可 - GPT-4
の RLHF 味がない 😆😆😆うれしい😆😆😆 ただ、日本で使えるようになるのはもう少し...！ Claude のここがすごい！ https://chat.lmsys.org/?arena 7 ※ VPN 接続での利用はやめましょう！

100k トークン？イメージ沸かない？ 8

9 だいたい 75,000 字

なるほどわかった💡 で、なにに使えるの？ 10

論文めちゃ読める💡 Context Window まわりの論文を紹介 11

- 7月17日の論文 - Transformer を使わず、Context Window を増やしても推論コストの増大を低減 https://arxiv.org/abs/2307.08621 https://github.com/microsoft/unilm/tree/
master/retnet 論文紹介 Retentive Network: A Successor to Transformer for Large Language Models 12

- 8月31日の論文 - Context Window の拡張手法 - Llama 2 7B
/ 13 B を 4k → 128k（16~32倍） - 性能劣化はほぼなし（0.49%） https://arxiv.org/abs/2309.00071 https://github.com/jquesnelle/yarn 論文紹介 YaRN: Eﬃcient Context Window Extension of Large Language Models 13

- 9月20日の論文 - Vision Transformer に RetNet を適用 - 計算コストが下がるだけでなく性能向上
https://arxiv.org/abs/2309.11523 論文紹介 RMT: Retentive Networks Meet Vision Transformers 14

- 9月21日の論文 - Context Window の拡張手法 - Llama 2 7B
/ 13 B / 70B を 4k から 100k / 6k / 32 k に拡張 https://arxiv.org/abs/2309.12307 https://github.com/dvlab-research/LongLoRA 論文紹介 LongLoRA: Eﬃcient Fine-tuning of Long-Context Large Language Models 15

要素技術は出揃ってきた 16

Context Window を気にしない未来ってもしかすると近い？ 17

- Embedding はもしかすると不要？ - Hallucinations がかなり軽減？ - そもそも大量の情報を人間が解釈する必要性って？ - etc…
18 もしトークン数を気にせず LLM が使えたら？

もし日常使いの LLM の Context Window に上限がなくなったら？🤔 19

もし時間があまったら 21

22 実演 Claude くんを普段どう使っているか？

23 で、でもお高いんでしょう？ https://www-ﬁles.anthropic.com/production/images/model_pricing_july2023.pdf

長文 Prompt テクニック真ん中があんまり抽出できない？ →https://arxiv.org/abs/2307.03172 一昨日の Anthropic の公式記事によると 1. 引用の指示
2. 指示を最後に置く https://www.anthropic.com/index/prompting-lon g-context 24

最近作ったもの論文要約後日 webui化予定 https://gist.github.com /schroneko/210881cb6 80322ea455baee21abdd f29 25

Claude 使いたいんだけど？💢 26 残念ながら、本日時点で US / UK のみあと数ヶ月で一般公開とありました。首を長くして待ちましょう！

API 使いたいんだけど？💢 27 https://www.anthropic. com/earlyaccess こちらからどうぞ！

Context Window のお話

Context Window のお話

schroneko

More Decks by schroneko

Other Decks in Programming

Featured

Transcript