$30 off During Our Annual Pro Sale. View Details »

Context Window のお話

schroneko
September 25, 2023

Context Window のお話

https://llm-app.connpass.com/event/296674/

上記イベントの登壇資料です。

schroneko

September 25, 2023
Tweet

Other Decks in Programming

Transcript

  1. Context Window のお話
    もしトークン数を気にせず LLM が使えたら?
    林 祐太 / ぬこぬこ @schroneko
    ※このページは削除して構いません
    USE TEMPLATE
    Click
    1

    View Slide

  2. - 林 祐太 / ぬこぬこ
    - 12 月から LLM 無職→転職
    - 専門は核融合(核融合はいいぞ!)
    自己紹介
    2

    View Slide

  3. LLM において入力できる
    トークン数のこと
    Context Window とは?
    3
    https://arxiv.org/abs/2212.10947

    View Slide

  4. ChatGPT を使っていてこんな表示を見かけたら、どんな気持ちになりますか?
    4

    View Slide

  5. 😑
    5

    View Slide

  6. Claude を使ったことは
    ありますか?✋
    6

    View Slide

  7. - 性能評価で GPT-4 と僅差
    - 100k Tokens まで入力可
    - GPT-4 の RLHF 味がない
    😆😆😆うれしい😆😆😆
    ただ、日本で使えるようになる
    のはもう少し...!
    Claude のここがすごい!
    https://chat.lmsys.org/?arena 7
    ※ VPN 接続での利用はやめましょう!

    View Slide

  8. 100k トークン?
    イメージ沸かない?
    8

    View Slide

  9. 9
    だいたい
    75,000 字

    View Slide

  10. なるほどわかった💡
    で、なにに使えるの?
    10

    View Slide

  11. 論文めちゃ読める💡
    Context Window
    まわりの論文を紹介
    11

    View Slide

  12. - 7月17日の論文
    - Transformer を使わず、Context Window を
    増やしても推論コストの増大を低減
    https://arxiv.org/abs/2307.08621
    https://github.com/microsoft/unilm/tree/
    master/retnet
    論文紹介 Retentive Network: A Successor to Transformer for Large Language Models
    12

    View Slide

  13. - 8月31日の論文
    - Context Window の拡張手法
    - Llama 2 7B / 13 B を 4k → 128k(16~32倍)
    - 性能劣化はほぼなし(0.49%)
    https://arxiv.org/abs/2309.00071
    https://github.com/jquesnelle/yarn
    論文紹介 YaRN: Efficient Context Window Extension of Large Language Models
    13

    View Slide

  14. - 9月20日の論文
    - Vision Transformer に RetNet を適用
    - 計算コストが下がるだけでなく性能向上
    https://arxiv.org/abs/2309.11523
    論文紹介 RMT: Retentive Networks Meet Vision Transformers
    14

    View Slide

  15. - 9月21日の論文
    - Context Window の拡張手法
    - Llama 2 7B / 13 B / 70B を 4k から
    100k / 6k / 32 k に拡張
    https://arxiv.org/abs/2309.12307
    https://github.com/dvlab-research/LongLoRA
    論文紹介 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
    15

    View Slide

  16. 要素技術は出揃ってきた
    16

    View Slide

  17. Context Window を
    気にしない未来って
    もしかすると近い?
    17

    View Slide

  18. - Embedding はもしかすると不要?
    - Hallucinations がかなり軽減?
    - そもそも大量の情報を人間が解釈する必要性って?
    - etc…
    18
    もしトークン数を気にせず LLM が使えたら?

    View Slide

  19. もし日常使いの LLM の
    Context Window
    に上限がなくなったら?🤔
    19

    View Slide

  20. 20

    View Slide

  21. もし時間があまったら
    21

    View Slide

  22. 22
    実演
    Claude くんを普段
    どう使っているか?

    View Slide

  23. 23
    で、でもお高いんでしょう?
    https://www-files.anthropic.com/production/images/model_pricing_july2023.pdf

    View Slide

  24. 長文 Prompt テクニック
    真ん中があんまり抽出できない?
    →https://arxiv.org/abs/2307.03172
    一昨日の Anthropic の公式記事によると
    1. 引用の指示
    2. 指示を最後に置く
    https://www.anthropic.com/index/prompting-lon
    g-context
    24

    View Slide

  25. 最近作ったもの
    論文要約
    後日 webui化予定
    https://gist.github.com
    /schroneko/210881cb6
    80322ea455baee21abdd
    f29
    25

    View Slide

  26. Claude 使いたいんだけど?💢
    26
    残念ながら、本日時点で US / UK のみ
    あと数ヶ月で一般公開とありました。
    首を長くして待ちましょう!

    View Slide

  27. API 使いたいんだけど?💢
    27
    https://www.anthropic.
    com/earlyaccess
    こちらからどうぞ!

    View Slide