Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sleep-time Compute: LLM推論コスト削減のための事前推論

Sleep-time Compute: LLM推論コスト削減のための事前推論

本資料ではSleep-time Computeについて紹介します。

Sleep-time Computeは事前に(Sleep-time)コンテキスト情報を処理しておくことで、実際の(Test-time)推論コストを削減する方法です。

arXivはこちらです。

https://arxiv.org/abs/2504.13171

本資料は以下イベントのLTで使用したスライドです。

https://tc3.connpass.com/event/351598/

Avatar for sergicalsix

sergicalsix

May 14, 2025
Tweet

Other Decks in Technology

Transcript

  1. © 2025 Algomatic Inc. - LLMの性能を引き上げるために、推論コストが増加 - Sleep-time Computeとは事前(Sleep-time)にコンテキストを処理すること で、推論コストを下げる⼿法

    - 従来⼿法に⽐べて推論コストを約5倍短縮(⼀部条件化除く) サマリと所感 Sleep-time Computeの根本的な考え⽅としては、データマートの整備やRAGのチャンク 情報整備(ex.Contextual Document Embeddings(Moris and Rush, 2024))や事前に Reflectionを⾏って⼈格情報を整理するGenerative Agents(Park et al, 2023)、記憶層を 分割して保持するSecond Me(Wei et al., 2025 )などに近い。 ユーザーから回答を求められる前に事前に効果的な推論を回しておくことでレイテンシ を削減するアプローチは筋が良く、推論時間が増加傾向のある状況に対する⼀つの解と して有効だと考えられる。ただ事前推論時のコストや事前推論情報の保存とその活⽤な ど実⽤⾯でのハードルは⼀定存在していると⾔える。
  2. © 2025 Algomatic Inc. 応⽤‧発展 Sleep-time Compute Sleep-time Agentic Compute

    Sleep-time Computeの応⽤‧発展として、コンテキストから事前にエージェントを起動 してタスクを仮実⾏する例(ex. Sleep-time Agentic Compute)などが考えられる