Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
現場のトークンマネジメント
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
dak2
June 25, 2026
Technology
130
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
現場のトークンマネジメント
2026/6/25 AIオブザーバビリティ スペシャル#1 スポンサーLT
https://aid.connpass.com/event/397141/
dak2
June 25, 2026
More Decks by dak2
See All by dak2
KaigiEffect.new(name: "dak2").generate
dak2
1
84
No Types Needed, Just Callable Method Check
dak2
1
8.1k
MCP Security Best Practices に見るセキュリティリスクとmodelcontextprotocol/ruby-sdk の authorization の現在地
dak2
0
49
自然言語で ActiveRecord を操作する試み
dak2
0
55
DoD x RBS
dak2
0
18
Other Decks in Technology
See All in Technology
Oracle Cloud Infrastructure:2026年6月度サービス・アップデート
oracle4engineer
PRO
0
140
2026 TECHFRESH 畢業分享會 - AI-Native 重塑軟體工程與虛擬講師
line_developers_tw
PRO
0
1.3k
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
230
ザ・データベース、MySQL ~ OSC 2026 Sendai ~
sakaik
0
150
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.3k
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.6k
データレイクの「見えない問題」を可視化する
sansantech
PRO
1
120
コミュニティの有益性 ~JAWS Days 2026 での体験を通して~ / The Benefits of a Community ~Through My Experience at JAWS Days 2026~
seike460
PRO
0
190
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
3
600
脱SaaS!FDEを支えるプロビジョニングと分離設計
knih
0
240
iAEONの段階的リアーキテクト戦略 / iAEON's_Gradual_Re-architecture_Strategy
aeonpeople
0
230
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
4
2.3k
Featured
See All Featured
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
66
55k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
200
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
2
220
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
2k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.3k
Paper Plane
katiecoart
PRO
1
51k
How STYLIGHT went responsive
nonsquared
100
6.2k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Transcript
現場のトークンマネジメント ~ Tokenmaxxing is over ~ AIオブザーバビリティ スペシャル#1 | 2026-06-25
Daichi Kamiyama (@_dak2_)
1会場案内・自己紹介
始める前に 喫煙所は地下になります
自己紹介 Daichi Kamiyama(@_dak2_) • 株式会社タイミー • バックエンド / 新規事業開発 •
W杯観戦しながらトークンを消費していま す!!!
2 本編
本日のお品書き • トークンマネジメントの事例(Claude Code) • 弊社のモニタリング環境 • 研究事例の紹介
AI 使ってますか? (多分みなさん使ってると思います)
トークンの使用率 気になってますか?
最近 https://www.businessinsider.jp/article/2606-amazon-ai-leaderboard-tokenmaxxing/
最近 https://news.yahoo.co.jp/articles/e568aedd8390e2c0e881b60dfbac36930999c29d
以前 \どんどん AI を使おう/
最近 \トークン上限内で使おう/
Tokenmaxxing is over
AI の性能を劣化させな いためのトークン効率 以前
AI の性能を劣化させな い + コスト増への対応 これから
弊社の現状
弊社の現状 トークン上限が設けられて おり、適切に管理
弊社で使える Coding Agents • Claude Code • Cursor • Devin
現場のトークン削減 Tips
トークン削減 Tips *Claude Code メイン Tips です 🙏
トークン削減 Tips • モデルを使い分ける /model ◦ 設計は Opus ◦ 実装は
Sonnet https://code.claude.com/docs/ja/costs#choose-the-right-model
トークン削減 Tips • 新しい作業を始める時は /clear する ◦ 古いコンテキストはトークン消費する ▪ /rename
でセッション名をつけておくと /resume で探しやすくて便利 https://code.claude.com/docs/ja/costs#manage-context-proactively
トークン削減 Tips • コンテキストを要約 /compact ◦ トークンの圧縮になります ◦ CLAUDE.md でコンパクションの動作を指示できる
https://code.claude.com/docs/ja/costs#manage-context-proactively
トークン削減 Tips • 不要な MCP を disable する ◦ /context
を実行してどのくらいのトークンを消費する か確認 https://code.claude.com/docs/ja/costs#reduce-mcp-server-overhead
トークン削減 Tips • 不要な Skills / Plugin も disable する
◦ /context を実行してどのくらいのトークンを消費する か確認 ◦ 入れたけどあまり使っていないものありません?
トークン削減 Tips • Extended thinking の調整 /effort ◦ 計画立案やアイディア発散の場合は、high or
xhigh ◦ 実装時には low or medium で使い分ける https://code.claude.com/docs/ja/costs#adjust-extended-thinking
• CLAUDE.md を薄く保つ ◦ PR レビューやデータベース移行などの特定のワークフ ロー用の詳細な指示は載せない。概要だけ ◦ 特定ワークフローの指示は Skill
化する https://code.claude.com/docs/ja/costs#move-instructions-from-claude-md- to-skills トークン削減 Tips
• subagent に詳細な操作を任せる ◦ テスト実行やドキュメントの取得、ログファイルの処 理は結構コンテキストを食うので、subagent に任せる https://code.claude.com/docs/ja/costs#delegate-verbose-operations-to-su bagents トークン削減
Tips
• プロンプトを具体的に ◦ これはよく言われることですね https://platform.claude.com/docs/ja/build-with-claude/prompt-engineering /claude-prompting-best-practices トークン削減 Tips
• 知見を集めた skills を作っておく https://tech.timee.co.jp/entry/2026/02/24/100702 トークン削減 Tips
• Agents を使い分ける ◦ トークン上限が来たら別の Agent を使う ◦ コードの仕様調査は Devin
にほぼ全てを任せ、設計 / 開発は Claude Code に トークン削減 Tips
• LSP Plugins ◦ あまり使えてないけど精度高いものなのか ◦ 有識者求 • Hooks への処理のオフロード
◦ プライベートでは Linter の実行を設定をしていたりします ◦ ただ、重すぎる操作は応答速度に関わるので注意です 他にも
• いらない機能は作らない / 不要なら削除してい くというのも地味に推していきたいポイント ◦ 当たり前の話 ◦ ただ、AI で作る量の増加に対して認知負荷(=コンテキ
スト)も増加している中で、ちゃんと線引きできていま すかというのは問ていきたい 他にも
• こんなこと気にしなくてもいい感じにトークン 消費抑えてほしい!!!!!!!!! • ただ、メタ的に見ると対人コミュニケーション と同じだなと思えてくるので、AI とやり取り をする上では必要だなあと思う 個人的には
• 一度にいろんなことをやらせない ◦ これはどの Agent を使っていても共通する ことかなと思います 要は
とはいえ
計測ですよ
トークン消費を定期的にウォッチして調 整していくのが大事 とはいえ
弊社の取り組み
弊社の取り組み • 鋭意改善中ではあるものの、モニタリングをし ながら個々人が調整をできるような環境が整備 されています
ccusage https://github.com/c cusage/ccusage 個人的に使っている OSS
研究事例
論文 • Token-Budget-Aware LLM Reasoning ◦ https://arxiv.org/abs/2412.18547 ◦ プロンプトに「トークン予算」を提示し動的に長さを 調整するフレームワーク「TALE」を用いることで、精
度低下を最小限に抑えつつトークンコストを平均67% 削減 ▪ *マルチモーダル非対応だったり精度低下が大きく なるケースも
論文 • SKILLREDUCER: A Less-Is-More Approach to LLM Agent Context
Management ◦ https://arxiv.org/html/2603.29919v1 ◦ スキルから不要な情報を削ぎ落とし、必要な知識だけを段階的に開示する 「SKILLREDUCER」の提案 ▪ *ルールと例が暗黙的に入り組んで記述されているスキルの場合、自 動分離によって必要な依存関係が切り離され、逆にパフォーマンスが 低下するケースも
論文 • GenericAgent: A Self-Evolving LLM Agent ◦ https://arxiv.org/abs/2604.17091 ◦
長期的に動作するLLMエージェントにおいて、重要なのはコンテキスト の長さではなく「情報密度」であると主張しています。最小限のツール、 階層型メモリ、過去の軌跡を再利用可能なSOP(手順書)に圧縮する自 己進化メカニズムを備え、圧倒的に少ないトークン消費で高いタスク完了 率を達成 ▪ *1回の実行ラウンド数に上限(30ラウンド)があるため、非常に複 雑なタスクは複数のセッションに分割する必要があり、その際の連続 性は手動でのレポート等に依存。また、自己改善ログの整理やスキル ツリーの再構築といった高度なメンテナンスは、現在手動で行う必要
論文 • Compressing Sequences in the Latent Embedding Space: K-Token
Merging ◦ https://arxiv.org/abs/2604.15153 ◦ 連続するK個のトークンを軽量エンコーダで1つの潜在的埋め込み (Embedding)にマージすることで、性能低下を抑えながら入力長を最 大75%圧縮し、計算コストを大幅に削減する手法を提案 ▪ *「入力トークン」のみを圧縮しており、モデルが生成する出力トー クンには圧縮を適用していないため、出力が非常に長くなるタスクで は効率化の恩恵薄れる
まとめ
まとめ • Tokenmaxxing は終わり、トークンコストを より気にする時代へ • 一度にいろんなことをやらせない • 多くの論文で研究されている •
トークンコストを管理してプロダクト開発を楽 しんでいきましょう
最後に
カジュアル面談はこちらから!