Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OpenAIの蒸留機能(Model Distillation)を使用して運用中のLLMのコスト...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
PharmaX(旧YOJO Technologies)開発チーム
December 12, 2024
Technology
1.1k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
OpenAIの蒸留機能(Model Distillation)を使用して運用中のLLMのコストを削減する取り組み
PharmaX(旧YOJO Technologies)開発チーム
December 12, 2024
More Decks by PharmaX(旧YOJO Technologies)開発チーム
See All by PharmaX(旧YOJO Technologies)開発チーム
PdMによるLiveバイブコーディング〜プロトタイプ開発実践〜
pharma_x_tech
1
80
2025.10.28_CodexとClaude Codeの比較検討 社内座談会
pharma_x_tech
2
620
LLMのアウトプットの評価と改善 〜DSPyによるプロンプト最適化入門によせて〜
pharma_x_tech
6
1.2k
2025.09.02_AIコーディングを利用した開発自動化を目指しての座談会
pharma_x_tech
5
350
AIコーディングを前提にした開発プロセス再設計〜開発生産性向上に向けた試行錯誤〜
pharma_x_tech
4
440
AIエージェントの評価・改善サイクル
pharma_x_tech
2
620
MCP & Computer Useをフル活用した社内効率化事例〜現在地と将来の展望
pharma_x_tech
1
460
AIエージェントの継続的改善のためオブザーバビリティ
pharma_x_tech
7
2.6k
Roo CodeとClaude Code比較してみた
pharma_x_tech
5
6.3k
Other Decks in Technology
See All in Technology
Bucharest Tech Week 2026 - Guardians of the Cloud-Native Galaxy
edeandrea
PRO
0
130
スタートアップにAmazon EKSは早すぎる? マルチプロダクト戦略を加速する Platform Engineeringの実践 / Is Amazon EKS Too Soon for Startups? Practical Platform Engineering to Accelerate a Multi-Product Strategy
elmodev09
1
1.5k
ロボティクスの技術 / Robotics Technology
ks91
PRO
0
120
MUSUBI 田中裕一『AIと共に行う「しごとのリデザイン」- スモールバックオフィス編』AI Ops Lab #4
musubi
0
280
AI時代のコスト管理を考えよう〜明日から使える実践AWSノウハウ~
yoshimi0227
0
750
現場のトークンマネジメント
dak2
1
160
「勝手に広まる」人気 AI エージェントを爆速で作ろう!(AWS Summit Japan 2026講演資料)
minorun365
PRO
10
2.3k
40代で“やっとエンジニアになれた”――閉じた学びを開き、空の青さを知る / 20260628 Naoki Takahashi
shift_evolve
PRO
4
510
人材育成分科会.pdf
_awache
4
310
AIのReact習熟度を測る
uhyo
2
670
「ビジネスがわかるエンジニア」とは何か?
ryooob
0
200
コミュニティの有益性 ~JAWS Days 2026 での体験を通して~ / The Benefits of a Community ~Through My Experience at JAWS Days 2026~
seike460
PRO
0
260
Featured
See All Featured
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
How STYLIGHT went responsive
nonsquared
100
6.2k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
The untapped power of vector embeddings
frankvandijk
2
1.8k
Navigating Team Friction
lara
192
16k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
240
Typedesign – Prime Four
hannesfritz
42
3.1k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Optimising Largest Contentful Paint
csswizardry
37
3.7k
GitHub's CSS Performance
jonrohan
1033
470k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
200
Transcript
OpenAIの蒸留機能 (Model Distillation)を 使用して運用中の LLMのコストを削減する 取り組み 2024.12.12 #StudyCo
(C)PharmaX Inc. 2024 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust X:@ueeeeniki
(C)PharmaX Inc. 2024 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
自己紹介
(C)PharmaX Inc. 2024 All Rights Reserve 4 個人でも勉強会コミュニティ StudyCoも運営 自己紹介
(C)PharmaX Inc. 2024 All Rights Reserve 5 医療アドバイザーに体調 のことをいつでも気軽に相 談できる
相談型医療体験 30種類以上の漢方薬からあ なたに合ったものを月毎に 提案 パーソナライズ漢方薬 定期的に漢方をお届けし、 一人ひとりに寄り添うかか りつけ医療を提供 継続的なかかりつけ 一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」
(C)PharmaX Inc. 2024 All Rights Reserve 6 • リアルタイムAPI ◦
音声入力と音声出力をリアルタイムで処理する API • Vision Fine-tuning(画像のファインチューニング) ◦ GPT-4oを画像とテキストの両方でファインチューニングすることを可能にする機能 • Prompt Caching(プロンプトのキャッシュ化) ◦ 一度使用したプロンプトをキャッシュすることで、 API呼び出しのコストとレイテンシを削減する 機能 • Model Distillation(モデルの蒸留) ◦ 大規模なモデルの出力を使用して、より小型で効率的なモデルをファインチューニングする 機能 2024年10月のOpenAI DevDayでの発表 OpenAI DevDayでは下記の機能が発表されて大きな話題を呼んだ
(C)PharmaX Inc. 2024 All Rights Reserve 7 • 性能のいい安価なモデルに乗り換える ◦
ベンチマーク上の性能がよかったとしても再度プロンプトチューニングは必要になることも 多い • LLMの入出力結果をキャッシュして再利用する ◦ OpenAIやAnthropicが提供するPrompt Cachingを利用する • 高価なモデルの出力を使って安価なモデルをファインチューニング(蒸留)する ◦ OpenAIの利用規約では、同社のサービスから得られる出力を使用して、競合するモデル を開発することを禁止されてる → 公式にOpenAIがOpenAI同士のモデルであれば蒸留を認めた(推奨した) LLMのコスト削減の主要な方法 LLM使用のコストを下げる方法はいくつか存在する
(C)PharmaX Inc. 2024 All Rights Reserve 8 モデルへのベンダーロックインは発生する • PharmaXの実験では、他社も含め新しいモデルが出るたびに複数のプロンプトで実験するが、
GPTシリーズのスコアを”何故か”超えてこない ◦ プロンプトは変えていないので、我々の改善しているプロンプトが GPTシリーズに最適化さ れているからだと想定している ◦ 体感的には、ベンチマークで出ているスコアと自社のユースケースに当てはめたときのス コアは”あまり相関がない”ように感じる 実務的にはモデルへのロックインは想定しているよりも発生してしまうものだと感じている
(C)PharmaX Inc. 2024 All Rights Reserve 9 OpenAIのPrompt Cachingの紹介 共通部分がキャッシュされることで長いプロンプトではレイテンシを最大
80%、コストを50%削減 https://platform.openai.com/docs/guides/prompt-caching
(C)PharmaX Inc. 2024 All Rights Reserve 10 モデルへのベンダーロックインは発生する • 長いプロンプトではレイテンシを最大
80%、コストを50% ◦ 1,024トークンから、128トークンずつ適用 • OpenAIの主要モデルでは、自動的に適用 ◦ Anthropicは明示的に指示が必要かつ、キャッシュ書き込みがコストが 1.25倍のかわりに キャッシュ読み込みではコストが 1/10 • 通常5~10 分間操作が行われないとクリアされ、閑散期には最後に使用されてから 1時間以内 に削除される 実務的にはモデルへのロックインは想定しているよりも発生してしまうものだと感じている
(C)PharmaX Inc. 2024 All Rights Reserve 11 ファインチューニングしたモデルのコスト削減効果 gpt-4o-2024-08-06
$2.50 / 1M input tokens $10.00 / 1M output tokens gpt-4o-2024-05-13 $5.00 / 1M input tokens $15.00 / 1M output tokens gpt-4o-mini $0.150 / 1M input tokens $0.600 / 1M output tokens fine-tuned gpt-4o-mini $0.30 / 1M input tokens $1.20 / 1M output token ファインチューニングすることで劇的にコストを下げることができる 約1/10
(C)PharmaX Inc. 2024 All Rights Reserve 12 OpenAIの蒸留機能 DevDayで発表された蒸留機能を使えば、上位モデル出力で GPT-4miniなどの安価なモデルを蒸留できる
xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx outputは 修正できない
(C)PharmaX Inc. 2024 All Rights Reserve 13 蒸留したモデルでもデータセットに対して評価を実施 OpenAIのダッシュボード上で蒸留用に使ったデータと評価用のデータを分けて評価を実施可能 98%の精度で
上位モデルを再現 どこを間違えた のかを確認可能
(C)PharmaX Inc. 2024 All Rights Reserve 14 • OpenAIのダッシュボード上に簡単にデータを溜めて、そのデータを使って安価なモデルをファイ ンチューニング=蒸留することができる
◦ 現時点では、データを貯めることそのものには値段がかからない (※ 最新の公式ドキュメントをご確認ください) • 一方で、蓄積したデータのoutputを修正する機能は付いていないので、精度は元データを生成 した上位のモデルを超えることはない ◦ 上位モデルよりも精度も向上させたければ、 LangSmithのようにアノテーション機能を備 えたツールを使って出力を修正する必要がある ◦ データ数さえ確保できれば元データを生成した上位のモデル弱の精度にはなるので、すで に運用中のアプリケーションがあり、精度がミッションクリティカルでなければ、蒸留して安 価なモデルに置き換えて損はないのではないか 蒸留の運用まとめ OpenAIのネイティブの蒸留機能では、現時点では outputの修正は出来ないことに注意
None