Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Reinforcement Fine-tuning 基礎〜実践まで
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Morita
December 11, 2025
Technology
0
290
Reinforcement Fine-tuning 基礎〜実践まで
AWS re:Invent ふりかえり勉強会 クラスメソッド re:Growth 2025 福岡
https://classmethod.connpass.com/event/372977/
Morita
December 11, 2025
Tweet
Share
More Decks by Morita
See All by Morita
FSx for Lustreを使ったAIモデル開発の始め方
ch6noota
0
120
Dify で AWS を使い倒す!
ch6noota
1
970
DeepSeek for Amazon Bedrock
ch6noota
0
87
5分で学ぶ! 宣言型ポリシーの基礎からベストプラクティスまで
ch6noota
1
610
新機能 Bedrock Model Distillation 基礎〜実践まで #regrowth_fuk
ch6noota
0
700
AWS を使った生成AIの活用
ch6noota
0
870
AWS初めての方必見!初学者でも入りやすいAWSサービス3選 #devio2022
ch6noota
0
1.4k
Security Hub のマルチアカウント 管理・運用をサーバレスでやってみる
ch6noota
0
3.8k
NITKハッカソン クラウド入門
ch6noota
0
1k
Other Decks in Technology
See All in Technology
マイグレーションガイドに書いてないRiverpod 3移行話
taiju59
0
330
20260222ねこIoTLT ねこIoTLTをふりかえる
poropinai1966
0
310
俺の失敗を乗り越えろ!メーカーの開発現場での失敗談と乗り越え方 ~ゆるゆるチームリーダー編~
spiddle
0
410
Claude Cowork Plugins を読む - Skills駆動型業務エージェント設計の実像と構造
knishioka
0
190
トラブルの大半は「言ってない」x「言ってない」じゃねーか!!
ichimichi
0
220
失敗できる意思決定とソフトウェアとの正しい歩き方_-_変化と向き合う選択肢/ Designing for Reversible Decisions
soudai
PRO
8
1.4k
Master Dataグループ紹介資料
sansan33
PRO
1
4.4k
ヘルシーSRE
tk3fftk
2
200
AI Coding Agentの地殻変動 ~ ai-coding.info の定点観測 ~
kotauchisunsun
1
490
OCI技術資料 : 外部接続 VPN接続 詳細
ocise
1
10k
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
14k
opsmethod第1回_アラート調査の自動化にむけて
yamatook
0
330
Featured
See All Featured
Building Applications with DynamoDB
mza
96
6.9k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
150
A better future with KSS
kneath
240
18k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.3k
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
110
The Cult of Friendly URLs
andyhume
79
6.8k
GraphQLの誤解/rethinking-graphql
sonatard
75
11k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
89
How to Ace a Technical Interview
jacobian
281
24k
ラッコキーワード サービス紹介資料
rakko
1
2.5M
Darren the Foodie - Storyboard
khoart
PRO
3
2.7k
Transcript
2025/12/11 クラウド事業本部 コンサルティング部 森⽥⼒ Reinforcement Fine-tuning 基礎〜実践まで
⾃⼰紹介 • 所属 ◦ クラウド事業本部 コンサルティング部 • 好きなサービス ◦ Amazon
Bedrock ◦ AWS Lambda • re:Invent ◦ 2回⽬の参加 ◦ PCディスプレイ破損した😇
AWS re:Invent 2025 - Dr. Swami Sivasubramanian
Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として • ベースモデルと⽐較して、平均66%の精度向上を実現 •
深い機械学習(ML)の専⾨知識や、⼤規模なラベル付きデータセットは不要 • エンドツーエンドで⾃動化されたファインチューニング • 品質を維持しながら、より⼩さく、⾼速で、費⽤対効果の⾼いモデルを実現
Reinforcement?
Reinforcement Learning Reinforcement … Reinforcement Learning(強化学習) 強化学習は、端的に⾔うと「最適な⾏動や戦略を学習する⼿法」 ⾝近な例:ゲームをする場合
ゲームに対しての攻略⽅法がわからない ユーザが取れる⾏動: • 攻撃する • 移動する など → 様々な⾏動を試して、試⾏錯誤を⾏う Reinforcement
Learning
⾏動の結果がわかる 結果: • 勝つ • 負ける など この結果と⾏動を紐づけて考える 例:攻撃すると勝つ、移動すると負ける Reinforcement
Learning
Reinforcement Learning ゲームの場合でも • 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい 強化学習では • 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる
• 結果も数値で表現するため、 ◦ 良い結果の場合、プラス ◦ 悪い結果の場合、マイナス ◦ このように与える数値のことを報酬と呼びます
Reinforcement Fine-tuningについて
Reinforcement Fine-tuning Reinforcement Fine-tuning (RFT) 「強化学習」の仕組みを LLM の学習(Fine-tuning)に適⽤ 先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬
具体的には、モデルが⽣成した回答に対して、 「この回答は良い(報酬を与える)」「この回答は良くない(罰則を与える)」 というフィードバックを与える → 「より⾼い評価が得られる回答の作り⽅」を学習させることが可能
Reinforcement Fine-tuning
Bedrock Reinforcement Fine-tuningについて
Bedrock Reinforcement Fine-tuning 以下を設定するだけで Reinforcement Fine-tuning を実⾏可能 • ソースモデル •
⼊⼒データ • 報酬関数
ソースモデル 現在は、「Nova 2 Lite」のみの対応 https://dev.classmethod.jp/articles/amazon-nova-2-lite-release-aws-reinvent/
⼊⼒データ • OpenAI chat completions format(JSONL) • モデル呼び出しログ
報酬関数 AI フィードバック • AI(LLM)を⽤いて評価する⽅法 • AIにどのようなケースでどのような報酬を与えるかをプロンプトとして与えるこ とで、回答をより柔軟に評価することが可能となる
報酬関数 AI フィードバック • 選択できるAI(LLM) ◦ Nova Premier ◦ gpt-oss-120b
• プロンプトのサンプルの提供あり ◦ Instruction following (Judge model training) ◦ Summarization (Multi-turn dialogs) ◦ Reasoning evaluation (CoT for specialized domains) ◦ RAG faithfulness (Context-grounded Q&A)
報酬関数 検証可能な報酬 • 報酬関数を事前にルールベースで定義 • コード⽣成や数学的推論では、以下のように明確な正解が存在する ◦ エラーなく実⾏できるか ◦ 計算結果が合っているか
• このようなケースでは、AIモデルを⽤いるよりルールベースで与えたほうが、 より正確で効率的な学習が可能になります。
報酬関数 検証可能な報酬 • AWS Lambdaで設定可能 • Lambdaのサンプル提供あり ◦ Format &
constraints checker ◦ Math reasoning
結論: 「⼊⼒データ」だけ準備すればOK
Bedrock Reinforcement Fine-tuningのジョブ実⾏ • ジョブの時間単位 • (おそらく)関連リソースの料⾦も発⽣する ◦ 報酬関数(LLM, AWS
Lambda) モデル推論 • カスタムモデルオンデマンド ◦ 利⽤したトークンベースの課⾦ ◦ ホスティング費⽤は発⽣しない 料⾦
まとめ • 従来まで構成が難しい Reinforcement Fine-tuning が Bedrockで実現可能に • ⼩規模モデルで精度が満⾜できていなかったケースでも採⽤できる可能性あり •
作成したモデルも従量課⾦で利⽤できるため、スモールに開始できる
None