Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Reinforcement Fine-tuning 基礎〜実践まで

Avatar for Morita Morita
December 11, 2025

Reinforcement Fine-tuning 基礎〜実践まで

AWS re:Invent ふりかえり勉強会 クラスメソッド re:Growth 2025 福岡
https://classmethod.connpass.com/event/372977/

Avatar for Morita

Morita

December 11, 2025
Tweet

More Decks by Morita

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 • 所属 ◦ クラウド事業本部 コンサルティング部 • 好きなサービス ◦ Amazon

    Bedrock ◦ AWS Lambda • re:Invent ◦ 2回⽬の参加 ◦ PCディスプレイ破損した😇
  2. Reinforcement Fine-tuning in Amazon Bedrock Reinforcement Fine-tuningの特徴として • ベースモデルと⽐較して、平均66%の精度向上を実現 •

    深い機械学習(ML)の専⾨知識や、⼤規模なラベル付きデータセットは不要 • エンドツーエンドで⾃動化されたファインチューニング • 品質を維持しながら、より⼩さく、⾼速で、費⽤対効果の⾼いモデルを実現  
  3. Reinforcement Learning ゲームの場合でも • 様々な状態,⾏動, 結果があるため、⼈間では全てを把握することは難しい 強化学習では • 「様々な状態,⾏動, 結果」を表現することで最適な⾏動を選択できるようなる

    • 結果も数値で表現するため、 ◦ 良い結果の場合、プラス ◦ 悪い結果の場合、マイナス ◦ このように与える数値のことを報酬と呼びます
  4. Reinforcement Fine-tuning Reinforcement Fine-tuning (RFT) 「強化学習」の仕組みを LLM の学習(Fine-tuning)に適⽤ 先ほどのゲームの例では「クリアやスコア」が報酬 RFTにおいては「⼈間の評価」や「特定の基準」が報酬

    具体的には、モデルが⽣成した回答に対して、 「この回答は良い(報酬を与える)」「この回答は良くない(罰則を与える)」 というフィードバックを与える → 「より⾼い評価が得られる回答の作り⽅」を学習させることが可能
  5. 報酬関数 AI フィードバック • 選択できるAI(LLM) ◦ Nova Premier ◦ gpt-oss-120b

    • プロンプトのサンプルの提供あり ◦ Instruction following (Judge model training) ◦ Summarization (Multi-turn dialogs) ◦ Reasoning evaluation (CoT for specialized domains) ◦ RAG faithfulness (Context-grounded Q&A)
  6. Bedrock Reinforcement Fine-tuningのジョブ実⾏ • ジョブの時間単位 • (おそらく)関連リソースの料⾦も発⽣する ◦ 報酬関数(LLM, AWS

    Lambda) モデル推論 • カスタムモデルオンデマンド ◦ 利⽤したトークンベースの課⾦ ◦ ホスティング費⽤は発⽣しない 料⾦