Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Strands Agents Evals SDK 試してみた ~ Experiment Ge...
Search
xthixsl_ml
January 23, 2026
42
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Strands Agents Evals SDK 試してみた ~ Experiment Generator編 ~
xthixsl_ml
January 23, 2026
More Decks by xthixsl_ml
See All by xthixsl_ml
State-Aware RAGをAmazon Bedrock とAmazon S3 Vectorsで再現してみた
xthixsl_ml
1
48
制限付きRAGを試してみた
xthixsl_ml
0
29
MLモデル実装にStrategy パターンを導入してみた
xthixsl_ml
0
120
Vibe ML Model Training, Tracking and Kaizen
xthixsl_ml
0
47
TorchServeからFastAPIにした話
xthixsl_ml
0
36
全部をAIエージェントにしない設計: AWS Step Functions × Amazon Bedrock AgentCore × Strands Agents Multiagent Graphで不確実性を考慮するワークフロー
xthixsl_ml
0
220
BentoML使ってみた
xthixsl_ml
0
65
社内AIハッカソンでAmazon Bedrock AgentCore 使ってみた
xthixsl_ml
2
240
新卒エンジニアが挑む、AWS Knowledge MCP Serverを活用したキャッチアップ術
xthixsl_ml
0
70
Featured
See All Featured
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
160
Speed Design
sergeychernyshev
33
1.8k
We Have a Design System, Now What?
morganepeng
55
8.2k
For a Future-Friendly Web
brad_frost
183
10k
Designing Powerful Visuals for Engaging Learning
tmiket
1
410
Thoughts on Productivity
jonyablonski
76
5.2k
KATA
mclloyd
PRO
35
15k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
230
Automating Front-end Workflow
addyosmani
1370
210k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Transcript
©Fusic Co., Ltd. 0 Strands Agents Evals SDK 試してみた ~
Experiment Generator編 ~ 2026.01.24 佐藤 礼央奈 X: @xthixsl_ml JAWS-UG福岡 #23 re:Invent re:Cap!!
©Fusic Co., Ltd. 1 自己紹介 はじめに 佐藤 礼央奈 R E
O N A S AT O 株式会社Fusic エンジニア 東京の大学を卒業。在学中にエンジニアとして3社で約2年半の長期イン ターンを経験。機械学習や生成AIの研究開発に携わる中で、MLモデルの 本番運用に興味を持ちMLOpsに関心を深める。生成AIも取り入れた開発 や、AWSパートナー企業での経験から、同領域に強みを持つFusicに魅力 を感じ、2025年に新卒入社。
©Fusic Co., Ltd. 2 1. Strands Agents Evalsとは 2. Experiment
Generatorとは 3. 使ってみた 4. まとめ
©Fusic Co., Ltd. 3 Strands Agents Evalsとは 1
©Fusic Co., Ltd. 4 1. Strands Agents Evalsとは サブタイトル •
Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 機能 何ができるか OutputEvaluator ルーブリックに基づき、エージェントの回答品質をLLMで自動評価する TrajectoryEvaluator ツール使用の選択・順序(trajectory)の妥当性を自動評価する HelpfulnessEvaluator 回答の「役立ち度」を7段階で自動評価する Custom Evaluator 独自ロジックの評価指標(Evaluator)を追加して評価できる Experiment Generator 文脈からテストケース(+評価器)をLLMで自動生成し、評価まで実行でき る Serialization Experimentと評価結果(Report)をJSONで保存・復元できる
©Fusic Co., Ltd. 5 1. Strands Agents Evalsとは サブタイトル •
Strands Agentsに追加されたAIエージェント評価を行うためのSDKです。AIエージェントの出力品質 やツール使用パターンを自動評価できます。 今回はExperiment Generator
©Fusic Co., Ltd. 6 Experiment Generatorとは 2
©Fusic Co., Ltd. 7 2. Experiment Generatorとは サブタイトル • Experiment
Generatorはテストケースと評価基準をLLMで自動生成することができます。
©Fusic Co., Ltd. 8 2. Experiment Generatorとは サブタイトル テストデータ作成するのが面倒なあなたにおすすめです •
Experiment Generatorはテストケースと評価基準をLLMで自動生成することができます。
©Fusic Co., Ltd. 9 使ってみた 3
©Fusic Co., Ltd. 10 3. 使ってみた サブタイトル ※Importは省略してます。ブログへ
©Fusic Co., Ltd. 11 3. 使ってみた サブタイトル
©Fusic Co., Ltd. 12 3. 使ってみた サブタイトル 1. テストケースの作成 2.
テストの評価
©Fusic Co., Ltd. 13 まとめ 4
©Fusic Co., Ltd. 14 まとめ Strands Agents Evals SDKの概要を説明しました。 Experiment
Generatorを使うと簡単にテストケースが作成可能に。 Point.01 Point.02 Experiment Generatorのテストケースはテスト・回答があっているか注意が必要 Point.03
©Fusic Co., Ltd. 15 Thank You We are Hiring! https://recruit.fusic.co.jp/
ご清聴いただきありがとうございました