Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI Agentにおける評価指標とAgent GPA
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tsho
February 26, 2026
Technology
460
1
Share
AI Agentにおける評価指標とAgent GPA
第61回 MLOps 勉強会の発表です。AI Agentの評価指標であるAgent GPAの説明です。
tsho
February 26, 2026
More Decks by tsho
See All by tsho
20260321_エンベディングってなに?RAGってなに?エンベディングの説明とGemini Embedding 2 の紹介
tsho
0
220
Scale SciPy with jax.shard_map - jax.shard_mapで SciPy をスケール
tsho
0
130
Developer Advocate / Community Managerなるには?
tsho
0
760
25/04/12 - Build with AI Hands-on Appendix
tsho
1
82
Unit testしてますか?
tsho
1
670
Other Decks in Technology
See All in Technology
AsyncStreamでマルチブロードキャストを実装する
1mash0
1
180
TypeScriptで実現する既存APIを活用したリモートMCPサーバー構築 / TSKaigi 2026
soarteclab
1
180
JaSSTに関わることで変わった人生観 #jasstnano
makky_tyuyan
0
170
ルール・ロール・ツールを創る / Creating Rules, Roles and Tools
ks91
PRO
0
150
AI の技術 / AI technology
ks91
PRO
0
110
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.6k
Fラン学生が考える、AI時代のデザインに執着した突破口
husengs7
1
230
20260516_SecJAWS_Days
takuyay0ne
2
550
How to learn AWS Well-Architected with AWS BuilderCards: Security Edition
coosuke
PRO
0
200
コーポレートサイトのアクセシビリティ改善とJIS準拠への実践
lycorptech_jp
PRO
2
110
【2026年版】プロジェクトマネジメント実践論|現役エンジニアが語る!~チームでモノづくりをする時のコツとは?~
mixi_engineers
PRO
1
120
実践 TanStack Start ― 新規プロダクトを開発して確立した、サーバーとクライアント境界の設計パターン / Practical TanStack Start Server-Client Boundary Patterns
kaminashi
2
170
Featured
See All Featured
Being A Developer After 40
akosma
91
590k
Bash Introduction
62gerente
615
210k
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
62
54k
Chasing Engaging Ingredients in Design
codingconduct
0
190
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
180
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.5k
Code Reviewing Like a Champion
maltzj
528
40k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
120
A Soul's Torment
seathinner
6
2.8k
Google's AI Overviews - The New Search
badams
0
1k
Transcript
© 2026 Snowflake Inc. All Rights Reserved AI Agent における評価手法と
Agent GPA Sho Tanaka Feb 2026
© 2026 Snowflake Inc. All Rights Reserved AI/ML, Dataの登壇やデモ開発を担当 -
ex-Google gTech Ads, ML/Data - MLOps community 運営 (2020~) - Google Developer Expert, AI/ML tsho / 田中 翔 (Sho Tanaka) Linkedin.com/in/tsho Lead Developer Advocate @ Snowflake
© 2026 Snowflake Inc. All Rights Reserved AI Agentとは?
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved AI Agent の活用事例
メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活用 事例 - Speaker Deck コクヨ、ジンズなどがAIエージェント自社 開発 「Snowflake Intelligence」日本提 供
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved AIOpsは2016年ごろにガー トナーが定義したものもあ るので注意
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved 評価手法
© 2026 Snowflake Inc. All Rights Reserved AI Agent /
LLM による代表的な評価指標
© 2026 Snowflake Inc. All Rights Reserved 例:ADK の評価指標 Why
Evaluate Agents - Agent Development Kit (ADK) LLM-as-a-judge Final_response_match_v2, rubric_based_final_response_qual ity_v1 etc. Code-based / Deterministic コード・ルールベース/一致 tool_trajectory_avg_score Traditional NLP Metrics 従来の自然言語処理指標 response_match_score Human Evaluation 人間による評価 (機能として明示的な「指標」はない が、Web UI (Trace View) で支援)
© 2026 Snowflake Inc. All Rights Reserved Agent GPA と
TruLens
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved Agent GPA の論文
What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment
© 2026 Snowflake Inc. All Rights Reserved OSS としても提供中 https://github.com/truera/trulens
https://www.trulens.org/
© 2026 Snowflake Inc. All Rights Reserved https://www.trulens.org/getting_started/quickstarts/web-search-agent-evaluation/#10-add- evaluations
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved さいごに
© 2026 Snowflake Inc. All Rights Reserved Snowflake 上で Private
Preview として提供中 What’s Your Agent’s GPA? A Framework for Evaluating AI Agent Reliability
© 2026 Snowflake Inc. All Rights Reserved 参考
© 2026 Snowflake Inc. All Rights Reserved CS 329T: Trustworthy
Machine Learning
© 2026 Snowflake Inc. All Rights Reserved https://learn.deeplearning.ai/
© 2026 Snowflake Inc. All Rights Reserved THANK YOU