Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AI Agentにおける評価指標とAgent GPA
Search
tsho
February 26, 2026
Technology
480
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AI Agentにおける評価指標とAgent GPA
第61回 MLOps 勉強会の発表です。AI Agentの評価指標であるAgent GPAの説明です。
tsho
February 26, 2026
More Decks by tsho
See All by tsho
20260321_エンベディングってなに?RAGってなに?エンベディングの説明とGemini Embedding 2 の紹介
tsho
0
230
Scale SciPy with jax.shard_map - jax.shard_mapで SciPy をスケール
tsho
0
140
Developer Advocate / Community Managerなるには?
tsho
0
790
25/04/12 - Build with AI Hands-on Appendix
tsho
1
89
Unit testしてますか?
tsho
1
670
Other Decks in Technology
See All in Technology
SONiCの統計情報を取得したい
sonic
0
190
Claude Codeをどのように キャッチアップしているか
oikon48
13
8.3k
SONiCのLinuxベースを活かしたZabbix監視
sonic
0
190
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
1.2k
iAEONの段階的リアーキテクト戦略 / iAEON's_Gradual_Re-architecture_Strategy
aeonpeople
0
210
自宅LLMの話
jacopen
1
600
Claude Codeとのおしゃべりでセマンティックモデルの定義からダッシュボード作成まで完成させる
nic_sugiyama
0
120
SONiCで構築・運用する生成AI向けパブリッククラウドネットワーク ~実装編~
sonic
0
240
マルチアカウント環境での コーディングエージェントを使った障害調査が大変なので AIエージェントにReadOnly権限を付与してみた / ReadOnly AI Agents for Multi-Account AWS Incident Response
yamaguchitk333
2
110
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
190
Snowflakeと仲良くなる第一歩
coco_se
4
490
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
190
Featured
See All Featured
Game over? The fight for quality and originality in the time of robots
wayneb77
1
200
Are puppies a ranking factor?
jonoalderson
1
3.6k
My Coaching Mixtape
mlcsv
0
150
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
560
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Marketing to machines
jonoalderson
1
5.5k
Designing for humans not robots
tammielis
254
26k
Deep Space Network (abreviated)
tonyrice
0
170
Transcript
© 2026 Snowflake Inc. All Rights Reserved AI Agent における評価手法と
Agent GPA Sho Tanaka Feb 2026
© 2026 Snowflake Inc. All Rights Reserved AI/ML, Dataの登壇やデモ開発を担当 -
ex-Google gTech Ads, ML/Data - MLOps community 運営 (2020~) - Google Developer Expert, AI/ML tsho / 田中 翔 (Sho Tanaka) Linkedin.com/in/tsho Lead Developer Advocate @ Snowflake
© 2026 Snowflake Inc. All Rights Reserved AI Agentとは?
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved AI Agent の活用事例
メルカリにおけるデータアナリティクス AI エージェント「Socrates」と ADK 活用 事例 - Speaker Deck コクヨ、ジンズなどがAIエージェント自社 開発 「Snowflake Intelligence」日本提 供
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved AIOpsは2016年ごろにガー トナーが定義したものもあ るので注意
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved 評価手法
© 2026 Snowflake Inc. All Rights Reserved AI Agent /
LLM による代表的な評価指標
© 2026 Snowflake Inc. All Rights Reserved 例:ADK の評価指標 Why
Evaluate Agents - Agent Development Kit (ADK) LLM-as-a-judge Final_response_match_v2, rubric_based_final_response_qual ity_v1 etc. Code-based / Deterministic コード・ルールベース/一致 tool_trajectory_avg_score Traditional NLP Metrics 従来の自然言語処理指標 response_match_score Human Evaluation 人間による評価 (機能として明示的な「指標」はない が、Web UI (Trace View) で支援)
© 2026 Snowflake Inc. All Rights Reserved Agent GPA と
TruLens
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved Agent GPA の論文
What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment
© 2026 Snowflake Inc. All Rights Reserved OSS としても提供中 https://github.com/truera/trulens
https://www.trulens.org/
© 2026 Snowflake Inc. All Rights Reserved https://www.trulens.org/getting_started/quickstarts/web-search-agent-evaluation/#10-add- evaluations
© 2026 Snowflake Inc. All Rights Reserved
© 2026 Snowflake Inc. All Rights Reserved さいごに
© 2026 Snowflake Inc. All Rights Reserved Snowflake 上で Private
Preview として提供中 What’s Your Agent’s GPA? A Framework for Evaluating AI Agent Reliability
© 2026 Snowflake Inc. All Rights Reserved 参考
© 2026 Snowflake Inc. All Rights Reserved CS 329T: Trustworthy
Machine Learning
© 2026 Snowflake Inc. All Rights Reserved https://learn.deeplearning.ai/
© 2026 Snowflake Inc. All Rights Reserved THANK YOU