Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AIエージェントの評価・改善サイクル
Search
PharmaX(旧YOJO Technologies)開発チーム
July 09, 2025
Technology
620
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
AIエージェントの評価・改善サイクル
PharmaX(旧YOJO Technologies)開発チーム
July 09, 2025
More Decks by PharmaX(旧YOJO Technologies)開発チーム
See All by PharmaX(旧YOJO Technologies)開発チーム
PdMによるLiveバイブコーディング〜プロトタイプ開発実践〜
pharma_x_tech
1
78
2025.10.28_CodexとClaude Codeの比較検討 社内座談会
pharma_x_tech
2
620
LLMのアウトプットの評価と改善 〜DSPyによるプロンプト最適化入門によせて〜
pharma_x_tech
6
1.2k
2025.09.02_AIコーディングを利用した開発自動化を目指しての座談会
pharma_x_tech
5
350
AIコーディングを前提にした開発プロセス再設計〜開発生産性向上に向けた試行錯誤〜
pharma_x_tech
4
440
MCP & Computer Useをフル活用した社内効率化事例〜現在地と将来の展望
pharma_x_tech
1
460
AIエージェントの継続的改善のためオブザーバビリティ
pharma_x_tech
7
2.6k
Roo CodeとClaude Code比較してみた
pharma_x_tech
5
6.3k
Roo Codeにすべてを委ねるためのルール運用
pharma_x_tech
1
1.5k
Other Decks in Technology
See All in Technology
人材育成分科会.pdf
_awache
4
260
Chainlitで作るお手軽チャットUI
ynt0485
0
260
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
21
7k
AIはどのように 組織のアジリティを変えるのか?
junki
3
920
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
130
中期計画、2回作ってみた ~業務委託と正社員、両方の視点から~
demaecan
1
880
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.1k
白金鉱業Meetup_Vol.24_「AIエージェントは分けるほど良い」は本当か? / Is it true that “the more you divide AI agents, the better”?
brainpadpr
1
390
【Snowflake Summit 2026 Recap!!】Snowflake Summit Deep Dive: Security & Governance
civitaspo
1
220
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
140
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
4
680
エラーバジェットのアラートのタイミングを考える.pdf
kairim0
0
150
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Fireside Chat
paigeccino
42
4k
The Pragmatic Product Professional
lauravandoore
37
7.3k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
The Curse of the Amulet
leimatthew05
1
13k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
180
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
140
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
400
Evolving SEO for Evolving Search Engines
ryanjones
0
220
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Transcript
2025.7.1 AIエージェントの評価・改善サイクル
(C)PharmaX Inc. 2025 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・CTO/AX事業部長
好きな料理はオムライスと白湯とコーラ マイブームは真夜中のVibe Coding X:@ueeeeniki
(C)PharmaX Inc. 2025 All Rights Reserve 3 個人でも勉強会コミュニティ StudyCoも運営
(C)PharmaX Inc. 2025 All Rights Reserve 4 自社としては LLMを中心に勉強会を月 1回程度開催
(C)PharmaX Inc. 2025 All Rights Reserve 5 StudyCo:7/10
(C)PharmaX Inc. 2025 All Rights Reserve 6 StudyCo:7/16
(C)PharmaX Inc. 2025 All Rights Reserve 7 AOAI Dev Day:7/18
(C)PharmaX Inc. 2025 All Rights Reserve 8 医療アドバイザーに体調 のことをいつでも気軽に相 談できる
相談型医療体験 30種類以上の漢方薬からあ なたに合ったものを月毎に 提案 パーソナライズ漢方薬 定期的に漢方をお届けし、 一人ひとりに寄り添うかか りつけ医療を提供 継続的なかかりつけ 一生涯にわたって寄り添うかかりつけ漢方薬局「 YOJO」
(C)PharmaX Inc. 2025 All Rights Reserve 9 患者向けチャットシステムと薬剤師向け管理画面を自作 患者とのスムーズなコミュニケーション 薬剤師向け管理画面
チャット形式での診断・相談・購入 患者向けチャットシステム
(C)PharmaX Inc. 2025 All Rights Reserve 10 YOJOで稼働する OTC医薬品相談 AIエージェント
患者さまからの一次対応をすべて AIエージェントが行う(裏側では 100近いのプロンプトが稼働) 基本的にはメッセージを自動送信し、必要があれば薬剤師に承認を求める 一次的な漢方選択や、こちらから送信する体調確認などもエージェントが自律的に作成 薬剤師に重要な 返信や判断の確認を依頼 一次的な漢方選択なども行う 薬剤師が返信する場合もある AIエージェント 薬剤師 ユーザー AIが人に指示をするような体験
(C)PharmaX Inc. 2025 All Rights Reserve 11 YOJOにおけるAgentic Workflow(フローエンジニアリング) ①
② ④ • ①ルールベースでLLM処理可能かを 判定 • ②LLMで会話を分類しLLM処理可能 かを判定 • ③LLMで次のフェーズに移るべきかど うかを判定 • ④LLMでメッセージを作成 • ⑤LLMで作成されたメッセージを評価 (LLM-as-a-Judge)し、一定の水準を 下回ったら再生成して、クリアしたもの のみをサジェストする 現時点では精度高く メッセージ提案できない ため薬剤師が対応 ③ ⑤ ※②〜⑤: GPT-4o
(C)PharmaX Inc. 2025 All Rights Reserve 12 LangGraphで実際に構築したグラフ ルール1 ルール2
LLM-メッセージ作成 _ 分類4 LLM-会話分類 LLM-メッセージ作成 _ 分類1 LLM-メッセージ作成 _ 分類2 LLM-メッセージ作成 _ 分類3 LLM-フェーズ切替 LangGraphで作成したグラフはmermaidで出力しテストにも使用している
(C)PharmaX Inc. 2025 All Rights Reserve 13 LangSmithによるトレーシング rule1 ①
② ③ ④ ⑤ ・・・ rule2 ④ ⑤ ① ② ④ ③ ⑤ ※②〜⑤: GPT-4o
(C)PharmaX Inc. 2025 All Rights Reserve 14 医療業界を横断する 2つの事業領域 YOJO
toC事業 BtoC/BtoB両事業でAIエージェントを実装することで患者満足度世界一の医療体験を実現 AX toB事業 “まだ誰も見たことのない ”10Xな医療体験の実現 既存医療インフラの AIによる劇的なアップデート
15 (C)PharmaX Inc. 2025 All Rights Reserve Agentic WorkflowとAIエージェント
(C)PharmaX Inc. 2025 All Rights Reserve 16 プロンプト内に タスクの計画ルールや 選択肢を明示する
Agentic Workflow(フローエンジニアリング)とは • Agentic WorkflowとはLLMの組み合わせをデザインし、目的とする処理系を作り上げること • 途中で人が対応することがあってもいい • Agentic Workflowのようにワークフローを組むパターンはエージェントと呼ばないのでは?という指摘もある 分類・計画 タスク タスクA タスクB タスクC タスクD タスクE タスクF 分岐 人の承認を挟む 途中から人が引き継ぐ 分類・計画結果に よって分岐させる
(C)PharmaX Inc. 2025 All Rights Reserve 17 プロンプト内に タスクの計画ルールや 選択肢を明示する
Agentic Workflow(フローエンジニアリング)の評価 分類・計画 タスク タスクA タスクB タスクC タスクD タスクE タスクF 分岐 人の承認を挟む 途中から人が引き継ぐ 各タスクごとに Outputを 評価する必要がある 分類・計画結果に よって分岐させる 処理系全体の 最終的な Outputも 評価する必要がある
18 (C)PharmaX Inc. 2025 All Rights Reserve LLMの評価
(C)PharmaX Inc. 2025 All Rights Reserve 19 出力の質の評価指標のパターン LLMアプリケーションの出力結果の評価という時にも、複数の評価指標を指すことがあるので注意 •
ヒューリスティックな自動評価では限界がある ◦ 「絵文字は2つまで」のようなレベルならルールベースで評価することも可能 ◦ 期待するアウトプットと実際のアウトプットを( embedding distanceやlevenshtein distanceで)比較してスコアリングすることはできる • LLMエージェントの出力の妥当性をLLMでスコアリング(合格/不合格判定)する LLM-as-a-Judgeも有効 ◦ 一般的な観点だけではなく、下記のようなアプリケーション独自の観点でも評価する必要が ある ▪ 自社の回答のライティングマニュアルに従っているか ▪ (VTuberなどが)キャラクター設定に合っているか
(C)PharmaX Inc. 2025 All Rights Reserve 20 評価用のプロンプトのイメージ LLMからのメッセージ提案を評価させるためのプロンプトを定義し、 LLMにLLMの評価をさせる
System あなた(assistant)には、別のassistant(chat-assistant)のメッ セージを評価していただきます。 ## chat-assistantの前提 chat-assistantの役割は、PharmaX株式会社のYOJOという サービスのかかりつけ薬剤師です。健康や漢方の専門家とし て、常にユーザーの感情に寄り添いアドバイスをします。 ...(略) User chat-assistantの最後の返答がどの程度下記の文章作成マニュ アルに従っているかで0〜100点のスコアを付けて下さい ## 文章のライティング方針 ・丁寧に対応する ・謝罪では絵文字を使わずに、文章だけで表現する ・難しい漢字はひらがなで書く ・細かい説明は箇条書きで書く ...(略) 評価用プロンプト
(C)PharmaX Inc. 2025 All Rights Reserve 21 リリース前には各タスク対してデータセットを用いた評価を実施 リリース前には各タスクごとに評価用のデータセットを作って評価し、十分な結果が得られたらリリース experiment6
experiment13 experiment12 experiment11 experiment10 experiment9 experiment7 LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 評価指標が向上 LLM-as-a-Judge Grand Truthとの距離
(C)PharmaX Inc. 2025 All Rights Reserve 22 プロンプトの変更前後での 評価スコアの変化をモニタリング リリース後の
LLM-as-a-Judgeでの評価結果を可視化 各LLM-as-a-Judgeのスコアを可視化することで、プロンプト変更による改善の可否を判断する
(C)PharmaX Inc. 2025 All Rights Reserve 23 リリース後に人手でアノテーションすることで本番環境での正答率も測定 xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 正解・不正解 /良し悪し を人手でチェック LangSmithのAnnotation Queuesに蓄積して正解・不正解をチェックすることで正答率が測定できる
(C)PharmaX Inc. 2025 All Rights Reserve 24 データセットに蓄積 LangSmith上で蓄積したデータセットは下記のように見ることができる inputと(あるべき
)outputのセット
(C)PharmaX Inc. 2025 All Rights Reserve 25 主要エージェントをファインチューニングし精度向上&コスト削減 蓄積したデータセットを用いて GPT-4o-miniなどの安価なモデルをファインチューニング
データセットを upload Base modelはgpt-4o-mini
(C)PharmaX Inc. 2025 All Rights Reserve 26 ファインチューニングしたモデルでもデータセットに対して評価を実施 ファインチューニング用に使ったデータと評価用のデータを分けて評価を実施 experiment6
experiment13 experiment12 experiment11 experiment10 experiment9 experiment7 LLM-as-a-Judge1 LLM-as-a-Judge2 LLM-as-a-Judge1 fine-tuned model 評価指標が向上 LLM-as-a-Judge Grand Truthとの距離
(C)PharmaX Inc. 2025 All Rights Reserve 27 プロンプト内に タスクの計画ルールや 選択肢を明示する
Agentic Workflow(フローエンジニアリング)のファインチューニング 分類・計画 タスク タスクA タスクB タスクC タスクD タスクE タスクF 分岐 人の承認を挟む 途中から人が引き継ぐ 分類・計画結果に よって分岐させる • 処理の計画や分岐を決める LLMが全体の精度を決める上で最も重要なので、重要なところから精度改善を 行うべき • 一方で、基本的にはプロンプトエンジニアリングで改善の努力をして、それでもダメならファインチューニング に手を出すというのが
28 (C)PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •
AXカンパニーのカンパニーCTO • AXカンパニーのPdM などを募集しております!! 医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました