2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇

AIエージェントが業務を代行するための計画と行動 2025/02/19 W&Bミートアップ #19 Shumpei Miyawaki (@catshun_)

お伝えしたいことは４つですドメインエキスパートを仲間につける改善サイクルをとにかく回す生成・行動結果を観測できるようにする 1. 2. 3.

カンパニー制のもと、さまざまなサービスを展開してます 4.

本日のお話は大体コレで全部資料は公開しているのでリラックスしてお聞きください

AIエージェントが業務を代行するための計画と行動 2025/02/19 W&Bミートアップ #19

使い手視点作り手視点タスク視点細かな指示がなしにタスクを代行してくれる Agentic-/Agentive AI LLMエージェント複合型AIシステム AIワークフロー
Agenticness f 環境の知覚・作行動系列の計画・実 y 外部資源による拡張・目標の複雑さ・環境の複雑さ・適応性・独立性今日お話しするAIエージェントの対象 6 『AIエージェント』は視点別によって解釈が異なる https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 追加資料

https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 7 詳しくは Algomatic Tech Blog をみてね追加資料

8 Agentic-/Agentive- AI System （使い手からみた AI エージェント）追加資料 https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 「細かな指示がなくても代わりにタスクを遂行してくれる」業務代行システム

9 LLM Agent（作り手からみた AI エージェント）追加資料 https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents

10 Agenticness（タスク視点からみた AI エージェント） https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 追加資料

人を増やさず営業成果を上げる apodori.ai

13 インサイドセールス × AIエージェント企業リストを渡すだけで自動でアポを獲得！ apodori.ai

待ってるだけで欲しい人材に出会える ai-recruiter.jp

14 採用業務 × AIエージェントカレンダーをあけて待っているだけで面談機会を創出！カレンダーをあけて待っているだけ！転職したいタイミングで 1to1メッセージが送られてくる人事担当は本質業務に
専念できる！ ai-recruiter.jp

今回はリクルタAI の開発を振り返り話を共有します

産総研, 『機械学習品質マネジメントガイドライン第4版』, 2023 AIプロダクト品質保証コンソーシアム (QA4AI), 『AIプロダクト品質保証ガイドライン 2024.04版』, 2024 経済産業省,
『AI事業者ガイドライン第1.0版』, 2024 佐藤氏, 小川氏, 來間氏, 明神氏, 『AIソフトウェアのテスト -- 答えのない答え合わせ [4つの手法]』, AI/Data Science実務選書, 2021 Christopher Noessel氏, 『Designing Agentive Technology. AI That Works for People』, 2017 Akihiro Ueno氏, 『LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説』, PharmaXテックブログ, 2024 Jeffrey Ip氏, 『LLM Testing in 2025: Top Methods and Strategies』, Confident AI Blog, 2025 Ito氏, Ogawa氏, Onabuta氏 (Microsoft), 『Step-by-Step MLOps and Microsoft Products』, 2024 辻氏 (AWS), 『機械学習ソフトウェアにおけるテスト手法』, 第36回MLOps勉強会, 2023 Citadel AI, 『Eval-Centric AI: 生成AI時代の新たなフレームワーク』, Citadel AI Blog, 2025 seya氏, 『自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方』, Gaudiy Tech Blog, 2024 Susumu Tokumoto氏, 『機械学習システムのためのメタモルフィックテスティング入門』, Qiita, 2018 nogawanogawa氏, 『RAGにおけるMetrics-Driven Developmentを調べる』, (Blog) Re:ゼロから始めるML生活, 2024 https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html https://github.com/qa4ai/Guidelines/blob/main/QA4AI_Guideline.202404.pdf https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20240419_report.html https://amzn.asia/d/cs5KrW8 https://a.co/d/4Qj1ss9 https://zenn.dev/pharmax/articles/2d07bf0498e212 https://www.confident-ai.com/blog/llm-testing-in-2024-top-methods-and-strategies https://speakerdeck.com/shisyu_gaku/step-by-step-mlops-and-microsoft-products https://speakerdeck.com/hitsuji1991/ml-software-test-metamorphic https://zenn.dev/asei/articles/vertex-ai-genai-evaluation https://techblog.gaudiy.com/entry/2024/10/22/105609 https://qiita.com/tokumoto/items/cd3d17cae3b099badaf6 https://www.nogawanogawa.com/entry/metrics_driven_development 18 本資料を読む前に参照されたい資料追加資料

業務代行前の必要なものを、必要なときに、必要なだけアシスタント実証基本的に現場課題は当事者にしか解決できない。ドメインエキスパートによるAI拡張 (Assistant) で業務改善を実証してからエージェント開発に取り組んだ。 19 業務代行までのロードマップ
オートメーションエージェントアシスタント実行主体が AI 実行主体がヒト業務代行レベルリクルタAI の開発当初、採用代行の 80% をヒトが担当していた

20 まずはアシスタントフェーズにおける業務代行をやってみるドメインエキスパート B業務ワーカ C業務ヒトが頑張る D業務ヒトが頑張る A業務ツールヒトが
AIツール/ワーカを動かす B業務ワーカ C業務ワーカ D業務ツール A業務ツールツール/ワーカを作り終えたら LLM に引き継いでいく業務代行エージェントを開発する前に、ドメインエキスパート×AI拡張による BPO で業務への効果を検証してみる

21 そもそも業務代行が実現できるレベル感って？システム品質データの完全性大田 - LLMプロダクトや機能を開発する際に知っておいてほしいこと - 従来のプロダクト開発との違い完成度
時間とりあえず作ってみた場合 LLMによって開発速度は上がった LLM により高速な開発ができるようになったものの、人的・経済的リスクへの対策、顧客への説明責任は時間をかけてでも確実に取り組むバランスを考慮しながら業務代行をめざすプロセスの俊敏性モデルの頑健性プロセスの俊敏性・モデルの頑健性・データの完全性・システム品質* のバランスが取れ、顧客期待値が適切である場合にエージェント化できる *AIプロダクト品質ガイドラインより  https://www.qa4ai.jp/download/

22 業務代行レベルを実現するには時間がかかる利用時に満たすべき品質システムが満たすべき品質 AI/ML 構成要素が固有にもつ品質外部品質利用者内部品質
内部品質 KPI 管理システム機械学習品質マネジメントガイドライン  https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html ⁨⁩外部品質内部品質リスク回避性 AIパフォーマンスセキュリティ公平性モデル品質プライバシーソフトウェア品質運用時品質設計品質データセット品質利用時品質

23 なんでも AIエージェントで代替してよい訳ではない機械学習品質マネジメントガイドライン  https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html 追加資料人的リスク・経済的リスクに応じて適切な提供方法を選択する AISL 1
を超える領域では AI エージェントを目指してはいけない

24 自動運転の例にみる業務代行レベル https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 追加資料自動運転の分野では６段階の業務代行レベルが定義されている AIエージェントにおいても代行対象に応じたプロダクトを提供することが求められる

評価前提の回す、回しまくる、とにかく回す改善サイクルエージェント開発では品質担保⁨⁩⁨⁩⁨⁩⁨⁩⁨⁩⁨⁩に時間をかける。技術の複雑さ・市場/現場に向き合って改善を継続させるため、開発ライフサイクルを循環させる反復的な評価が必要となる。 25 業務代行までの長期計画をどう登ったか？性能評価動作検証
ガードレールモデル選択プロンプト要求整理 KPI測定フィードフォワードモニタリング段階リリース A/Bテストテスト設計 Outer Loop Middle Loop Inner Loop 評価セット作成フィードバックモデル調整本番デプロイデータ収集ドメインエキスパートと一緒にプロダクトを前に進めるドメインエキスパートから意見を求める

26 なぜ改善サイクルを回し続けなければならないの？徐々に正解へと近づいていく要件の許容範囲時間とともに変化する顧客コンセプトに喰らいついていく開始地点開始地点
顧客の開始地点こうだと思っていたもの実際はこうだった要件の許容範囲品質評価の基準は運用してはじめて浮き彫りになることも多く、継続的に評価・改善のサイクルを回すことで要件の許容範囲へと収束させていく

27 ドメインエキスパートと二人三脚で開発をすすめるエンジニアが骨組みを担当採用担当の想い人事の経験則採用方針現役人事が肉づけを担当変数宣言指示文
テンプレート制約条件コンテキストプロンプトデザインドメインエキスパートのリアルタイムなフィードバックを開発サイクルに組み込むことでエンジニアがすばやく改善を重ねられるようにする

タスク接続部はガードレール設計観測可能にするエージェントは複数の作業間を接続することで成果に貢献するが連結をともなうことでエラー伝搬も発生しやすい。特に接続箇所ではガードレール等によるエラー追跡が重要で、プロパティチェックに加え、LLM を用いたチェックも有効となる。タスクA
タスクB タスクC タスクD 終了エラー箇所を追跡 28 信頼できるシステムを構築する D C B A ファネルごとに KPI を追跡

29 ガードレールとは？生成AIに対する入力をあらかじめ検査し、不適切な指示や悪意のあるプロンプトを遮断する役割を担う。AIが意図せず有害な回答を生成するリスクを大幅に低減し、安全かつ安心して利用できる環境を整える。 AIの知識ベースを外部の情報源と連携させ、常に正確で最新のデータを利用できるようにする役割を担う。情報の信頼度を高め、回答の正確性を向上させるとともに、利用シーンに応じた柔軟な対応を可能とする。生成AIそのものの学習モデルやパラメータを調整し、不要な情報やバイアスの混入を抑えるための制御を担う。AIの動作を最適化することで、利用者の意図に即した安全で公正な応答
を実現し、幅広い利用ケースに対応する。ゲートキーパー層ナレッジアンカー層パラメトリック層追加資料アプリケーションの動作を制御し、望ましくない結果や危険な状況を監視・制御するための一連の安全管理のしくみのこと Ayyamperumal and Ge, 2024 arxiv.org/abs/2406.12934

30 LLM をもちいた審査には様々な方法がある Gu, 2025 arxiv.org/abs/2411.15594 追加資料

32 LLM を用いたチェック追加資料 LLM はスコアの導出過程をよしなに推論できるが、複雑なコンテキストを前提とする現場業務では導出過程までオンボーディングするスコア
判定要件 Given question, answer and context verify if the context was in arriving at the given answer.   Give verdict as "1" if and "0" if not with json output. useful useful e.g. Ragas - Context Precision 指示文与えられた質問、回答、そしてコンテキストを用いて、回答に到達する際にそのコンテキストが有用だったかどうかを検証してください。有用であった場合は 1 、そうでなければ 0 をJSON形式で出力してください。 usefulness の導出過程を LLM に依存しているため LLM のバイアスが反映されたり、読解性能に依存してしまう可能性がある

スコア判定要件観点観点採点基準採点基準根拠の論理性基準の網羅性納得感
32 LLM へ過度に依存したチェックは避ける c 公平性や迎合性のバイアスに対する懸念を拭えない c 正しい判断がされているか不透明でありシステムを受け入れできない c LLM の回答根拠が「わたしの」現場状況と合致しないこの導出過程が正しくオンボーディングされないと、 LLM はスコアの導出過程をよしなに推論できるが、複雑なコンテキストを前提とする現場業務では導出過程までオンボーディングする

33 具体的な改善策につなげるための複数観点からのチェック現場の判断基準を反映しやすくユーザに納得感を提供しやすB 例えば「この文章は正確か？」という問いにおいて、「文章の正確さ」を説明させるより「ボロ」を見つける方が簡単生成された文章の意味的な特徴に着目生成された文章の
表層的な特徴に着目表記形式文法敬語自然性参照性追従性魅力 × × LLM によるチェックに正確性や説明性が求められる場合、現場業務の導出過程にもとづいた複数観点からの反証可能なチェック基準を設けるそれぞれの項目で高いチェック性能を担保できれば、AND 条件* により正確な判断が可能となる *参考: スイスチーズモデル (James Reason, 2000)

正常稼働をめざす精度検証 & 動作検証評価器の評価 Metric-driven な開発は、評価結果に基づいた改善をおこなうが運用とともに発生するデータや概念のドリフトにより、評価セットで高い性能を示す LLM
でも実環境で正常動作するとは限らない。 34 高いチェック性能はどうやって担保するか？評価器に対して (汎化性|頑健性) を担保する (性能評価|動作検証) のどちらも必要。

35 精度検証によってチェック機能の汎用性・信頼性を評価するどうやって正解データを収集するかヒトが判定した結果に基づいて、記述形式の多様性/不確実性* を確保しつつ慎重に収集収集したデータに対して LLM による審査を行い
ヒトの判定結果と適合率重視の F0.5 値で判定し、エラー分析判定結果どうやって性能を評価するかセクションA セクションB データ分布に従い多様性を確保評価データ件数 → 判定誤りは目でチェックする NG データに OK と判定した場合、  審査員プロンプトを改善して再度評価 ※ 評価の完全性を担保していくために、今後も長期的に運用体制を改善していく  　→ 運用ログから継続的に評価セットを収集して審査員 LLM の信頼を高める　→ 正解データの収集時に複数人による Inter-Annotator Agreement を実施する Input-00 Input-01 Input-02 Middle Loop におけるチェック性能の評価は、コールドスタートな場合が多く評価セットは慎重に収集する必要がある追加資料 *Active Learning (Settles, 2010) https://minds.wisconsin.edu/handle/1793/60660

36 動作検証をともなうバグ修正によって頑健なチェック機能をめざす Ribeiro et al., 2020 (ACL5 b 出力が変化しない範囲で出力が変化しなかったか
b 出力が変化するような出力が変化したか摂動を加え、実際に確認すp 摂動を加え、実際に確認する LLM 入力入力’ 摂動を伴う操作出力出力’ 想定出力操作による想定　比較対象　単体テストにおけるブラックボックステストが仕様に着目してバグを洗い出すように、 LLM も仕様に着目した動作検証をおこなうことで頑健性を担保する ¶ 言い換³ ¶ 単語置´ ¶ 文追加/削® ¶ etc...

楽しいエージェント開発ライフを！ https://x.com/catshun_

2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するため...

2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇

Shumpei Miyawaki

More Decks by Shumpei Miyawaki

Other Decks in Technology

Featured

Transcript

AIエージェントが業務を代行するための計画と行動 2025/02/19 W&Bミートアップ #19 Shumpei Miyawaki (@catshun_)

お伝えしたいことは４つですドメインエキスパートを仲間につける改善サイクルをとにかく回す生成・行動結果を観測できるようにする 1. 2. 3.

カンパニー制のもと、さまざまなサービスを展開してます 4.

本日のお話は大体コレで全部資料は公開しているのでリラックスしてお聞きください

AIエージェントが業務を代行するための計画と行動 2025/02/19 W&Bミートアップ #19

使い手視点作り手視点タスク視点細かな指示がなしにタスクを代行してくれる Agentic-/Agentive AI LLMエージェント複合型AIシステム AIワークフロー

https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 7 詳しくは Algomatic Tech Blog をみてね追加資料

8 Agentic-/Agentive- AI System （使い手からみた AI エージェント）追加資料 https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 「細かな指示がなくても代わりにタスクを遂行してくれる」業務代行システム

9 LLM Agent（作り手からみた AI エージェント）追加資料 https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents

10 Agenticness（タスク視点からみた AI エージェント） https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 追加資料

AIエージェントが業務を代行するための計画と行動 2025/02/19 W&Bミートアップ #19

人を増やさず営業成果を上げる apodori.ai

13 インサイドセールス × AIエージェント企業リストを渡すだけで自動でアポを獲得！ apodori.ai

待ってるだけで欲しい人材に出会える ai-recruiter.jp

14 採用業務 × AIエージェントカレンダーをあけて待っているだけで面談機会を創出！カレンダーをあけて待っているだけ！転職したいタイミングで 1to1メッセージが送られてくる人事担当は本質業務に

今回はリクルタAI の開発を振り返り話を共有します

AIエージェントが業務を代行するための計画と行動 2025/02/19 W&Bミートアップ #19

産総研, 『機械学習品質マネジメントガイドライン第4版』, 2023 AIプロダクト品質保証コンソーシアム (QA4AI), 『AIプロダクト品質保証ガイドライン 2024.04版』, 2024 経済産業省,

20 まずはアシスタントフェーズにおける業務代行をやってみるドメインエキスパート B業務ワーカ C業務ヒトが頑張る D業務ヒトが頑張る A業務ツールヒトが

21 そもそも業務代行が実現できるレベル感って？システム品質データの完全性大田 - LLMプロダクトや機能を開発する際に知っておいてほしいこと - 従来のプロダクト開発との違い完成度

22 業務代行レベルを実現するには時間がかかる利用時に満たすべき品質システムが満たすべき品質 AI/ML 構成要素が固有にもつ品質外部品質利用者内部品質

26 なぜ改善サイクルを回し続けなければならないの？徐々に正解へと近づいていく要件の許容範囲時間とともに変化する顧客コンセプトに喰らいついていく開始地点開始地点

27 ドメインエキスパートと二人三脚で開発をすすめるエンジニアが骨組みを担当採用担当の想い人事の経験則採用方針現役人事が肉づけを担当変数宣言指示文

30 LLM をもちいた審査には様々な方法がある Gu, 2025 arxiv.org/abs/2411.15594 追加資料

32 LLM を用いたチェック追加資料 LLM はスコアの導出過程をよしなに推論できるが、複雑なコンテキストを前提とする現場業務では導出過程までオンボーディングするスコア

スコア判定要件観点観点採点基準採点基準根拠の論理性基準の網羅性納得感

正常稼働をめざす精度検証 & 動作検証評価器の評価 Metric-driven な開発は、評価結果に基づいた改善をおこなうが運用とともに発生するデータや概念のドリフトにより、評価セットで高い性能を示す LLM

36 動作検証をともなうバグ修正によって頑健なチェック機能をめざす Ribeiro et al., 2020 (ACL5 b 出力が変化しない範囲で出力が変化しなかったか

楽しいエージェント開発ライフを！ https://x.com/catshun_