Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するため...

2024.02.19 W&B AIエージェントLT会 / AIエージェントが業務を代行するための計画と実行 / Algomatic 宮脇

こちらの LT で登壇した資料になります。
https://wandb.connpass.com/event/343838/

Shumpei Miyawaki

February 17, 2025
Tweet

More Decks by Shumpei Miyawaki

Other Decks in Technology

Transcript

  1. 使い手視点 作り手視点 タスク視点 細かな指示がなしに タスクを代行してくれる Agentic-/Agentive AI LLMエージェント 複合型AIシステム AIワークフロー

    Agenticness f– 環境の知覚・作“ ’– 行動系列の計画・実 y– 外部資源による拡張 ・目標の複雑さ ・環境の複雑さ ・適応性 ・独立性 今日お話しするAIエージェントの対象 6 『AIエージェント』は視点別によって解釈が異なる https://tech.algomatic.jp/entry/agents/interpretation-of-ai-agents 追加資料
  2. 産総研, 『機械学習品質マネジメントガイドライン 第4版』, 2023 AIプロダクト品質保証コンソーシアム (QA4AI), 『AIプロダクト品質保証ガイドライン 2024.04版』, 2024 経済産業省,

    『AI事業者ガイドライン 第1.0版』, 2024 佐藤氏, 小川氏, 來間氏, 明神氏, 『AIソフトウェアのテスト -- 答えのない答え合わせ [4つの手法]』, AI/Data Science実務選書, 2021 Christopher Noessel氏, 『Designing Agentive Technology. AI That Works for People』, 2017 Akihiro Ueno氏, 『LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解説』, PharmaXテックブログ, 2024 Jeffrey Ip氏, 『LLM Testing in 2025: Top Methods and Strategies』, Confident AI Blog, 2025 Ito氏, Ogawa氏, Onabuta氏 (Microsoft), 『Step-by-Step MLOps and Microsoft Products』, 2024 辻氏 (AWS), 『機械学習ソフトウェアにおけるテスト手法』, 第36回MLOps勉強会, 2023 Citadel AI, 『Eval-Centric AI: 生成AI時代の新たなフレームワーク』, Citadel AI Blog, 2025 seya氏, 『自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方』, Gaudiy Tech Blog, 2024 Susumu Tokumoto氏, 『機械学習システムのためのメタモルフィックテスティング入門』, Qiita, 2018 nogawanogawa氏, 『RAGにおけるMetrics-Driven Developmentを調べる』, (Blog) Re:ゼロから始めるML生活, 2024 https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html https://github.com/qa4ai/Guidelines/blob/main/QA4AI_Guideline.202404.pdf https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20240419_report.html https://amzn.asia/d/cs5KrW8 https://a.co/d/4Qj1ss9 https://zenn.dev/pharmax/articles/2d07bf0498e212 https://www.confident-ai.com/blog/llm-testing-in-2024-top-methods-and-strategies https://speakerdeck.com/shisyu_gaku/step-by-step-mlops-and-microsoft-products https://speakerdeck.com/hitsuji1991/ml-software-test-metamorphic https://zenn.dev/asei/articles/vertex-ai-genai-evaluation https://techblog.gaudiy.com/entry/2024/10/22/105609 https://qiita.com/tokumoto/items/cd3d17cae3b099badaf6 https://www.nogawanogawa.com/entry/metrics_driven_development 18 本資料を読む前に参照されたい資料 追加資料
  3. 20 まずはアシスタントフェーズにおける業務代行をやってみる ドメインエキスパート B業務ワーカ C業務 ヒトが頑張る D業務 ヒトが頑張る A業務ツール ヒトが

    AIツール/ワーカ を動かす B業務ワーカ C業務ワーカ D業務ツール A業務ツール ツール/ワーカを作り終えたら LLM に引き継いでいく 業務代行エージェントを開発する前に、 ドメインエキスパート×AI拡張による BPO で業務への効果を検証してみる
  4. 21 そもそも業務代行が実現できるレベル感って? システム品質 データの完全性 大田 - LLMプロダクトや機能を開発する際に知っておいてほしいこと - 従来のプロダクト開発との違い 完成度

    時間 とりあえず作ってみた場合 LLMによって開発速度は上がった LLM により高速な開発ができるようになったものの、 人的・経済的リスクへの対策、顧客への説明責任は時間をかけてでも確実に取り組む バランスを考慮しながら 業務代行をめざす プロセスの俊敏性 モデルの頑健性 プロセスの俊敏性・モデルの頑健性・データの完全性・システム品質* の バランスが取れ、顧客期待値が適切である 場合にエージェント化できる *AIプロダクト品質ガイドラインより
 https://www.qa4ai.jp/download/
  5. 22 業務代行レベルを実現するには時間がかかる 利用時に満たすべき品質 システムが 満たすべき品質 AI/ML 構成要素が固有にもつ品質 外部品質 利用者 内部品質

    内部品質 KPI 管理 システム 機械学習品質マネジメントガイドライン
 https://www.digiarc.aist.go.jp/publication/aiqm/guideline-rev4.html ⁨⁩外部品質 内部品質 リスク回避性 AIパフォーマンス セキュリティ 公平性 モデル品質 プライバシー ソフトウェア品質 運用時品質 設計品質 データセット品質 利用時品質
  6. 評価前提の 回す、回しまくる、とにかく回す 改善サイクル エージェント開発では品質担保⁨⁩⁨⁩⁨⁩⁨⁩⁨⁩⁨⁩に時間をかける。 技術の複雑さ・市場/現場に向き合って改善を継続させるため、 開発ライフサイクルを循環させる反復的な評価が必要となる。 25 業務代行までの長期計画をどう登ったか? 性能評価 動作検証

    ガードレール モデル選択 プロンプト 要求整理 KPI測定 フィードフォワード モニタリング 段階リリース A/Bテスト テスト設計 Outer Loop Middle Loop Inner Loop 評価セット作成 フィードバック モデル調整 本番デプロイ データ収集 ドメインエキスパートと 一緒にプロダクトを前に進める ドメインエキスパート から意見を求める
  7. 26 なぜ改善サイクルを回し続けなければならないの? 徐々に正解へと 近づいていく 要件の許容範囲 時間とともに変化する 顧客コンセプトに 喰らいついていく 開始地点 開始地点

    顧客の開始地点 こうだと思っていたもの 実際はこうだった 要件の許容範囲 品質評価の基準は運用してはじめて浮き彫りになる ことも多く、 継続的に評価・改善のサイクルを回すことで要件の許容範囲へと収束させていく
  8. 27 ドメインエキスパートと二人三脚で開発をすすめる エンジニア が骨組みを担当 採用担当の想い 人事の経験則 採用方針 現役人事が肉づけを担当 変数宣言 指示文

    テンプレート 制約条件 コンテキスト プロンプトデザイン ドメインエキスパートのリアルタイムなフィードバックを開発サイクルに組み込む ことで エンジニアがすばやく改善を重ねられるようにする
  9. 32 LLM を用いたチェック 追加資料 LLM はスコアの導出過程をよしなに推論できる が、 複雑なコンテキストを前提とする現場業務では 導出過程までオンボーディングする スコア

    判定要件 Given question, answer and context verify if the context was in arriving at the given answer. 
 Give verdict as "1" if and "0" if not with json output. useful useful e.g. Ragas - Context Precision 指示文 与えられた質問、回答、そしてコンテキストを用いて、回答に到達する際にそのコンテキストが有用だったか どうかを検証してください。有用であった場合は 1 、そうでなければ 0 をJSON形式で出力してください。 usefulness の導出過程を LLM に依存しているため LLM のバイアスが反映されたり、読解性能に依存してしまう可能性がある
  10. スコア 判定要件 観点 観点 採点基準 採点基準 根拠の論理性 基準の 網羅性 納得感

    32 LLM へ過度に依存したチェックは避ける c 公平性や迎合性のバイアスに対する懸念を拭えない c 正しい判断がされているか不透明でありシステムを受け入れできない c LLM の回答根拠が「わたしの」現場状況と合致しない この導出過程が正しくオンボーディングされないと、 LLM はスコアの導出過程をよしなに推論できるが、 複雑なコンテキストを前提とする現場業務では 導出過程までオンボーディングする
  11. 33 具体的な改善策につなげるための複数観点からのチェック ƒ 現場の判断基準を反映しやすくユーザに納得感を提供しやすB ƒ 例えば「この文章は正確か?」という問いにおいて、「文章の正確さ」を説明させるより「ボロ」を見つける方が簡単 生成された文章の 意味的な特徴 に着目 生成された文章の

    表層的な特徴 に着目 表記 形式 文法 敬語 自然性 参照性 追従性 魅力 × × LLM によるチェックに正確性や説明性が求められる場合、 現場業務の導出過程にもとづいた複数観点からの反証可能なチェック基準 を設ける それぞれの項目で高いチェック性能を担保できれば、AND 条件* により正確な判断が可能となる *参考: スイスチ ーズモデル (James Reason, 2000)
  12. 正常稼働をめざす 精度検証 & 動作検証 評価器の評価 Metric-driven な開発は、評価結果に基づいた改善をおこなうが 運用とともに発生するデータや概念のドリフトにより、 評価セットで高い性能を示す LLM

    でも実環境で正常動作するとは限らない。 34 高いチェック性能はどうやって担保するか? 評価器に対して (汎化性|頑健性) を担保する (性能評価|動作検証) のどちらも必要。
  13. 35 精度検証によってチェック機能の汎用性・信頼性を評価する どうやって正解データを収集するか ヒトが判定した結果に基づいて、 記述形式の 多様性/不確実性* を確保しつつ慎重に収集 収集したデータに対して LLM による審査を行い

    ヒトの判定結果と適合率重視の F0.5 値で判定し、エラー分析 判定結果 どうやって性能を評価するか セクションA セクションB データ分布に従い 多様性を確保 評価データ件数 → 判定誤りは目でチェックする NG データに OK と判定した場合、
 審査員プロンプトを改善して再度評価 ※ 評価の完全性を担保していくために、今後も長期的に運用体制を改善していく
  → 運用ログから継続的に評価セットを収集して審査員 LLM の信頼を高める  → 正解データの収集時に複数人による Inter-Annotator Agreement を実施する Input-00 Input-01 Input-02 Middle Loop におけるチェック性能の評価は、コールドスタートな場合が多く 評価セットは慎重に収集する必要がある 追加資料 *Active Learning (Settles, 2010) https://minds.wisconsin.edu/handle/1793/60660
  14. 36 動作検証をともなうバグ修正によって頑健なチェック機能をめざす Ribeiro et al., 2020 (ACL5 b 出力が変化しない範囲で 出力が変化しなかったか

    b 出力が変化するような 出力が変化したか 摂動を加え、実際に 確認すp 摂動を加え、実際に 確認する LLM 入力 入力’ 摂動を伴う操作 出力 出力’ 想定出力 操作による想定   比較対象  単体テストにおけるブラックボックステストが仕様に着目してバグを洗い出すように、 LLM も仕様に着目した動作検証をおこなう ことで頑健性を担保する ¶ 言い換³ ¶ 単語置´ ¶ 文追加/削® ¶ etc...