Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layer...

「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026

2026年6月8日 AI Engineering Summit Tokyo 2026 (https://ai-engineering-summit-tokyo.findy-tools.io/2026-summer) における発表資料です。

LayerXのバクラクは、「人が操作するSaaS」から「仕事の完了そのものを届けるAIエージェント」へと進化しました。この変化は、従来のSaaS開発、あるいは機械学習モデル・LLM活用プロダクトの延長だけでは到達できません。本セッションでは、申請承認業務を完了させる申請レビューエージェントなど、実際にリリース・運用している事例を題材に、AIエージェントに仕事を任せる際の判断軸、AI-BPOを起点としたHITL設計、性能評価のアプローチ、そして100%の精度ではないAIエージェントを安心してお使いいただくためのプロダクト体験設計まで、本番運用フェーズの実践知を紹介します。

Avatar for Yuya Matsumura

Yuya Matsumura

June 08, 2026

More Decks by Yuya Matsumura

Other Decks in Technology

Transcript

  1. © LayerX Inc. 2 バクラク事業部 AI‧機械学習部 部⻑ / 機械学習エンジニア 経歴

    2018/03 京都⼤学⼤学院 情報学研究科 修⼠課程修了 画像を入れてね ⾃⼰紹介 松村 優也 ⼀⼈⽬データサイエンティストとして推薦システム開発チームの⽴ち上げなど 2018/04 ウォンテッドリー株式会社 ⼊社 退職後は機械学習領域の技術顧問に就任 AI-OCRなど機械学習技術を活⽤したプロダクト開発に広く従事 2022/10 株式会社LayerX ⼊社 バクラク事業部 その他、⼤学にて⾮常勤講師や スタートアップの技術⽀援等 Yuya Matsumura 共著者 @yu__ya4 現在はAI‧機械学習部 部⻑としてAI戦略の策定や、 AIエージェントプロダクトの新規⽴ち上げなどを担当
  2. © LayerX Inc. 11 バクラクAIエージェントが⽬指すもの たとえば、出張予定をカレンダーに登録すると出張に伴う業務が完了している 「気づいたら仕事が終わっている」体験 出張予定が カレンダーに登録 バクラク

    Aエージェント 出張内容をもとに 事前の出張申請を作成 ユーザー 確認 業務の遂⾏ 承認 トリガー 社内規定に沿った 交通⼿段や宿泊施設を⼿配 出張期間中の経費精算など 事後の申請を作成
  3. © LayerX Inc. 12 バクラクAIエージェントが⽬指すもの 仕事の主体はあくまで⼈間 従来のチャット起点の汎⽤Agentの限界 チャットで 依頼 ⼈間

    エージェント が実⾏ 汎⽤AIエージェント 仕事完了 汎⽤Agent 仕事が始まらない‧並列数が増えない‧効果的に頼めない あらゆる業務のコンテキストをひとつのAgentに詰め込むのは⾮効率であり、性能にも影響あり
  4. © LayerX Inc. 13 バクラクAIエージェントが⽬指すもの 業務ごとに特化したAIエージェントが主体となり、⾃律的に仕事が完了している。 バクラクが⽬指す Ambient Agent ⼈間

    メール通知 フィードバックを もとに精度向上 出張⼿続きが⾃動で完了 承認作業が⾃動で完了 請求書処理が⾃動で完了 スケジュール登録 業務の⾃動化 サイクル イベント検知 仕事完了 領収書アップロード 業務ごとに特化した AIエージェント 必要に応じて ⼈に確認 ⾃律的に判断‧実⾏ 確認‧修正‧承認 Ambient Agent
  5. © LayerX Inc. 22 バクラク申請レビューエージェントの開発‧運⽤を通した学び 部分の⾃動化から、全体を任せる⽅針への転換が進んでいる どこまでをAIエージェントに任せるか? 開発当初(1年半前) タスク‧情報を細かく分割して構築 運⽤開始

    顧客‧ルールが増加 運⽤課題の発⽣ 管理コスト増‧柔軟性喪失 転換(現在) まるっとAIに任せる⽅向へ 開発当初は、AIによる不確実性をできるだけ⼩さくする意図で、タスクを細かく分割した上で必要と思われる情報に絞って AIエージェントに与えていた。 運⽤を開始し、顧客や対応するレビュールールが増えるにつれ、管理コストや柔軟性の課題が⽣じた。 分割せずにまるっとタスクや申請の内容など関連情報をAIエージェントに渡してみたら、解けた。性能向上した部分も。
  6. © LayerX Inc. 24 どこまでをAIエージェントに任せるか? ①LLMは想像しているよりも賢い 従来の機械学習:「⼩さく切り分ける」が原則 • E2Eで解こうとしても性能が出ない •

    莫⼤な学習データが必要 • ブラックボックス化し、改善が回しづらい → 「細かく分割」は合理的な意思決定であった ⼤LLM‧Agent時代:前提が変わった • フラグシップモデルは、必要なコンテキストさ え渡せば思っているよりできてしまう • 今できなくても、近い将来できるようになる可 能性が⼗分にある → 分割の前提となっていた技術的制約から解放 Claude Codeもリリース当時は厳しい声も多かったが、今やなくてはならない存在 モデルの進化により「将来できるようになる」前提でbetして作るのも、⼗分に合理的ではないか
  7. © LayerX Inc. 27 どこまでをAIエージェントに任せるか? そもそも「100%の精度を求めないといけない」という前提を疑ってみる 間違うことのあるAIに仕事を任せられない? • LLMの性能向上により、⼈間の⽅が間違う分野も増 えている

    • まずAIにまるっと任せて、⼈間が確認側に回るのは 妥当ではないか ユーザーのメンタルモデルも変化 • 「AIだから多少間違うのは当然」を前提に利⽤する 考えが普及しつつある • 学習して賢くなるだろう、という期待さえある • ⽢えてばかりではいけないが、今はある意味「ボー ナスタイム」ではないか そもそも、⼈間も間違う
  8. © LayerX Inc. 28 どこまでをAIエージェントに任せるか? まずは⼀部のユースケースの「全体を⾃動化すること」から始める その時点の最⾼のモデルで、全体の⾃動化を試みる どうしても難しい部分を、分解する‧切り出す 最初に取り組むユースケースは「反復的で、定期的に発⽣するタスク」がオススメ ほぼ同じだが、少し違う

    コピペでは済まないが、コンテキス トを渡せば完全に⾃動化できる可能 性が⾼い 件数が多い 参考にできる情報が多い ⾃動化の効果が⼤きい 定期的に発⽣する 改善ループが回しやすい 例:毎⽉発⽣する交通費の精算
  9. © LayerX Inc. 30 業務全体を任せる ≠ そのまま⾃動化する 業務全体をとりあえずAIエージェントで⾃動化しようとしても 落とし⽳にハマる 落とし⽳①

    課題定義が曖昧なまま作り 頓珍漢なものを作ってしまう 落とし⽳② 今の業務フローを そのまま⾃動化して効果が出ない 根っこは共通:業務理解‧ドメイン知識の不⾜
  10. © LayerX Inc. 34 あなたの作る AI Agent Workflow は、きちんと繋がっているか? 業務全体を任せる

    ≠ そのまま⾃動化する 落とし⽳②:業務をそのまま⾃動化 → 効果が出ない https://x.com/folaoftech/status/2029969598343225817
  11. © LayerX Inc. 35 業務全体を任せる ≠ そのまま⾃動化する 解決策:⾃動化に向けて、業務フローを作りかえる 業務の⽬的を 再確認する

    現状の業務フローを 整理する 業務遂⾏に必要な 暗黙知を洗い出す ⾃動化前提で 業務フローを再設計
  12. © LayerX Inc. 36 業務全体を任せる ≠ そのまま⾃動化する 申請レビューエージェント開発における例 ヒアリングやデータ分析、実業務もやってみつつ、そもそも「経費精算申請とは」から考え尽くした ①

    業務の本来の⽬的の再確認 経理側でも修正できるのに、社員への 啓蒙のため「あえて」差し戻していた 事例 → 別ソリューションの提供 ② 不要‧形骸化した業務 歴史的経緯で残っているだけの業務、 守られていない形骸化ルール → 運⽤からなくす ③ 暗黙知 曖昧な基準 → 決めて⾔語化する 経理担当者の頭の中にある判断基準‧ ドキュメントにない作業 → コンテキストに⼊れる
  13. © LayerX Inc. 37 業務全体を任せる ≠ そのまま⾃動化する Agentフレンドリーな業務フローを再設計する 従来のSaaS •

    プロダクトを使いつつもあくまで⼈間が作業す るため、⼈間がよしなにやる部分も残っていた • SaaSに合わせて業務を変えてもらう必要あり AIエージェントプロダクト • Agentにすべて任せるために、プロダクトに存 在しない、顧客ごとの暗黙知をすべて洗い出す • 「Agentなら顧客の業務を変えずにそのまま⾃ 動化できる」と思いきや、1周回って業務の再設計 の必要性が⾼まった 時にはお客様の業務フロー⾃体を変えてもらいつつ、Agentフレンドリーな業務フローを共に再設計する。
  14. © LayerX Inc. 39 AI-BPOによる全体の⾃動化の実現 Human-in-the-Loop から、Human-on-the-Loop へ HITL(Human-in-the-Loop) •

    仕事の⼀部を⼈間が代わりに実施する / 途中の⾏動 ‧成果物を⼈間が承認する • ただし、プロセスの中に⼈間を何度も⼊れると、⼈ 間がボトルネックに • 細かく確認していては、全体を任せた意味が薄れる HOTL(Human-on-the-Loop) • エージェントがゴールに向けてループを回す • ⼈間はループの外側で、⽬的‧制約‧品質基準 ‧検証を設計する • 中の挙動には細かく介在しない
  15. © LayerX Inc. 40 AI-BPOによる全体の⾃動化の実現 AI-BPO: 安⼼して実現できる Human-on-the-Loop の形 仕事を丸投げ

    AI-BPO AIエージェント × ⼈間オペレーター 最終確認 ユーザー⽬線の「勝⼿に仕事が終わっている」体験を、⼈間オペレーターとともに実現 ユーザー(顧客) 仕事の完了
  16. © LayerX Inc. 41 AI-BPOによる全体の⾃動化の実現 AI-BPO: AI Agent with Human

    (≠ Human with AI Agent) https://bakuraku.jp/news/20260130/
  17. © LayerX Inc. 42 AI-BPOによる全体の⾃動化の実現 AI-BPOのメリット ① 難しい仕事も受けられる 現時点のLLMで⾃動化が難しいもので も、まるっと受けることができる。LLM

    の性能が追いついた時点で⾃動化を進 める。⾃動化の精度が上がるほど、コ ストが下がる構造を作り上げられる。 ② リリース前の実験場になる まずはAI-BPOで仕事を受け、データや 業務ナレッジを蓄積する。AI-BPO内で の活⽤で性能が出たAIエージェントを随 時プロダクトへリリースする好循環を 作り上げられる。 ③ 業務理解獲得の最強の場 実際にどう業務を進めているのか、ど んなコンテキストが必要なのか。やっ てみないと⾒えないものが⾒える。 参考: 当社PMの実践例『7,800⾏の明細を承認して考える、AI-BPO with SaaS の可能性』 https://note.com/applism_118/n/nff2a7f97c3a2
  18. © LayerX Inc. 45 「使えば使うほど賢くなる」AIエージェント フィードバックをもとに、AIエージェントが(⾃動で)賢くなる改善ループを作れるか 「使えば使うほど賢くなる」AIエージェント ⼈間 フィードバックを もとに精度向上

    業務の⾃動化 サイクル 業務ごとに特化した AIエージェント 必要に応じて ⼈に確認 ⾃律的に判断‧実⾏ 確認‧修正‧承認 フィードバックの収集 ユーザー / オペレーター / AI⾃⾝ 改善 プロンプト‧ナレッジ ‧Workflowなどの更新 テスト 安⼼して変更する リリース そして次のループへ
  19. © LayerX Inc. 46 「使えば使うほど賢くなる」AIエージェント フィードバックの収集 ⼈間からのフィードバック プロダクト上でユーザーから(体験を 阻害しない形で収集)/ BPOオペレー

    ターから   Langfuseなどを利⽤して蓄積 モニタリングからのフィードバック プロダクト体験ごとに「性能」を定義 し、ダッシュボードを構築 モニタリングの中でフィードバックを 獲得 Snowflakeなどを利⽤して構築 AIによる⾃⼰分析 プロダクト上での失敗をもとに、 AIが⾃⾝で改善点を分析してフィード バックを⾏う
  20. © LayerX Inc. 47 「使えば使うほど賢くなる」AIエージェント フィードバックにもとづいたAIエージェントの改善 フィードバックをもとに地道なデータ分析や追加のヒアリングなどを⾏い、モデルやプロンプト、メモリ ‧ナレッジ‧Workflowなどを改善する。 これからはAIエージェントの改善さえもAIエージェントに⾃動で実⾏させる時代 ⼈間をボトルネックにしない

    Human-on-the-Loopの思想を、改善プロセス⾃体にも適⽤する 『AI Agent時代における「使えば使うほど賢くなるAI機能」の開発』 https://tech.layerx.co.jp/entry/2025/10/23/222742 『Software Design 2026年7⽉号: 実録 AIネイティブプロダクト開発 プロンプト最適化』 https://gihyo.jp/magazine/SD/archive/2026/202607
  21. © LayerX Inc. 49 「使えば使うほど賢くなる」AIエージェント 安⼼して変更するための、バックテストによる評価システム 『AI Agentのビジネス価値を計るバックテスト基盤の構築』 https://tech.layerx.co.jp/entry/2025/10/30/085410 『Software

    Design 2026年6⽉号: 実録 AIネイティブプロダクト開発 AIエージェント時代の性能評価』 https://gihyo.jp/magazine/SD/archive/2026/202606 代表的なケースを集めた評価セットを⽤いて、 変更の効果‧副作⽤を定量的に確認 顧客環境でのバックテスト 顧客ごとの実過去データに対して、顧客の環境にお いて変更後のAgentの振る舞いを検証 評価データセットでのオフラインテスト 評価はできるだけE2Eで実施し、プロダクト体験を再現する
  22. © LayerX Inc. 50 「使えば使うほど賢くなる」AIエージェント DurableなAgent実⾏を実現するTemporal基盤 『Software Design 2026年5⽉号: 実録

    AIネイティブプロダクト開発 Durable Agent設計』https://gihyo.jp/magazine/SD/archive/2026/202605 80 90 100 99.0% 1ステップ 95.1% 5ステップ 90.4% 10ステップ 81.8% 20ステップ 各ステップの成功率が99%でも ステップが連なると成功率は急速に落ちる 失敗ゼロは⾮現実的 失敗を前提に、どう回復して完遂するか を設計の中⼼に置く → TemporalによるDurable Execution https://temporal.io/