「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026

© LayerX Inc. 2 バクラク事業部 AI‧機械学習部部⻑ / 機械学習エンジニア経歴
2018/03 京都⼤学⼤学院情報学研究科修⼠課程修了画像を入れてね⾃⼰紹介松村優也⼀⼈⽬データサイエンティストとして推薦システム開発チームの⽴ち上げなど 2018/04 ウォンテッドリー株式会社⼊社退職後は機械学習領域の技術顧問に就任 AI-OCRなど機械学習技術を活⽤したプロダクト開発に広く従事 2022/10 株式会社LayerX ⼊社バクラク事業部その他、⼤学にて⾮常勤講師やスタートアップの技術⽀援等 Yuya Matsumura 共著者 @yu__ya4 現在はAI‧機械学習部部⻑としてAI戦略の策定や、 AIエージェントプロダクトの新規⽴ち上げなどを担当

LayerX‧バクラクについて ABOUT

4 © LayerX Inc. LayerX の Mission

5 © LayerX Inc. LayerX が解決しようとしている課題（※）2025年11⽉時点

6 © LayerX Inc. LayerX のバクラク事業

7 © LayerX Inc. バクラク事業事業領域（※）2025年11⽉時点

8 © LayerX Inc. LayerX のバクラク事業

バクラクAIエージェントが⽬指すもの「気づいたら仕事が終わっている」体験を提供する Ambient Agent

© LayerX Inc. 11 バクラクAIエージェントが⽬指すものたとえば、出張予定をカレンダーに登録すると出張に伴う業務が完了している「気づいたら仕事が終わっている」体験出張予定がカレンダーに登録バクラク
Aエージェント出張内容をもとに事前の出張申請を作成ユーザー確認業務の遂⾏承認トリガー社内規定に沿った交通⼿段や宿泊施設を⼿配出張期間中の経費精算など事後の申請を作成

© LayerX Inc. 12 バクラクAIエージェントが⽬指すもの仕事の主体はあくまで⼈間従来のチャット起点の汎⽤Agentの限界チャットで依頼⼈間
エージェントが実⾏汎⽤AIエージェント仕事完了汎⽤Agent 仕事が始まらない‧並列数が増えない‧効果的に頼めないあらゆる業務のコンテキストをひとつのAgentに詰め込むのは⾮効率であり、性能にも影響あり

© LayerX Inc. 13 バクラクAIエージェントが⽬指すもの業務ごとに特化したAIエージェントが主体となり、⾃律的に仕事が完了している。バクラクが⽬指す Ambient Agent ⼈間
メール通知フィードバックをもとに精度向上出張⼿続きが⾃動で完了承認作業が⾃動で完了請求書処理が⾃動で完了スケジュール登録業務の⾃動化サイクルイベント検知仕事完了領収書アップロード業務ごとに特化した AIエージェント必要に応じて⼈に確認⾃律的に判断‧実⾏確認‧修正‧承認 Ambient Agent

バクラクAIエージェント事例「気づいたら仕事が終わっている」体験を提供する Ambient Agent の実例

どこまでをAIエージェントに任せるか？できるだけ⼤きく任せる：申請レビューエージェント開発‧運⽤からの学び

© LayerX Inc. 22 バクラク申請レビューエージェントの開発‧運⽤を通した学び部分の⾃動化から、全体を任せる⽅針への転換が進んでいるどこまでをAIエージェントに任せるか？開発当初（1年半前）タスク‧情報を細かく分割して構築運⽤開始
顧客‧ルールが増加運⽤課題の発⽣管理コスト増‧柔軟性喪失転換（現在）まるっとAIに任せる⽅向へ開発当初は、AIによる不確実性をできるだけ⼩さくする意図で、タスクを細かく分割した上で必要と思われる情報に絞って AIエージェントに与えていた。運⽤を開始し、顧客や対応するレビュールールが増えるにつれ、管理コストや柔軟性の課題が⽣じた。分割せずにまるっとタスクや申請の内容など関連情報をAIエージェントに渡してみたら、解けた。性能向上した部分も。

© LayerX Inc. 23 なぜ最初から全体の⾃動化を⽬指すべきか ②部分のみへの注⽬はコンテキスト不⾜を招くどこまでをAIエージェントに任せるか？ ①LLMは想像しているよりも賢い
③そもそも⽬指すべきは全体の⾃動化

© LayerX Inc. 24 どこまでをAIエージェントに任せるか？ ①LLMは想像しているよりも賢い従来の機械学習：「⼩さく切り分ける」が原則 • E2Eで解こうとしても性能が出ない •
莫⼤な学習データが必要 • ブラックボックス化し、改善が回しづらい → 「細かく分割」は合理的な意思決定であった⼤LLM‧Agent時代：前提が変わった • フラグシップモデルは、必要なコンテキストさえ渡せば思っているよりできてしまう • 今できなくても、近い将来できるようになる可能性が⼗分にある → 分割の前提となっていた技術的制約から解放 Claude Codeもリリース当時は厳しい声も多かったが、今やなくてはならない存在モデルの進化により「将来できるようになる」前提でbetして作るのも、⼗分に合理的ではないか

© LayerX Inc. 25 どこまでをAIエージェントに任せるか？ ②部分のみへの注⽬はコンテキスト不⾜を招く⼀部の項⽬だけでは判定できない。プロセス全体を⾒渡したコンテキストが必要。これは「妥当」な内容か？申請の全体‧添付ファイル事前申請の内容
上⻑とのやりとり商談ガイドブック

© LayerX Inc. 27 どこまでをAIエージェントに任せるか？そもそも「100%の精度を求めないといけない」という前提を疑ってみる間違うことのあるAIに仕事を任せられない？ • LLMの性能向上により、⼈間の⽅が間違う分野も増えている
• まずAIにまるっと任せて、⼈間が確認側に回るのは妥当ではないかユーザーのメンタルモデルも変化 • 「AIだから多少間違うのは当然」を前提に利⽤する考えが普及しつつある • 学習して賢くなるだろう、という期待さえある • ⽢えてばかりではいけないが、今はある意味「ボーナスタイム」ではないかそもそも、⼈間も間違う

© LayerX Inc. 28 どこまでをAIエージェントに任せるか？まずは⼀部のユースケースの「全体を⾃動化すること」から始めるその時点の最⾼のモデルで、全体の⾃動化を試みるどうしても難しい部分を、分解する‧切り出す最初に取り組むユースケースは「反復的で、定期的に発⽣するタスク」がオススメほぼ同じだが、少し違う
コピペでは済まないが、コンテキストを渡せば完全に⾃動化できる可能性が⾼い件数が多い参考にできる情報が多い⾃動化の効果が⼤きい定期的に発⽣する改善ループが回しやすい例：毎⽉発⽣する交通費の精算

業務全体を任せる ≠ そのまま⾃動化する落とし⽳の根っこは業務理解‧ドメイン知識の不⾜

© LayerX Inc. 30 業務全体を任せる ≠ そのまま⾃動化する業務全体をとりあえずAIエージェントで⾃動化しようとしても落とし⽳にハマる落とし⽳①
課題定義が曖昧なまま作り頓珍漢なものを作ってしまう落とし⽳② 今の業務フローをそのまま⾃動化して効果が出ない根っこは共通：業務理解‧ドメイン知識の不⾜

© LayerX Inc. 31 業務全体を任せる ≠ そのまま⾃動化するビルドトラップ：⽬の前の業務フローの⾃動化そのものにのみ固執すると、本来の⽬的‧アウトカムを⾒失う落とし⽳①：課題定義が曖昧
→ 頓珍漢なものを作る https://speakerdeck.com/layerx/compass_202209?slide=36

© LayerX Inc. 32 業務全体を任せる ≠ そのまま⾃動化する Coding AIで⾼速に作れる時代だからこそ、「何を作るか」の解像度が差別化要因になる落とし⽳①：課題定義が曖昧
→ 頓珍漢なものを作る https://x.com/jxnlco/status/1931003015051518077

© LayerX Inc. 33 実際の業務の現場には、⼈間がやる前提で構築されたプロセスや、現場の暗黙知で回っているものが多い業務全体を任せる ≠ そのまま⾃動化する落とし⽳②：業務をそのまま⾃動化 →
効果が出ない https://x.com/timkhiggins/status/984833456029843457 イーロンでさえ失敗する！

© LayerX Inc. 34 あなたの作る AI Agent Workﬂow は、きちんと繋がっているか？業務全体を任せる
≠ そのまま⾃動化する落とし⽳②：業務をそのまま⾃動化 → 効果が出ない https://x.com/folaoftech/status/2029969598343225817

© LayerX Inc. 35 業務全体を任せる ≠ そのまま⾃動化する解決策：⾃動化に向けて、業務フローを作りかえる業務の⽬的を再確認する
現状の業務フローを整理する業務遂⾏に必要な暗黙知を洗い出す⾃動化前提で業務フローを再設計

© LayerX Inc. 36 業務全体を任せる ≠ そのまま⾃動化する申請レビューエージェント開発における例ヒアリングやデータ分析、実業務もやってみつつ、そもそも「経費精算申請とは」から考え尽くした ①
業務の本来の⽬的の再確認経理側でも修正できるのに、社員への啓蒙のため「あえて」差し戻していた事例 → 別ソリューションの提供 ② 不要‧形骸化した業務歴史的経緯で残っているだけの業務、守られていない形骸化ルール → 運⽤からなくす ③ 暗黙知曖昧な基準 → 決めて⾔語化する経理担当者の頭の中にある判断基準‧ ドキュメントにない作業 → コンテキストに⼊れる

© LayerX Inc. 37 業務全体を任せる ≠ そのまま⾃動化する Agentフレンドリーな業務フローを再設計する従来のSaaS •
プロダクトを使いつつもあくまで⼈間が作業するため、⼈間がよしなにやる部分も残っていた • SaaSに合わせて業務を変えてもらう必要あり AIエージェントプロダクト • Agentにすべて任せるために、プロダクトに存在しない、顧客ごとの暗黙知をすべて洗い出す • 「Agentなら顧客の業務を変えずにそのまま⾃動化できる」と思いきや、1周回って業務の再設計の必要性が⾼まった時にはお客様の業務フロー⾃体を変えてもらいつつ、Agentフレンドリーな業務フローを共に再設計する。

AI-BPOによる全体の⾃動化の実現 Human-in-the-Loop から Human-on-the-Loop へ

© LayerX Inc. 39 AI-BPOによる全体の⾃動化の実現 Human-in-the-Loop から、Human-on-the-Loop へ HITL(Human-in-the-Loop) •
仕事の⼀部を⼈間が代わりに実施する / 途中の⾏動 ‧成果物を⼈間が承認する • ただし、プロセスの中に⼈間を何度も⼊れると、⼈間がボトルネックに • 細かく確認していては、全体を任せた意味が薄れる HOTL(Human-on-the-Loop) • エージェントがゴールに向けてループを回す • ⼈間はループの外側で、⽬的‧制約‧品質基準 ‧検証を設計する • 中の挙動には細かく介在しない

© LayerX Inc. 40 AI-BPOによる全体の⾃動化の実現 AI-BPO: 安⼼して実現できる Human-on-the-Loop の形仕事を丸投げ
AI-BPO AIエージェント × ⼈間オペレーター最終確認ユーザー⽬線の「勝⼿に仕事が終わっている」体験を、⼈間オペレーターとともに実現ユーザー（顧客）仕事の完了

© LayerX Inc. 41 AI-BPOによる全体の⾃動化の実現 AI-BPO: AI Agent with Human
(≠ Human with AI Agent) https://bakuraku.jp/news/20260130/

© LayerX Inc. 42 AI-BPOによる全体の⾃動化の実現 AI-BPOのメリット ① 難しい仕事も受けられる現時点のLLMで⾃動化が難しいものでも、まるっと受けることができる。LLM
の性能が追いついた時点で⾃動化を進める。⾃動化の精度が上がるほど、コストが下がる構造を作り上げられる。 ② リリース前の実験場になるまずはAI-BPOで仕事を受け、データや業務ナレッジを蓄積する。AI-BPO内での活⽤で性能が出たAIエージェントを随時プロダクトへリリースする好循環を作り上げられる。 ③ 業務理解獲得の最強の場実際にどう業務を進めているのか、どんなコンテキストが必要なのか。やってみないと⾒えないものが⾒える。参考: 当社PMの実践例『7,800⾏の明細を承認して考える、AI-BPO with SaaS の可能性』 https://note.com/applism_118/n/nﬀ2a7f97c3a2

「使えば使うほど賢くなる」AIエージェント FB → 改善 → テスト → リリースのループを作り上げる

© LayerX Inc. 45 「使えば使うほど賢くなる」AIエージェントフィードバックをもとに、AIエージェントが（⾃動で）賢くなる改善ループを作れるか「使えば使うほど賢くなる」AIエージェント⼈間フィードバックをもとに精度向上
業務の⾃動化サイクル業務ごとに特化した AIエージェント必要に応じて⼈に確認⾃律的に判断‧実⾏確認‧修正‧承認フィードバックの収集ユーザー / オペレーター / AI⾃⾝改善プロンプト‧ナレッジ ‧Workﬂowなどの更新テスト安⼼して変更するリリースそして次のループへ

© LayerX Inc. 46 「使えば使うほど賢くなる」AIエージェントフィードバックの収集⼈間からのフィードバックプロダクト上でユーザーから（体験を阻害しない形で収集）/ BPOオペレー
ターから Langfuseなどを利⽤して蓄積モニタリングからのフィードバックプロダクト体験ごとに「性能」を定義し、ダッシュボードを構築モニタリングの中でフィードバックを獲得 Snowﬂakeなどを利⽤して構築 AIによる⾃⼰分析プロダクト上での失敗をもとに、 AIが⾃⾝で改善点を分析してフィードバックを⾏う

© LayerX Inc. 47 「使えば使うほど賢くなる」AIエージェントフィードバックにもとづいたAIエージェントの改善フィードバックをもとに地道なデータ分析や追加のヒアリングなどを⾏い、モデルやプロンプト、メモリ ‧ナレッジ‧Workﬂowなどを改善する。これからはAIエージェントの改善さえもAIエージェントに⾃動で実⾏させる時代⼈間をボトルネックにしない
Human-on-the-Loopの思想を、改善プロセス⾃体にも適⽤する『AI Agent時代における「使えば使うほど賢くなるAI機能」の開発』 https://tech.layerx.co.jp/entry/2025/10/23/222742 『Software Design 2026年7⽉号: 実録 AIネイティブプロダクト開発プロンプト最適化』 https://gihyo.jp/magazine/SD/archive/2026/202607

© LayerX Inc. 49 「使えば使うほど賢くなる」AIエージェント安⼼して変更するための、バックテストによる評価システム『AI Agentのビジネス価値を計るバックテスト基盤の構築』 https://tech.layerx.co.jp/entry/2025/10/30/085410 『Software
Design 2026年6⽉号: 実録 AIネイティブプロダクト開発 AIエージェント時代の性能評価』 https://gihyo.jp/magazine/SD/archive/2026/202606 代表的なケースを集めた評価セットを⽤いて、変更の効果‧副作⽤を定量的に確認顧客環境でのバックテスト顧客ごとの実過去データに対して、顧客の環境において変更後のAgentの振る舞いを検証評価データセットでのオフラインテスト評価はできるだけE2Eで実施し、プロダクト体験を再現する

© LayerX Inc. 50 「使えば使うほど賢くなる」AIエージェント DurableなAgent実⾏を実現するTemporal基盤『Software Design 2026年5⽉号: 実録
AIネイティブプロダクト開発 Durable Agent設計』https://gihyo.jp/magazine/SD/archive/2026/202605 80 90 100 99.0% 1ステップ 95.1% 5ステップ 90.4% 10ステップ 81.8% 20ステップ各ステップの成功率が99%でもステップが連なると成功率は急速に落ちる失敗ゼロは⾮現実的失敗を前提に、どう回復して完遂するかを設計の中⼼に置く → TemporalによるDurable Execution https://temporal.io/

おわりに結局、「やるべきこと」をやりきれるかがすべて

© LayerX Inc. 52 おわりに当たり前を、やりきれるか当たり前に聞こえることも多かったかもしれない。ただ、それを「やりきれるか」は別の話。めちゃくちゃ泥臭く、めちゃくちゃ⼤変。 AIエージェントをユーザーに届けてフィードバックを獲得しつつ、とにかく泥臭い運⽤‧改善を終わりなく回し続けることが、
完全⾃動化への⼀番の近道

「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layer...

「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026

More Decks by Yuya Matsumura

Other Decks in Technology

Featured

Transcript