Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMに何を任せ、何を任せないか
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
an
March 25, 2026
Technology
7.3k
11
Share
LLMに何を任せ、何を任せないか
2026/03/25
本番提供できる品質へ:SaaSにAI機能を実装するまでのリアル
での発表資料です。
an
March 25, 2026
More Decks by an
See All by an
AIに目を奪われすぎて、周りの困っている人間が見えなくなっていませんか?
cap120
1
1.1k
Other Decks in Technology
See All in Technology
明日からドヤれる!超マニアックなAWSセキュリティTips10連発 / 10 Ultra-Niche AWS Security Tips
yuj1osm
0
570
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
4.3k
AWS Agent Registry の基礎・概要を理解する/aws-agent-registry-intro
ren8k
3
370
扱える不確実性を増やしていく - スタートアップEMが考える「任せ方」
kadoppe
0
290
AIでAIをテストする - 音声AIエージェントの品質保証戦略
morix1500
1
100
最近の技術系の話題で気になったもの色々(IoT系以外も) / IoTLT 花見予定会(たぶんBBQ) @都立潮風公園バーベキュー広場
you
PRO
1
230
2026年、知っておくべき最新 サーバレスTips10選/serverless-10-tips
slsops
13
5.2k
Good Enough Types: Heuristic Type Inference for Ruby
riseshia
0
180
サイボウズ 開発本部採用ピッチ / Cybozu Engineer Recruit
cybozuinsideout
PRO
10
78k
QGISプラグイン CMChangeDetector
naokimuroki
1
390
AI時代 に増える データ活用先
takahal
0
210
EarthCopilotに学ぶマルチエージェントオーケストレーション
nakasho
0
290
Featured
See All Featured
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
170
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
260
Are puppies a ranking factor?
jonoalderson
1
3.3k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
160
Joys of Absence: A Defence of Solitary Play
codingconduct
1
350
How STYLIGHT went responsive
nonsquared
100
6.1k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
170
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
510
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.1k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
370
Embracing the Ebb and Flow
colly
88
5k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
810
Transcript
© LayerX Inc. LLM に何を任せ、何を任せないか 株式会社LayerX バクラク事業部 エンジニア 蔡 安平
| an 2026.03.25 本番提供できる品質へ:SaaSにAI機能を実装するまでのリアル
© LayerX Inc. 2 - 蔡 安平 / サイ アンペイ
/ Anping Cai / an - LayerX - 2025/05 ⼊社 - バクラク申請‧経費精算の Web エンジニア - 経歴 - 中国北京出⾝、⼤学院から来⽇ - ITコンサル → Salesforce → ITコンサル - エンジニア / PjM / CS - 稀にいる CSS 好き ⾃⼰紹介 飼い猫のおもち
3 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは?
4 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは? Harness Engineering Prompt Engineering
Context Engineering コストコントロール Eval Vibes ガードレール Agent Skills 学習のサイクル PoC セキュリティ インフラ バックテスト モニタリング ⾃律性スライダー UX Multi-Agent The Bitter Lesson Durable Agent
5 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに、AI SaaSとAI DXの事業を展開 バクラク事業 企業活動のインフラとなる業務を 効率化するクラウドサービス
Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 Ai Workforce事業 社内のナレッジやノウハウをデータ ベース化するAIプラットフォーム AI SaaSドメイン AI DXドメイン
© LayerX Inc. 6
7 © LayerX Inc. 申請 経費精算 事前 稟議 法⼈カード 帳票発⾏
⼊⾦管理 勤怠管理 ⼯数管理 勤怠 債権債務 ⼈事労務 管理 会計 システム 受領代⾏ 取 引 先 ⽀出管理 データ活⽤ 給与計算 年末調整 給与明細 new 給与 バクラクは、企業間取引の起点となる稟議を標準化し、債権‧債務の⼀元管理が可能に。 さらに⼈事労務も統合し、拡張性のあるなめらかなバックオフィス基盤で企業経営の加速を実現します。
8 © LayerX Inc. 申請⾃動作成の本番提供までの試⾏錯誤を ⾝近な例で説明してみよう
© LayerX Inc. 9 現⾦ カード 電⼦マネー オンライン決済 もし家計簿アプリに AI
機能を追加するとしたら
© LayerX Inc. 10 コンテキスト プロンプト 評価 (Eval) もし家計簿アプリに AI
機能を追加するとしたら • 今回の取引:レシート画 像、カード決済情報、… • 過去の履歴:過去のカテ ゴライズの傾向、同じ店 舗の記録、… • 「あなたは家計簿の⼊⼒ アシスタントです。レ シート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータ セット • 様々な観点のスコアラー
11 © LayerX Inc. 上⼿くいきました ( PoC としては )
© LayerX Inc. 12 • ⾦額が先祖返り:過去に同じ店舗のカテゴリやメモを正しく参照できたのに、⾦額ま で過去の記録と同じになってしまった • レシートが⽋落:レシート画像から正しく⼊⼒内容を⽣成できたのに、肝⼼のレシー トそのものが添付されていなかった
稀に起こる致命的なミス 不確実な振る舞いをするのが LLM の性だが、 コーポレート業務においては稀なミスでも許容されない
13 © LayerX Inc. プロンプトチューニングも⾏ったが 問題が 100% 解決されるわけではなかった
14 © LayerX Inc. これでは本番に出せない ... !
© LayerX Inc. 15 • 曖昧性がある (Ambiguous) 単純なルールベースの処理では対応できない • ⼤量処理が必要
(High volume) ⼈間が⼿作業で⾏うと膨⼤な時間がかかる • ⾮対称的なメリット (Asymmetric upside) ⾃動化による価値が、時折発⽣するエラーのコストを ⼤幅に上回る LLM が最も輝ける問題 https://builders.ramp.com/post/how-to-build -agents-users-can-trust
© LayerX Inc. 16 • 曖昧なものと確実なものがある ◦ 曖昧なもの:初めての店舗のカテゴリ、メモ、… ◦ 確実なもの:レシート/決済情報から読み取れる⾦額、
店舗名、⽇付、⽀払⽅法、… • ミスしても許されるものとそうでないものがある ◦ ミスを許容できるもの:カテゴリ、メモ ◦ ミスを許容できないもの:⾦額、⽇付、⽀払⽅法 改めて問題の構造を⾒てみよう
© LayerX Inc. 17 ⼊⼒項⽬を「確実性」と「ミス許容度」で分類する パターン A 決定値を使⽤ 分類開始 確実性
ミス 許容度 履歴流⽤ の可否 パターン C 空欄にする パターン B LLM⽣成 100%(正解が明確) 0%(判断不可) ある程度 推測可能 低い ⾼い 不可 可能
© LayerX Inc. 18 A. 決定値を使⽤ B. LLM⽣成 C. 空欄にする
パターンごとの⼊⼒項⽬の例 • ⽀払⽅法 • カードの決済情報 • レシートの OCR 結果 • 同じパターンのカテゴリ スタバはいつも⾷費であれば、 きっと今回も⾷費 • 複数パターンのカテゴリ 何もかも Amazon で買うため、 前回のカテゴリをそのまま適⽤ できず、商品名などからの推測 が必要 • メモ 前回は「〇〇さんへのプレゼン ト」だからと⾔って今回も同じ とは限らない • 情報がない場合の店舗 名、カテゴリ
© LayerX Inc. 19 ⼊⼒項⽬の特性に応じて使い分ける パターン 適用条件 結果の 安定性 処理速度
柔軟性 実装難易度 A. 決定値を使用 確実性 100%、または過去履歴から流用 可能 ◎ ◯ △ ◯ B. LLM生成 推測可能でミス許容度が高く、過去履歴 の単純コピーでは対応できない △ △ ◎ △ C. 空欄にする 確実性 0%、またはミス許容度が低い ◎ ◎ × ◎
© LayerX Inc. 20 コンテキスト プロンプト 評価 (Eval) 最初のアプローチの問題 •
今回の取引:レシート画 像、カード決済情報、… • 過去の履歴:過去のカテ ゴライズの傾向、同じ店 舗の記録、… • 「あなたは家計簿の⼊⼒ アシスタントです。レ シート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータ セット • 様々な観点のスコアラー ハンマーを持つ⼈には すべてが釘に⾒えてしまう
21 © LayerX Inc. LLM はすごい が、万能ではなく、得⼿不得⼿がある
22 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは?
23 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは 適材適所
© LayerX Inc. 24 • LLM は⽬的ではなく⼿段 ◦ しかも⼿段の 1
つにすぎない ◦ それぞれの⼿段に優劣はなく、あるのはトレードオフのみ ◦ 課題を分解し、良いとこ取りできるように適材適所に使い分ける • ⼿段の先にある⽬的がよっぽど⼤事 ◦ どんな課題を解決したかったか? ◦ どんな顧客価値を提供したかったか? ◦ どんなユーザー体験を実現したかったか? まとめ
25 © LayerX Inc. ちょっと待った!
26 © LayerX Inc. パターン D: ユーザーに聞く (HITL) もあるのでは?
© LayerX Inc. 27 LayerX エンジニア陣が執筆する連載 「実録 AIネイティブプロダクト開発」 の第2回として、『Software Design
2026年4⽉号』(3/18 発売) に掲載 本⽇触れられなかった HITL (Human in the Loop) の設計や、Eval の仕組みも詳 しく紹介されておりますので、ぜひお買 い求めください! 答えは『Software Design』へ
© LayerX Inc. 28 We are hiring! ZOZO x Mercari
x LayerX 企業R&D勉強会 〜 研究と実⽤化のリアル〜 #価値を届けるRandD 4/24(⾦) 19:00〜 LayerX イベントスペースで開催 企業R&Dエンジニア‧研究者向けミートアップ開催!「研究をどう やってプロダクトや事業に届けるか」をテーマに、実務のリアルや評 価の悩みまで本⾳で語り合い交流しませんか? LayerX Open Door アカウント登録が⼀切不要なカジュアル⾯談を公開しています! ‧私と雑談してみたい ‧質問したいことがある ‧選考に進むか悩んでいる などなど、お気軽にお申し込みください!