AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era

© LayerX Inc. 2 バクラク事業部 AI-OCRグループ Tech Lead/ 機械学習エンジニア経歴
• 2019/04 京都⼤学⼤学院⼯学研究科修⼠課程修了 • 新卒では、事業会社でタクシー配⾞アプリに関する機械学習システムの構築や、ライブストリーミングサービスにおける推薦システム構築に携わる • 現在 ◦ 株式会社LayerX AI-OCRグループ Tech Lead ◦ バクラク事業部において、AI-OCRの改善や新規機械学習システムの構築を担当。現在はAgent系の新規機能開発に携わる。 ◦ Kaggle Competitions Grandmaster ⾃⼰紹介島越直⼈（Naoto Shimakoshi) @nt_4o54

⽬次 Agenda • Agent時代における役割の変化 • バクラクにおけるML機能とAgent機能 • 精度改善における共通点 • 精度改善における違い
• まとめ

Agent時代における役割の変化

5 © LayerX Inc. 機械学習エンジニアの役割機械学習エンジニアの役割の変化⼀部のリソースを所有している企業や(まだ)LLMが得意でないドメインの会社を除いて LLM APIを⽤いたシステム開発は直近避けられない従来の機械学習エンジニア
これからの機械学習エンジニア賢いモデルを作るモデルを賢く使う • 少数のモデルを学習させて運⽤ • 学習させたいコンテキストを定義して、内部パラメータを学習 • ラベル定義、アノテーション再学習パイプライン整備 etc • 複数のモデルやAPI、ロジックを運⽤ • 適応させたいコンテキストに合わせて外部パラメータを適応 • モデルのOrchestration、全体設計プロンプト管理 etc

6 © LayerX Inc. 機械学習エンジニアの役割従来のスキルは不要になるのか BERTが出てきた時にTF-IDFやWord2Vecといった技術が完全に不要になっただろうか？従来の知識があるからこそ適材適所で役割を使い分けることができる従来培ってきたメタ的なスキルや知識は今後も活かされる部分 No
精度改善タスクにおいて活かされる部分と拡張される部分について今⽇はご紹介

バクラクにおけるML機能とAgent機能

© LayerX Inc.　 9 「バクラク」の事業領域 Coming Soon AIエージェント HCM領域 (人的資本管理)
稟議・ワークフロー領域 BSM / ARM領域（債務・債権管理） Payment 領域 Coming Soon （※）2025年11⽉時点

© LayerX Inc. 10 ユーザーに合わせて⾃動学習する次世代のAI-OCR 単純に情報抽出するだけではなく、お客様の運⽤に合わせてパーソナライズすることを実現パーソナライズドAI-OCR 従来の機械学習機能の事例 A社 C社
B社複数の値を同時に項⽬抽出お客様の選択を学習していき、運⽤に最適化していく 1 2

© LayerX Inc. 11 請求書の明細から表を抽出し、LLMによって仕訳を過去の修正データやマスタデータから補完する表抽出 + ⼈⼿のチェック + LLM
+ ルールベースでの名寄せによる仕訳の補完のワークフローを構築 AI明細仕訳 Agent機能の事例

精度改善における共通点

13 © LayerX Inc. Feature EngineeringとContext Engineering Context EngineeringはFeature Engineeringそのもの
どちらもモデルの気持ちになって「コンテキスト」を理解させるという点では変わらない Feature Engineering (パーソナライズドAI-OCR) Context Engineering (AI明細仕訳) ⽬的コンテキストを理解できるように識別モデルが理解できる形で特徴量を作成して⼊⼒するコンテキストを理解できるように⽣成モデルが理解できる形で⾃然⾔語‧システムを組み⽴てて⼊⼒する具体例過去にユーザがその取引先で発⾏⽇を使った回数に加⼯して⼊⼒過去に同じ明細に対してどのような仕訳を切っていたかを Markdown形式で⼊⼒従来の機械学習エンジニアの仮説構築⼒、検証⼒、分析⼒が武器になる部分

© LayerX Inc. 14 AIシステムを⼀つのブラックボックスと考えた時に改善を回すサイクルは変わらない評価と改善のプロセスは不変評価フローの違い • 特徴量の追加 •
コンテキスト収集⽅法の修正 • 論⽂などで⼿法の探索 • 評価指標設計 • 仮説構築 • 過学習検知 • モデルの気持ちになる • まずE2Eで動くものを最速で作成 • データセット作成

15 © LayerX Inc. タスク分解の共通点タスク分解の考え⽅⾃体は基本的に同じ候補抽出モデルでやっているような汎⽤的な部分はSystem Promptに落とし込む Rerankのようなパーソナライズの部分はFBデータを元に適宜⼊れ替えるような仕組みを作る System
Prompt {{ few_shot_example}} {{ speciﬁc_insight}} 汎⽤的なモデルに対応パーソナライズモデルに対応

16 © LayerX Inc. タスク分解の共通点例1: パーソナライズドAI-OCR ⾊々な役割を持たせないように学習しやすい形でモデルを分離する汎⽤的なモデルに対応パーソナライズモデルに対応
プロダクトやお客様毎のドメインに依存せず書類だけを⾒て判断できるような項⽬抽出に特化させて学習プロダクトやお客様毎のドメインに合わせて項⽬抽出した値を並び替えることに特化させて学習過去事例から特徴量を作成

17 © LayerX Inc. タスク分解の共通点例2: AI明細仕訳汎⽤的な部分とお客様毎に変わる部分に分けてチューニングを⾏う System Prompt
{{ few_shot_example}} {{ speciﬁc_insight}} 汎⽤的なモデルに対応パーソナライズモデルに対応ドメインエキスパートに聞きながら「⼀般的に」どのようなことを考えながら仕訳を切っているかを仮説を⽴てながら⾔語化して⼊⼒細かく仕訳を切りたいのかある程度粗く仕訳を切りたいのかなどお客様毎に変わる部分を吸収できるように過去事例を⼊⼒過去事例からのインサイトを抽出してから⼊⼒特徴量エンジニアリングと同じ

精度改善における違い

19 © LayerX Inc. データセット作成における違い LLM APIは検証においても時間と⾦銭コストがかかる従来の検証サイクル • ⼤規模なデータ(~1M)で
オフラインで定量評価 • オフラインで精度が担保できたらデプロイ • オンラインでのモニタリング Agentの検証サイクル • ⼩規模なデータ(~1k)でオフライン評価 • AIによる評価で評価にも不確実性 • 検証速度重視で早期に体験を含めて設計することが重要 • 検証データの質が重要⼩規模なデータセットでしか検証できないからこそ、機械学習エンジニアのデータセット構築⼒は重要

20 © LayerX Inc. システム開発における違いフィードバックループを回す仕組みの構築がより重要データセットから漏れてしまったケースを救うために間違った時でも改善できる仕組みが重要ユーザの保存結果と予測結果を突合できる形で保存同じ取引先での
過去の事例を加⼯して Promptに⼊⼒例：AI明細仕訳の場合

21 © LayerX Inc. システム開発における違い Software Engineering能⼒やPdM能⼒の重要性が⾼まるできることが増えている分、Contextの収集やタスク分解を⾏っていくとシステムとしての設計難易度が従来より格段に上がる Model
Selection 複数の特化モデルの使い分け従来の識別モデルの利⽤ルールベースロジックの利⽤ RAG & Tools 検索APIなどのツールや DBなどとの接続設計 Human-in-the-Loopの設計 Data Infrastructure 検証⽤に再現性を担保するログ設計フィードバックループを回すためのDB設計機械学習スキルが必要

まとめ

23 © LayerX Inc. まとめ従来の経験を活かしつつ積極的に新しい領域に⾶び込んでいく Unlearning • 従来の評価プロセスに囚われすぎずに、体験を含めてまず作ることが重要 •
LLMは思ったよりなんでもできる、斜に構えずにまずは動かす Relearning • 精度改善の考え⽅のフレームワークは従来と同じで、Howが異なるだけ ◦ むしろできることが広がって、従来じゃ実現できないようなモデルの適応も可能になる • 従来の機械学習エンジニアとしてのメタ的なスキルや引き出しを活かして⾼精度なAgentを実現するためにSoftware EngineeringやPdMの領域へ染み出していく！

© LayerX Inc. 24 Agentをコアにした新しい体験を作る仲間を募集しています！まとめ • LayerXでは、開発⽣産性向上や社内業務効率化にAgentを⽤いることはもちろんのことプロダクトにAgentを組み込み、社会全体の⽣産性向上を⽬指しています。 •
⼀緒に使われるAgentをプロダクトに組み込むことに興味のある⽅お待ちしております！ LayerX 採⽤

AI Agentの精度改善に見るML開発との共通点 / commonalities in ac...

AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era

shimacos

More Decks by shimacos

Other Decks in Research

Featured

Transcript

© LayerX Inc. AI Agentの精度改善に⾒るML開発との共通点 2026/01/27 ML/DSバックグラウンドだからこそ⾯⽩い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦。 Naoto Shimakoshi (@nt_4o54)

© LayerX Inc. 2 バクラク事業部 AI-OCRグループ Tech Lead/ 機械学習エンジニア経歴

⽬次 Agenda • Agent時代における役割の変化 • バクラクにおけるML機能とAgent機能 • 精度改善における共通点 • 精度改善における違い

Agent時代における役割の変化

バクラクにおけるML機能とAgent機能

© LayerX Inc. 8 バックオフィスから全社の⽣産性を⾼めるバクラクとは

© LayerX Inc.　 9 「バクラク」の事業領域 Coming Soon AIエージェント HCM領域 (人的資本管理)

© LayerX Inc. 10 ユーザーに合わせて⾃動学習する次世代のAI-OCR 単純に情報抽出するだけではなく、お客様の運⽤に合わせてパーソナライズすることを実現パーソナライズドAI-OCR 従来の機械学習機能の事例 A社 C社

© LayerX Inc. 11 請求書の明細から表を抽出し、LLMによって仕訳を過去の修正データやマスタデータから補完する表抽出 + ⼈⼿のチェック + LLM

精度改善における共通点

13 © LayerX Inc. Feature EngineeringとContext Engineering Context EngineeringはFeature Engineeringそのもの

© LayerX Inc. 14 AIシステムを⼀つのブラックボックスと考えた時に改善を回すサイクルは変わらない評価と改善のプロセスは不変評価フローの違い • 特徴量の追加 •

16 © LayerX Inc. タスク分解の共通点例1: パーソナライズドAI-OCR ⾊々な役割を持たせないように学習しやすい形でモデルを分離する汎⽤的なモデルに対応パーソナライズモデルに対応

17 © LayerX Inc. タスク分解の共通点例2: AI明細仕訳汎⽤的な部分とお客様毎に変わる部分に分けてチューニングを⾏う System Prompt

精度改善における違い

19 © LayerX Inc. データセット作成における違い LLM APIは検証においても時間と⾦銭コストがかかる従来の検証サイクル • ⼤規模なデータ(~1M)で

21 © LayerX Inc. システム開発における違い Software Engineering能⼒やPdM能⼒の重要性が⾼まるできることが増えている分、Contextの収集やタスク分解を⾏っていくとシステムとしての設計難易度が従来より格段に上がる Model

まとめ

23 © LayerX Inc. まとめ従来の経験を活かしつつ積極的に新しい領域に⾶び込んでいく Unlearning • 従来の評価プロセスに囚われすぎずに、体験を含めてまず作ることが重要 •