Upgrade to Pro — share decks privately, control downloads, hide ads and more …

現場で動くAIワークフロー 〜チューニングを効率化する工夫〜

LayerX
April 22, 2025
450

現場で動くAIワークフロー 〜チューニングを効率化する工夫〜

2025年4月22日に開催された「LLMアプリケーション開発の極意〜ドメイン知識を活かした設計と評価〜」でAI・LLM事業部の恩田(@cipepser)が登壇した際の発表資料です。

https://findy.connpass.com/event/351100/

LayerX

April 22, 2025
Tweet

More Decks by LayerX

Transcript

  1. 2 Confidential © 2025 LayerX Inc. 自己紹介 • 恩田壮恭(おんだまさのり) ◦

    cipepser/cipe(さいぺ) • LayerX AI・LLM事業部 LLMグループマネージャー • これまで ◦ 新卒で大手証券系SIerでネットワークエンジニア ◦ 暗号資産分野で新規事業立ち上げ ◦ TEEやPrivacyTechなど、技術を軸にした新規プロ ダクトの開発(LayerX歴5年) • 現在 ◦ Ai Workforce導入の高速化や、本番で使えるだけ のLLMの精度達成を目指すLLMグループのマネー ジャー
  2. 3 Confidential © 2025 LayerX Inc. 本日アジェンダ • Ai Workforceの概要、機能

    • Ai Workforceの代表的なユースケース • AIワークフロー開発の効率化 • AIオンボーディングの未来
  3. 5 Confidential © 2025 LayerX Inc. 出典: 3M. (2024). 3M

    2023 Annual Report. U.S. Securities and Exchange Commission. https://www.sec.gov/Archives/edgar/data/66740/000130817924000309/mmm4298631-ars.pdf
  4. © LayerX Inc. 6 多くのお客様に共通する「⽂章処理の課題」 契約書やレポート作成時に、複数の資料を参考しているけど、フォーマットや 構成がバラバラで欲しい情報を探すのが大変… 手作業での コピー&ペーストも面倒くさい… 契約書が社内規定にあっているかのチェック業務に時間がかかっている。

    早く案件を進めたいのに… 過去資料検索が大変。結局ファイルを開いて中を見てみないとわからない。 タグを付けるルールにしたけど誰も付けてくれない… “知的だが単純な作業”に多くの時間を取られている(疲弊している)
  5. © LayerX Inc. 7 ⽂章をLLMが解釈して、欲しい項⽬をデータ化 利⽤者はプロンプトを操作せず、ボタン操作やファイルアップロードだけでLLMが⽂章を解釈し、項⽬を 抽出 ファイルアップロード画面 アウトプット画面 英語や他言語も

    翻訳して抽出・要約 参照元表示機能 (抽出項目の 参照元に飛べる) 精度向上のために利⽤者が参照元を⾒ながら、抽出結果を修正することが出来る
  6. © LayerX Inc. 8 抽出した内容が、元文書の どこに対応するのかを、ワ ンタッチで表示できるの で、一目で内容レビューが 可能 (出典)Jin,

    Bowen, et al. "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG." arXiv preprint arXiv:2410.05983 (2024). 参照元ハイライト機能 汎⽤性を保ちながら精度100%を追い求めることは⾮現実的。⼈間の⽬を借りる(Human in the Loop)
  7. © 2025 LayerX Inc. 10 Ai Workforceは情報のハブ 専門性の高いドキュメントワークで扱うファイルを集約・分析。高品質なデータを蓄積することで、業務の自動 化や可視化、検索の効率化を実現 社内情報の連携

    AIワークフローで 解析・整理 構造化して 情報集積 情報共有の加速 業務効率化 ドラッグ&ドロップ 外部ストレージ連携 高品質なレビュー済みデータ を蓄積 (Human in the loop) 未整理な フォルダ・ファイル群 https://speakerdeck.com/layerx/ai-agent-for-enterprise-genai-product AIエージェントの取り組み も以下資料にて公開中 既存の業務を分解し、 LLM-nativeに再構成 (出典)Jin, Bowen, et al. "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG." arXiv preprint arXiv:2410.05983 (2024).
  8. © 2025 LayerX Inc. 12 製造・自動車 ・法令、論文、規制情報の調査 ・機微情報の自動マスキングによる情報共有 ・製品が法令や規格に適合するかどうかのレビュー 金融

    ・融資稟議書のドラフト作成、情報転記、内容レビュー ・取引先のリスクアセスメント、監査 ・広告ガイドライン審査 ヘルスケア ・法令 (薬機法) 、論文、規制情報の調査 ・社内プロジェクト (基礎研究、非臨床試験、治験等) の整理と共有 不動産 ・契約書からの情報抽出、情報転記、システム連携 ・法令、規制情報の調査 ・申し込み情報、アンケート情報の内容レビュー、情報転記 金融や製造、ヘルスケア等の業界における様々な文書処理業務が中心。 Ai Workforceの主なユースケース ※トライアル中のケースも含みます。
  9. © 2025 LayerX Inc. 13 • 数百ページあるアニュアルレポートから、アウト プットに必要な箇所を特定 • 貸借対照表、損益計算書、キャッシュフロー計算

    書などの専⾨性の⾼い「表」の情報から項⽬を抽 出し、⾃社が定める勘定科⽬名称に分類 • 習熟までに時間を要した業務を、平準化 アニュアルレポートから財務諸表を抽出し計算 数百ページを、数分で 「表」からの読み取り • 処理結果を、⾃社で作成したExcelフォーマットに 出⼒ • 後続業務への連携を滑らかに Excelフォーマットに出⼒ ⼤量資料から、必要ページを特定し 欲しい情報のみを抽出 勘定科⽬を⾃社仕様に整 理し、計算して出⼒ 出典:2023 3M Annual Report
  10. © 2025 LayerX Inc. 14 • ポリシーに準じたリスク観点などを事前に設定す ることにより、その観点を踏まえた要約‧重要箇 所の抽出 •

    参照元も確認可能なため、レビューを効率化 契約書レビュー ⾼度な契約書のリスク確認を、効率化 リスク観点の整理 • 契約書レビューにおいては「ポリシーにてらせば 容易に判断可能なよくあるもの」「法務部の⾼度 な判断が必要とされるもの」など、難易度も様々 • 前者について、事業部側でAi Workforceを使った 簡易な事前確認ができるようにすることで、法務 部の負荷軽減を図る 法務確認前の、事業部での事前確認 契約書 レビュー観点を 事前設定 レビュー画⾯で レビュー 観点や考慮事 項を 事前設定 契約書 観点が整理された内容
  11. © 2025 LayerX Inc. 16 AIワークフロー vs AIエージェント? AIエージェントは事前に入力が予測できない・網羅しきれいないなどの「非定型な業務」に対して強力なソ リューションになりえるが、一つ一つのエージェントが確率的な動作をするため、エンジニアリング難易度が高

    い 大企業には「定型化された業務」が存在し、動作や出力が予測可能であることが望ましい = AIワークフロー の相性がいい Agent Agent Agent 定型業務を ワークフローとして作り込む (将来的にはAgentが呼び出す Toolに)
  12. © 2025 LayerX Inc. 17 AIワークフローと精度評価のサイクルをいかに高速化するか ワークフロー 精度評価 AIワークフローの構築で最も時間がかかるのが精度評価。「どこを間違えたのか」を素早くワークフローに フィードバックする必要がある

    課題 正解データの作成 評価作業 • 新たに入力される資料に対 応する「正解」は所与ではな い • 人手で正解データを作るた め、ひたすら資料から yaml/jsonに転記... • ドキュメントワークで取得し たい項目は数十あることが 多い • プロンプトを変更すると、 全く関係ないところも変化 してしまう
  13. © 2025 LayerX Inc. 20 Ai Workforceにおける精度評価の対象 単純な値を 取得するもの 文章が

    生成されるもの • 著者名 • 著者の所属 • 実験に用いたデータセット • … 項目 • 要約 • 論文が解決する課題 • 先行研究との比較 • … diff機能で対応可能 単純な値は精度評価が容易だが、生成された文章は「人間が見て評価」しがち(とても大変。スケールしない) 直接的な比較が難しい
  14. © 2025 LayerX Inc. 21 一般的な精度評価手法 評価メトリクス メトリクスの計測方法 (出典)Jeffrey Ip.

    "LLM Evaluation Metrics: The Ultimate LLM Evaluation Guide", 2024. https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation • Answer Relevancy ◦ 有益かつ簡潔な出力か • Correctness ◦ ファクトとして正しいか • Hallucination ◦ 捏造された情報が含まれているか • Contextual Relevancy ◦ コンテキストとして関連性が高いか • Responsible Metrics ◦ バイアスなどなく、有害でないか • Task-Specific Metrics ◦ ユースケースごとにカスタマイズす るメトリクス
  15. © 2025 LayerX Inc. 22 間接的な精度評価 直接的にメトリクスを計算しなくても、間接的に上界・下界を抑える形で精度を評価できる 例: 文章に最低限入っていてほしい「単語」の数を測る 正解の文章

    意味の近い文章 的外れな文章 LayerXのAI・LLM事業部 では、エンタープライズ企業 向けの生成AIプラットフォー ム「Ai Workforce」を開発・ 提供しています。 AI・LLM事業部では、生成 AIを活用した「Ai Workforce」を開発し、エン タープライズ向けに提供して います。 LayerXでは、バクラク事業 部、Fintech事業部、 AI・LLM事業部があります 間接的な指標がチューニングによって正の方向へ変化すれば、「改善」しているので、 精度評価の自動化へ繋がり、AIワークフローの開発自体がAgenticになっていく
  16. 24 © LayerX Inc. AIにどう仕事を学んでもらうか 学び⽅のパターン マニュアル型 • 標準化された業務の⼿続 きを習得

    事例分析型 • インプット‧アウトプッ トの事例から⼀般的なプ ロセスを発掘 フィードバック型 • ⼈のレビュー‧修正に基 づき改善 内省型 • ⾃分で試⾏錯誤して改善 AI⾃⾝がやった事例から学ぶ ⼈がやった事例から学ぶ AI⾃⾝で学習する ⼈間から教わる
  17. 28 © LayerX Inc. 内省型 AIが⾃分で試⾏錯誤して改善 マニュアル型 事例分析型 フィードバック型 内省型

    ChatGPTの学習に使われている、⼈間のフィードバックによる強化学習 将来、Ai Workforceが 企業ごとの報酬モデルを学習 報酬モデル (出⼒を評価するモデル) LLM フィードバックに 基づき学習 ⼈間のフィードバックで 直接LLMが学ぶわけではない AI同⼠の「⾃⼰対戦」のように学習 (今後AIの学習能⼒が⾶躍的に⾼まる⾒込み)