三菱重工業株式会社　全社RAGの精度チェック、エージェントに丸投げしてみた話

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 全社向けの精度チェック、
エージェントに丸投げしてみた話 2026/02/17 三菱重工業株式会社デジタルイノベーション本部 DPI部 SoEグループ原田新也

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 2 ▪
自己紹介 ◆ 氏名原田新也 ◆ 業務デジタルイノベーション本部 DPI部 SoEグループ社内向けプロダクトの企画・開発・運用を担当全社向けRAGチャットボット基盤： ΣSynX EX(通称：AI ワークスペース) の開発リード経歴～2020 2021 2022 2023 2024 2025 2026 金融SE 問合せ管理システムの開発問合せ管理システムのAWSリフト全社RAG 立上げ ▲三菱重工入社 ▲ AWS利用開始 ▲ 生成AI組込プロダクト開発（半年）利用拡大

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 3 従業員が生成AIを利用して社内ナレッジの検索や申請処理など
様々な業務が実施できる総合プラットフォームチャット画面 AI ワークスペースモバイル対応グラフィカルなUI 採用技術利用方法 4つの特徴 • 生成AIを活用したBedrock Knowledge Base • エージェント基盤にAgent Coreシリーズを採用 1. 最先端のライブラリを利用した先進的なプロダクトを内製 2. Bedrock KBを中心に社内データのAdvanced RAG化 3. AIエージェントを作成し、ユーザのニーズに応じた業務の実施・支援を自律的に実行 4. モバイル向けにレスポンシブ対応済

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 4 データの可視化
エージェントの実行/システム間連携機能も順次拡充予定・社内の注目度も徐々に上がってきており利用ユーザーも拡大中従業員が出社後AIワークスペースにログインしあらゆる業務を完結する世界を目指す

主なアーキテクチャリソース

の精度評価については・・・ Langfuseのメトリクスやトレースで人が手動で分析・評価しているがユーザ増に伴い負荷も増加メトリクストレース

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 7 ▪課題:システム運用負荷が高まってきた
社内データ連携やユーザ連携等手動運用の部分もあり立上げから半年でリリースへ。実開発メンバは4人システム運用項目の中でも負荷の高いRAGの精度評価を負荷軽減できないか利用者が増えるほど、手が回らなくなる

エージェントに丸投げしてみた仕組み 4つの評価指標 Faithfulness 回答がコンテキストに裏付けされてるか Context Recall 必要な情報を検索できたか Answer Relevancy 質問に的確に答えているか Context Precision 検索結果にノイズがないか Langfuse × AI-as-a-Judge で RAG の精度を自動チェックしてみることにした ➀ Langfuse で全会話のトレースを自動収集 Vercel AI SDK + OpenTelemetry ➁ 評価用の質問セットを定期的に自動送信 GitHub Actions で毎日実行 ➂Langfuse MCP Gateway でトレースを取得エージェントがチャット経由でログを取得 ➃ AI-as-a-Judge で採点 4指標でスコアリング

どうだった② エージェントに任せられたこと任せられてない / 課題・取得ログデータ量のLLMのトークン制限 - LLMの判断力を落とさずにトークンを節約する必要がある - 現在はトークンアナライザーでコンテキストを制限中・より発展的なアクション - 推定した理由に基づいて、アプリのプロンプトを自動調整 - 不足してるデータの関連部署への自動通知・データ更新系の評価の確立・精度の低い質問を早期に特定し理由を推定 - 従業員にとって不足しているデータが何なのか特定・人間の評価と異なり常に同じ基準で評価・ KBデータ更新後の品質変化を定量的に把握・チャット/slackで品質レポートを定期確認

まとめ今後の展望今回やったこと Langfuse × AI-as-a-Judge で RAGの精度チェックをエージェントに委譲・全会話トレースの自動収集・プロンプト設計で分析観点を制御・ MCP Gateway 経由でチャットから分析・ 4指標での自動スコアリング今後の展望評価の自動化は運用負荷軽減の第一歩・トークン制限の克服（要約・チャンク分割）・ユーザー管理のエージェント化・オンプレ文書連携の自動化・ 4人の小さなチームだからこそエージェントの力で運用を回していく小さなチームでも、エージェントと一緒なら運用は回せる。

三菱重工業株式会社　全社RAGの精度チェック、エージェントに丸投げしてみた話

三菱重工業株式会社　全社RAGの精度チェック、エージェントに丸投げしてみた話

原田新也

Other Decks in Technology

Featured

Transcript

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 全社向けの精度チェック、

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 2 ▪

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 3 従業員が生成AIを利用して社内ナレッジの検索や申請処理など

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 4 データの可視化

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 5 ▪

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 6 ▪

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 7 ▪課題:システム運用負荷が高まってきた

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 8 ▪

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 9 ▪処理パイプラインとプロンプト

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 10 ▪どうだった①

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 11 ▪

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 12 ▪

© MITSUBISHI HEAVY INDUSTRIES, LTD. All Rights Reserved. 13 ▪さいごに

三菱重工業株式会社 全社RAGの精度チェック、エージェントに丸投げしてみた話

三菱重工業株式会社 全社RAGの精度チェック、エージェントに丸投げしてみた話

Other Decks in Technology

Featured

Transcript

三菱重工業株式会社　全社RAGの精度チェック、エージェントに丸投げしてみた話

三菱重工業株式会社　全社RAGの精度チェック、エージェントに丸投げしてみた話