Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIエージェント開発手法と業務導入のプラクティス

 AIエージェント開発手法と業務導入のプラクティス

LLMを活用したAIエージェントの開発から業務導入までをエンジニア視点で解説。プロンプト設計やツール設計のコツ、API統合の実装ポイントを押さえつつ、業務実用化に向けた成功のキーポイントを掘り下げます。実装の落とし穴や運用時の課題も事例と共に紹介。

2025/04/24 Qiita Conference 2025発表資料

Yoshinori Kosaka

April 24, 2025
Tweet

Other Decks in Technology

Transcript

  1. GenerativeX, CONFIDENTIAL 2 自己紹介 株式会社GenerativeX 執行役員 CTO 小坂佳範 東京大学教養学部卒業、同大学院工学系研究科技術経営戦 略学専攻修了。新卒で株式会社LITALICOに入社し、

    新規事業開発部において開発業務に従事。 その後株式会社ウェリコでのCTOを経て、TikTokを運営す るByteDanceに入社。米中のソフトウェアエンジニアと連 携し、エンタープライズ向け製品のテックリードを務める。
  2. GenerativeX, CONFIDENTIAL GenerativeX, CONFIDENTIAL 3 会社概要 ビジョン: 日本を支える大企業の成長と革新を生成AIで支援する 会社名 株式会社GenerativeX

    (ジェネレーティブエックス) 設 立 2023年6月 本 社 東京都港区虎ノ門1-17-1 虎ノ門ヒルズビジネスタワー 15F 米国オフィス 142 W 57th St, New York, NY 10019 従業員数 60名 会社情報 投資家 • 2023/06 東京都渋谷区にて創業 • 2024/01 東京都虎ノ門に本社移転 • 2024/04 シードラウンドで1.2億円の資金調達を実施 • 2024/05 米国オフィスを設立(ニューヨーク) 沿革 メディア掲載・プログラム採択
  3. GenerativeX, CONFIDENTIAL 5 コンサルファーム出身者が中心となった生成AIファーム 技術とビジネスの両方に明るいプロフェッショナル人材を多数擁しております 東京大学経済学部卒/ 大学院工学系研究科修了 JPモルガン証券株式会社投資銀行部門にて、M&A、資金調達などのアドバイザリー に従事した後、リアルテックスタートアップを創業・売却。 代表取締役CEO

    荒木 れい(あらき れい) 執行役員 伊田 弥樹(いだ ひろき) 東京大学工学部卒/ 大学院工学系研究科修了 メリルリンチ日本証券(現 BofA証券)の資本市場部門にて、国内外の数多くの資金 調達案件に従事。リアルサービスのマッチングを行うミツモアでの執行役員を経験。 東京大学工学部卒/ 大学院工学系研究科修了(松尾豊研究室) 株式会社YCP Japan(現:株式会社 YCP Solidiance)へ入社、株式会社松尾研究所、 経営企画のリーダーを経験。 取締役/CAO 上田 雄登(うえだ ゆうと) 松井 雅章(まつい まさあき) 慶應大学卒 P&Gを経て、ドイツ銀行、ゴールドマン・サックス証券にてデリバティブのセール ス・トレーディングに従事。 国際教養大学卒 株式会社コロプラにて新作ゲームのUIUXプランナー/ディレクターとして従事。デ ロイトトーマツコンサルティングでは営業CRM/SAPの開発プロジェクトマネージャ ーとして開発チームの管理を担当。 照井 聖人(てるい まさと) 京都大学経済学部卒 東京海上日動火災保険株式会社理事を経て、イーデザイン損害保険株式会社取締役 社長を7年務める。保険商品開発、システム再構築、ビジネスプロセス変革等を経験。 執行役員 桑原 茂雄(くわばら しげお) 山本 悠介(やまもと ゆうすけ) 東京大学文学部卒 アクセンチュア株式会社に入社し、金融領域においてIT/戦略コンサルティングに従 事した後、スタートアップを中心として複数社にて幹部を歴任。 東京大学教養学部卒/ 大学院工学系研究科修了 株式会社LITALICOにて、新規事業開発部においてフルスタックエンジニアを経験し た後、TikTokを運営するByte Danceにてテックリードを務める。 執行役員/CTO 小坂 佳範(こさか よしのり) 大森 雅仁(おおもり まさひと) 東京大学工学部卒/ 大学院工学系研究科修了 マッキンゼー・アンド・カンパニーに入社、東京/関西オフィスに所属し、製造業の オペレーション改善、通信事業の新規事業立案などのプロジェクトを担当。
  4. GenerativeX, CONFIDENTIAL 6 GenerativeXにおける典型的なProject推進方法 品質 ✕ 速度 ✕ 量をすべて高い水準で提供し、現場部門を巻き込みながら推進 対象業務・課題の検討

    開発 テスト 効果検証 /導入検討 データ準 備 • 生成AIのポテンシャルを当初から理解するのは難しいの で、「実際の成果物」を見ながら追加のニーズや真の課題 を拾い上げる • 日本語の「プロンプト」を変えることで性能・機能 を容易に変えられる • 現場・実利用者を積極的に巻き込み「ノウハウ」 を反映 • 精度 ≠ 効果 • 精度一辺倒ではなく、「実際に 業務が変わるか」という観点で 評価 初回デモまで 1~2週間 要件定義〜PoC期間(2〜3ヶ月程度) 当初スコープに限定せず 5~10個のAppを量産 (場合によってはPivot) • 「プログラミングができるコンサルタント」が伴走し、ビジネス課題の本質理解と技術実装を同時に進行。 • それによって仮説検証サイクルを大幅短縮。 さらに、単なる技術導入ではなく「ビジネス上の付加価値を生み出す技術活用」を支援。 生成AIコンサルタント with Programming skill
  5. GenerativeX, CONFIDENTIAL GenerativeX, CONFIDENTIAL 8 講演・セミナー 米国フィラデルフィアにて開催の「Pharma Expo USA 2025」に参加(2025/3/18〜

    3/19) 米国ニューヨークにて開催の「AI in Finance Summit New York」に参加 (2025/4/15〜 4/16) 「FIN/SUM 2025」に参加 (2025/3/4〜 3/7)
  6. GenerativeX, CONFIDENTIAL 9 LLMアプリケーションの進化 AIエージェント化の絵姿 機 能 の 数 多

    少 AIの自律性 低 (ワークフロー) 高 精度向上 機能追加 多機能自律 AIエージェントの実 装 想定される進化のプロセス ② ワークフロー型AI ③ エージェント型AI ① チャット型AI / RAG Agent as a tool 単一エージェント 複数エージェント 開発の流れ ① チャット型AI • PoCを実施しユーザから機能要望 やフィードバックを収集する ② ワークフロー型AI • 外部サービスと連携または機能種 別を増やし、UXを向上する ③ エージェント型AI • 追加していった機能をAIエージェン トが指示者の意図を汲み取って自 走できるようにする 多機能自律エージェント 同士のやり取り 機能拡張→自律化といった進化を経て、最終的にはエージェント同士のやり取り、という絵姿が想定される
  7. GenerativeX, CONFIDENTIAL 10 エージェント型AI ワークフロー型AIとの違い: エージェントAIは、自律的な問題解決が求めら れる場合において有効 使い分けが 重要 AIが考える

    ワークフロー型AI 事前に人間が設計 社内 文書 検索 クエリ 論文 リスト 要約 示唆 論文 リスト 要約 示唆 AI API AI AI AI AI 社内 文書 検索 クエリ 論文 リスト 要約 示唆  事前定義された処理で高速  処理パスが明確で予測可能  一方向の実行フロー(入力 → 処理 → 結果) 特徴  柔軟な問題解決と状況適応、考察も勝手に深 める  探索的に動くので低速  定型的な業務プロセスの自動化  明確な入出力要件がある作業  大量データの一括処理が必要な場合 想定される 利用方法  複雑な判断や推論が必要な業務  探索的な分析や問題解決
  8. GenerativeX, CONFIDENTIAL 11 エージェントAIの基本型: 計画策定、Function calling機能、次のアクショ ンを決定する評価機能により、「自律的」にユーザーからの要望を完遂 クエリ付与 API ③タスク完了

    ②追加インプット要求 ①一連のプロセスのリトライ ユーザー DB連携 外部サービス連携 計画 本実行前に計画を策定 本実行 前ステップで定義した タスクを処理 評価 タスクを適切に 処理できたのか検証 ※①-③を フラグ処理 DB Function Calling
  9. GenerativeX, CONFIDENTIAL 12 GenerativeXでの開発方針 言語/スタックの 統一化 ライブラリを作らず テンプレートを整備 Python /

    TypeScript(Next.js) を軸に言語/ライブラリを絞る 基本方針 理由 効果 共通ライブラリは用意せず、 共通テンプレートを整備 AIエージェントの実装についても テンプレートに実装例を用意する のみにし、forkしてカスタマイズす る AIエージェントの実装自体が ユースケースごとに異なる あえて共通化せずにコピペ & カス タマイズを許可することで高い柔 軟性と生産性の維持をする Cursor/Devinなどで実装コストが やすい 現時点で数百のgitレポジトリが存 在し、互いに独立した開発を行う ことができている(依存関係など なし) コンサルタントであっても開発に 参加をし容易に実装ができる PJ間の人材移動が容易になった PJ間の環境差異をなくし、学習コ ストをゼロに近づける PJ間での成功事例をシェアできる ようにする 高い生産性と開発の柔軟性のために以下の制約に基づいて開発を実施
  10. GenerativeX, CONFIDENTIAL 13 生成AIエージェントを開発するうえでの落とし穴 1. はじめからライブラリを使う 2. はじめからマルチエージェント化する 3. 技術スタック/レイヤを分割する

    技術面での落とし穴 1. オフィスで開発する 2. いきなり業務フローを変える 3. テストケースを作らない ビジネス面での落とし穴
  11. GenerativeX, CONFIDENTIAL 14 技術編アンチパターン①: いきなりライブラリを使う AIエージェントの実装に正解はないので、決まった仕組みにハマらずPJごとに必要な実装を行うべき セクション 内容 1. 背景

    - エージェント開発は 「とりあえず LangChain/LlamaIndex/LangGraph …」で始めがち。 - しかし AI エージェントの実装はユースケースごとに異なる型が必要であり、ライブラリ依 存が高いと後工程の調整が効きづらい。 2. リスク/症状 - 開発の時間の多くがAIエージェントの開発ではなく、ライブラリの理解に使われる - スタックトレースが追えずにデバッグが難航。 - 細かなカスタム要件を対応しきれない 3. 回避策 1. PoC ではOpenAI/AnthropicなどのAPIを直接叩き、エージェントを実装 2. 実際に動作するようになり、汎用的な型が見えた段階でライブラリ化を行う 4. 実践 Tips OpenAIのドキュメントを参照し手を動かしてFunction Callingなどの仕組みを実装する 自作で再現できる範囲を把握してから、ライブラリの導入を考える
  12. GenerativeX, CONFIDENTIAL 15 技術編アンチパターン②: はじめからマルチエージェント化する シングルエージェントではじめ、機能境界が自ずと浮き上がってから分割する セクション 内容 1. 背景

    - “複数エージェント協調” がトレンドで、初手から役割分担させたくなる - しかし エージェントの問題解決は行き来/反復的 であり、早期分割は複雑化の温床 2. リスク/症状 - 要件変更のときにプロンプト以外の開発が発生する(シングルエージェントならばプロンプ トのみでロジック変更できる) - 追加開発や検証サイクルが鈍化 3. 回避策 (ベストプラクティス) 1. まずはシングルエージェントのシステムプロンプト/ツールに必要な仕組みをすべて追加 2. エージェントのログを残し、性能をあとから比較できるようにする 4. 実践 Tips - シングルエージェントで実装してみる - 問題が顕在化し “自然な機能境界” が見えた段階でのみ、別プロセスやサブエージェントに抽 出
  13. GenerativeX, CONFIDENTIAL 16 技術編アンチパターン③: はじめから技術スタック/レイヤを分割する 設計が安定していないうちはモノリスアーキテクチャで進めるべき セクション 内容 1. 背景

    - 生成 AIエージェント開発を”正しく”実装しようとすると、BE/FEをまたいでエージェント実 装しがち - 一方、エージェント開発は研究開発的な要素が強く、試行錯誤を経て最適な実装方法が発見 される事が多い 2. リスク/症状 - 要件が変わったタイミングでAPIの作り直し・FEの再実装が必要になる - FE/BE のリポジトリが分散し 同期ミス→バグ発生。 3. 回避策 1. モノリシック設計を基本とし、単一リポジトリで “プロンプト⇄UI” を同時更新 2. 開発スタックを絞る: • Streamlit • Next.js(App Router)+ TypeScript 4. 実践 Tips - 一つの言語でFE/BEを実装する - モノレポにしてDevinやCursorで一度に参照・編集できるようにする
  14. GenerativeX, CONFIDENTIAL 17 ビジネス編アンチパターン①: 現場を見ない AIエージェントが使われる予定の現場に入り込み、自分で業務が回せるレベルまで理解するべき セクション 内容 1. 背景

    - 開発チームとユーザ部門が物理的・組織的に離れていると、業務の“肌感”をつかみにくい。 - AIエージェントのシステムプロンプトには暗黙知化された手続き知を言語化する必要がある 2. リスク/症状 - 実装した AI アシストが 現場のボトルネックを解決せず PoC 止まり。 - KPI が開発側(機能数)と現場側(対応時間短縮)で ズレ、評価不能。 - 運用部署がツールを “使わない” or “独自改造” し、保守コスト増大。 3. 回避策 1. ハイタッチ導入:現場訪問/常駐 + 会議以外でのコミュニケーションにより業務理解の醸成 2. PM = ユーザー代表:権限委譲し、仕様変更を即決できる体制を組む。 4. 実践 Tips - 「現場 開発」ワンチーム編成 - 現場訪問/常駐 を行う - 実際に業務を実体験する
  15. GenerativeX, CONFIDENTIAL 18 ビジネス編アンチパターン②:いきなり業務フローを変える フロー変更ゼロで現場に導入 → 精度とROIを並行測定 → 閾値を超えた時点で業務置換 セクション

    内容 1. 背景 - ROI を示すために 既存フローを早期に置換しがち。 - しかし現場は「現行手順ゼロ変更」での安全検証を求める。 2. リスク/症状 - 大幅変更に対する 現場抵抗・導入遅延。 - KPI 悪化時のロールバック手順が不整備で 運用混乱。 3. 回避策 1. 並行導入: • 人間オペレーションを一切変えず、AI が同じ入力を受け“全自動アウトプット”を裏側で生成。 • 人間出力 AI 出力を比較し、精度・工数差分をリアルタイム集計。 2. KPI達成を軸にした部分置き換え: • 例:一致率 ≥ 95 %を連続 2 週達成 ⇒ 当該タスクを AI にスワップ。 4. 実践 Tips - 比較メトリクスを整備する:一致率 、手戻り率、平均処理時間。 - 置換基準を決める:置換可否を数値で決定。 - フェイルセーフ切り戻しスイッチ(Feature Flag)を準備しておく。
  16. GenerativeX, CONFIDENTIAL 19 ビジネス編アンチパターン③: テストケースを作らない 人間と AI の出力を同じ採点基準で自動採点し、差分で性能向上を定量把握 セクション 内容

    1. 背景 - 生成 AI は入力と出力が1-1で対応しないため、従来型テストが機能しにくい。 - 手動チェックに頼るとモデル/プロンプトの更新のたびに予期しない差分が発生。 2. リスク/症状 - モデル/プロンプト 更新で 過去の安定機能が壊れる。 3. 回避策 1. 実ケースを抽象化したリアルなテストデータを整備 2. 採点基準を定義し、人間出力と AI 出力を共通手法で自動評価 3. 評価の仕組みの整備: • オフライン:オフラインテストケース × 採点基準スコアを CI で回帰テスト。 • オンライン:AIと人間の判断の差異をリアルタイム計測しモニタリング 4. 実践 Tips - pytest+CLI で自動実行できるようにする - 品質 (Q)・コスト ($/req)・レイテンシ (ms) の 3軸で評価できるようにする
  17. GenerativeX, CONFIDENTIAL 20 アンチパターン どうすればよいか はじめからライブラリを使う まずは生のOpenAI API × Python

    で自作し、挙動を理解して から抽象化 はじめからマルチエージェント化する システムプロンプトを磨き込んだ単一エージェントで挙動を 把握し、自然な境界が見えたら切り出す はじめから技術スタック/レイヤを分割する モノリス+単一スタック (Streamlit / Next.js) で プロンプト と UI を同時更新し高速反復 現場を見ずにオフィスで開発する ハイタッチ導入+共通 KPI、ユーザ代表をチームに内包 いきなり業務フローを変える AIエージェントと現行業務の並行運用で AI 出力と人間出力を 比較し、閾値クリア後に置換 テストケースを作らない 実データを反映したリアルなテストケースを作成 採点基準の作成して自動評価する これまでの要約 技術側 ビジネス
  18. GenerativeX, CONFIDENTIAL 21 エージェント開発 成功への 3 つの軸 1.単純化して始める モノリス・自作・単一プロンプト 2.現場密着で回す

    現場に行く・パラレル導入・数値で置換判断 3.品質を仕組みで守る テストケース作成・品質基準作成・品質自動評価