Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIエージェントの現状を俯瞰する

 生成AIエージェントの現状を俯瞰する

電通総研の研究開発活動の一環で作成された資料です。

AITC - DENTSU SOKEN

May 20, 2024
Tweet

More Decks by AITC - DENTSU SOKEN

Other Decks in Research

Transcript

  1. 4 © DENTSU SOKEN INC. ⽣成AIエージェントとは ⼤規模⾔語モデル (Large Language Model

    ) を使い、複雑なタスクを⾃律的に解決するAIシステムです。 AIエージェントは、タスクの⽀援ではなく、完了することを⽬指します。 https://www.rabbit.tech/ https://humane.com/shop 職務別アシスタント ツールを使い業務を完了させる 複数サイトから情報抽出してエクセルに出⼒など タスク ツール ナレッジ Excel One Drive Outlook Bing 特定企業の動向調査 情報抽出と転記 下書き作成 市場調査担当 試⾏履歴 業務知識 ⾃社情報 ⽣成AIエージェントの例 消費者向け ・旅⾏や移動計画 ・価格⽐較や商品推薦 ・アカウント/サブスク管理 バックオフィス業務向け ・会議の予約調整 ・法務や⼈事など書類レビュー ・コスト管理 コア業務向け ・カスタマーサービス ・ソフトウェア開発 ・データ分析
  2. 5 © DENTSU SOKEN INC. なぜ⽣成AIエージェント? 1)⽣成AIエージェントは⾃律的または対話的に作業をおこない、社員の業務を遂⾏する • エージェントは与えられた⽬標に基づいて⾃ら作業を洗い出し、優先順位付けしながら実⾏できる 2)⼀体のエージェントが複数のユースケースに対応するため、業務利⽤が定着しやすい

    • ウェブ検索、ファイル操作、APIなどを組み合わせて、複雑なタスクを効率化できる • 汎⽤性を犠牲に業務特化型にして、業務の代替を進めることも有効な⼿段 3)エージェントの構築コストが下がってきて作りやすい • LLMの利⽤トークン数が10万以上に増え、API利⽤料⾦が下がっている • 性能の⾼いオープン⾔語モデルが増えている • ITベンダーがエージェントを簡単に作れる製品を出し始めている 懸念点 • エージェント構築の⺠主化は進んでいるが、どこで役⽴つかの市場の開拓は進んでいない • ビジネスサイドで技術検証も進んでおらず、オープンに議論されていない
  3. 7 © DENTSU SOKEN INC. ⽣成AIエージェントの実現⽅法 モーダル理解や推論能⼒のある基盤モデルを⽤途ごとにモジュール化し、ワークフローにして実現します。 外部システムともツールを通じて連携することができます。 OpenAI, Microsoft,

    Amazon, Googleでも簡単にエージェントが作れるようなソリューションがあります。 LLMに必要な能⼒ • Spatial Reasoning (空間推論能⼒) • Instruction/Rule Following(指⽰追従⼒) • Long Context Understanding(⻑い⽂脈の理解⼒) • Planning(計画⼒) • Tool Use(ツール利⽤⼒) • Self-Correction (⾃⼰修正⼒) • Generalization (汎化能⼒) 環境 計画 ツール利⽤ ⾃⼰修正 最終出⼒ 指⽰理解 ⽣成AIエージェントのワークフロー メモリ
  4. 8 © DENTSU SOKEN INC. 空間推論⼒とは 空間推論(Spatial Reasoning)は、物体の空間的な位置や関係性を認識した上で推論する能⼒です。 • マルチモーダルなLLMに必要な能⼒の⼀つです。

    • 地図のナビゲーションや設計図の理解、画像⽣成での想像⼒にも関わります。 Spatial Reasoning Test A Survey of Reasoning with Foundation Models GPT4Vでもコード⽣成したり、 ⻑く思考しても意外と解けない
  5. 9 © DENTSU SOKEN INC. 指⽰追従⼒/⻑い⽂脈の理解とは 指⽰追従⼒は、ユーザーから与えられた制約条件や役割に従う能⼒です。 ⻑い⽂脈の理解は、ユーザーや他のエージェントとの会話履歴、ドメイン知識など⻑い⽂脈を忘れない能⼒です。 性能の⾼いモデルがでると記述量が減っていくことを願っています。 •

    私は誰なのか • 何をするのか • 何のためにするのか • 何が使えるのか • ⾃分のタスク前後で何があるのか • 知るべき事前知識は何かあるか • 制約条件はあるか • 今までの会話内容はあるか • 過去の類似タスクの結果はあるか 説明が多くルールベースに近い→学習で省略できるのか
  6. 10 © DENTSU SOKEN INC. メモリとは メモリは、エージェントの過去の経験をもとに、エージェントの推論性能を⾼めるための記憶機能です。 • プロンプトに記述するだけの短期記憶とDBに保存する⻑期記憶があります。 •

    DBには、エージェントの軌跡を基本的に保存します。必要に応じて加⼯します。 経験の蓄積 将来似たタスクを遂⾏する際に効率が上がる 過去のエラー計画、不適切な⾏動、または失敗した経験を記憶する 環境探索 いつ、どのように探索をするかの意思決定に活⽤できる 様々な⾏動をおこないフィードバックと共に記録する 知識の抽象化 未知の環境に対して⼀般化できるようになる ⽣の観察を要約することで⾼次に抽象化して記録する 対話 メモリがなければ、エージェントは⽂脈を知らず、会話を続けることができない 過去の会話に関する情報を記憶する パーソナライズ ユーザーとエージェントの対話中の事実情報だけでなく、ユーザーの好みやスタイルも記憶する なぜメモリが必要なの?
  7. 12 © DENTSU SOKEN INC. ⾃⼰修正⼒とは ⾃⼰修正⼒はタスクを遂⾏できたか評価し、次の⾏動を考える能⼒です。 ・APIの呼び出し失敗理由から次の呼び出しを考える(ツールの再実⾏) ・計画実⾏から得られた情報から計画を⾒直す(再計画) ・Code

    Interpreterは⾃⼰修正⼒を作り込んでいる 評価 フィードバック 修正 計画実⾏ 計画 評価のルールを⾔語化すること 厳しい評価や無駄なループに⼊ることあり 諦めさせることも重要 評価理由や失敗原因などを⽣成させる 精度の⾼いモデルを使うことを推奨 何を直すか考え実⾏する • 計画の問題か • ツールの選択ミスか • ツールの使い⽅ミスか • 誤った思考に陥っているか https://github.com/teacherpeterpan/self-correction-llm-papers
  8. 13 © DENTSU SOKEN INC. ツール利⽤⼒とは ツールはLLM の外部で動作するコンピュータプログラムの関数インターフェースです。 LLM はツールを使うために関数呼び出しと⼊⼒引数を⽣成します。

    ツールの種類は環境から情報を収集する知覚、環境の状態を更新する⾏動と計算に⼤別されます。 SQLクエリや検索エンジンは計算であり知覚でもあります。 関数インターフェース • 関数名 • 引数の型と意味 • 戻り値の型と意味 • 関数の動作概要(簡単な説明) 類似するツールから正しく選べるか 複数のツールを組み合わせられるか 検索 情報抽出 エクセル更新 製品仕様書検索 or ヘルプサイト検索 https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf 繰り返す共通パターンは スキルと呼ぶ
  9. 14 © DENTSU SOKEN INC. エージェントのための微調整とは エージェントのための微調整は以下の⽬的でおこなわれます。 ・ドメインを絞り、APIのみ提供するクローズドモデル(GPT-4など)の性能に近づけるため ・計画や道具利⽤など特定の役割に特化させるため データセットの作成が課題

    エージェントの軌跡データを集めるコストが⾼い ・質の⾼い軌跡とは何か ・失敗軌跡から学べないか ・Claude, GPT4, Gemini のAPIの仕様の違いは吸収できるか ・他の環境で得た軌跡は活かせるか ・成功軌跡以上の難易度のタスクを解けるのか 軌跡データの収集
  10. 15 © DENTSU SOKEN INC. ⽣成AIエージェントの評価とは ⽣成AIエージェントの性能評価は実務でも⾮常に重要です。 • 全体評価:タスク成功率、タスク安定率、タスク進捗率 •

    ステップ評価:計画⼒の評価、サブタスクの評価、道具選択⼒の評価、⾃⼰評価の評価 • ⾮機能評価:消費トークン数、推論時間、⾦額 計画⼒の評価は⼈間が評価 ・タスク初学者がその計画を渡されて成功できると思うか ⾃⼰評価は評価観点を⼈間の視座に合わせる ・余計な配慮を減らし、事実に基づいて答えれているか、次のアクション案が妥当か タスクの安定率があがらないと”星に願いを”になる 安定率が低い
  11. 17 © DENTSU SOKEN INC. RAGとエージェントの違いは 質問応答タスクでは、両アプローチは何に注⽬するかの違いで、実際には類似したフローになります。 • RAGアルゴリズムは、質問や⽂書などデータに焦点をあてて組み⽴てます。⽂書の構造が…だから〜、質問内容が….だから〜 •

    エージェントのワークフローは、業務の⼈間の思考や⾏動に焦点をあてて組み⽴てます。⼈間なら質問に答えるには〜して〜 LangChainが考える発展的なRAGアーキテクチャ ⽂書との類似度向上 のため質問を変換 質問に応じて ⽂書群を使い分け 検索しやすいように⽂書分割 検索&リランク 質問内容からDBを選択 回答の評価 環境 計画 ツール利⽤ ⾃⼰修正 最終出⼒ 指⽰理解 RAGアーキテクチャをエージェントフローに対応づけ ※RAGをエージェントのツール(⾏動)とみなすこともできます。 Advanced RAG Series: Generation and Evaluation Beyond Naive RAG: Adding Agentic Layers
  12. 19 © DENTSU SOKEN INC. ⽣成AIエージェントの応⽤4種類紹介 研究動向を追うと以下の4パターンに分けられます。 Agentic AI Systems

    • エージェントが主体的に業務やタスクを代替するシステム Multi-Agent Systems • 複数のエージェントが協⼒/競争するシステム Embodied Agents • ⽬標に向けて環境と相互作⽤する⾝体のあるエージェント Computer Controlled Agents • コンピュータ上のタスクを⾃動化するエージェント 業務の⾃動化 送信をクリック
  13. 20 © DENTSU SOKEN INC. エージェントの主体的な⾏動による業務代替システム (Agentic AI Systems) ⾃然⾔語で指⽰を出し、エージェントがコード⽣成やAPIを駆使する業務⾃動化システム

    論⽂で題材にされる業務 ・データ分析業務 ・レポート作成業務 ・雑務 ・⾳楽や動画などコンテンツ作成業務 ・ソフトウェア開発業務 ・ヘルプデスク業務 ・都市計画業務 ・ユーザーリサーチ業務 ・旅⾏代理店業務 など... https://www.openinterpreter.com/ https://www.cognition-labs.com/introducing-devin https://github.com/geekan/MetaGPT/tree/main ソフトウェア開発業務の代替サービス • Open Interpreter, Devin, MetaGPTが有名 • Copilot は⽀援サービスの位置付け MetaGPTの例
  14. 21 © DENTSU SOKEN INC. マルチエージェントシステム(Multi-Agent Systems) 複数の異なる役割のエージェントが協⼒/競争するシステム 会話・⾏動シミュレーション プロフィールに追従することが求められる

    ・推薦後のユーザーの⾏動変化 ・住⺠の声からコピー⼈間を作って討論 ・購買における交渉 コミニケーション戦略によるタスク解決 タスク簡易化のため各エージェントに責務を分ける ・ソフトウェア開発 ・コンサルテーション ・対話的推薦 ・質問応答 ・動画⽣成 アンケートなどからプロフィールを模倣し⾏動シミュレーション 対話的推薦 雑談するか、情報引き出すか 推薦するかで異なる役割 A Multi-Agent Conversational Recommender System When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm
  15. 22 © DENTSU SOKEN INC. ⾝体のあるエージェント (Embodied Agents) ⽬標に向けて環境と相互作⽤する⾝体のあるエージェント 仮想世界(Minecraft

    など)で検証することが多い ゲーム応⽤ ・⽬的地までナビゲーション ・物の積み⽴てや建設 ・道具の利⽤ ロボット応⽤ ・協働で家事 ・⼈間とのインタラクション A Survey on Large Language Model-Based Game Agents Building Cooperative Embodied Agents Modularly with Large Language Models ⽬標物を探すようにナビゲーション ⼈間や他のエージェントと協⼒して活動
  16. 23 © DENTSU SOKEN INC. コンピュータ制御エージェント (Computer Controlled Agents) コンピュータ上のタスクを⾃動化するエージェント

    VLMの場合、スクショを与えてマウスやキーボードの操作コマンドを⽣成する Webサイトのナビゲーション ・ECサイト ・予約・申請サイト Webアプリやソフトウェアを対話的に操作 ・Office製品 ・スマホのアプリ ・3D Blender, Photoshop WorkArena: How Capable are Web Agents at Solving Common Knowledge Work Tasks?
  17. 25 © DENTSU SOKEN INC. ⽣成AIエージェントのビジネス活⽤状況 市場に出ているサービスを整理しました。 ロールプレイングシミュレーション • 職務役割、特定の⼈物、性格に基づき対話シミュレーションができる

    • 営業のロープレ、⾯接、⾃治体などの討論会、エンタメで活⽤ RPAなどのビシネスプロセス⾃動化 • RPAのワークフローの中に⽣成機能が⼊り⾼度化 • ブラウザ拡張機能が多い • ⼊⼒作業、複数のアプリを跨ぐ集計作業、顧客リスト作成など RAG質問応答システムの拡張 • RAGアルゴリズムをエージェントワークフローに拡張 • 特定の知識⽂書を与え、知識労働の⽀援 社内向けのPM、チームメイト、パートナーAI • 社内向けにツールや知識の統合を特化したGPTsのイメージ • CRM, Mail, スプレッドシート, Teams, Calendar, slackと連携 職務別アシスタント • 職務別にGPTsのテンプレを⽤意しているイメージ • データサイエンティスト、営業、マーケティング ロープレ:https://www.padboat.com/ RPA:https://www.eleventh.ai/ チームメイト:https://www.graft.com/blog/embracing-ai-teammates 職務別アシスタント:https://nexus.snikpic.io/
  18. 26 © DENTSU SOKEN INC. ⽣成AIエージェントのビジネス活⽤状況の分岐整理 Yes No RPAの発展 ビジネスプロセス⾃動化

    外部アプリで更新・作成・削除の操作をするか 擬⼈化が必要か 特定のプロセス⾃動化か Yes No Yes No 特定の職務向けか Yes No 職務別アシスタント 社内業務向けのPM チームメイト、パートナーAI RAG質問応答システム ロールプレイングシミュレーション
  19. 27 © DENTSU SOKEN INC. ⽣成AIエージェントビジネスの⾻格 OpenAIが発表したGPTsをベースにした製品がほとんどでUXとセールストークの違いがある • ⽣成AIエージェントのワークフローを顧客がノーコードで簡単に作れて検証できる製品 •

    ベンダーがエージェントワークフローを隠蔽化し、顧客はツールとエージェントの役割を決めるタイプの製品 既存事業の製品にLLMエージェントが搭載されているサービスを知らない 環境 計画 ツール利⽤ ⾃⼰修正 最終出⼒ 指⽰理解 LLMエージェントのワークフロー メモリ Agents for Amazon bedrock 外部アプリの更新や編集を伴う か、ドキュメント取得だけか ⼈間らしい振る舞 いをさせるか システマチックか ChatGPTのようなWebアプリか ブラウザ拡張機能か アプリ組み込みか、⾳声出⼒か ツールのサポート数 は多いか少ないか
  20. 28 © DENTSU SOKEN INC. ⽣成AIエージェントのビジネス範囲 業務における重要度 頻度 年単位 週単位

    RPA Copilot ⾃作エージェント 問い合わせ対応 提案資料作成 申請、メール、転記 海外出張申請 社内アンケート 締め処理 社内規程の更新 採⽤⾯談マッチング 市場調査 雑務をRPAの延⻑で解決できるなら、Copilotでローコード的に⾃動化 コア業務のパフォーマンス向上に向けて⾃作エージェントが必要になる 市⺠開発 プロ開発 特定のAIシステム (エージェントでも可)
  21. 30 © DENTSU SOKEN INC. 企業は⽣成AIエージェントの⾼度化に向けて何を考えていくと良いか ⾃社アプリやサービス専⽤のエージェント • ⾃社専⽤のエージェントに何をしてもらうのか •

    ⾃社サービス情報を熟知できるか検証する • 企業キャラクターの模倣ができるか検証する 複数サービスを統合利⽤するエージェント • ⾃社アプリ・サービス以外にもアクセスできるエージェントが⽣まれるとどうなるか • 交通、観光、メディアを統合したエージェントって何ができそうか • ⽣産性は向上するか、顧客体験が向上するか、企業間の協⼒インセンティブはあるか 業務を代替するエージェント • ⽇常業務プロセスの洗い出しをおこない、費⽤対効果の⾼いユースケースを探す • 複数のサービスから情報を集め、別の場所に移すような業務をどこまで代替できるか • 既に実証しているRAG検証からエージェントに⽅向転換し、精度検証を進めるべきか
  22. 31 © DENTSU SOKEN INC. AITCのエージェント検証ステップ AITCでは、段階的に評価・開発していくことを考えています。 ゲーム、ロボット、ナビゲーション 情報の登録/作成、サービス連携、 ソフトウェア開発、資料の更新

    レポート、旅⾏計画、予定管理 データ分析 QA、推薦、集計、通知 時事情報収集 異なる情報を集約する業務 環境とインタラクションする業務 収集した情報を加⼯する業務