Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 ”A Survey on Large Language Model based Au...

論文紹介 ”A Survey on Large Language Model based Autonomous Agents”

https://genai-users.connpass.com/event/349197/

この論文は大規模言語モデル(LLM)を基盤とする自律型エージェントに関する包括的な調査論文です。この論文は、LLMベースの自律型エージェントの現状、構成要素、課題、そして将来の展望について詳細に解説しています。

本論文を読むことで、AIエージェントの概要を体系的に知ることができます。

Shu Kobuchi

March 24, 2025
Tweet

More Decks by Shu Kobuchi

Other Decks in Technology

Transcript

  1. 論文紹介 ”A Survey on Large Language Model based Autonomous Agents”

    2025年03月24日 日本生成AIユーザ会 小渕 周 Shu Kobuchi 1
  2. 自己紹介 • 小渕 周(Shu Kobuchi)こぶシュー • https://x.com/shu_kob @shu_kob • システムエンジニア

    → ブロックチェーン業界 • 2023年12月スリーシェイク入社 ◦ Sreake 事業部 ◦ アプリケーション開発支援チーム エンジニア ◦ 生成 AI アプリケーション開発等 ◦ Gemini、Google Cloudを使用 ◦ 2025年1月 マネージャー 2
  3. 論文で説明していること • 構築 ◦ LLMを使った自律型エージェントをどう作るか(設計図や部品) • 応用 ◦ どんなことができるか(応用例) •

    評価 ◦ どうやって性能を評価するか(テスト方法) 5 多くの論文のサーベイから、 AIエージェント構築の観点をまとめてくれた論文
  4. 論文の構成 • 構築:LLMを使った自律型エージェントの作り方 ◦ エージェントの設計図(アーキテクチャ) ▪ どんな役割を与えるか(プロフィール設定) ▪ 過去の経験をどう記憶するか(メモリ) ▪

    どうやって計画を立てるか(プランニング) ▪ 実際に行動をどう起こすか(アクション) ◦ エージェントに能力を身につけさせる方法 ▪ LLMに追加学習させる(ファインチューニング) ▪ LLMに指示を出す方法を工夫する(プロンプトエンジニアリング) ▪ 新しい仕組みを作る(メカニズムエンジニアリング) • 応用:LLMを使った自律型エージェントの応用例 ◦ 社会科学:心理学、経済学、社会学などの分野で、人間の行動をシミュレーション ◦ 自然科学:科学研究のサポートや教育に役立てる ◦ 工学:ソフトウェア開発やロボット制御などの分野で活用 • 評価:LLMを使った自律型エージェントの評価方法 ◦ 人間に評価してもらう(主観評価) ◦ 客観的な指標で評価する(客観評価) 6
  5. 1. イントロダクション • 自律エージェントとは?: ◦ 定義: 「自律エージェントとは、環境の中に存在し、その一部であり、その環境を感知し、 それに対して行動し、時間をかけて、自身の目的を追求し、将来的に感知するものに影響を 与えるシステムである。」 (Franklin

    and Graesser, 1997) ◦ AGI(汎用人工知能)実現への有望なアプローチ • 従来研究の課題: 限定された知識、隔離された環境での学習 ◦ → 人間の学習プロセスから乖離、人間らしい意思決定が困難 • LLMの登場: ◦ Web知識の獲得、人間レベルの知能の可能性 ◦ LLMベースの自律エージェント研究の急増 • 本論文の目的: LLMベース自律エージェント研究の包括的調査、体系的レビュー 9 特化型AI 生成AI (汎用型AI) 段々と AIの民主化
  6. AIエージェントの4つの要素 • 要素をモジュール化 10 プロファイリング モジュール (個性) どのような役割を与えるか メモリモジュール (記憶)

    過去の経験をどう記憶するか プランニング モジュール (計画) どうやって計画するか アクション モジュール (行動) 実際に行動をどう起こすか
  7. 2-a. エージェント構築 • 統一フレームワークの提案: ◦ プロファイリングモジュール: エージェントの役割 (ペルソナ) を定義 (e.g.,

    年齢、性別、性 格、社会的情報) ▪ 生成戦略: 1. 手動作成: 研究者が手動でプロファイルを指定 (柔軟性高い、大規模化困難) 2. LLM生成: LLMを用いて自動生成 (効率的、意図とのずれの可能性) 3. データセットアライメント: 実世界のデータセットからプロファイルを抽出 (現実 的、データセットの偏りに注意) ▪ 組み合わせの重要性: 例) 実データ + 手動作成で未来予測 ◦ メモリモジュール: 過去の経験を保存、未来の行動に活用 (短期記憶 + 長期記憶) ▪ 構造: 1. 統合メモリ: 短期記憶のみ (実装容易、文脈長の制限) 2. ハイブリッドメモリ: 短期記憶 + 長期記憶 (より複雑なタスクに対応可能、一般 的) ▪ フォーマット: 自然言語、埋め込み、データベース、構造化リスト (用途に応じて選択) ▪ 操作: 読み込み、書き込み、リフレクション 1. 読み込み: 関連性、重要度、近接性に基づく 2. 書き込み: 容量に限度があるので、重複をまとめ、既存情報削除 3. リフレクション: 過去の経験を要約、抽象化 11
  8. 2-a. エージェント構築 • プランニングモジュール: 未来の行動を計画 (人間らしい行動の鍵) ◦ フィードバックなし: 1. 単一パス推論:

    CoT, Zero-shot CoT 2. 複数パス推論: CoT-SC, ToT, GoT ◦ プランニングあり: 3. 外部プランナー: PDDL ◦ フィードバックあり: i. 環境フィードバック: ReAct, Voyager, Ghost ii. 人間フィードバック: Inner Monologue iii. モデルフィードバック: SelfCheck, InterAct, Reflexion • アクションモジュール: 決定を具体的な出力に変換 ◦ アクション目標: タスク完了、コミュニケーション、環境探索 ◦ アクション生成: 記憶想起、計画追従 ◦ アクション空間: 外部ツール (API, DB, モデル)、内部知識 (計画、会話、常識) ◦ アクションの影響: 環境変化、内部状態変化、新規アクション 12
  9. 参考)Chain-of-Thoughtプロンプティング • AIに思考の連鎖を促し、段階的に答えを導かせる手法 • ステップバイステップ 13 • 3日間の国内旅行プランを作成してください。目的地は京都で、予算は 5万円です。旅行の目的は、歴 史的な建造物を見学し、美味しい京料理を堪能することです。

    • まずは、旅行の目的と予算に基づいて、訪れるべき主要な観光スポットとレストランをリストアップしま す。次に、各スポット間の移動時間と拝観料、食事の予算を考慮して、 1日のスケジュールを作成しま す。最後に、3日間のスケジュールをまとめ、全体の予算が 5万円以内に収まるように調整します。 • 上記のステップに従って、具体的な旅行プランを作成してください。
  10. 参考)Reasoning and Acting (ReAct) • AIに推論と行動を交互に行わせ、外部情報も活用しながら問題を解決させる手法 14 • 3日間の国内旅行プランを作成してください。目的地は京都で、予算は 5万円です。旅行の目的は、

    歴史的な建造物を見学し、美味しい京料理を堪能することです。 • ReActの手順に従い、以下のタスクを実行してください。 1. **Reasoning:** 旅行の目的と予算に基づいて、訪れるべき主要な観光スポットとレストランをリスト アップします。 2. **Acting:** リストアップしたスポットとレストランの営業時間、拝観料、予算などの情報を収集しま す。 3. **Reasoning:** 収集した情報に基づいて、 1日のスケジュールを作成します。移動時間と予算を考 慮してください。 4. **Acting:** 3日間のスケジュールをまとめ、全体の予算が 5万円以内に収まるように調整します。 5. **Reasoning:** 作成した旅行プランを評価し、改善点があれば修正します。 • 上記のReActの手順に従って、具体的な旅行プランを作成してください。
  11. 2-b. エージェント能力獲得 • ファインチューニング: ◦ 人間によるアノテーションデータ: ▪ 例: CoH (人間のフィードバックを自然言語で)、WebShop

    (eコマースの行動データ) ◦ LLM生成データ: ▪ 例: ToolBench (API利用データ), [83] (エージェント間対話データ) ◦ 実世界データ: ▪ 例: MIND2WEB (Web操作データ), SQL-PaLM (text-to-SQLデータ) • ファインチューニングなし: ◦ プロンプトエンジニアリング: ▪ CoT、RLP • メカニズムエンジニアリング: ◦ 試行錯誤 (Trial-and-error): RAH, DEPS, RoCo, PREFER ▪ エージェントが生成した予測と人間のフィードバックの繰り返し ◦ クラウドソーシング: [94] (衆知の活用) ▪ 他エージェントからの解決策を組み込むなど ◦ 経験蓄積: GITM, Voyager, AppAgent, MemPrompt ▪ メモリに保存された関連するタスクの経験を利用 ◦ 自己駆動進化: LMA3, SALLM-MS, CLMTWA ▪ エージェントが自己主導型の学習とフィードバックメカニズムで自律的に改善 15
  12. 3. 応用 • 社会科学: ◦ 心理学: 実験シミュレーション、メンタルヘルスサポート ◦ 政治学・経済学: イデオロギー検出、投票予測、経済行動シミュレーション

    ◦ 社会シミュレーション: 社会現象 (e.g., 情報伝播) のシミュレーション ◦ 法学: 意思決定支援 ◦ 研究アシスタント: 論文要約、キーワード抽出 • 自然科学: ◦ ドキュメント・データ管理: 文献収集、整理、要約 ◦ 実験アシスタント: 実験計画、実行、データ分析 ◦ 自然科学教育: 教育ツール • 工学: ◦ コンピュータサイエンス・ソフトウェア工学: コーディング、テスト、デバッグ、ドキュメ ント生成 ◦ 産業オートメーション: インテリジェントな計画・制御 ◦ ロボティクス・身体化AI: より効率的な強化学習エージェント 16
  13. 4. 評価 • 主観的評価: ◦ 人間によるアノテーション: 評価者がエージェントの出力を直接評価 ◦ チューリングテスト: 人間とエージェントの出力を区別できるか

    • 客観的評価: ◦ 評価指標: ▪ タスク成功指標: 成功率、報酬、精度 ▪ 人間との類似性指標: 一貫性、流暢さ、対話の類似性、人間の受け入れ率 ▪ 効率性指標: 開発コスト、学習効率 ◦ プロトコル: ▪ 実世界シミュレーション: ゲーム、インタラクティブシミュレータ ▪ 社会評価: シミュレートされた社会での対話 ▪ マルチタスク評価: 異なるドメインのタスクセット ▪ ソフトウェアテスト: テストケース生成、バグ検出など 17
  14. 5. 関連調査 • 大規模言語モデル(LLM)関連サーベイ ◦ 包括的な導入 ▪ 背景、主要な発見、主流技術を網羅。既存研究の広範な網羅 ◦ 応用事例重視

    ▪ LLMの様々な応用タスクと、展開に伴う課題に焦点 ◦ 人間との整合性 ▪ バイアスや錯覚など、懸念事項に対処する研究分野。人間との整合技術、データ収集、 モデル訓練方法などを網羅 ◦ 推論能力の現状 ▪ LLMの推論能力改善・評価のアプローチ探索 ◦ 拡張言語モデル(ALM)提案 ▪ LLMに推論能力とツール利用能力を付与。最新のALMの進歩を包括的にレビュー ◦ パフォーマンス評価 ▪ LLM評価の重要性、評価対象、評価場所、影響を議論。様々なLLMの能力と限界を分 析。広範なモデル、訓練、応用、評価を網羅 • 本研究の位置づけ ◦ LLM基盤のエージェントに特化した初の体系的サーベイ ◦ 急速に発展する分野の構造、応用、評価プロセスを網羅 18
  15. 6. 課題と今後の方向性 • 役割遂行能力(役割を演じる能力を高める) ◦ Web上に少ない役割、新規役割のシミュレーションが困難 ◦ 人間の認知心理学的特性のモデル化が不十分 (自己認識の欠如) •

    汎用的な人間アライメント(倫理的な問題に対処する:人間の価値観に合わせる) ◦ LLMは統一された価値観に偏りがち → 多様な人間の特性を表現できない (特に負の側面) ◦ シミュレーションでは負の側面も重要 (問題発見のため) • プロンプトの頑健性(指示の出し方を工夫する) ◦ モジュール追加 → プロンプト複雑化 → わずかな変更で出力が大きく変化 ◦ 統一された頑健なプロンプトフレームワークが必要 • 幻覚(嘘をつかないようにする:ハルシネーション対策) ◦ 誤った情報を自信を持って生成 → 深刻な結果を招く可能性 ◦ 人間による修正フィードバックが有効 • 知識境界(知識の範囲を適切に設定する) ◦ LLMの知識が広大すぎる → シミュレーションで非現実的な行動をとる可能性 ◦ ユーザーが知らない知識の利用を制限する必要 • 効率(計算効率を上げる) ◦ LLMの推論速度が遅い → エージェントの効率に影響 (各アクションで複数回クエリ) 19