論文紹介 ”A Survey on Large Language Model based Autonomous Agents”

論文紹介 ”A Survey on Large Language Model based Autonomous Agents”
2025年03月24日日本生成AIユーザ会小渕周 Shu Kobuchi 1

自己紹介 • 小渕周（Shu Kobuchi）こぶシュー • https://x.com/shu_kob @shu_kob • システムエンジニア
→ ブロックチェーン業界 • 2023年12月スリーシェイク入社 ◦ Sreake 事業部 ◦ アプリケーション開発支援チームエンジニア ◦ 生成 AI アプリケーション開発等 ◦ Gemini、Google Cloudを使用 ◦ 2025年1月マネージャー 2

スリーシェイク代表のセミナーのご案内 • https://ﬁndy-code.io/events/LZqQwY65yY5g5?fr=career-events_250325 3

事前説明 4

論文で説明していること • 構築 ◦ LLMを使った自律型エージェントをどう作るか（設計図や部品） • 応用 ◦ どんなことができるか（応用例） •
評価 ◦ どうやって性能を評価するか（テスト方法） 5 多くの論文のサーベイから、 AIエージェント構築の観点をまとめてくれた論文

論文の構成 • 構築：LLMを使った自律型エージェントの作り方 ◦ エージェントの設計図（アーキテクチャ） ▪ どんな役割を与えるか（プロフィール設定） ▪ 過去の経験をどう記憶するか（メモリ） ▪
どうやって計画を立てるか（プランニング） ▪ 実際に行動をどう起こすか（アクション） ◦ エージェントに能力を身につけさせる方法 ▪ LLMに追加学習させる（ファインチューニング） ▪ LLMに指示を出す方法を工夫する（プロンプトエンジニアリング） ▪ 新しい仕組みを作る（メカニズムエンジニアリング） • 応用：LLMを使った自律型エージェントの応用例 ◦ 社会科学：心理学、経済学、社会学などの分野で、人間の行動をシミュレーション ◦ 自然科学：科学研究のサポートや教育に役立てる ◦ 工学：ソフトウェア開発やロボット制御などの分野で活用 • 評価：LLMを使った自律型エージェントの評価方法 ◦ 人間に評価してもらう（主観評価） ◦ 客観的な指標で評価する（客観評価） 6

アジェンダ 1. イントロダクション 2. エージェント構築 a. エージェント構築 b. エージェント能力獲得 3.
応用 4. 評価 5. 関連調査 6. 課題と今後の方向性 7. 結論 7

論文紹介 ”A Survey on Large Language Model based Autonomous Agents”
8

1. イントロダクション • 自律エージェントとは？: ◦ 定義: 「自律エージェントとは、環境の中に存在し、その一部であり、その環境を感知し、それに対して行動し、時間をかけて、自身の目的を追求し、将来的に感知するものに影響を与えるシステムである。」 (Franklin
and Graesser, 1997) ◦ AGI（汎用人工知能）実現への有望なアプローチ • 従来研究の課題: 限定された知識、隔離された環境での学習 ◦ → 人間の学習プロセスから乖離、人間らしい意思決定が困難 • LLMの登場: ◦ Web知識の獲得、人間レベルの知能の可能性 ◦ LLMベースの自律エージェント研究の急増 • 本論文の目的: LLMベース自律エージェント研究の包括的調査、体系的レビュー 9 特化型AI 生成AI （汎用型AI）段々と AIの民主化

AIエージェントの4つの要素 • 要素をモジュール化 10 プロファイリングモジュール（個性）どのような役割を与えるかメモリモジュール（記憶）
過去の経験をどう記憶するかプランニングモジュール（計画）どうやって計画するかアクションモジュール（行動）実際に行動をどう起こすか

2-a. エージェント構築 • 統一フレームワークの提案: ◦ プロファイリングモジュール: エージェントの役割 (ペルソナ) を定義 (e.g.,
年齢、性別、性格、社会的情報) ▪ 生成戦略: 1. 手動作成: 研究者が手動でプロファイルを指定 (柔軟性高い、大規模化困難) 2. LLM生成: LLMを用いて自動生成 (効率的、意図とのずれの可能性) 3. データセットアライメント: 実世界のデータセットからプロファイルを抽出 (現実的、データセットの偏りに注意) ▪ 組み合わせの重要性: 例) 実データ + 手動作成で未来予測 ◦ メモリモジュール: 過去の経験を保存、未来の行動に活用 (短期記憶 + 長期記憶) ▪ 構造: 1. 統合メモリ: 短期記憶のみ (実装容易、文脈長の制限) 2. ハイブリッドメモリ: 短期記憶 + 長期記憶 (より複雑なタスクに対応可能、一般的) ▪ フォーマット: 自然言語、埋め込み、データベース、構造化リスト (用途に応じて選択) ▪ 操作: 読み込み、書き込み、リフレクション 1. 読み込み: 関連性、重要度、近接性に基づく 2. 書き込み: 容量に限度があるので、重複をまとめ、既存情報削除 3. リフレクション: 過去の経験を要約、抽象化 11

2-a. エージェント構築 • プランニングモジュール: 未来の行動を計画 (人間らしい行動の鍵) ◦ フィードバックなし: 1. 単一パス推論:
CoT, Zero-shot CoT 2. 複数パス推論: CoT-SC, ToT, GoT ◦ プランニングあり: 3. 外部プランナー: PDDL ◦ フィードバックあり: i. 環境フィードバック: ReAct, Voyager, Ghost ii. 人間フィードバック: Inner Monologue iii. モデルフィードバック: SelfCheck, InterAct, Reﬂexion • アクションモジュール: 決定を具体的な出力に変換 ◦ アクション目標: タスク完了、コミュニケーション、環境探索 ◦ アクション生成: 記憶想起、計画追従 ◦ アクション空間: 外部ツール (API, DB, モデル)、内部知識 (計画、会話、常識) ◦ アクションの影響: 環境変化、内部状態変化、新規アクション 12

参考）Chain-of-Thoughtプロンプティング • AIに思考の連鎖を促し、段階的に答えを導かせる手法 • ステップバイステップ 13 • 3日間の国内旅行プランを作成してください。目的地は京都で、予算は 5万円です。旅行の目的は、歴史的な建造物を見学し、美味しい京料理を堪能することです。
• まずは、旅行の目的と予算に基づいて、訪れるべき主要な観光スポットとレストランをリストアップします。次に、各スポット間の移動時間と拝観料、食事の予算を考慮して、 1日のスケジュールを作成します。最後に、3日間のスケジュールをまとめ、全体の予算が 5万円以内に収まるように調整します。 • 上記のステップに従って、具体的な旅行プランを作成してください。

参考）Reasoning and Acting (ReAct) • AIに推論と行動を交互に行わせ、外部情報も活用しながら問題を解決させる手法 14 • 3日間の国内旅行プランを作成してください。目的地は京都で、予算は 5万円です。旅行の目的は、
歴史的な建造物を見学し、美味しい京料理を堪能することです。 • ReActの手順に従い、以下のタスクを実行してください。 1. **Reasoning:** 旅行の目的と予算に基づいて、訪れるべき主要な観光スポットとレストランをリストアップします。 2. **Acting:** リストアップしたスポットとレストランの営業時間、拝観料、予算などの情報を収集します。 3. **Reasoning:** 収集した情報に基づいて、 1日のスケジュールを作成します。移動時間と予算を考慮してください。 4. **Acting:** 3日間のスケジュールをまとめ、全体の予算が 5万円以内に収まるように調整します。 5. **Reasoning:** 作成した旅行プランを評価し、改善点があれば修正します。 • 上記のReActの手順に従って、具体的な旅行プランを作成してください。

2-b. エージェント能力獲得 • ファインチューニング: ◦ 人間によるアノテーションデータ: ▪ 例: CoH (人間のフィードバックを自然言語で)、WebShop
(eコマースの行動データ) ◦ LLM生成データ: ▪ 例: ToolBench (API利用データ), [83] (エージェント間対話データ) ◦ 実世界データ: ▪ 例: MIND2WEB (Web操作データ), SQL-PaLM (text-to-SQLデータ) • ファインチューニングなし: ◦ プロンプトエンジニアリング: ▪ CoT、RLP • メカニズムエンジニアリング: ◦ 試行錯誤 (Trial-and-error): RAH, DEPS, RoCo, PREFER ▪ エージェントが生成した予測と人間のフィードバックの繰り返し ◦ クラウドソーシング: [94] (衆知の活用) ▪ 他エージェントからの解決策を組み込むなど ◦ 経験蓄積: GITM, Voyager, AppAgent, MemPrompt ▪ メモリに保存された関連するタスクの経験を利用 ◦ 自己駆動進化: LMA3, SALLM-MS, CLMTWA ▪ エージェントが自己主導型の学習とフィードバックメカニズムで自律的に改善 15

3. 応用 • 社会科学: ◦ 心理学: 実験シミュレーション、メンタルヘルスサポート ◦ 政治学・経済学: イデオロギー検出、投票予測、経済行動シミュレーション
◦ 社会シミュレーション: 社会現象 (e.g., 情報伝播) のシミュレーション ◦ 法学: 意思決定支援 ◦ 研究アシスタント: 論文要約、キーワード抽出 • 自然科学: ◦ ドキュメント・データ管理: 文献収集、整理、要約 ◦ 実験アシスタント: 実験計画、実行、データ分析 ◦ 自然科学教育: 教育ツール • 工学: ◦ コンピュータサイエンス・ソフトウェア工学: コーディング、テスト、デバッグ、ドキュメント生成 ◦ 産業オートメーション: インテリジェントな計画・制御 ◦ ロボティクス・身体化AI: より効率的な強化学習エージェント 16

4. 評価 • 主観的評価: ◦ 人間によるアノテーション: 評価者がエージェントの出力を直接評価 ◦ チューリングテスト: 人間とエージェントの出力を区別できるか
• 客観的評価: ◦ 評価指標: ▪ タスク成功指標: 成功率、報酬、精度 ▪ 人間との類似性指標: 一貫性、流暢さ、対話の類似性、人間の受け入れ率 ▪ 効率性指標: 開発コスト、学習効率 ◦ プロトコル: ▪ 実世界シミュレーション: ゲーム、インタラクティブシミュレータ ▪ 社会評価: シミュレートされた社会での対話 ▪ マルチタスク評価: 異なるドメインのタスクセット ▪ ソフトウェアテスト: テストケース生成、バグ検出など 17

5. 関連調査 • 大規模言語モデル（LLM）関連サーベイ ◦ 包括的な導入 ▪ 背景、主要な発見、主流技術を網羅。既存研究の広範な網羅 ◦ 応用事例重視
▪ LLMの様々な応用タスクと、展開に伴う課題に焦点 ◦ 人間との整合性 ▪ バイアスや錯覚など、懸念事項に対処する研究分野。人間との整合技術、データ収集、モデル訓練方法などを網羅 ◦ 推論能力の現状 ▪ LLMの推論能力改善・評価のアプローチ探索 ◦ 拡張言語モデル（ALM）提案 ▪ LLMに推論能力とツール利用能力を付与。最新のALMの進歩を包括的にレビュー ◦ パフォーマンス評価 ▪ LLM評価の重要性、評価対象、評価場所、影響を議論。様々なLLMの能力と限界を分析。広範なモデル、訓練、応用、評価を網羅 • 本研究の位置づけ ◦ LLM基盤のエージェントに特化した初の体系的サーベイ ◦ 急速に発展する分野の構造、応用、評価プロセスを網羅 18

6. 課題と今後の方向性 • 役割遂行能力（役割を演じる能力を高める） ◦ Web上に少ない役割、新規役割のシミュレーションが困難 ◦ 人間の認知心理学的特性のモデル化が不十分 (自己認識の欠如) •
汎用的な人間アライメント（倫理的な問題に対処する：人間の価値観に合わせる） ◦ LLMは統一された価値観に偏りがち → 多様な人間の特性を表現できない (特に負の側面) ◦ シミュレーションでは負の側面も重要 (問題発見のため) • プロンプトの頑健性（指示の出し方を工夫する） ◦ モジュール追加 → プロンプト複雑化 → わずかな変更で出力が大きく変化 ◦ 統一された頑健なプロンプトフレームワークが必要 • 幻覚（嘘をつかないようにする：ハルシネーション対策） ◦ 誤った情報を自信を持って生成 → 深刻な結果を招く可能性 ◦ 人間による修正フィードバックが有効 • 知識境界（知識の範囲を適切に設定する） ◦ LLMの知識が広大すぎる → シミュレーションで非現実的な行動をとる可能性 ◦ ユーザーが知らない知識の利用を制限する必要 • 効率（計算効率を上げる） ◦ LLMの推論速度が遅い → エージェントの効率に影響 (各アクションで複数回クエリ) 19

7. 結論 • LLMベース自律エージェント研究の包括的調査 (構築、応用、評価) • 主要技術、発展の歴史を体系的に整理 • 今後の研究の方向性を示唆 (課題)
20

論文紹介 ”A Survey on Large Language Model based Au...

論文紹介 ”A Survey on Large Language Model based Autonomous Agents”

Shu Kobuchi

More Decks by Shu Kobuchi

Other Decks in Technology

Featured

Transcript