with User Emulation and Multi-Model Evaluation 推論 • LOGICGAME: Benchmarking Rule-Based Reasoning Abilities of Large Language Models • To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning • Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning • Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent • MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning 自己修正 • CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction • An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation ツール利用 • Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature • ToolACE: Winning the Points of LLM Function Calling メモリ • Self-evolving Agents with reflective and memory-augmented abilities • Agent Workflow Memory
Large Language Models • RAD-Bench: Evaluating Large Language Models’ Capabilities in Retrieval Augmented Dialogues 安全性 • Safeguarding AI Agents: Developing and Analyzing Safety Architectures Agent framework • xLAM: A Family of Large Action Models to Empower AI Agent Systems • Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots Agentic AI Systems • MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents • Large Language Model-Based Agents for Software Engineering: A Survey • AgentRE: An Agent-Based Framework for Navigating Complex Information Landscapes in Relation Extraction • Can LLMs Generate Novel Research Ideas? • SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning • DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? • Agents in Software Engineering: Survey, Landscape, and Vision
Engaged Human Learning through Participation in Language Model Agent Conversations • Agentic Retrieval-Augmented Generation for Time Series Analysis • Persuasion Games with Large Language Models • MEDCO: Medical Education Copilots Based on A Multi-Agent Framework • AUTOGEN STUDIO: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems • BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi- Agent Systems • Focus Agent: LLM-Powered Virtual Focus Group • Using Generative Agents to Create Tip Sheets for Investigative Data Reporting Computer Controlled Agents • Windows Agent Arena Evaluating Multi-Modal OS Agents at Scale
Language Model Agent Conversations 複雑な情報探索において、ユーザーがまだ知らない「未知の未知」を発見するための手法Collaborative STORM (Co-STORM)を提案 研究者や市場分析者など、まだ気づいていない視点を見つけたい方が利用する 利用者はマルチエージェントの会話の中に時折入り、未知の未知を発見する 会話の内容はマインドマップで管理される マインドマップは階層構造を持ち、中心テーマから関連するサブトピックへと情報が整理されている どの情報が既に探索されたか、どの部分がまだ掘り下げられていないかを把握できる 最終的に生成されるレポートは、関連性、幅広さ、深さ、新規性のすべての面で優れていた Multi Agent Systems 9月9日 更新分
Valueに過去のデータから学習された具体的な知識が含まれ、SLMの予測に利用される(RAGの部分) • Key-Valueの例:”祝日の影響”:”毎年の祝日セール期間中には、オンラインショッピングのトラフィックが平均30%増加 する。” 時系列予測、分類、異常検知、欠損補完タスクで評価し、Llama3ベースな提案手法が高い評価結果を示した Multi Agent Systems 9月9日 更新分
Multi- Agent Systems MicrosoftからAUTOGEN STUDIOというノーコード開発ツールの提案 複数のエージェントが協力してタスクを実行するMASを構築、デバッグ、評価するために設計 AutoGenがプロ開発向けだったため、もっと開発の敷居を下げるために開発された Multi Agent Systems 9月9日 更新分
Language Models in Multi-Agent Systems LLMの協力と競争能力を評価するためのベンチマークBattleAgentBenchを提案 レベル1:基礎的なエージェント能力 • ステージ1と2では、単一エージェントのゲームルール理解と空間認識能力を評価 • Claude 3.5 SonnetとGPT-4o-miniが高い精度を達成 レベル2:ペアエージェントのインタラクション • ステージ3と4では、2つのエージェントが協力または競争してタスクを遂行する能力を評価 • Claude 3.5 Sonnet以外は指示フォーマットの複雑さが増すにつれて精度低下 レベル3;マルチエージェントダイナミクス • ステージ5から7では、複雑な協力および競争シナリオで、複数のエージェントの動的な協力関係を評価 • Claude 3.5 SonnetとGPT-4o-miniは複雑な環境でも高いスコアを維持し、動的な協力シナリオでも高性能 Multi Agent Systems 9月9日 更新分
AI参加者は、多くの場合で人間の意見と一致する意見を生成したが、一般的な意見に集中しがちで、ユニークな視点 や創造的なアイデアは人間の方が多く提供される傾向がある AIモデレーターは、進行や質問もできるが、質問の繰り返しや人間の意図を十分に理解できないなどの限界があった Multi Agent Systems 9月9日 更新分