Language Models 計画 • On The Planning Abilities of OpenAI’s o1 Models: Feasibility, Optimality, and Generalizability • Benchmarking Agentic Workflow Generation 推論 • Inference Scaling for Long-Context Retrieval Augmented Generation • Steering Large Language Models between Code Execution and Textual Reasoning 学習 • Thinking LLMs: General Instruction Following with Thought Generation • CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device • AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories
Can Improve Retrieval Augmented Generation • Agent-as-a-Judge: Evaluate Agents with Agents • LLM Self-Correction with DECRIM: DECOMPOSE, CRITIQUE, AND REFINE for Enhanced Following of Instructions with Multiple Constraints 安全性 • AutoPenBench: Benchmarking Generative Agents for Penetration Testing • Multimodal Situational Safety • AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents • ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents Agent framework • AgentSquare: Automatic LLM Agent Search in Modular Design Space • AFlow: Automating Agentic Workflow Generation • Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement • Agents Thinking Fast and Slow: A Talker-Reasoner Architecture
Approach for Scaling Real-Time Expertise • DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback • Collective Critics for Creative Story Generation • Agentic Information Retrieval • HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR Applications • AI-Press: A Multi-Agent News Generating and Feedback Simulation System Powered by Large Language Models • ShapefileGPT: A Multi-Agent Large Language Model Framework for Automated Shapefile Processing • Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance • LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents Research Agent • ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery • dZiner: Rational Inverse Design of Materials with AI Agents • Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation • Chain of Ideas: Revolutionizing Research in Novel Idea Development with LLM Agents Software Agent • SWE-Bench+: Enhanced Coding Benchmark for LLMs
Generation Benchmark for Large Language Models • MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering • AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML Digital Agent • Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents • Agent S: An Open Agentic Framework that Uses Computers Like a Human • AGENTOCCAM: A Simple Yet Strong Baseline for LLM-Based Web Agents Embodied Agent • MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents • Mars: Situated Inductive Reasoning in an Open-World Environment Multi Agent System • GenSim: A General Social Simulation Platform with Large Language Model based Agents • Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining
Processing Shapefileの操作は専門的なGISの知識とスキルを必要とするため、GIS以外の研究者にとっては使用が困難 ShapefileGPTはプランナーとワーカーでShapefileのタスクを自動化する Shapefileの処理に特化した関数ライブラリを開発し、APIドキュメントを用意することでエージェントが使える タスクはジオメトリ操作、空間クエリと計算、距離と方向の操作 都市計画、環境科学、農業、公共衛生の分野で、専門的なGISソフトウェアなしでデータ解析を実行できるようになる Agentic AI Systems
by Large Language Models LLMによるニュース生成には専門性や倫理的判断の欠如、世論の反応を予測するのも困難 マルチエージェントとRAGを活用した自動ニュース作成・洗練システムのAI-Pressを提案 • ニュース作成:ニュースの材料や情報を収集し、初期のニュース草案を作成する役割 • ニュース洗練:初期草案を何度も編集し、最終的な高品質なニュースに仕上げる役割 • シミュレーション:世論フィードバックをシミュレートし、フィードバックに基づいて内容を調整する役割 ニュースの網羅性、深さ、客観性、重要性、読みやすさの面で優れた評価を得た Agentic AI Systems
Testers: Measuring Game Difficulty with LLM Agents 人間のテスターがゲームの難易度を評価してきたが、時間とコストがかかっていた AdobeからLLMを使ってゲームの難易度を測定するフレームワークを提案 LLMエージェントは、シンプルな推論技術(Chain-of-Thought)を使うことで、人間のプレイヤーが感じる難易 度と強い相関を示した LLMが効果的なゲームテストエージェントとして機能する可能性がある 将来的には、ゲームのバグ発見やゲームプレイのバランス調整にも役立てることを期待 Agentic AI Systems
a Human Agent Sは、GUIを通じて自律的にPCとインタラクションし、複雑なデスクトップタスクを自動化する 外部知識や内部経験からタスクを計画し、サブタスクを実行する OSWorldおよびWindowsAgentArenaで評価しているが、全体的にgpt-4o単体より数%の改善だけ GUIの要素を正しく認識・操作する能力が乏しく、認識精度を上げる必要がある 反復的行動の防止や、行動の反省・改善を行う機能を強化し、エージェントの実行能力を向上させる必要がある Digital Agents
team like never before • yoheinakajima/babyagi-2o • Anthropic/Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku • Anthropic/Developing a computer use model • 富士通、AIが人と協調し自律的に高度な業務を推進する「Kozuchi AI Agent」 • CTCがAIエージェントの構築支援サービス開始、3年間で50億円の売り上げ目指す • NTTデータがAIエージェントを活用した新たな生成AIサービスを提供開始 ブログ • LangChain/Memory for agents • PFN/PLaMoにおけるLLMエージェント能力の分析と改善 • jw-automation/AIエージェントによる業務ヒアリングの自動化 レクチャー • DeepLearning.AI/Serverless Agentic Workflows with Amazon Bedrock • DeepLearning.AI/ Practical Multi AI Agents and Advanced Use Cases with crewAI • MOOC/Enterprise trends for generative AI, and key components of building successful agents/applications • MOOC/ Agents for Software Development • MOOC/ AI Agents for Enterprise Workflows
Planning Pipeline without Experts • LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench • Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1 推論 • Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely • MARPLE: A Benchmark for Long-Horizon Inference 評価 • The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends • Evaluation of OpenAI o1: Opportunities and Challenges of AGI 安全性 • HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions • Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents Agent framework • MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents
Agents to Solve Coding Tasks at Scale • Mentigo: An Intelligent Agent for Mentoring Students in the Creative Problem Solving Process • Control Industrial Automation System with Large Language Models • Data Analysis in the Era of Generative AI • A Survey on Complex Tasks for Goal-Directed Interactive Agents • Agents' Room: Narrative Generation through Multi-step Collaboration Multi Agent Systems • Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts • RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance • From Facts to Insights: A Study on the Generation and Evaluation of Analytical Reports for Deciphering Earnings Calls
Problem Solving Process 中学生の創造的問題解決(CPS)を支援するメンターエージェントシステム「Mentigo」を提案 創造的問題解決は、創造的かつ批判的な思考を用いて、新しい視点やアイデアを駆使し、複雑な問題に対して効果的 な解決策を導き出すプロセス 問題発見、情報収集、問題定義、解決策の創出、解決策の評価、解決策の実行でインタラクティブな対話をする MentigoのDBには、学生の進行状態や各CPSステージ、学生の状態に対応する指導戦略が含まれている 生徒は「スマートホームの課題」と「低炭素キャンパスの課題」 のCPSタスクに取り組み 学生のエンゲージメント、認知的スキル(特に分析・評価・創造能力)を大幅に向上させることが実証された Agentic AI Systems
計画エージェントはキャラクターの描写や物語の骨組みを考案し、執筆エージェントが最終的なテキストを生成 エージェントは情報を「スクラッチパッド」に保存し、他者と情報を共有することでタスクの一貫性を保つ 全体のプロセスはオーケストレータによって管理され、必要なエージェントを呼び出し、タスクの進行を調整 結果はまだ人間には及ばない。特にありきたりな物語でなく、オリジナリティのある創造性がまだ不十分。 LLMによる評価では提案手法が人間に迫る勢いだが、単にLLMが自分の回答を気に入っているだけかもしれない。 Agentic AI Systems
pricing, increased rate limits, and more • Introducing the AutoGPT Platform: The Future of AI Agents ブログ • Don't Sleep on Single-agent Systems • Discover the World of AI Agents • Beyond Bots: How AI Agents Are Driving the Next Wave of Enterprise Automation • The agent economy • AI Voice Agentsのテクノロジー採用ライフサイクル • 185 real-world gen AI use cases from the world's leading organizations • Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge) 授業 • Reasoning with inference-time compute • Building a Multimodal Knowledge Assistant • Agentic AI Frameworks & AutoGen