Large Language Models in Multi-Hop Tool Use 推論 • Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought • Test-time Computing: from System-1 Thinking to System-2 Thinking 学習 • AgentRefine: Enhancing Agent Generalization through Refinement Tuning • TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action Agent Framework • Agents Are Not Enough • Efficient Multi-Agent Collaboration with Tool Use for Online Planning in Complex Table Question Answering • Enhancing LLM Reasoning with Multi-Path Collaborative Reactive and Reflection agents • Agentic Systems: A Guide to Transforming Industries with Vertical AI Agents • Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches
Era of Generative AI: User Modeling, Synthetic Data Generation, and System Evaluation • OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System Agentic RAG • Search-o1: Agentic Search-Enhanced Large Reasoning Models Software Agents • Training Software Engineering Agents and Verifiers with SWE-Gym(紹介しない) • SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution(紹介しない) GUI Agents • OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis • A3: Android Agent Arena for Mobile GUI Agents(紹介しない) • InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection(紹介しない) Data Agents • MDSF: Context-Aware Multi-Dimensional Data Storytelling Framework based on Large language Model Research Agent • DOLPHIN: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback(紹介しない) • Agent Laboratory: Using LLM Agents as Research Assistants • LLM4SR: A Survey on Large Language Models for Scientific Research
build agents ブログ • 3 Predictions for the Future of AI Agents in 2025 • AI Agents 2024 Rewind - A Year of Building and Learning • The Agentic AI Era: After the Dawn, Here’s What to Expect • Introducing Agentic Document Workflows • Integrating AI Agents into Companies
• Understanding the Dark Side of LLMs’ Intrinsic Self-Correction ツール利用 • Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage メモリ • Memory-Augmented Agent Training for Business Document Understanding • On the Structural Memory of LLM Agents 安全性 • SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents • Towards Action Hijacking of Large Language Model-based Agent • Agent-SafetyBench: Evaluating the Safety of LLM Agents ベンチマーク • TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks • LegalAgentBench: Evaluating LLM Agents in Legal Domain
to Implementation • EscapeBench: Pushing Language Models to Think Outside the Box Agentic AI System • AutoPatent: A Multi-Agent Framework for Automatic Patent Generation Data Agent • A Survey on Large Language Model-based Agents for Statistics and Data Science Multi Agent System • ROMAS: A Role-Based Multi-Agent System for Database monitoring and Planning • A Survey on Multi-Generative Agent System: Recent Advances and New Frontiers • Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework
Agent News!から見えたAIエージェントの現在地 • AIエージェントビジネスの現状と今後の考察 • 生成AIエージェントが刺さる業務課題を探そう! • 2024年生成AIエージェントのおすすめ論文 16選 • AIエージェントの評価 • 10 AI Trends in 2025 You Can't Miss • 15 Agentic Systems and Frameworks of 2024 • Top 10 Research Papers on AI Agents • AI Agent Trends: Skills and Workforce Insights for 2024 • Top 10 AI Agent Trends and Predictions for 2025
Agents In Production • 【AI Shift Advent Calendar 2024】AIエージェントの設計とその勘所 • Agentic AI vs Generative AI: Understanding the Key Differences and Impacts • AI エージェントで実現する業務効率化とイノベーション: 日本の最新事例 授業 • Reasoning with o1
Survey: ソフトウェアの画面を人間のようにクリック・入力して操作するエージェントについての総合的調査 Agent K v1.0:データサイエンスに特化した自律型エージェント。前処理から特徴量エンジニアリング、モデル調整まで自動化 The AI Scientist:研究アイデアの生成、コード執筆、実験、結果の可視化、論文執筆、疑似査読まで自動化する科学研究支援フレームワーク MALT:複数のLLMを“生成者・検証者・改良者”のように役割分担させ、段階的に出力を洗練する協調型フレームワーク Agent S:GUI操作を自動化し、複雑な長いタスクを人間同様に実行するオープンフレームワーク Automated Design of Agentic Systems (ADAS):メタエージェント”がコードを書くことでエージェント自体を自動生成・改良する AgentInstruct:シンプルな入力から大規模な合成データを自動生成し、LLMの事後学習に利用させるフレームワーク AgentStore:複数のデジタルエージェントを組み合わせて複雑なコンピュータタスクを自動化するプラットフォーム WALL-E:LLMと学習規則を併用して現実環境を理解・ナビゲートするシステム “Generative Agent Simulations of 1,000 People”:1,052人の実際の行動や態度をLLMエージェントで再現する手法で85%の精度で個人の回答や行動 傾向を模倣 DynaSaur:汎用プログラミング言語でタスク実行手順を動的に作成・再利用するエージェントフレームワーク PRefLexOR:選好最適化や強化学習を取り入れ、モデルが自らの推論を何度も振り返り、深い思考を育む手法 Generative World Explorer (Genex):AIエージェントが3D環境を頭の中でシミュレートし、現実の探索回数を減らしながら理解を深めるフレーム ワーク Bel Esprit:会話型エージェントが複数モデルを組み合わせて高度なタスクをこなすパイプラインを作成するシステム AutoKaggle:テーブルデータを扱うKaggle形式のタスクを効率化するエージェント https://www.turingpost.com/p/15-agents-of-2024
for AI Agents • AIエージェントの社会行動を依存関係やコミットメント理論を通して体系化し、協調と集団行動の基盤を提案 Visibility into AI Agents • 自律エージェントがもたらすリスクに対し、ID付与やリアルタイム監視、ログ記録など透明性を高める手法を提案 Artificial Intelligence and Virtual Worlds –Toward Human-Level AI Agents • 仮想世界を活用して、NPCの高度化や人間レベル知能の実現可能性を探る Intelligent Agents: Theory and Practice • エージェント理論からアーキテクチャ・プログラミング言語まで包括的に整理し、理論と実用面での課題を論じる TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents • LLMエージェントのタスク分割と外部ツール活用能力を評価する枠組み“TPTU”を提案 A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges and Future Directions • 文脈認識を備えるマルチエージェントを対象に、学習・推論モデルから今後の研究課題までを体系化 Agent AI: Surveying the Horizons of Multimodal Interaction • 視覚・音声・テキストなど複数モーダルを扱うエージェントAIの現状と課題を整理し、AGIに向けた方向性を示す Large Language Model-Based Multi-Agents: A Survey of Progress and Challenges • LLMを組み込んだマルチエージェントの応用事例と技術的ハードルを総括し、協調・競合シミュレーションの可能性を検討 The Rise and Potential of Large Language Model-Based Agents: A Survey • LLMを核としたAIエージェントの進化と応用分野を概観し、マルチモーダル化や倫理的課題を含む将来展望を論じる A survey of progress on cooperative multi-agent reinforcement learning in open environment • オープンな動的環境での協調型MARL手法を総括し、エージェント数や環境条件が変化する状況への適応戦略を提案 https://www.analyticsvidhya.com/blog/2024/12/ai-agents-research-papers/
• No explicit CoT required • Use structured formats( XML or markdown ) • Show rather than tell 計画と実行の分離方法も紹介 • o1がオーケストレーター(指揮者)として計画を作成し、4o-mini モデルにその計画を実行させることで知性とコストのトレードオフ を管理した方法を紹介 メタ・プロンプティング手法も紹介 • o1を使ってプロンプトそのものを改善していくアプローチ https://www.deeplearning.ai/short-courses/reasoning-with-o1/