Weekly AI Agents News! 6月号プロダクト/ニュースのアーカイブ

Weekly AI Agents News @ottamm_190 ݄̒߸ プロダクト/ニュース編

はじめに • こちらはアーカイブです。 • LLMエージェントに関するニュースや論⽂をほぼ毎週更新しています。 • 個⼈の備忘録で取り組んでおり、誤りがある場合もあります。 • ⽂字サイズ16ptで⼩さいのでPCで⾒ることをおすすめします。 •
SpeakerDeckに過去の4⽉分、5⽉分、6⽉分の資料を分けて公開しています。 • 7⽉から隔週で更新します。

プロダクト・ニュース 7⽉1⽇配信リリース • Llama Agents : AI Agents as
a Service • Collaborate with Claude on Projects • Announcing LangGraph v0.1 & LangGraph Cloud: Running agents at scale, reliably ブログ • Enhancing Code Reviews with AI PR Agent • Literature Review on Task Planning with LLM Agents • How to build AI agents to automate web browsing with human level reasoning? Part 2: Using Large Context Window • Architecting + testing reliable agents • Gemini API の Function Calling 機能で LLM Agent を実装するベンチャー企業 • MyLens AI turns any input into an easy-to-understand visual. • Relay.app • AI-FLOW

プロダクト・ニュース 6⽉24⽇配信ブログ • ⾃分のAWS環境について何でも教えてくれるエージェントが作れそう • Agents arenʼt all you
need • Exploring AI Automation: Agentic Workflows with LangGraph and Tavily • Automating Complex Business Workflows with Cohere: Multi-Step Tool Use in Action • Building Advanced RAG Over Complex Documents • Evaluating Specific LLM Applications: Agents ニュース • Introducing AutoGen Studio: A low-code interface for building multi-agent workflows • 国産LLM初、AIエージェントとして使える「KARAKURI LM 8x7B Instruct v0.1」を⼀般公開

プロダクト・ニュース 6⽉17⽇配信企業コラム • AutoGenでReflexion - Synergy!の新機能を考える • AIエージェントによるサーバ監視と⾃律的な復旧を⽬指して -
Powered by crewAI • Morphが取り組む、データ処理特化のAIエージェントの開発: 開発チームからの⼿紙ブログ • AIエージェントのみでBPO 企業を作り上げる⽅法：Dify+Ollama+Llama3+Groqで顧客サポート窓⼝業務を完全⾃動化 • Language Agent Tree Search ̶ LATS • Building AI Agents: Lessons Learned over the past Year • Building an Agent for Data Visualization (Plotly) リリース • AIキャラクターによるライブ配信の新時代！『キャラクターストリーマー』サービス開始 • Intro to Generative UI with LangChain • Qwen-Agent: Generalizing from 8k to 1 Million Contexts

プロダクト・ニュース 6⽉10⽇配信ニュース • AI agents are having a ʻChatGPT
momentʼ as investors look for whatʼs next after chatbots • From gen AI 1.5 to 2.0: Moving from RAG to agent systems • The Rise of AI Agent Infrastructure • Betaworks bets on AI agents in latest ʻCampʼ cohort • New AI agent for venture capital: 100x cheaper, 5x faster and on-par quality with humans • Financial Services Will Embrace Generative AI Faster Than You Think • Hi, AI: Our Thesis on AI Voice Agents 開発 • LlamaIndex Agent Resources

プロダクト・ニュース 6⽉3⽇配信ブログ • JSAI2024 AIエージェント関連の研究 • From Prompt Engineering
to Agent Engineering • AI Agentic Design Patterns with AutoGen • AIエージェントが⼈間のバディーに--アクセンチュア、2024年の技術トレンドを解説 • AI Agents Are Going To Automate The Following Tasks First • Introducing Perplexity Pages • 少数ショットのツールの使⽤は実際にはまだ機能しない • Building an AI Agent With Memory Using MongoDB, Fireworks AI, and LangChain

Llama Agents : AI Agents as a Service • Llama
Agents は、各エージェントは別々の URL で独⽴して動作させることができる • Crew AI や Autogen と異なり、Llama Agents は⾮同期実⾏機能がある • Google Cloud や AWS などでエージェントをホストする場合は、構成でホストとポート番号を指定する https://medium.com/@lbq999/llama-agents-ai-agents-as-a-service-e474aaa416e5

Collaborate with Claude on Projects • Claudeがプロジェクト機能をリリース • Claude.ai Pro
および Team ユーザーは、チャットをプロジェクトに整理し、ナレッジ⽂書セットとチャットアクティビティを 1 か所にまとめることができる • プロジェクトには、スタイルガイド、コードベース、インタビューの記録など、社内の知識をアップできる • 各プロジェクトにカスタム指⽰を定義して、クロードの応答をさらにカスタマイズすることもできる

Announcing LangGraph v0.1 & LangGraph Cloud: Running agents at scale,
reliably • LangGraph v0.1 の安定版リリースを発表 • LangGraph を使⽤すると、次のことも可能 • タスクの実⾏中に、明⽰的に⼈間の承認を待機するようにエージェントを設計できる • エージェントのアクションを実⾏する前に編集できる • エージェントの実⾏を検査、再接続、編集、再開できる (「タイムトラベル」機能と呼ぶ) • ベータ版である LangGraph Cloud をリリース • LangGraph エージェントを展開するためのインフラストラクチャ • LangGraph Studioも含まれ、エージェントの軌跡を視覚化する • 障害モードをデバッグし、中断、状態編集、再開、タイムトラベルのブレークポイントを追加できる https://blog.langchain.dev/langgraph-cloud/

Enhancing Code Reviews with AI PR Agent • PR Agent
は、コードレビューの⾃動化ツール • 機能：⾃動PR説明、⾃動コードレビュー、コード改善、CI/CD パイプラインとの統合 • PR エージェントは、GitHub、GitLab、BitBucket、Azure DevOps などをサポート • PR エージェントはコードレビューに OpenAI を使⽤する • .github/workflows/pr_agent.yml をリポジトリに追加 https://gyliu513.medium.com/enhancing-code-reviews-with-ai-pr-agent-fe1c92244d51

Literature Review on Task Planning with LLM Agents ⽇本⼈のisozakiさんが、LLM計画に関する⽂献調査をまとめている 1.
ReAct: Synergizing Reasoning and Acting in Language Models • ⾔語モデルにタスクとツールを与え、反復的に「思考」「⾏動」「観察」を⾏うフレームワーク。self-consistencyとCoTを組み合わせることで、結果の精度が向上 2. Reflexion: Language Agents with Verbal Reinforcement Learning • ReActに評価と内省のステップを追加し、出⼒や現在の軌跡が正しいかを判断。外部の信号がある場合に効果的である 3. LLM+P: Empowering Large Language Models with Optimal Planning Proficiency • タスクをPDDL（Planning Domain Definition Language）に変換し、ソルバー/プランナーで解決。PDDLの制限として、アクション空間が⼤きい場合には適⽤が難しい。 6. Language Agent Tree Search (LATS) • モンテカルロ⽊探索をLLMに統合し、⾏動、観察、計画を⾏う。 self-consistency と評価スコアを組み合わせ、反射ステップで失敗の原因を分析。 7. ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models • 計画と実⾏者を分離し、計画と実⾏結果から回答を⽣成。ReActを上回る性能を発揮 8. Plan, Eliminate, and Track ̶ Language Models are Good Teachers for Embodied Agents • ⾼レベルのタスクをサブタスクに分解し、不要なタスクを排除、タスク完了を追跡。タスクの依存関係を前提としない独⽴した⽅法 9. LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models • ⾼レベルのプランは低レベルのプランナーが知り得た環境情報に基づいて計画更新。フィードバックが重要で、失敗時に新たなプランを⽣成 10. Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents • 実⾏可能な計画が複数存在することが多い。複雑な環境での効率的なプラン選択するモデルを提案 https://isamu-website.medium.com/literature-review-on-task-planning-with-llm-agents-a5c60ce4f6de

How to build AI agents to automate web browsing with
human level reasoning? Part 2: Using Large Context Window • Playwrightを⽤いてwebタスクの⾃動化のエージェント開発（ソースコード付き）タスクの例：Nvidiaに関連するSEC（⽶国証券取引委員会）の⽂書リンクを収集すること実⾏の計画 1. タスクをリストに分解する • ⾼レベルのタスクを⼩さなサブタスクに分解する 2. URLを取得する • 最初にアクセスすべきURLを決定する 3. Playwrightを使⽤してページにアクセスし、リンクを収集する 1. 指定されたURLに移動する 2. ページの内容を取得する 3. ページ上のリンクを収集する 4. タスクリストの更新と次のコマンドの実⾏ 1. 現在のページの内容に基づいてタスクリストを更新する 2. 次に実⾏すべきコマンドを決定し、実⾏する 3. 必要に応じて、ページ間を移動しながらリンクを収集する 5. タスクの完了を確認する 1. 全てのサブタスクが完了したかを確認する https://systemdesigner.medium.com/how-to-build-ai-agents-to-automate-web-browsing-with-human-level-reasoning-eb19c821297a

Architecting + testing reliable agents • LangChainがAI Engineer World Fairで発表した資料
• エージェントのアーキテクチャと信頼できるテスト⽅法を紹介 • LangGraphは制御フローを⾃分で組めて(Reliable)、エージェントの制御ループも⼊れられる(Flexible) • テストはLangSmithがエラーハンドリング、テストとモニタリングを全てカバー https://docs.google.com/presentation/d/1QWkXi4DYjfw94eHcy9RMLqpQdJtS2C_kx_u7wAUvlZE/edit?usp=sharing

Gemini API の Function Calling 機能で LLM Agent を実装する •
Google Cloud の Gemini API の Function Calling 機能を使ってLLM Agent の実装例を紹介 • Function Calling は、「どの API を使⽤すれば回答に必要な情報が得られるか？」を Gemini ⾃⾝に考えさせる • ToolsにはBigQueryのAPIを⽤意し、関数の引数でSQLクエリを⽣成させる • Geminiが関数とそのSQLクエリを⽣成したらその値をもとにAPIを実⾏する https://zenn.dev/google_cloud_jp/articles/3fa4da1eb63948 ツールの定義 Function Calling を使⽤した Agent の動作

MyLens AI turns any input into an easy-to-understand visual. •
MyLensは、AIを活⽤したタイムラインの作成と探索を可能にするプラットフォーム • データを⼊⼒するとタイムライン、マインドマップ、四象限、テーブルなど、複数の形式でデータを表⽰できる • マーケティング、教育、ビジネス分析、スタートアップ⽀援、研究、健康管理、コンテンツ制作、デザイン、プロジェクト管理、経営管理、財務分析で利⽤できるマインドマップ四象限タイムラインテーブル https://mylens.ai/use-cases

Relay.app ワークフローによる⾃動化ソリューション AI を簡単に使⽤するために、Relay.app では 3 つのクラスの AI 機能を提供 1.
要約やデータ抽出などの⼀般的なユースケース向けの組み込み AI アクション 2. 完全な柔軟性を実現する構造化された出⼒フィールドを備えたカスタムプロンプト 3. 半⾃律的にアクションを実⾏するミニAIエージェント https://www.relay.app/features/ai#maximize-confidence-in-ai 組み込みAIアクションカスタムプロンプトミニAIエージェント

AI-FLOW • AI-Flow はノードベースのアーキテクチャを提供し、ユーザーはさまざまな種類のノードを接続してデータフローを構築できる • URL からデータ抽出、GPT を使⽤してテキスト⽣成、画像の作成や編集 •
AI-Flow はニーズに合わせてカスタマイズされた幅広い機能を提供 https://docs.ai-flow.net/docs/intro/

⾃分のAWS環境について何でも教えてくれるエージェントが作れそう • Agents for Amazon Bedrockを使い、⾃⾝のAWS環境の情報を取得するエージェントを構築 • AWSのリソースのAPI仕様に関する知識は公式ドキュメントをナレッジ化 • APIはコード⽣成越しに実⾏させる
• コードの実⾏環境をLangchainのREPLのソースコードを編集し、Lambdaで使えるようにしている @moritalousさんのQiita記事：https://qiita.com/moritalous/items/65120fe3cc7404ab2d0f

Agents arenʼt all you need • 2023年頭、AutoGPTやBabyAGIのフレームワークが登場したときにParcha（ブログを書いた会社）のような⽔平 (AI エージェントプラットフォーム)
および垂直 (特定の業界向けの AI エージェント) ユースケース向けのスタートアップが登場した。 • AI エージェントがフィンテックや銀⾏の多くの業務プロセスを⾃動化できるという仮説を掲げて Parcha を設⽴した。当初のエージェントは、標準作業⼿順書 (SOP) の⼿順を⾃律的に読み取って計画を⽣成させ、各ステップでツールを実⾏するものでした。 • Parchaでは、⼈間の介⼊を最⼩限に抑えて複数のプロセスをカバーする汎⽤エージェントプラットフォームの構築を⽬指していた。具体的なカバー業務プロセスは、 Know Your Business (KYB), Know Your Customer (KYC), fraud detection, credit underwriting, merchant categorization, Suspicious Activity Reports (SARs) filingsです。 • 顧客と検証を進めたが、信頼できる汎⽤エージェントを開発に時間を取られ、顧客の課題と向き合えなかった。 • 顧客が求めているのは、正確性、信頼性、シームレスな統合、ユーザーフレンドリーなUXであった。 • 汎⽤性と⾃律性を諦め、業務特化で、抽出、クラスタリング、部分的意思決定をコンポーネント化してワークフローにする⽅法をとることにした。 https://www.parcha.com/blog/agents-arent-all-you-need

Exploring AI Automation: Agentic Workflows with LangGraph and Tavily •
LangGraphを使ったエージェント開発のチュートリアル的な記事 • ワークフローの紹介 • LangGraphの⽤語 • Nodes：python関数 • Edges：ロジックのルーティング、終了条件 • State Management：ノードに与えるオブジェクトのスキーマ • Threads：グラフの個別のセッション • Configuration：実⾏時に設定される構成 • 実装例 • RAGによるビジネスレポート作成 https://medium.com/@LakshmiNarayana_U/exploring-ai-automation-agentic-workflows-with-langgraph-and-tavily-155f5442a999

Automating Complex Business Workflows with Cohere: Multi-Step Tool Use in
Action • Cohereのブログでシングルステップツール利⽤とマルチステップツール利⽤の違いを紹介 • シングルステップツール利⽤ • 単⼀のアクションまたは⼀連の独⽴したアクション • アクション実⾏後のループ処理がいらない • マルチステップツール利⽤ • 各アクションが前のアクションの結果に依存する⼀連のアクション • モデルは「どのツールをどのような順序で使⽤すべきか」を考える • ループ処理で何度もツールを呼び出す https://cohere.com/blog/multi-step-tool-use

Building Advanced RAG Over Complex Documents • DataBricks DATAʼAI SummitのLlamaIndexの発表
• 推論フレームワークの紹介 • だいたい世間で使われるのはReActベースになっている https://docs.google.com/presentation/d/1yiuHEQEAhWEvVskbD9jwmfjopznVeZGwwWUzBIZ_P9U/

Evaluating Specific LLM Applications: Agents • LangChainの公式サイトからエージェントの評価の3つの観点 • 最終回答、単⼀ステップ、軌跡の評価が必要 •
langsmith.evaluation を使えばそれぞれ評価する仕組みを作れる（チュートリアルあり） https://docs.smith.langchain.com/concepts/evaluation#agents https://docs.smith.langchain.com/tutorials/Developers/agents#eval

Introducing AutoGen Studio: A low-code interface for building multi-agent workflows
• AutoGen Studioは、AutoGenの機能を引き継いだローコードインターフェイスを提供 • 以下の⽬標を念頭に置いて開発 • マルチエージェントアプリケーション構築の参⼊障壁を下げる • マルチエージェントソリューションの迅速なプロトタイピングとテストを促進 • ユーザーが技術を共有と再利⽤をおこない専⾨知識とコミュニティを育成 • 右図のようにドラッグ＆ドロップ体験を開発中らしい https://www.microsoft.com/en-us/research/blog/introducing-autogen-studio-a-low-code-interface-for-building-multi-agent-workflows/

国産LLM初、AIエージェントとして使える「KARAKURI LM 8x7B Instruct v0.1」を⼀般公開 • KARAKURI LM 8x7B Instruct
v0.1ではFunction callingに対応 • ⽇本国内のセキュリティが厳しい業界（⾦融・医療・製造など）から独⾃LLMの要望あり • 「⽇本語に強く」「ビジネス実装に最適な学習」を最優先に取り組み、国産モデルの中でいち早くFunction callingとRAGに対応したモデルの開発に成功 https://karakuri.ai/seminar/news/karakuri-lm-8x7b-instruct-v0-1/ https://huggingface.co/karakuri-ai/karakuri-lm-8x7b-instruct-v0.1

AutoGenでReflexion - Synergy!の新機能を考える • AutoGenを⽤いて⾃社製品の新機能案を考えさせるフローを検証 • Reflextionアルゴリズムを使ってアイデアの質を⾼めている • 3つのエージェントを⽤意する •
User_proxy：会話のコントローラー • Create_assistant：アイデアを⽣成する • Reflection_assistant：⽣成されたアイデアを評価する • コミニケーションフローを設定する • User_proxy -> Create_assistant -> Reflection_assistant -> Create_assistant • 内省でアイデアは変わらないが詳細が洗練されている 2回⽬ 1回⽬ https://blog.techscore.com/entry/2024/06/12/080000

AIエージェントによるサーバ監視と⾃律的な復旧を⽬指して - Powered by crewAI • crewAIを使って、サーバの監視と⾃律的な復旧を実現するデモ紹介ブログ • 具体的には「Dockerコンテナ1台に対するヘルスチェックとDockerコマンドの実⾏」タスクを実装 •
crewAIでは、Tasks, Agents, Toolsを定義する • Tools • health_check: HTTPリクエストを送って、ステータス200が返ってくることを確認する • execute_docker_command: Dockerコマンドを実⾏する • Agents：ツールを持つ • Server Management Expertとし、サーバーが落ちていたら直す役割を伝える • Tasks：エージェントを持つ • check_server_task: サーバのHTTPステータスを確認する • check_container_status_task: コンテナのステータスを確認する • Crew：2つのタスクを順番におこなう • 結果 • うまくいったが、タスクの粒度が荒いと最初のタスクでリスタートまでしてしまい、もう⽚⽅がいらないこともある • 消費トークン数が多い • 複数のコンテナが互いに依存するシステムの監視・復旧を今後取り組みたい https://zenn.dev/acntechjp/articles/6b031dd2d134bf

Morphが取り組む、データ処理特化のAIエージェントの開発: 開発チームからの⼿紙 • Morph がLLMのコーディング能⼒や⾔語化能⼒、データ解釈能⼒を活⽤してデータ処理に特化をしたAIエージェントを開発 • Morph上では、SQL, Pythonを実⾏する環境が整っている •
誰もがデータアシスタントを活⽤できる未来を実現する https://www.morphdb.io/ja/blog/2024/letter-from-developers-2

AIエージェントのみでBPO 企業を作り上げる⽅法： Dify+Ollama+Llama3+Groqで顧客サポート窓⼝業務を完全⾃動化 • ビジネスプロセスアウトソーシング（BPO）は、企業が他の企業に⾃社の業務の⼀部を委託すること • ⼀般的な例としては、コールセンターがあり、今回は架空の電⼒会社のコールセンターを設⽴し、AIワーカーを⽤意する • コールセンターには、カスタマーサービス、請求および⽀払い、テクニカルサポート、サービス停⽌の対応、
新規顧客の登録や停⽌の担当者がいる • それぞれの担当者でナレッジとロールが異なる • 顧客の問い合わせ内容に応じて担当者がルーティングされる • Difyで実装され、LLaMA-3 70Bモデルが利⽤されるクレーム対応元記事：https://ai.plainenglish.io/how-i-built-a-simple-bpo-company-all-ai-employees-all-local-631e48fa908a ⽇本語訳：https://zenn.dev/ippeisuzuki/articles/71971d747c101b

Language Agent Tree Search ̶ LATS • LATSアルゴリズムがLlamaIndexに搭載されたことを紹介するコラム • LATSは⾔語モデルにおける推論、実⾏、計画を統合する
• LATS の 6 つの操作 • ノードが選択され、拡張され、評価された後、ターミナルノードに到達するまでシミュレーションが⾏われます。結果の値はバックプロパゲーションされます。軌道が失敗した場合は、内省が⽣成され、将来の試⾏の追加コンテキストとして使⽤されます。これらの操作は、タスクが成功するまで連続して続⾏されます。幅深さ https://cobusgreyling.medium.com/language-agent-tree-search-lats-837de73d0672

Building AI Agents: Lessons Learned over the past Year AIエージェントの構築:
過去1年間に学んだ教訓 • Snowflake、BigQuery などと接続されたデータ分析エージェント開発で学んだこと 1. 知識よりも推論が重要 • SQLクエリ⽣成も失敗理由を添えて考えさせると上⼿くいくことがある 2. 性能をあげるにはエージェント・コンピュータ・インターフェース（ACI）にこだわれ • ACI は、エージェントのツール呼び出しの構⽂や構造を指す • ツールの名前や数、抽象化レベル、⼊⼒形式、出⼒応答をわずかに調整するだけで、エージェントの性能に⼤きな変動が⾒られたので繰り返し修正することをお勧めする 3. エージェントはモデルによって制限される • 複雑なタスクでは強いモデルを使おう 4. モデルを微調整するのは時間の無駄 • 微調整したモデルによるエージェントは、学習時の指⽰を採⽤し、テスト時の指⽰を⼀部無視し、問題について独⾃に推論しなくなる • 特定のツール呼び出し（SQLクエリ⽣成）のための学習は効果的である 5. 製品を構築する場合は、LangChainやLlamaIndexなどの抽象化の使⽤を避ける • モデルへの各呼び出しは、⼊出⼒も含めて完全に管理する必要がある（プロトタイプではOK） • エージェントが何をインプットし実⾏したのかの理解をおこなうときに後悔する 6. エージェントはあなたの堀ではない • エージェントが機能するには⼀連の AI コンポーネント以外に多⼤な投資が必要（差別化になる） • セキュリティ、データコネクタ、UI、⻑期記憶、評価 https://medium.com/@cpdough/building-ai-agents-lessons-learned-over-the-past-year-41dc4725d8e5

Building an Agent for Data Visualization (Plotly) データ可視化エージェントの構築 • LLMだけでは以下ができない
• データの仕様の理解、レイアウトやスタイルの好みの理解、推論 • データの仕様（列名、型、最⼩、最⼤など）をインデックスに保存 • 好みのレイアウト内⽤も別インデックスに保存 • ReAct形式で2つのインデックスを利⽤する dataframe_indexから列名を取得 Stylingから描画の種類を選択コードを⽣成 https://medium.com/firebird-technologies/building-an-agent-for-data-visualization-plotly-39310034c4e9

AIキャラクターによるライブ配信の新時代！『キャラクターストリーマー』サービス開始 • とれしん株式会社は、AIキャラクターによるライブ配信サービス「キャラクターストリーマー」の提供を開始 • マルチエージェント技術を活⽤して、AIキャラクターが⾃動的に番組を進⾏し、視聴者とのリアルタイムな交流を可能にする画期的なライブ配信体験を提供 • 宣伝したいことを準備しておけば、エージェント達がシナリオを考えてライブ配信してくれるユースケース •
AITuberのライブ配信 • 企業キャラクターによるブランドプロモーション • 教育現場での活⽤ https://prtimes.jp/main/html/rd/p/000000006.000141740.html

Intro to Generative UI with LangChain • これからはサイトのUIがパーソナライズされる（LangChainより動画とコラム公開） • LLMのツール呼び出しでUIを選択する
• 例えば、チャットインターフェースの出⼒がリポジトリの場合と通常のテキストで分ける https://www.youtube.com/watch?v=mL_KuQgX9Oc

Qwen-Agent: Generalizing from 8k to 1 Million Contexts • Qwen-Agent
は、Alibaba が開発した⼊⼒⻑8KのQwen モデルを使⽤して 100 万トークンのドキュメントを理解し、RAG やネイティブのロングコンテキストモデルを上回る新しいエージェントをリリースレベル 1: 検索拡張⽣成 (RAG) • ⻑いコンテキストをより扱いやすいチャンクに分割し検索するレベル2: チャンクごとの読み取り • ブルートフォース戦略を採⽤ • 各チャンクの関連性を並⾏して全て評価して、重要な情報が漏れないようにするレベル3: ステップバイステップの推論 • 質問をサブ質問に分解し、ツール呼び出し付きエージェントが組み込まれている https://x.com/youraimarketer/status/1800317698817085680

AI agents are having a ʻChatGPT momentʼ as investors look
for whatʼs next after chatbots • チャットボットのブームを引き起こしたChatGPTに続き、次の⼤きな波としてAIエージェントが注⽬されている • Microsoft、Google、Metaなどの⼤⼿企業もAIエージェントの開発に注⼒している。MicrosoftはCognition AI と提携し、GoogleはDeepMindと共にAIアシスタントプロジェクト「Astra」を進めている • AIエージェントは、通常のチャットボットを超えて、複数のステップを含むタスクを⾃動化できるツールとして定義されている。これにより、ユーザーがプロセスをステップバイステップで指⽰する必要がなくなる。 • AIエージェントを開発する企業の評価額は、他の⽣成AIスタートアップ企業と同様に⾼騰している。 • スタートアップ企業もAIエージェントの開発に注⼒しており、⼤規模な資⾦調達を⾏っている。例えば、Adept は10億ドル以上の評価を受け、他のスタートアップも数百万ドルのシード資⾦を集めている。 • OpenAIとGoogleの卒業⽣が率いるAdeptは、「ソフトウェアツールの複雑さをユーザーが気にしなくても済むようになる」ことを⽬指している。 https://www.cnbc.com/2024/06/07/after-chatgpt-and-the-rise-of-chatbots-investors-pour-into-ai-agents.html

From gen AI 1.5 to 2.0: Moving from RAG to
agent systems • Gen AI 1.0: プロンプトエンジニアリング、Few Shot Learning • Gen AI 1.5: 検索拡張⽣成、埋め込みモデル、ベクトルデータベース • Gen AI 2.0: エージェントシステム • 複数の⽣成AIの機能を創造的に連携させること • Gen AI 2.0の最初のステップは⼀連のアクションを⼿動で開発すること • BrainBox.ai ARIAはビル管理AIシステムで、故障した機器の写真を理解し、ナレッジベースから関連するコンテキストを検索し、IoTデータフィードから関連情報をAPIで取得し、最終的に対処⽅法を提案する • しかし、このシステムの制限は、問題を解決するロジックを開発チームがハードコーディングするか、1-2ステップの深さにとどまる点 • Gen AI 2.0では、問題を解決するロジックを推論するエージェントシステムになる。問題をステップに分解し、ツールの集合から選択して各ステップを実⾏する。データ収集、推論、アクション実⾏の各コンポーネントを分離することで、柔軟なソリューションを実現する。 https://venturebeat.com/ai/from-gen-ai-1-5-to-2-0-moving-from-rag-to-agent-systems/ https://brainboxai.com/en/articles/introducing-aria-revolutionizing-building-management-with-ai

The Rise of AI Agent Infrastructure • AIエージェントは複数のタスクを計画し、優先順位を付け、⾃⼰検証する⾃律的なアクターとして、アプリ開発を加速させる •
インフラサポート • エージェントを⽀えるインフラには、⾃⼰管理型のクラウドホスト、メモリと状態のデータベース、外部APIと接続するためのコネクタが含まれる。LangChainやLangsmithなどのソフトウェアフレームワークがサポートしている。 • サービスとしてのエージェント • API 経由でエージェントを提供し、アプリケーションを組み⽴てる • ブラウザインフラストラクチャ • Web を読み取り、⾏動することが重要 • Web サイトや SaaS アプリケーションはアクセス、ナビゲート、解析、スクレイピングが複雑 • 他にもメモリ、認証、ホスティングが必要になる https://www.madrona.com/the-rise-of-ai-agent-infrastructure/

Betaworks bets on AI agents in latest ʻCampʼ cohort Betaworksの「Camp」プログラムに参加している⽇常のタスクを⾃動化を⽬指す9つのスタートアップ
1. Twin : テキストから⾏動を⽣成するLarge Action Modelを学習させ、⼀般的なタスクを完了させる • 「今⽇受け取った履歴書をすべて Dropbox のフォルダーに⼊れて、応募者の名前に変更し、Slack で共有リンクを送ってください」といったこと 2. Skej：都合のよい会議時間を⾒つける 3. Jsonify：⾮構造化コンテキストからデータを抽出できる Web サイトスクレーパーの進化形 4. Resolved AI：IaC テンプレートを使⽤して、プロビジョニング、構成管理、展開ワークフローを⾃動化 5. Floode：メールを読み取り、重要な内容を⾒つけ、適切な応答とアクションを準備する AI 受信トレイ 6. Opponent：⼦供たちが広範囲に交流したり遊んだりすることを⽬的とした仮想キャラクター 7. High Dimensional Research：Web 対応のエージェントアプリとワークフローを構築するフレームワーク https://techcrunch.com/2024/04/16/betaworks-bets-on-ai-agents-in-latest-camp-cohort/

New AI agent for venture capital: 100x cheaper, 5x faster
and on-par quality with humans • 世界初のAIネイティブVC企業であるVela Partnersの研究部⾨は、オックスフォード⼤学と共同で、スタートアップ投資のためのAI意思決定フレームワークを概説した研究論⽂を発表 • AI エージェントは、⼈間レベルの推論と品質を維持しながら、熟練した⼈間の VC アナリストよりも 5 倍速く、 100 倍安価にスタートアップを評価 https://www.globenewswire.com/news-release/2024/06/05/2893801/0/en/ New-AI-agent-for-venture-capital-100x-cheaper-5x-faster-and-on-par-quality-with-humans.html

Financial Services Will Embrace Generative AI Faster Than You Think
⽣成型AIが⾦融サービスに及ぼす影響を以下の5つの分野に分類パーソナライズされた消費者体験 • LLM は消費者の財務上の意思決定をより良く理解し、トレードオフを評価したり、より適切に導く • 「将来のある時点で⾼齢の両親を経済的に⽀援するのに⼗分な柔軟性のあるプランを作成できますか?」などコスト効率の良い運⽤ • 融資担当者が顧客名を⼊⼒するだけで、 12 種類近くのシステムからデータを取得し、融資ファイルを即座に⽣成 • カスタマーサービスエージェントが銀⾏の商品と関連するコンプライアンス要件について⼊念に学習し答えるコンプライアンスの向上 • LLMが契約書、レポート、メールを分析し、さらに調査が必要な潜在的な問題や懸念事項をフラグ付けリスク管理の改善 • ⽣成AIが信⽤リスク、市場リスク、流動性リスク、運⽤リスクに役⽴つ情報を提供する • LLMがニュース記事、市場レポート、アナリストの調査など、市場および取引相⼿のリスクをより包括的に把握より動的な予測とレポート • LLMが社内プロセスを改善し、財務チームの⽇常業務フローを簡素化するのを⽀援する • 時間のかかる記録管理とレポート作成の⾃動化 https://a16z.com/financial-services-will-embrace-generative-ai-faster-than-you-think/

Hi, AI: Our Thesis on AI Voice Agents • 1.0
AI ⾳声 (電話ツリー) から 2.0 AI ⾳声 (LLM ベース) の波に移⾏している • 多くの⾳声エージェント企業は、特定の業界 (例: ⾃動⾞サービス) または特定の種類のタスク (例: 予約スケジュール) に対して、垂直に特化したアプローチを採⽤ • 会話フロー (バックエンドワークフロー) はすぐに複雑/特殊になる可能性がある • 多くの場合、⾳声インターフェースはテキストに⽐べて、情報の抽出が不便で完全にマイナス • プロダクトに声がなぜ必要なのかについての強い視点が必要 https://a16z.com/ai-voice-agents/

LlamaIndex Agent Resources • LlamaIndexのエージェントの種類が増えている • 推論は、Sequential, DAG-based, Tree-basedに分けられる •
Tree-based なLanguage Agent Tree Searchが気になる RAG in 2024: Advancing to Agents https://llamaindex.notion.site/LlamaIndex-Agent-Resources-cb8585332fdb42e98b30a091412322bb

JSAI2024 AIエージェント関連の研究 • エージェントとの対話やペルソナに関する分析の発表が多く⽬についた（検索結果順） • LLM マルチエージェントを⽤いたアイディエーション応⽤とアイデア評価⼿法に関する研究（株式会社博報堂テクノロジーズ、株式会社NTTデータ数理システム） •
LLMエージェントの集団インタラクションを通したゲームの新しい戦略の創発（東京⼤学） • ⼤規模⾔語モデルを⽤いたレイアウト⽣成エージェント（⽇⽴製作所） • LLMに基づいたエージェントモデルのMASへの導⼊（⽴命館⼤学） • LLMエージェントによるText-to-Design⼿法の検討（早稲⽥⼤学、サイバーエージェント） • ⼤規模⾔語モデルを利⽤した動機づけ⾯接会話エージェント（成蹊⼤学） • LLMエージェントの⼈間との対話における反芻的返答の親近感向上効果（株式会社ARISE analytics） • LLMエージェント同⼠の⾃然⾔語による戦略進化（東京⼤学） • マルチエージェント雑談対話における対話破綻分析（早稲⽥⼤学、AIST、筑波⼤学、NAIST） • ⼤規模⾔語モデルに基づくマルチエージェント事実検証⼿法（京都⼤学） • 電通総研のLLMエージェントの技術開発や製造のAI活⽤事例紹介（株式会社電通総研） https://confit.atlas.jp/guide/event/jsai2024/top

From Prompt Engineering to Agent Engineering • エージェントエンジニアリングを紹介するコラム • 以下の機能要件を定義することから始まる
エージェント機能要件 • エージェントがやるべき仕事 • 仕事を遂⾏するために取るべき⾏動 • 記事やブログ投稿の下書き • 必要な能⼒ • コンテンツトレンドの API の動的な呼び出し • ブレインストーミングと要約機能 • メモリ • 必要な能⼒の熟練度 • 関数呼び出しの信頼性は 75% • 失敗した関数呼び出しの説明可能性は 99.99% https://towardsdatascience.com/from-prompt-engineering-to-agent-engineering-f314fdf52a25

AI Agentic Design Patterns with AutoGen • DeepLearning.AIでAutoGenを使ったエージェント開発の新たな授業が無料公開 • AutoGen
はマルチエージェントLLM アプリケーションの開発を可能にするフレームワーク動画の中で以下を学べる • Tool Use、Coding、Reflection • 会話、⼈間へのフィードバック https://www.deeplearning.ai/short-courses/ai-agentic-design-patterns-with-autogen/

AIエージェントが⼈間のバディーに--アクセンチュア、2024年の技術トレンドを解説 • アクセンチュアは5⽉27⽇、テクノロジートレンドの調査レポート「Technology Vision 2024」に関する記者説明会を開催 • 2つ⽬のトレンドに「⾃分専⽤エージェントとの出会い：AIのためのエコシステム」がある • AIは、さまざまなビジネスシーンで⼈間を⽀援する“アドバイザー”から、⾏動を伴い物理世界に影
響を及ぼす“エージェント”に進化している • AIエージェントが私たちの同僚や代理⼈として登⽤されるにつれて、テクノロジーと⼈材の未来を再創造する必要がある • アクセンチュア⼭根⽒は、⽣成AIネイティブ世代が「BYOAI（Bring Your Own AI）世代」になるとし、AIエージェントをバディーとして共進化させ、業務だけでなく、プライベートにおいても常に⾃分のバディーとセットで⾏動するようになるという。 • AIエージェントを育て上げていくためには、⾃らもAIコーチから学ぶとともに、⾃らの考えや気付きを常にまとめてAIエージェントに問いかけるといった真に創造的なアクションが必要になる https://news.yahoo.co.jp/articles/2e21edb794054e5ca04757e8cfa127eb23b7a5c0 https://www.accenture.com/jp-ja/insights/technology/technology-trends-2024

AI Agents Are Going To Automate The Following Tasks First
以下ではAIエージェントは既に⼈間より性能が良いとされている • customer support and call routing（顧客サポートと通話ルーティング） • doc generation in the legal profession（法律専⾨家によるドキュメント⽣成） • data analyst / report generator（データアナリスト/レポート作成） • IT support desk and ticket triage（ IT サポートデスクとチケットトリアージ） • test script generator（テストコード⽣成） • junior financial analyst（ジュニア⾦融アナリスト） • contract creation and analysis （契約の作成と分析） https://x.com/bindureddy/status/1796013640555827680

Introducing Perplexity Pages • Perplexity Pages は、調査結果を記事に簡単に変換する新しいツール • 詳細な記事、レポート、情報ガイドを作成するときに使える⽂章の編集やテーブル表⽰、挿絵も⽣成
記事の題⽬を書くと執筆される

少数ショットのツールの使⽤は実際にはまだ機能しない • Google Researchが論⽂を読者層に合わせてブログ化している • ツールを使⽤するように学習していないモデルを使う場合、Few Shot Learningによるツール利⽤は困難で未解決の問題 •
Gemini、GPT-4、Claudeはツールを使うように学習済みなためスコープ外 https://research.google/blog/few-shot-tool-use-doesnt-really-work-yet/

Building an AI Agent With Memory Using MongoDB, Fireworks AI,
and LangChain • MongoDB、Fireworks AI、LangChain などのツールを活⽤して AI リサーチアシスタントを構築する⽅法について説明する記事 • 特にMongoDBを⻑期メモリとして利⽤する⽅法をstepごとに紹介 https://www.mongodb.com/developer/products/atlas/agent-fireworksai-mongodb-langchain

Weekly AI Agents News! 6月号 プロダクト/ニュースのアーカイブ

Weekly AI Agents News! 6月号 プロダクト/ニュースのアーカイブ

More Decks by masatoto

Other Decks in Research

Featured

Transcript

Weekly AI Agents News! 6月号プロダクト/ニュースのアーカイブ

Weekly AI Agents News! 6月号プロダクト/ニュースのアーカイブ