Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Weekly AI Agents News! 9月号 プロダクト/ニュースのアーカイブ

masatoto
October 03, 2024

Weekly AI Agents News! 9月号 プロダクト/ニュースのアーカイブ

毎週更新予定のWeekly AI Agents News! の過去のアーカイブです。
https://speakerdeck.com/masatoto/weekly-ai-agents-news

masatoto

October 03, 2024
Tweet

More Decks by masatoto

Other Decks in Research

Transcript

  1. Weekly AI Agents News @ottamm_190 Weekly AI Agents News 9月号

    プロダクト/ニュース編 @ottamm_190
  2. 9/23 プロダクト・ニュース リリース • Learning to Reason with LLMs •

    Geminiで独自チャットサービスを作れる Gems 開始 • SocialAI - AI Social Network • Microsoft 365 Copilotのアップデート リポジトリ • GenAI Agents: Comprehensive Repository for Development and Implementation • Awesome LLM Strawberry (OpenAI o1) ブログ • The agentic web • Project SID: Minecraftの世界におけるAIの協力と社会構造の進化 • OpenAI o1のレビューとコーディングエージェントの評価 ニュース • LLM Agents Hackathon • LangChain x Rakuten: AI Agents Meetup in Japan 授業 • LLM Reasoning: Key Ideas and Limitations • LLM Agents Brief History and Overview
  3. Learning to Reason with LLMs OpenAIが強化学習で訓練され、複雑な推論を実行できる新しい大規模言語モデルである OpenAI o1を公開 o1 の性能は、訓練時の計算時間が増えるにつれ精度が向上し、

    テスト時の計算(思考に費やす時間)が増えるに つれて、一貫して精度が向上することがわかった • 強化学習を通じて、o1 は思考の連鎖を磨き、間違いを認識して修正することを学ぶ • 難しいステップをより単純なステップに分解することを学ぶ • 現在のアプローチがよくない場合は、別のアプローチを試すことを学ぶ https://openai.com/index/learning-to-reason-with-llms/ https://metr.github.io/autonomy-evals-guide/gpt-4o-report/ 感想 間違いを外部助言なしの内省で気づくのは今までのLLMの課題だった 複数のCoTの一貫性か討論か批判プロンプトで気づいてくれって感じだった 難しいステップをタスク分解するのは計画やCoTでよくある 現在の方法がダメなら別の方法を試すのはMCTSで最近よく見る 推論の時間をかければ精度が上がるのが本当だとすごい gpt-4oの安全性評価では長い時間をかけても、精度は頭打ちだった(右下図) 9月23日 更新分
  4. Geminiで独自チャットサービスを作れる Gems 開始 2024年8月28日、Google I/O 2024で発表された「Gems」がGoogle Workspaceユーザー向けに提供開始 Gemsは、特定のタスクやワークフローを効率化するためのカスタマイズ可能なAIエキスパート ユーザーは、数ステップでGemsに指示を与え、タスクを自動化できる Premade

    Gemsと呼ばれるテンプレートがあり、カスタマイズ可能 • 対象: Google WorkspaceのGemini Business、Enterprise、Education、Premiumユーザー • 繰り返しの作業を減らし、アイデア生成、マーケティング、コピー編集、業界トレンド把握、教育などで活用可能 https://blog.google/products/gemini/google-gems-tips/ 9月23日 更新分
  5. SocialAI - AI Social Network • SocialAI は、AI 搭載の個人用ソーシャルネットワークです •

    SNSのXの感覚で投稿でき、数百万のAIフォロワーから返信を受け取れます • SocialAIをセラピー、日記、または単に自分の話を聞いてもらうためのツールとして使えます • フォロワーの性格も選べて、日本語で呟いても日本語で返してくれます • 使った感じは、外国名が多いのにも関わらず、彼らが日本語を使うのに違和感を持ったのと返信の速度が速す ぎてリアル味が薄いことかな • 悪くない体験に思います https://apps.apple.com/us/app/socialai-ai-social-network/id6670229993 9月23日 更新分
  6. Microsoft 365 Copilotのアップデート Microsoft 365 Copilot in Excel with Python

    • 非常に魅力的な機能で対話的にエクセルのデータ分析と描画や予測ができる • デモ動画を見た方がいいです。Power BIとは利用シーンで差別化するのか Microsoft 365 Copilot in Outlook | Prioritize my inbox • 受信トレイの電子メールに優先順位を付ける機能が追加 • 最も重要な新規顧客などの電子メールにフラグを付け、メールの要約と、優先された理由も提示する Microsoft 365 Copilot | Copilot Studio agent builder • Microsoft版のGPTsがついに完成 • Microsoftのソリューションと連携できるのが魅力 • 10月初旬にパブリックプレビューに移行する予定 Microsoft 365 Copilot | Copilot agents in SharePoint • シェアポのフォルダレベルでone-clickで検索インデックスが作れるようになった • 10月初旬にパブリックプレビューに移行する予定 https://news.microsoft.com/m365-copilot-Sept-2024/ 9月23日 更新分
  7. GenAI Agents: Comprehensive Repository for Development and Implementation Generative AI

    (GenAI)エージェントの開発と実装に関する包括的なリポジトリ 初心者向けから高度なタスク特化型エージェントまで幅広い内容を含む 初心者向けエージェント • 会話、質問応答、データ分析 タスク特化型エージェント • カスタマーサポート、エッセイ採点、旅行計画 クリエイティブエージェント • GIFアニメーション生成、音楽作曲 高度なエージェントアーキテクチャ • 記憶強化型会話、マルチエージェント協力システム、自己改善 • タスク指向、リサーチアシスタント https://github.com/NirDiamant/GenAI_Agents 9月23日 更新分
  8. Awesome LLM Strawberry (OpenAI o1) OpenAI Strawberry(o1) と Reasoningに関する研究論文とブログを集めたリポジトリ o1の貢献者が著者である論文も集めている

    [Nathan Lambert] OpenAI’s Strawberry, LM self-talk, inference scaling laws, and spending more on inference • AIの性能向上は、モデルの学習よりも推論時に多くの計算リソースを割り当てることで大きな成果が得られると主張 • モデルの生成は探索の単純な形式と見れる(次の出力を選択するためにトークンの分布からサンプリングするため) • 歴史的にもAlphaGoやDeepBlueの成功は、探索アルゴリズムの計算のスケーリングから来ていることから推論スケーリングが重要になる • o1が「自分自身に話しかけているように見える」ような推論過程を示す点が興味深い • これを「self-talk」と呼び、複雑な問題解決において有効である可能性がある [Nathan Lambert] Reverse engineering OpenAI’s o1 • RLの報酬は軌跡全体に1つ割り当てるため、途中でどこで間違いが生じたかを理解するのは困難 • 最近の研究では、推論のすべてのステップに報酬を与える設計をしている(PRM: プロセス報酬モデル) • Q* は PRM を使用して Tree of Thoughts 推論データをスコアリングし、その後オフライン RL で最適化しているのではないか • o1もQ*が関係していると仮定すると、ツリー思考からプロセス報酬に基づき現状の推論を止め、別の価値の高いノードに遷移し推論をす ることで間違いに気づき対処するのか [Andreas Stuhlmüller, jungofthewon] Supervise Process, not Outcomes • 2022年のブログで機械学習システムは結果ベースとプロセスベースがある • 結果ベースは、入力と最終結果の教師データをエンドツーエンドで学習する従来の方法 • プロセスベースは、人間が理解できるタスク分解に基づき、推論ステップを直接監督する方法 • 短期的なタスクでは、結果データを収集して人間の能力を超える方がはるかに簡単 • 長期的な予測、政策決定、理論研究など、結果データが得られにくいタスクにプロセスの強みがある • プロセスが正しいから結果を信じられるという考え方 https://github.com/hijkzzz/Awesome-LLM-Strawberry 9月23日 更新分
  9. Project SID: Minecraftの世界におけるAIの協力と社会構造の進化 Project SIDは、Minecraftの世界で1,000以上の自律型AIエージェントの能力を探求する画期的なプロジェクト AIシステムが自律的に複雑な社会行動や協力戦略を発展させる可能性を示している これらの発見は、将来的にガバナンスや資源管理、コミュニティ構築など、現実世界の様々な分野におけるAI応 用への可能性を示唆しており、都市計画や社会管理にも影響を与える可能性がある • 自律型AIエージェント:

    エージェントは互いに対話し、物語を作り、経済を築き、社会的階層を形成する • 自然発生的システム: エージェントは自らガバナンスや市場(宝石を通貨として使用)を発展させ、コミュニ ティの規範を自然に作り上げた • 注目すべきシミュレーション 1. オリビアの夢:農民エージェントが、個人の野心よりも村全体のニーズを優先する行動を示した 2. 政治実験:ドナルド・トランプやカマラ・ハリスのような政治指導者の下で、エージェントが法律の投票 を通じてガバナンスの進化をシミュレートした 3. コミュニティ活動:村人が消えた時、エージェントは協力して光のビーコンを建て、社会的責任感と協力 を強調した https://concertidc.medium.com/project-sid-advancing-ai-collaboration-and-social-structures-in-the-minecraft-universe-4787cad37b5b 9月23日 更新分
  10. OpenAI o1のレビューとコーディングエージェントの評価 • Devinの開発チームがo1-previewの評価をブログで公開 • o1-previewは、gpt-4oに比べ、優れた内省と分析能力を持っている。 • 正しい解決策にたどり着く前に振り返り、異なる選択肢を検討し、誤った情報や自信を持って間違った結論を 出す可能性が少なくなっている。 •

    特にDevinが複雑で間接的な原因を持つエラーメッセージを調査する際に際立っている • 以下のようなエラーメッセージでは、githubのissueを調べ、pip installすべき問題も解決できる • o1へのプロンプトは最終的な答えだけを求める方が良い結果をもたらすことが多い • o1は密なコンテキストを必要とし、不要なトークンや雑然とした情報に対して敏感 • o1-previewの知能が向上した反面、非常に細かく指示された内容を守る際には変動が増加するというトレード オフも見られる https://www.cognition.ai/blog/evaluating-coding-agents 9月23日 更新分
  11. LLM Agents Hackathon LLMエージェント・ハッカソンは、バークレーRDIとLLMエージェントMOOCの協力で開催される 学生、研究者、実務者が参加し、LLMエージェント技術の進展とAIエージェントコミュニティの発展を目指す アプリケーショントラック • コーディング、電子メールの監視、食品の注文など、ツールベースの LLM エージェントを設計

    • 人間を高く忠実にシミュレートできる LLM エージェントを設計 ベンチマークトラック • 新しいタスクで独自の AI エージェント ベンチマークを作成 • 現在のAIエージェントベンチマークに基づき拡張 分散型およびマルチエージェントトラック • 効率的にマルチエージェントの相互作用を実現する方法 • マルチエージェントシステムにおける新たな障害モードの分析 基礎トラック • 記憶、計画、推論 • ツール使用、関数呼び出し、RAG • マルチモーダル、インタラクティブ 安全性トラック • 偶発的な誤用の防止、悪意ある使用の防止、エージェントの制御と解釈 • 監査と責任、マルチエージェントの安全性とセキュリティ、環境と社会への影響 https://rdi.berkeley.edu/llm-agents-hackathon/ 9月23日 更新分
  12. LLM Reasoning: Key Ideas and Limitations バークレーのAIエージェントの講義の第一回「推論」の資料の要約 • AIの今後は難解な数学問題の解決や新しい科学理論の発見、AGIの実現などが挙げられている •

    現状のML技術には推論能力が欠如している • ある規則や法則性に基づいて問題を解くには、通常の機械学習モデルでは膨大なラベル付きデータが必要とさ れる一方で、LLMは少数の例から問題を解決できる • LLMが複雑な問題に対しても中間的なステップを生成して最終解を導き出す能力がある • 少数のデモンストレーションを使って、LLMが非常に少ないデータから一般化が可能である • 自己整合性を取り入れることで、LLMが複数の応答を生成し、その中で最も一貫性のある解答を選べる • LLMは自分の誤りを修正することができないという課題がある • LLMが自己検証やエラー修正のプロセスで改善される可能性はあるが、それでも誤った結果にたどり着くリス クが残る • 無関係な文脈によってLLMが混乱する問題を指摘し、無関連な情報を除外することでLLMの性能が向上する場 合もある • 推論において、前提の順序が重要であることが実験により示されている。前提がランダムに提示されると、 LLMの推論精度が大幅に低下する https://llmagents-learning.org/slides/llm-reasoning.pdf 9月23日 更新分
  13. LLM Agents Brief History and Overview バークレーのAIエージェントの講義の第二回「エージェントの歴史」の資料の要約 • エージェントの定義は、物理環境やデジタル環境で動作する「知能システム」 •

    知能と環境を定義することによってエージェントは定義できる • テキスト、LLM、推論エージェントの3段階にわけて考えられる • RAGや単にツールを使うだけでは推論が欠けている • 推論はエージェントにとって「内部行動」を意味する • ReActを従来のRLを比較すると、スカラー報酬のかわりにテキストを受け取り、重み更新の代わりにメモリを 更新する • エージェントの歴史を振り返ると、Symbolic AI agent、RL agent、LLM agentになる • エージェントの内部がルールベースからベクトル表現、テキスト表現に変わってきた • EMNLP tutorial on language agentsが開催される https://llmagents-learning.org/slides/llm_agent_history.pdf 9月23日 更新分
  14. 9/9 プロダクト・ニュース ニュース • Large Language Model Agents Course ブログ

    • Mastering AI Agents: From Basics to Multi-Agent Systems • This Week in AI was WILD: Grok 2, Claude, SearchGPT, AgentQ and AI Scientist You Can’t Afford to Miss • Navigating the New Types of LLM Agents and Architectures
  15. Mastering AI Agents: From Basics to Multi-Agent Systems AIエージェントは、LLMに基づいており、自律的にタスクを実行する能力を持っています。 複雑なタスクを分解し、計画、推論、学習を通じてゴールを達成します。

    AIエージェントは、情報提供型AIから行動型AIへ、さらにはユーザーのニーズを予測し、能動的に行動するAIへと 進化しています。 ビジネスプロセスの自動化や顧客サービスの向上、科学研究の加速、クリエイティブな分野での活用が期待され ています。 AIエージェントの構造、初歩的な構築方法、高度な技術、マルチエージェントシステムのパフォーマンス向上、 課題と将来の展望が書いてます。 Planningの出力例 https://medium.com/@vinitgela/the-rise-of-ai-agents-91f93379c0c8 9月9日 更新分
  16. This Week in AI was WILD: Grok 2, Claude, SearchGPT,

    AgentQ and AI Scientist You Can’t Afford to Miss 8月18日に公開された生成AIニュースまとめ記事 • Claudeのプロンプトキャッシング: AnthropicがClaudeにプロンプトキャッシング機能を追加。これにより、会 話履歴やコードベースをキャッシュし、レスポンス速度と精度が向上する。キャッシングコストは初期に25% 増だが、再利用時は通常の10%のコストで済む。 • Grok 2 (Elon Muskのx.ai): Grok 2は、Claude 3.5 SonnetやGPT-4-Turboを凌駕する性能を持ち、特に論理や 数学的推論で優れた結果を示す。 • SearchGPT: 広告なしで正確かつパーソナライズされた結果を提供する新しい検索エンジン。Googleの支配力 を脅かす存在として注目されている。 • Mr. StrawberryのAIハイプ: AIに関する嘘の情報をTwitterで広め、フォロワーを集めたが、結局は「パフォー マンスアート」だったと告白。 • AgentQ: 複雑なタスクをこなす次世代AIエージェント。MCTSとAIの自己評価を組み合わせ、ウェブナビゲー ションや意思決定を大幅に改善する。 • AI Scientist: Sakana AIが開発したAI Scientistは、完全に自律的に研究を行い、新しい知識を発見できるツー ル。仮説の生成、実験、研究論文の作成まで自動化。 • GoogleのGeminiイベント: デモでトラブルが発生し、期待に応えられなかったが、Googleは会話型ボイスモデ ルの提供でOpenAIに先行した。 9月9日 更新分 https://medium.com/@datadrifters/this-week-in-ai-was-wild-grok-2-claude-searchgpt-agentq-and-ai-scientist-you-cant-afford-to-314a6a8e4c5b
  17. Navigating the New Types of LLM Agents and Architectures The

    failure of ReAct agents gives way to a new generation of agents — and possibilities • 2023年には「Retrieval Augmented Generation」(RAG)が注目されましたが、2024年は「エージェント」が 焦点となっています。 • 多くの企業がチャットボットエージェントを活用し、エージェントの構築に新たなフレームワークが登場しま したが、消費者や企業ユーザーへの普及は進んでいません。 • 最初の世代のReActエージェントは高度に抽象化された構造を持ちましたが、実用性に乏しく、その結果、よ り限定された問題空間を持つ次世代エージェントが登場しました。 • 次世代エージェントは、より狭い解決策空間を持ち、特定のタスクに集中するため、強力なエージェントが構 築しやすい点が特徴です。また、多くのエージェントはLLMによるルーターと各コンポーネントで構成され、 反復的なデータ処理が行われます。 • エージェントを使用するべきかどうかは、アプリケーションが反復的なデータフローを必要とするか、過去の 行動に基づいて異なるフローをたどる必要があるか、複数のアクションの状態空間を持つかによって判断でき ます。 • エージェントが直面する一般的な課題としては、長期的な計画の難しさ、ツール呼び出しの誤作動、パフォー マンスの不安定さが挙げられます。これらの課題に対処するためには、問題空間を事前に分割することや、 コードベースのルーターを導入することが有効です。 9月9日 更新分 https://towardsdatascience.com/navigating-the-new-types-of-llm-agents-and-architectures-309382ce9f88