Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIエージェント元年

Shu Kobuchi
February 21, 2025

 AIエージェント元年

https://genai-users.connpass.com/event/344292/

2024年は生成AIが世の中に浸透した1年でしたが、2025年はAIエージェント元年と言われています。

生成AIはチャットベースで受け身なものでしたが、AIエージェントは自律的にタスクを分解しこなすことができます。そのインパクトは計り知れません。

生成AIの概略を説明した後、AIエージェントの紹介をします。

Shu Kobuchi

February 21, 2025
Tweet

More Decks by Shu Kobuchi

Other Decks in Technology

Transcript

  1. 自己紹介・コミュニティ紹介 • 小渕 周(Shu Kobuchi)こぶシュー • https://x.com/shu_kob @shu_kob • システムエンジニア

    → ブロックチェーン業界 • 2023年12月から生成 AI アプリケーション開発等 • 日本生成 AIユーザ会 • https://genai-users.connpass.com/ • 主な活動 ◦ 月1回程度のオンライン勉強会 ◦ OSC東京への出展 2
  2. アジェンダ 1. 生成AIとは a. 生成AIの復習 b. 生成AI活用・開発のTips 2. AIエージェントとは 3.

    AIエージェントの例 a. リサーチツール b. ソフトウェア開発用ツール c. AIエージェントのフレームワーク 3
  3. 生成AI・LLMとは • 2017年に米アルファベット傘下の Google の研究者らが AI の論文を発表 ◦ 「トランスフォーマー(Transformer)」という新たなモデル(予測方式)で AI

    のブレークス ルー • 画像生成 AI が注目を浴びたがその後、ChatGPT の登場が世界的話題に • 大規模言語モデル(Large Language Model:LLM) ◦ テキストベースの大型AI ◦ 言葉を理解して操る人工知能 • 人間の行なっているデスクワークを自動化など大きな期待 特化型AI 生成AI (汎用型AI) 段々と AIの民主化
  4. テキスト生成の仕組み • 確率 ◦ 言葉の結びつきを確率的に処理 • ベクトル ◦ 多次元ベクトル空間で近い位置にある単語は意味が似ているとする •

    私は喉が渇いたので、 ____ を飲みたい • 下線部に「水」が入る確率 = 4.3 × 10^-9 • 下線部に「金」が入る確率 = 7.2 × 10^-15
  5. テキストのベクトル演算の簡単な例 • Word2Vec ◦ 単語をベクトルで表現する方法の一つ ◦ King = [0.6, 0.8]

    ◦ Man = [0.2, 0.4] ◦ Woman = [0.7, 0.9] ◦ Vector_Operation = King - Man + Woman ◦ Result_Vector = [0.6 - 0.2 + 0.7, 0.8 - 0.4 + 0.9] = [1.1, 1.3] = Queen
  6. 芸術・エンタメ分野の生成AI • 芸術家や音楽家は仕事を奪われるのではないか?と危惧 • 生成AIを活用した小説家が芥川賞を受賞する例も ◦ 第170回芥川賞に九段理江さん 執筆に「生成AI」を使用 直木賞は河﨑秋子さん、万城目学さん ◦ https://book-link.jp/media/archives/11440 ▪

    AI時代に小説を書くことについて聞かれると、「この作品全体のだいたい5%くらいは、 『チャットGPT』のような生成AIの文章をそのまま使っている。これからも(AIを)う まく利用しながら、自分の創造性を発揮できるような付き合い方をしていきたい」との考えを 示した。 • AI モデルの登場! • 日本初!AI modelを伊藤園の「お~いお茶 カテキン緑茶」TV-CMに採用 • https://aismiley.co.jp/ai_news/aimodel-aitalent-itoen/ • 他にも、AIグラビアモデルの写真集がたくさん出版 • 小室哲哉が生成AIを利用 • 芸術・エンタメ分野での生成AIの活用は早い 九段理江 著 「東京都同情塔」新潮社
  7. 画像生成AI • 画像を生成してくれる ◦ Microsoft Designer Image Creator(途中から有料) ◦ 「Bing

    Image Creator」とも ◦ https://www.bing.com/images/create • Stable Diffusion(途中から有料) ◦ https://stablediffusionweb.com/ja#ai-image-generator • DALLE-E(有料)OpenAIの画像生成版 ◦ https://openai.com/dall-e-3 ◦ ChatGPTの有料プランで利用可能 • 生成AIをデザイナー代わりに ◦ Webサイト ◦ スライドの画像 「生成AI勉強会のロゴマーク」 Microsoft Designer Image Creator 作
  8. 他の生成AI • 音声 ◦ テキストを入力すると、人の声で読み上げ ◦ 従来の音声合成技術では、あらかじめ録音された音声素片を組み合わせて音声を生成していたが、 音声生成AIは、大量の音声データを学習することで、人間のような自然な音声を生成することが可 能 •

    音楽 ◦ ユーザーが音楽ジャンル・スタイルを選択し、テンポ・キーなどを指定すると自動的に楽曲を生成 してくれる • 動画 ◦ テキスト → 動画 ◦ 画像 → 動画 ◦ 動画内の質問にも答えてくれる ◦ 編集も可能 • マルチモーダル ◦ テキストだけでなく、画像、音声、動画などにも対応した生成AIモデル ▪ Google Cloud の Geminiなど
  9. 社会への影響 • 生成AIはホワイトカラーの仕事を変えていく ◦ ホワイトカラーの雇用減少 ◦ 昔の予測とは反し、ブルーカラーへの影響は少なそう ▪ モラベックのパラドック ▪

    高度な推論よりも感覚運動スキルの方が多くの計算資源を要する ▪ 生成AIに比べ、物理動作を含むロボットの進化は遅い ▪ ロボットに肉体労働を代替させるのはまだまだ難しい • 教育機関は対応を迫られる ◦ 生成AIに宿題をやらせる対策 ◦ 社会では生成AIをいかに活用するかを考えている ▪ 教育機関も生成AIの活用法を教えるなど対応していくべき ▪ ただし、生成AIを使いこなせて教えられる人は未だ少ない
  10. ユースケース • ソースコードの生成、補完 ◦ GitHub Copilotなど • チャットボットの高度化 • 思考の壁打ち

    • 文章添削 • 要約 • 翻訳など以前から AI が担っていた作業は、生成 AI も担当可能
  11. RAG (Retrieval Augmented Generation) • LLMが知らない情報を外部から与えてあげて拡張する手法 ◦ 質問に関連する情報を context に含める

    ◦ 情報をベクトル化して蓄えておく ▪ Embedding ◦ 蓄えた情報の他、Webで検索した情報も使用可能 • 最新の情報 ◦ 2024の情報が欲しいとき、LLMが2023年までのデータしか知らないとすると2024年の 情報を与えてあげる • 公にされていない社内情報 ◦ エンタープライズで利用する際は、社内情報を蓄積することが重要 ◦ 社内情報の利活用促進 ◦ これまで見えてこなかった/可視化が面倒だった情報の取得が容易に
  12. ファインチューニング • LLMに追加学習をさせて調整すること ◦ 教師あり学習 • チャットの改善や指示に従いやすさの改善などに有効 • 事実の学習やハルシネーションの軽減には効果が薄い •

    パブリックなLLMで料金を支払うことにより実施可能 ◦ ただし、高いし、面倒 • プロンプトエンジニアリングやRAGの使用が推奨されている • オープンモデルであれば、ファインチューニングを利用
  13. 会話履歴 • 会話の流れに沿った回答ができるようになったのが従来のチャットボットとの違い • アプリからデータベース で会話履歴を保持し、チャットで活用 会話履歴 人 AI 人

    AI DDDって何? DDD とは、データ駆動開 発のことです。... 他の開発手法はどんな ものがある? 他の開発手法は、... 質問 LLM 文脈に 沿った回答 ・ルールベースでの質問回答 ・応答の種類は限られる ・質問者にとって満足度の低い回答 ・「こそあど」など指示語がわからない 従来のチャットボット
  14. AIエージェントの定義 • 自律的にタスクを分解し、実行するAI • 特徴 ◦ 自律性 ▪ 人間が指示を出さなくても、自ら目的を理解し、必要なタスクを考え、実行可能 ◦

    適応性 ▪ 環境やフィードバックに基づいて作業を実行し、状況の変化に応じて適切な行動を選択 可能 ◦ 学習能力 ▪ 経験から学んで自己改善を行い、利用を重ねるほどにパフォーマンスが向上 22 LLM Call Stop Human Environment Action Feedback バッチによる 自動実行にする方法 もあり
  15. AIエージェントの仕組み • 目標設定 -> タスク分解 -> 計画 -> 実行 ->

    評価 -> 学習 • 外部システムとの連携 • AIエージェント同士の連携 ◦ マルチエージェント ▪ 階層型 ▪ 自律協調型 23 AI Agent AI Agent AI Agent AI Agent AI Agent AI Agent 階層型 自律協調型
  16. Google Deep Research • リサーチのためのAIエージェント • Gemini有料版のWeb画面で選択可能 • https://blog.google/products/gemini/google-gemini-deep-research/ •

    使用方法 ◦ ユーザプロンプトを入力 ◦ AIが計画を出力 ◦ 計画がOKだと、ユーザがリサーチを開始 ◦ Webページをクローリングして調査 ◦ 時間はかかるが、レポートを作成 • 従来の生成AI ◦ 1回1回プロンプトを書いてやりとりする必要あり • AIエージェントのリサーチ ◦ 全自動・丸投げが可能 ◦ 従来の生成AIはみんなにとって使いやすいものではなかった ◦ 面倒さから解放 25
  17. 代表的なプロダクト 26 プロダクト 開発企業 機能・特徴 使用例 価格 メリット デメリット AgentGPT

    Reworkd ノーコードでAIエージェント を作成可能、GPT-3の言語 処理能力を活用 チャットボット、 ワークフロー自動 化など 無料 (OpenAIの APIキーが必 要) プログラミングの知識がな くても利用可能、 ChatGPTより効率的にタ スクを遂行可能 ベータ版のため機能が制限されてい る、AIが完全に自律的に動作するわ けではない AutoGPT Significant Gravitas 自然言語処理と機械学習 を活用、インターネットに接 続し最新の情報にアクセス 可能 Webサイト構築、 データ分析、コン テンツ作成など 無料 (OpenAIの APIキーが必 要) ChatGPTより自律的にタ スクを実行、最新の情報に アクセス可能 ブラウザで扱えない、セットアップに GitとPythonのインストールが必要 Magentic-One Microsoft リーダー型エージェントがタ スクを管理、特定の言語モ デルに依存しない S&P 500の市場 動向分析、文献 の引用管理など 無料 複雑なタスクを効率的に遂 行可能、柔軟性が高い 大規模なエンタープライズソリューショ ンでは、複雑性が増し、一貫性を保つ のが難しい場合がある、高性能モデ ルを使用する場合のコストも考慮する 必要がある Operator OpenAI 人間と同様のGUI操作が 可能、GPT-4oの視覚認識 機能と強化学習を活用 フォームの記入、 食料品の注文な ど 月額200ドル (米国のみ) 作業効率を大幅に向上で きる、繰り返し作業を自動 化できる リサーチプレビュー段階、複雑な操作 には課題が残る crewAI João Moura カスタマイズ可能なエー ジェントを作成可能、エー ジェントが直列・並列・階層 的に連携可能 プロジェクト管理、 金融分析、コンテ ンツ制作など 無料、月額29 ドル~、月額 99ドル~ 複雑なAIシステムを開発 可能、AutoGenと ChatDevの利点を組み合 わせている プログラミングの専門知識が必要、セ キュリティ機能が標準で搭載されてい ない
  18. BabyAGI • Baby Artificial General Intelligence ◦ https://github.com/yoheinakajima/babyagi ◦ 大規模言語モデル(LLM)の能力を最大限に引き出すために設計されたタスク管理システム

    ◦ Pythonで書かれたOSS ◦ 日本人が開発 • BabyAGIの仕組み ◦ 目標の設定 ▪ ユーザーはBabyAGIに達成したい目標を与える ◦ タスクの生成 ▪ BabyAGIは目標を達成するために必要なタスクを生成 ◦ タスクの実行 ▪ BabyAGIは優先順位の高いタスクから順に実行 ◦ 結果の保存 ▪ タスクの実行結果はデータベースに保存 ◦ 次のタスクの決定 ▪ BabyAGIは実行済みのタスクの結果や現在の状況に基づいて、 次に実行するタスクを決定 ◦ 上記の繰り返し ▪ BabyAGIは目標が達成されるまで、上記のサイクルを繰り返し 27
  19. Google WorkspaceのAIエージェント「Project Mariner」 • https://deepmind.google/technologies/project-mariner/ • Google DeepMind社が開発 • Gemini

    2.0を基盤とした人間とエージェントのインタラクションを模索する研究プロトタイプ • ブラウザに常駐 ◦ Chrome拡張機能としてWebブラウザに常駐し、画面のコンテンツを理解 • タスクの自動化 ◦ ユーザーの代わりにWeb上でタスクを実行 • 対話形式での指示 ◦ チャットボットにタスクを指示することで、エージェントが実行 • リアルタイムなWebサイト閲覧と推論 ◦ 指示内容を理解し、Webサイトを閲覧しながらタスクに必要な情報を推論 • 実行前の計画提示 ◦ タスク実行前にユーザーに計画を示し、承認を得てから実行 • ベンチマークでの高いスコア ◦ WebVoyagerベンチマークで高いスコアを達成 29
  20. ソフトウェア開発のためのAIエージェント(1) • Devin ◦ https://devin.ai/ ◦ Cognition AI社が開発 ◦ 世界初のAIソフトウェアエンジニアを謳うAIエージェント

    ◦ ソフトウェア開発プロセス全体を自律的に行える点が特徴 ◦ コーディングだけでなく、バグ修正や実装まで ◦ 月額500ドルでクレジットを購入 ▪ 使い切ったらクレジットの追加購入可能 • Cursor ◦ https://www.cursor.com/ja/ja ◦ AIを活用した革新的なコードエディタ ◦ AIによるコード補完 ▪ 入力中のコードの続きをAIが予測し、候補を提示 ▪ コーディングスピードが大幅に向上 ◦ 自然言語によるコード生成 ▪ 自然言語で指示を与えるだけで、AIが適切なコードを生成。 ▪ 例えば、「ファイルを読み込んで内容を表示するPythonコード」のように指示 ◦ コードの修正提案 ◦ チャット機能 ▪ AIとチャットしながら、コードに関する質問や相談が可能 ◦ 多様なAIモデルに対応し、用途に合わせて最適なモデルを選択可能 30
  21. ソフトウェア開発のためのAIエージェント(2) • Copilot X ◦ https://github.blog/jp/2023-03-23-github-copilot-x-the-ai-powered-developer- experience/ ◦ GitHub Copilotの次世代バージョンとして発表された、より高度なAIペアプログラミング

    ツール ◦ 既存のGitHub Copilotに新機能が順次追加される形で提供 ▪ Copilot Xとして独立した製品やプランが存在するわけではない ◦ Copilot Xで発表された機能の例としては、チャット機能やプルリクエストのサポートなど ▪ これらの機能はすでにGitHub Copilotに統合され、利用可能 31
  22. AIエージェントのフレームワーク • Microsoft「AutoGen」 ◦ https://www.microsoft.com/en-us/research/project/autogen/ ◦ AIエージェントの構築と、複数のエージェント間の連携を促進し、タスク解決を目指すため のオープンソースプログラミングフレームワーク ◦ AutoGen

    Studioは、コーディングなしでマルチエージェントワークフローのプロトタイプ を作成および実行するためのローコードGUI • Google Cloud Vertex AI Agent Builder ◦ https://cloud.google.com/products/agent-builder?hl=ja ◦ AIエージェントを開発のためのプラットフォーム • Auto-GPT ◦ https://github.com/Significant-Gravitas/AutoGPT ◦ GPT-4 言語モデルを基盤とした実験的なオープンソース Python アプリケーション 32
  23. AIエージェントの活用事例 • カスタマーサービス ◦ チャットボットによる電話応対や問い合わせ対応 • バーチャルアシスタント ◦ 個人のスケジュール管理、メールの整理、リマインダーの設定 •

    人事サポート ◦ 福利厚生や会社方針に関する質疑応答 • マーケティング支援 ◦ リアルタイム情報や顧客の過去行動や購入履歴に基づく新製品の提案 • 自動運転 ◦ 他の車両や歩行者の動向解析を通した安全かつ効率的な運転のサポート • 生産ラインの最適化 ◦ 工場における精算ラインの最適化、予防保守による機械の故障や生産停止のリスク減少 • サプライチェーン管理 ◦ 需要予測、在庫管理、物流の最適化 • 緊急時の対応 ◦ ユーザー位置の効率的な割り出し、自然災害発生時の人命救助 • 医療やヘルスケア業界での会話型AI ◦ 患者対応の支援、遠隔医療のサポートや患者管理 34