Gemini 2.5 Computer Use 入門

Gemini 2.5 Computer Use 入門 Hideki Tsuruoka UpdatedAt 2025.10.09 AIエージェントがPCを「
見て・操作する」時代

Contents • AIエージェントの課題 • Gemini 2.5 Computer Useとは • PC操作の
自動化ツールいろいろ • 動作原理 • 実装解説 • Browser Use との違い • まとめ

• これまでのAIエージェントがアクションを実行するにはToolsの中でもAPIやMCPが主流だった • API: APIが提供されていないWebサイトやデスクトップアプリは操作できない「壁」 • RPA/Selenium: UI変更に弱く、メンテナンスコストが
高い「脆さ」 AIエージェントの課題 3 AIエージェントの基本構成（DII 山崎さんのクラウド勉強会資料より引用）こういったフォーム操作はLLMや従来のToolsでは対応できない

• Google DeepMindがリリースしたGeminiファミリーの新しいモデル • 自然言語の指示に基づき、GUIを視覚的に理解して
人間のように操作するツール。AIに「目」と「手」を与える。 • クリック、テキスト入力、スクロールなど、基本的なPC操作を網羅しており、人間のような精度でエージェントがウェブページやアプリケーションを操作できる機能を利用できるようになった。 • 信頼の源泉がDOMからピクセルへ→ 見た目が変わらなければ、裏側のコードが変わっても動き続ける堅牢性を実現 Gemini 2.5 Computer Useとは 4 ref. https://blog.google/technology/google-deepmind/gemini-computer- use-model/ デモ: APIに対応していないサイトなどでフォーム入力が必要な場合でも自動化ができる。「10 月 10 日の20:00移行にアポイントを取って」というプロンプト

• 過去に似たようなツールはいくつかでている。AnthropicのComputer Useが2024年10 月にパブリックベータとして発表 • その3ヶ月後には2025年1 月
にはOpenAIからOperatorが登場。ChatGPT経由でPC 自動化が体験できる(ref) • 2025年8 月下旬にはNECの自家製LLMのcotomiを使った「cotomi Act」がWebArenaでブラウジング操作成功率が人間超え PC操作の自動化ツールいろいろ 5 Operatorの中身はブラックボックスだが、Computer Useはオープンソースでありコンテナで実行する。 Operatorは”Computer-Using Agent(CUA)”で駆動する。全額返金のデモの様子 (ref)。知覚→推論→アクションの3 工程を繰り返しながら自律的に動いていく。具体的には都度スクリーンショットでスナップショットを記録してコンテキストに入れることで、現在や過去のアクションを考慮し次のステップを推論している。ログイン情報の入力や CAPTCHA フォームへの回答などの機密性の高いアクションについては、HITLでユーザーに確認を求める。 WebArenaでCUAやOperatorを超える性能を記録している。まだ試験運用中で、開発完了は2026年度中を目指しているとのこと。

• OpenAIのOperatorとも似ているが、スクリーンショットの情報を与えながら反復ループ処理しゴールまで向かう形式 • Geminiモデルはあくまで与えられたコンテキストを元に「ここを操作すると良いよ」という情報をFunction callingの形で返却するだけ。実際のブラウザ操作やコンテキストの追加などは、クライアントサイドで行う（PlaywrightとBroswerbaseが対応）。 Gemini 2.5
Computer Useモデルの動作原理 6 Gemini APIのTools定義に`computer_use`を宣言するだけ `function_call`として返却されるのでこの情報を元に、クライアントサイドでPlaywrightなどブラウザ操作する。具体的には、nameにはPC操作の種類が入ってくるので条件分岐する。`type_text_at`は「ここにタイピングしろ」という指示。

• PythonとPlaywright環境だけですぐに実行可能（AnthoropicのComputer UseのようなDockerコンテナは不要）実装解説 7 ここに基本的な実装が入っているので
一緒に見ていく ref. https://github.com/google/computer-use-preview/blob/main/agent.py

• VQA (Visual Question Answering): 「画像（スクリーンショット）」と「質問（指示）」を同時に理解し、回答を生成す
る技術。Computer Useの肝。 ◦ 「画像（スクリーンショット）」と「質問（指示）」を同時に理解し、操作を導き出す技術 ◦ 「このログインボタンはどこ？」→「座標(x, y)です」 • GUI Grounding: 「ログインボタン」という言葉と、画面上の実際のボタン領域を紐付ける技術。 • Gemini Computer Useの強みはそのマルチモーダル性能の高さ故にDOM→ピクセルの堅牢な操作を実現したこと技術的背景: VQA 8 • 1. ユーザーが指示「NVIDIAの株価を検索して」 • 2. エージェントが画面のスクリーンショットを取得 • 3. Gemini 2.5が画像と言語を同時に解析 • 4. 出力として具体的な操作コマンド（例: type(x,y, 'NVIDIA stock price ’ )）を生成 • 5. PC上でコマンドが実行される動作例操作する座標を提示

• ヘッドレスブラウザを実行できるプラットフォームBrowserbaseを利用して、モデルの動作を確認できる「Gemini Browser」 • ブラウザ状態を逐次読み取り、次の操作を提案し反復作業が見
て取れる。デモ 9 ref. https://gemini.browserbase.com/

• Anthoropic, OpenAIのComputer Useよりも精度・速度ともに超えている • AnthropicのComputer Useが登場したときも話題にはなったが、Dockerコンテナ上での実行制限や速度の問題など実用
性に足りてなかったベンチマーク 10

• 実装アプローチが全く異なっており、Browser Useはあくまで従来アプローチのDOMベースでHTML構造を解析し操作 • Computer UseはDOM構造は見ない。ただ人間が視覚として
見ている情報をそのままピクセルとして受け入れて判断 • なので、あらかじめDOM構造が決まっているサイトのスクレイピングなどはBrowser Useの方が早い • 一方で、SPAはじめリッチなWeb表現や応用力ではComputer Useに軍配。Gemini Computer Useはモバイルアプリ対応も視野 Browser Use との違い 11 The Fastest Web Agent in the Worldと謳っている。確かに爆速 ref. https://browser-use.com/posts/llm-gateway

• ツール連携: Computer Use単体ではなく、Tavily（Web検索）やURL Context（Web読解）と組み合わせることで真価を発揮 • デモ風解説①（経費精算）:
◦ Computer Useで社内システムにログイン → 経費申請画面を開く ◦ URL Contextで領収書の電子ファイルから日付・金額を読み取る ◦ Computer Useで読み取った情報をフォームに入力し、申請ボタンをクリック • デモ風解説②（動的サイトからの情報収集）: ◦ Computer UseでECサイトにアクセスし、「もっと見る」ボタンを数回クリックして全商品を表示させる ◦ URL Contextで表示された全商品のHTMLを解析し、商品名と価格を抽出 AIエージェントでの応用 12

• 自動化はDOMからピクセル（コードから見た目）を理解するようになり、AIエージェントの視覚が強化された • Computer UseはGemini
APIとして簡単に統合できるため、AIエージェントタスクにも応用が簡単 • 他のAIツールと連携することで、これまで自動化が難しかった業務を遂行可能になる • 現在はWebブラウザ最適化されているが、将来的にはモバイルアプリ操作も対応予定（Browser Useとの差別化）まとめ 13

Gemini 2.5 Computer Use 入門

Gemini 2.5 Computer Use 入門

ツルオカ - Hideki Tsuruoka

More Decks by ツルオカ - Hideki Tsuruoka

Featured

Transcript

Gemini 2.5 Computer Use 入門 Hideki Tsuruoka UpdatedAt 2025.10.09 AIエージェントがPCを「

Contents • AIエージェントの課題 • Gemini 2.5 Computer Useとは • PC操作の

• Google DeepMindがリリースしたGeminiファミリーの新しいモデル • 自然言語の指示に基づき、GUIを視覚的に理解して

• 過去に似たようなツールはいくつかでている。AnthropicのComputer Useが2024年10 月にパブリックベータとして発表 • その3ヶ月後には2025年1 月

• PythonとPlaywright環境だけですぐに実行可能（AnthoropicのComputer UseのようなDockerコンテナは不要）実装解説 7 ここに基本的な実装が入っているので

• VQA (Visual Question Answering): 「画像（スクリーンショット）」と「質問（指示）」を同時に理解し、回答を生成す

• ヘッドレスブラウザを実行できるプラットフォームBrowserbaseを利用して、モデルの動作を確認できる「Gemini Browser」 • ブラウザ状態を逐次読み取り、次の操作を提案し反復作業が見

• Anthoropic, OpenAIのComputer Useよりも精度・速度ともに超えている • AnthropicのComputer Useが登場したときも話題にはなったが、Dockerコンテナ上での実行制限や速度の問題など実用

• 実装アプローチが全く異なっており、Browser Useはあくまで従来アプローチのDOMベースでHTML構造を解析し操作 • Computer UseはDOM構造は見ない。ただ人間が視覚として

• ツール連携: Computer Use単体ではなく、Tavily（Web検索）やURL Context（Web読解）と組み合わせることで真価を発揮 • デモ風解説①（経費精算）:

• 自動化はDOMからピクセル（コードから見た目）を理解するようになり、AIエージェントの視覚が強化された • Computer UseはGemini