Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Gemini 2.5 Computer Use 入門
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ツルオカ - Hideki Tsuruoka
October 10, 2025
320
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Gemini 2.5 Computer Use 入門
2025.10.10開催の社内勉強会にて発表
ツルオカ - Hideki Tsuruoka
October 10, 2025
More Decks by ツルオカ - Hideki Tsuruoka
See All by ツルオカ - Hideki Tsuruoka
AI時代に事業成長を支えるCTOとは
htsuruo
0
69
Google Cloud AI Agent Summit '25 Fall Recap
htsuruo
0
39
Gemini CLIと仕様駆動開発(SDD)でVibe Codingを堅実化する
htsuruo
3
1.2k
巨人の肩の上で踊れ 〜Virtual Try-On APIに学ぶAI時代の教訓と戦い方
htsuruo
0
32
Google Cloud Next Tokyo '25 Recap
htsuruo
0
29
最近のAI Editor事情とGitHub Copilot for VS Codeのアップデート
htsuruo
0
39
Prompt Engineeringの再定義「Context Engineering」とは
htsuruo
1
960
Vibe Coding Day Opening
htsuruo
0
34
NotebookLM 活用ガイド
htsuruo
1
450
Featured
See All Featured
Balancing Empowerment & Direction
lara
6
1.1k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
410
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
150
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
150
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
170
The untapped power of vector embeddings
frankvandijk
2
1.7k
How to build a perfect <img>
jonoalderson
1
5.6k
GitHub's CSS Performance
jonrohan
1033
470k
RailsConf 2023
tenderlove
30
1.5k
Transcript
Gemini 2.5 Computer Use 入門 Hideki Tsuruoka UpdatedAt 2025.10.09 AIエージェントがPCを「
見 て・操作する」時代
Contents • AIエージェントの課題 • Gemini 2.5 Computer Useとは • PC操作の
自 動化ツールいろいろ • 動作原理 • 実装解説 • Browser Use との違い • まとめ
• これまでのAIエージェントがアクションを実 行 するにはToolsの中でもAPIやMCPが主流だった • API: APIが提供されていないWebサイトやデスクトップアプリは操作できない「壁」 • RPA/Selenium: UI変更に弱く、メンテナンスコストが
高 い「脆さ」 AIエージェントの課題 3 AIエージェントの基本構成 (DII 山 崎さんのクラウド勉強会資料より引 用 ) こういったフォーム操作はLLMや従来のToolsでは対応できない
• Google DeepMindがリリースしたGeminiファミリーの新しいモデル • 自 然 言 語の指 示 に基づき、GUIを視覚的に理解して
人 間のように操作するツール。AIに「 目 」と「 手 」を与える。 • クリック、テキスト 入力 、スクロールなど、基本的なPC操作を網羅しており、 人 間のような精度でエージェントがウェブページ やアプリケーションを操作できる機能を利 用 できるようになった。 • 信頼の源泉がDOMからピクセルへ→ 見 た 目 が変わらなければ、裏側のコードが変わっても動き続ける堅牢性を実現 Gemini 2.5 Computer Useとは 4 ref. https://blog.google/technology/google-deepmind/gemini-computer- use-model/ デモ: APIに対応していないサイトなどでフォーム 入力 が必要な場合でも 自 動化 ができる。「10 月 10 日 の20:00移 行 にアポイントを取って」というプロンプト
• 過去に似たようなツールはいくつかでている。AnthropicのComputer Useが2024年10 月 にパブリックベータとして発表 • その3ヶ 月 後には2025年1 月
にはOpenAIからOperatorが登場。ChatGPT経由でPC 自 動化が体験できる(ref) • 2025年8 月 下旬にはNECの 自 家製LLMのcotomiを使った「cotomi Act」がWebArenaでブラウジング操作成功率が 人 間超え PC操作の 自 動化ツールいろいろ 5 Operatorの中 身 はブラックボックスだが、Computer Useはオープンソースでありコンテナで実 行 する。 Operatorは”Computer-Using Agent(CUA)”で駆動 する。 全額返 金 のデモの様 子 (ref)。知覚→推論→アクションの3 工 程を繰り 返しながら 自 律的に動いていく。具体的には都度スクリーンショット でスナップショットを記録してコンテキストに 入 れることで、現在や 過去のアクションを考慮し次のステップを推論している。ログイン情 報の 入力 や CAPTCHA フォームへの回答などの機密性の 高 いアク ションについては、HITLでユーザーに確認を求める。 WebArenaでCUAやOperatorを超える性能を記録してい る。まだ試験運 用 中で、開発完了は2026年度中を 目 指して いるとのこと。
• OpenAIのOperatorとも似ているが、スクリーンショットの情報を与えながら反復ループ処理しゴールまで向かう形式 • Geminiモデルはあくまで与えられたコンテキストを元に「ここを操作すると良いよ」という情報をFunction callingの形で返却す るだけ。実際のブラウザ操作やコンテキストの追加などは、クライアントサイドで 行 う(PlaywrightとBroswerbaseが対応)。 Gemini 2.5
Computer Useモデルの動作原理 6 Gemini APIのTools定義に`computer_use`を宣 言 するだけ `function_call`として返却されるのでこの情報を元に、クライアントサイ ドでPlaywrightなどブラウザ操作する。具体的には、nameにはPC操作 の種類が 入 ってくるので条件分岐する。`type_text_at`は「ここにタイピ ングしろ」という指 示 。
• PythonとPlaywright環境だけですぐに実 行 可能(AnthoropicのComputer UseのようなDockerコンテナは不要) 実装解説 7 ここに基本的な実装が 入 っているので
一 緒に 見 ていく ref. https://github.com/google/computer-use-preview/blob/main/agent.py
• VQA (Visual Question Answering): 「画像(スクリーンショット)」と「質問(指 示 )」を同時に理解し、回答を 生 成す
る技術。Computer Useの肝。 ◦ 「画像(スクリーンショット)」と「質問(指 示 )」を同時に理解し、操作を導き出す技術 ◦ 「このログインボタンはどこ?」→「座標(x, y)です」 • GUI Grounding: 「ログインボタン」という 言 葉と、画 面 上の実際のボタン領域を紐付ける技術。 • Gemini Computer Useの強みはそのマルチモーダル性能の 高 さ故にDOM→ピクセルの堅牢な操作を実現したこと 技術的背景: VQA 8 • 1. ユーザーが指 示 「NVIDIAの株価を検索して」 • 2. エージェントが画 面 のスクリーンショットを取得 • 3. Gemini 2.5が画像と 言 語を同時に解析 • 4. 出 力 として具体的な操作コマンド(例: type(x,y, 'NVIDIA stock price ’ ))を 生 成 • 5. PC上でコマンドが実 行 される 動作例 操作する座標を提 示
• ヘッドレスブラウザを実 行 できるプラットフォームBrowserbaseを利 用 して、モデルの動作を確認できる「Gemini Browser」 • ブラウザ状態を逐次読み取り、次の操作を提案し反復作業が 見
て取れる。 デモ 9 ref. https://gemini.browserbase.com/
• Anthoropic, OpenAIのComputer Useよりも精度・速度ともに超えている • AnthropicのComputer Useが登場したときも話題にはなったが、Dockerコンテナ上での実 行 制限や速度の問題など実 用
性に 足 り てなかった ベンチマーク 10
• 実装アプローチが全く異なっており、Browser Useはあくまで従来アプローチのDOMベースでHTML構造を解析し操作 • Computer UseはDOM構造は 見 ない。ただ 人 間が視覚として
見 ている情報をそのままピクセルとして受け 入 れて判断 • なので、あらかじめDOM構造が決まっているサイトのスクレイピングなどはBrowser Useの 方 が早い • 一方 で、SPAはじめリッチなWeb表現や応 用力 ではComputer Useに軍配。Gemini Computer Useはモバイルアプリ対応も視野 Browser Use との違い 11 The Fastest Web Agent in the Worldと謳っている。確かに爆速 ref. https://browser-use.com/posts/llm-gateway
• ツール連携: Computer Use単体ではなく、Tavily(Web検索)やURL Context(Web読解)と組み合わせることで真価を発 揮 • デモ 風 解説①(経費精算):
◦ Computer Useで社内システムにログイン → 経費申請画 面 を開く ◦ URL Contextで領収書の電 子 ファイルから 日 付・ 金 額を読み取る ◦ Computer Useで読み取った情報をフォームに 入力 し、申請ボタンをクリック • デモ 風 解説②(動的サイトからの情報収集): ◦ Computer UseでECサイトにアクセスし、「もっと 見 る」ボタンを数回クリックして全商品を表 示 させる ◦ URL Contextで表 示 された全商品のHTMLを解析し、商品名と価格を抽出 AIエージェントでの応 用 12
• 自 動化はDOMからピクセル(コードから 見 た 目 )を理解するようになり、AIエージェントの視覚が強化された • Computer UseはGemini
APIとして簡単に統合できるため、AIエージェントタスクにも応 用 が簡単 • 他のAIツールと連携することで、これまで 自 動化が難しかった業務を遂 行 可能になる • 現在はWebブラウザ最適化されているが、将来的にはモバイルアプリ操作も対応予定(Browser Useとの差別化) まとめ 13