Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Computer Use〜OpenAIとAnthropicの比較と将来の展望〜
Search
PharmaX(旧YOJO Technologies)開発チーム
May 01, 2025
Technology
1.4k
6
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Computer Use〜OpenAIとAnthropicの比較と将来の展望〜
PharmaX(旧YOJO Technologies)開発チーム
May 01, 2025
More Decks by PharmaX(旧YOJO Technologies)開発チーム
See All by PharmaX(旧YOJO Technologies)開発チーム
PdMによるLiveバイブコーディング〜プロトタイプ開発実践〜
pharma_x_tech
1
76
2025.10.28_CodexとClaude Codeの比較検討 社内座談会
pharma_x_tech
2
610
LLMのアウトプットの評価と改善 〜DSPyによるプロンプト最適化入門によせて〜
pharma_x_tech
6
1.2k
2025.09.02_AIコーディングを利用した開発自動化を目指しての座談会
pharma_x_tech
5
350
AIコーディングを前提にした開発プロセス再設計〜開発生産性向上に向けた試行錯誤〜
pharma_x_tech
4
440
AIエージェントの評価・改善サイクル
pharma_x_tech
2
610
MCP & Computer Useをフル活用した社内効率化事例〜現在地と将来の展望
pharma_x_tech
1
450
AIエージェントの継続的改善のためオブザーバビリティ
pharma_x_tech
7
2.6k
Roo CodeとClaude Code比較してみた
pharma_x_tech
5
6.2k
Other Decks in Technology
See All in Technology
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
830
LLMを「主役」にしないための 3つの原則
techtekt
PRO
0
120
Databricks における 生成AIガバナンスの実践
taka_aki
1
330
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.8k
Oracle Cloud Infrastructure IaaS 新機能アップデート 2026/3 - 2026/5
oracle4engineer
PRO
1
200
ルールやカスタム機能、どう使う?理想の出力を引き出すために今知りたいIBM Bob 5つの機能
muehara
1
340
EventBridge Connection
_kensh
4
590
protovalidate-es を導入してみた
bengo4com
0
130
10倍の生産性を実現するAI駆動並列エージェントのすべて
kumaiu
4
800
Platform Engineering as a Product: Criteria for Improvement and Multi-Tenant Design
kumorn5s
0
510
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
はじめてのDatadog
kairim0
0
290
Featured
See All Featured
Deep Space Network (abreviated)
tonyrice
0
160
YesSQL, Process and Tooling at Scale
rocio
174
15k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Design in an AI World
tapps
1
220
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
390
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.5k
The Spectacular Lies of Maps
axbom
PRO
1
790
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
290
Transcript
2025.5.1 #studyco Computer Use〜OpenAIと Anthropicの比較と将来の展望〜
(C)PharmaX Inc. 2025 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust X:@ueeeeniki
(C)PharmaX Inc. 2025 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
4 (C)PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •
AXカンパニーのカンパニーCTO • AXカンパニーのPdM などを募集しております!! 医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました
5 (C)PharmaX Inc. 2025 All Rights Reserve Computer Useについて
(C)PharmaX Inc. 2025 All Rights Reserve 6 Computer Useのデモ Anthropicのデモでは仮想環境を使っている
(C)PharmaX Inc. 2025 All Rights Reserve 7 AIエージェントは SaaSを飲み込むか •
AIエージェントがSaaSを操作するようになると、SaaSのUI/UXは人の使用を前提としていた時ほ どは競争優位性ではなくなる可能性はある ◦ SaaSは所詮データベースのラッパーに過ぎないと考えることもできる ◦ 社内業務用のSaaSを考えると、どのSaaSを使っても必要なデータが貯まれば同じという考 え方もできるようになる ◦ 一方で、人材系のマッチング(スカウト)ツールのように DBの量や質そのものに差がある場 合には、これまで通り十分価値になり得る • 既存SaaSをまたがって業務を自動化するAIエージェントの開発競争が始まる可能性あり ◦ 医療業界のように業務ごとにシステムが乱立していて、システム連携が難しいという問 題を強引に解決できる可能性もある computer/browser useによりAPI連携せずとも複数ツールをまたいだ操作の自動化が可能に
(C)PharmaX Inc. 2025 All Rights Reserve 8 Anthropicのポケモン生配信によるマルチモーダル &推論モデルのデモ •
利用可能なボタン操作は、 上,下,左,右 ,A,B,START,SELECT • アクションを選択する際にはどの アクションを取るのかを思考して 決定する • ゲーム内のメモリ値を渡している のではなく、画面の画像を渡して いる Claude 3.7 Sonnetにポケモンを使ってプレイさせ、ジムリーダー 3人の撃破に成功した
(C)PharmaX Inc. 2025 All Rights Reserve 9 Computer/browser Useの課題 期待も大きいComputer
Use/browserだが、実運用するには課題も多い • 現実的には動作速度もかなり遅く、ポケモンのプレイの例では、 17時間かかって(2つ目の街である)ニビ シティまでしか進んでいなかった ◦ ポケモンの例では拡張思考モードが使われており、次の行動を選ぶのに熟考を繰り返している ◦ 実際にcomputer useを使う場合には、PCを占有してしまうことになるので、処理速度の向上や仮想 環境での並列化などが求められる • コストの課題もまだ大きく、コスパ高く人の業務を代替させられるかはかなり怪しい水準 ◦ ポケモンの例では、3人目のジムリーダー撃破までに推定 35,000回以上のアクションを実行してお り、相当なコストがかかっているとされている • 視覚認識の精度や文脈の理解もまだ不安定なのでミスも多い ◦ どのようにして精度高く実行させるか?というところに工夫は必要 ◦ Computer/browser Useでもワークフローを組む方法は引き続き有効
(C)PharmaX Inc. 2025 All Rights Reserve 10 推論:CUAは、現在および過去のスクリーン ショットや行動を考慮しながら、思考の連鎖を 用いて次のステップを推論します。この内なる
独白により、モデルは観察結果を評価し、中 間ステップを追跡し、動的に適応することで、 タスクのパフォーマンスが向上します。 認識: コンピューターのスクリーンショットがモ デルのコンテキストに追加され、コンピュー ターの現在の状態の視覚的なスナップショット が提供されます。 Computer Use Agent(CUA)の仕組み 仮想環境 アクション スクリーンショット テキストでタスクを指示 インプット アクションを生成 アクション:クリック、スクロール、入力といった アクションを、タスクが完了したかユーザー入 力が必要と判断されるまで実行します。 CUA はほとんどのステップを自動的に処理します が、ログイン情報の入力や CAPTCHAフォーム への回答といった機密性の高いアクションに ついては、ユーザーの確認を求めます。 CUAは、生のピクセルデータを処理し、画面上で何が起こっているかを理解し、仮想マウスとキーボードを使用してアクションを実行します。複数のステップからなるタスク をナビゲートし、エラーを処理し、予期しない変更にも適応できます。 https://openai.com/index/computer-using-agent/ click(x,y)、scroll(delta)、 type("text") などを出力
(C)PharmaX Inc. 2025 All Rights Reserve 11 Computer UseとBrowser Use
現実的にはComputer Useの精度はBrowser Useと比べてもかなり低い https://openai.com/index/computer-using-agent/ オフラインでセルフホスト型のオープンソースウェブサイトを利用し、 eコマース、オンラインストアコンテンツ管理( CMS)、ソー シャルフォーラムプラットフォームなどの実際のシナリオを模倣する Amazon、GitHub、Googleマップなどのオンラインライブウェブサイトでモデルのパフォーマンスをテストする Ubuntu、Windows、macOSなどのオペレーティングシステム全体を制御するモデルの能力を評価する
(C)PharmaX Inc. 2025 All Rights Reserve 12 CUAの安全性リスク Computer Use/browserは安全性へのリスクも非常に注目されている
• 悪用(Misuse) ◦ 想定リスク:ギャンブルや違法取引、成人向けサイトなど不適切タスクへの利用 ◦ 主な緩和策 ▪ 拒否応答:CUA は危険または規制対象タスクを検知すると実行を拒否するよう訓練 ▪ ブロックリスト:賭博・銃器・アダルト等、事前に指定したドメインにはアクセス不可 • モデルの誤動作(Model Mistakes) ◦ 想定リスク:誤クリックでメール誤送信や誤購入、削除操作、フィッシングに引っかかるなど ◦ 主な緩和策 ▪ ユーザー確認:決済や送信など外部に影響する操作前に必ず確認ダイアログで同意を取る ▪ 高リスク作業の制限:銀行取引など機微なタスクは現在サポート外として拒否 ▪ ウォッチモード:メール等センシティブなサイトでは常にユーザーの画面監視を要求 • フロンティア・リスク(Frontier Risks) ◦ 想定される害 ◦ 主な緩和策 ▪ Preparedness Framework 評価 ― 自律複製やバイオリスク支援などの高度リスクについて GPT-4o から追加 の危険がないと検証済み
(C)PharmaX Inc. 2025 All Rights Reserve 13 CUAのリスク対策 悪用対策:有害なタスクの拒否 モデルの誤動作対策:確認
https://openai.com/index/operator-system-card/
(C)PharmaX Inc. 2025 All Rights Reserve 14 • OpenAI ◦
https://github.com/openai/openai-cua-sample-app ◦ playwrightを使用してブラウザ操作する • Claude ◦ https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo ◦ 仮想環境を立ち上げて computer useする OpenAIとAnthropicのデモ 期待も大きいComputer Use/browserだが、実運用するには課題も多い