Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Computer Use〜OpenAIとAnthropicの比較と将来の展望〜
Search
PharmaX(旧YOJO Technologies)開発チーム
May 01, 2025
Technology
1.4k
6
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Computer Use〜OpenAIとAnthropicの比較と将来の展望〜
PharmaX(旧YOJO Technologies)開発チーム
May 01, 2025
More Decks by PharmaX(旧YOJO Technologies)開発チーム
See All by PharmaX(旧YOJO Technologies)開発チーム
PdMによるLiveバイブコーディング〜プロトタイプ開発実践〜
pharma_x_tech
1
81
2025.10.28_CodexとClaude Codeの比較検討 社内座談会
pharma_x_tech
2
630
LLMのアウトプットの評価と改善 〜DSPyによるプロンプト最適化入門によせて〜
pharma_x_tech
6
1.2k
2025.09.02_AIコーディングを利用した開発自動化を目指しての座談会
pharma_x_tech
5
350
AIコーディングを前提にした開発プロセス再設計〜開発生産性向上に向けた試行錯誤〜
pharma_x_tech
4
450
AIエージェントの評価・改善サイクル
pharma_x_tech
2
620
MCP & Computer Useをフル活用した社内効率化事例〜現在地と将来の展望
pharma_x_tech
1
460
AIエージェントの継続的改善のためオブザーバビリティ
pharma_x_tech
7
2.7k
Roo CodeとClaude Code比較してみた
pharma_x_tech
5
6.3k
Other Decks in Technology
See All in Technology
AIに障害切り分けを全部やってもらった。 。 。 。
estie
0
270
IaC コードを資産へ:AWS CDK 社内ライブラリと横断展開 / aws-summit-japan-2026
gotok365
10
1.6k
デジタル・デザイン:次の50年を描く「進化する青写真」
y150saya
0
150
#エンジニアBooks 30分でわかる 「技術記事を書く技術」 / engineer-books 2026-06-30
jnchito
1
140
作る力から、見極める力へ — AI時代に広がるエンジニアの価値と役割
rince
0
370
技術・能力を向上する原理原則 #きのこセッションa #きのこ2026
bash0c7
0
180
Text-to-SQLをAgentCoreで実現し、生成されるSQLの精度を定量的に評価する
yakumo
2
150
4人目のSREはAgent
tanimuyk
0
290
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
450
秘密度ラベル初心者が第1歩でつまづかないための「設計・運用」ポイント
seafay
PRO
1
520
自分が詳しくない領域でAIを使う #プロヒス2026
konifar
20
8k
Zenoh on Zephyr on LiteX
takasehideki
2
140
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Building Adaptive Systems
keathley
44
3.1k
RailsConf 2023
tenderlove
30
1.5k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
210
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
370
The Mindset for Success: Future Career Progression
greggifford
PRO
0
370
How STYLIGHT went responsive
nonsquared
100
6.2k
Deep Space Network (abreviated)
tonyrice
0
210
Thoughts on Productivity
jonyablonski
76
5.2k
Are puppies a ranking factor?
jonoalderson
1
3.7k
Transcript
2025.5.1 #studyco Computer Use〜OpenAIと Anthropicの比較と将来の展望〜
(C)PharmaX Inc. 2025 All Rights Reserve 2 自己紹介 上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラ マイブームはLLMとRust X:@ueeeeniki
(C)PharmaX Inc. 2025 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
4 (C)PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •
AXカンパニーのカンパニーCTO • AXカンパニーのPdM などを募集しております!! 医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました
5 (C)PharmaX Inc. 2025 All Rights Reserve Computer Useについて
(C)PharmaX Inc. 2025 All Rights Reserve 6 Computer Useのデモ Anthropicのデモでは仮想環境を使っている
(C)PharmaX Inc. 2025 All Rights Reserve 7 AIエージェントは SaaSを飲み込むか •
AIエージェントがSaaSを操作するようになると、SaaSのUI/UXは人の使用を前提としていた時ほ どは競争優位性ではなくなる可能性はある ◦ SaaSは所詮データベースのラッパーに過ぎないと考えることもできる ◦ 社内業務用のSaaSを考えると、どのSaaSを使っても必要なデータが貯まれば同じという考 え方もできるようになる ◦ 一方で、人材系のマッチング(スカウト)ツールのように DBの量や質そのものに差がある場 合には、これまで通り十分価値になり得る • 既存SaaSをまたがって業務を自動化するAIエージェントの開発競争が始まる可能性あり ◦ 医療業界のように業務ごとにシステムが乱立していて、システム連携が難しいという問 題を強引に解決できる可能性もある computer/browser useによりAPI連携せずとも複数ツールをまたいだ操作の自動化が可能に
(C)PharmaX Inc. 2025 All Rights Reserve 8 Anthropicのポケモン生配信によるマルチモーダル &推論モデルのデモ •
利用可能なボタン操作は、 上,下,左,右 ,A,B,START,SELECT • アクションを選択する際にはどの アクションを取るのかを思考して 決定する • ゲーム内のメモリ値を渡している のではなく、画面の画像を渡して いる Claude 3.7 Sonnetにポケモンを使ってプレイさせ、ジムリーダー 3人の撃破に成功した
(C)PharmaX Inc. 2025 All Rights Reserve 9 Computer/browser Useの課題 期待も大きいComputer
Use/browserだが、実運用するには課題も多い • 現実的には動作速度もかなり遅く、ポケモンのプレイの例では、 17時間かかって(2つ目の街である)ニビ シティまでしか進んでいなかった ◦ ポケモンの例では拡張思考モードが使われており、次の行動を選ぶのに熟考を繰り返している ◦ 実際にcomputer useを使う場合には、PCを占有してしまうことになるので、処理速度の向上や仮想 環境での並列化などが求められる • コストの課題もまだ大きく、コスパ高く人の業務を代替させられるかはかなり怪しい水準 ◦ ポケモンの例では、3人目のジムリーダー撃破までに推定 35,000回以上のアクションを実行してお り、相当なコストがかかっているとされている • 視覚認識の精度や文脈の理解もまだ不安定なのでミスも多い ◦ どのようにして精度高く実行させるか?というところに工夫は必要 ◦ Computer/browser Useでもワークフローを組む方法は引き続き有効
(C)PharmaX Inc. 2025 All Rights Reserve 10 推論:CUAは、現在および過去のスクリーン ショットや行動を考慮しながら、思考の連鎖を 用いて次のステップを推論します。この内なる
独白により、モデルは観察結果を評価し、中 間ステップを追跡し、動的に適応することで、 タスクのパフォーマンスが向上します。 認識: コンピューターのスクリーンショットがモ デルのコンテキストに追加され、コンピュー ターの現在の状態の視覚的なスナップショット が提供されます。 Computer Use Agent(CUA)の仕組み 仮想環境 アクション スクリーンショット テキストでタスクを指示 インプット アクションを生成 アクション:クリック、スクロール、入力といった アクションを、タスクが完了したかユーザー入 力が必要と判断されるまで実行します。 CUA はほとんどのステップを自動的に処理します が、ログイン情報の入力や CAPTCHAフォーム への回答といった機密性の高いアクションに ついては、ユーザーの確認を求めます。 CUAは、生のピクセルデータを処理し、画面上で何が起こっているかを理解し、仮想マウスとキーボードを使用してアクションを実行します。複数のステップからなるタスク をナビゲートし、エラーを処理し、予期しない変更にも適応できます。 https://openai.com/index/computer-using-agent/ click(x,y)、scroll(delta)、 type("text") などを出力
(C)PharmaX Inc. 2025 All Rights Reserve 11 Computer UseとBrowser Use
現実的にはComputer Useの精度はBrowser Useと比べてもかなり低い https://openai.com/index/computer-using-agent/ オフラインでセルフホスト型のオープンソースウェブサイトを利用し、 eコマース、オンラインストアコンテンツ管理( CMS)、ソー シャルフォーラムプラットフォームなどの実際のシナリオを模倣する Amazon、GitHub、Googleマップなどのオンラインライブウェブサイトでモデルのパフォーマンスをテストする Ubuntu、Windows、macOSなどのオペレーティングシステム全体を制御するモデルの能力を評価する
(C)PharmaX Inc. 2025 All Rights Reserve 12 CUAの安全性リスク Computer Use/browserは安全性へのリスクも非常に注目されている
• 悪用(Misuse) ◦ 想定リスク:ギャンブルや違法取引、成人向けサイトなど不適切タスクへの利用 ◦ 主な緩和策 ▪ 拒否応答:CUA は危険または規制対象タスクを検知すると実行を拒否するよう訓練 ▪ ブロックリスト:賭博・銃器・アダルト等、事前に指定したドメインにはアクセス不可 • モデルの誤動作(Model Mistakes) ◦ 想定リスク:誤クリックでメール誤送信や誤購入、削除操作、フィッシングに引っかかるなど ◦ 主な緩和策 ▪ ユーザー確認:決済や送信など外部に影響する操作前に必ず確認ダイアログで同意を取る ▪ 高リスク作業の制限:銀行取引など機微なタスクは現在サポート外として拒否 ▪ ウォッチモード:メール等センシティブなサイトでは常にユーザーの画面監視を要求 • フロンティア・リスク(Frontier Risks) ◦ 想定される害 ◦ 主な緩和策 ▪ Preparedness Framework 評価 ― 自律複製やバイオリスク支援などの高度リスクについて GPT-4o から追加 の危険がないと検証済み
(C)PharmaX Inc. 2025 All Rights Reserve 13 CUAのリスク対策 悪用対策:有害なタスクの拒否 モデルの誤動作対策:確認
https://openai.com/index/operator-system-card/
(C)PharmaX Inc. 2025 All Rights Reserve 14 • OpenAI ◦
https://github.com/openai/openai-cua-sample-app ◦ playwrightを使用してブラウザ操作する • Claude ◦ https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo ◦ 仮想環境を立ち上げて computer useする OpenAIとAnthropicのデモ 期待も大きいComputer Use/browserだが、実運用するには課題も多い