【Browser Automation × AI】 Stagehandを試してみよう

0 【Browser Automation × AI】 Stagehandを試してみよう 2026-03-12 第142回NearMe技術勉強会 Ryo Omori

1 従来のBrowser Automationの苦しみ 1. 命令型：壊れやすい (Too Brittle) • Playwright /
Puppeteer など命令型 • サイト UIが変わるとスクリプトが動かなくなる • セレクタ修正に追われる 2. AIエージェント型：自由奔放すぎる (Too Agentic) • プロンプトみで動く自律型エージェント • 挙動が予測しずらい • 失敗した時デバッグが不可能「壊れやすいスクリプト」と「制御不能な AI」板挟みになっている。

2 Stagehand とは？命令型「確実性」 × LLM 「柔軟性」壊れやすい部分だけをAIに任せる

3 Stagehand とは？ 1. AIとコード自由な使い分け • コードを書く : 操作対象が明確で、100%確実な挙動が必要なとき
• AIを使う: 未知ページや、UIが複雑でナビゲーションが面倒なとき • メリット: 「AIに丸投げ」でなく、エンジニアが主導権を握ったまま自動化できる 2. 機能的役割による要素特定 • Before : CSS/XPathなど「構造・実装」に依存 • After : 「ログインボタン」という「意味・役割」で特定 • メリット : UI変更しても自己修復する 3. キャッシュによる実行時最適化 • 初回実行 : AIが最適な操作方法を推論しセレクタやアクションをキャッシュ • 2回目以降 : キャッシュされたセレクタでPlaywrightとして動作 • メリット : AI 柔軟性を持ちつつ、安定した動作とコスト節約を実現

4 Stagehand とは？ • act：「実行する」（クリック、入力、選択） • extract：「抽出する」（構造化データ取得）
• observe：「観察する」（現在状態や要素特定） • agent：「任せる」（ゴールに向けた自律的な推論と実行）

5 Stagehand とは？ act : 指示ベースアクション従来： Stagehand：メリット：
セレクタ、スクロール、待機、すべてAIとCDPが自動でハンドリング。

6 Stagehand とは？ extract : 構造化データ抽出従来： DOMをパースして、ループで回して、オブジェクトに詰め替える。 Stagehand：
メリット：複雑なDOM構造を解析する必要なし。Zodで型安全なデータが即座に手に入る。

7 Stagehand とは？ observe : アクション可能な要素発見従来： Stagehand：メリット：
上記例より複雑なアサーションをシンプルに

8 Stagehand とは？ agent : 複雑なタスクを agentに任せる Stagehand： act 「1つ
ステップ」を指示する。 agent 「ゴール」を指示する。

9 実演 ```bash git clone [email protected]:majent/my-stagehand-app.git cd my-stagehand-app npm install
cp .env.example .env && nano .env # Add ANTHROPIC_API_KEY npx tsx test/agent.ts ```

10 ページ情報をどのようにLLMに渡しているか CDP(Chrome DevTools Protocol) Accessibility.getFullAXTree でアクセシビリティツリーを取得。情報削ぎ落とし操作可能な要素を抽出 CDP DOM.getDocument
で DOM構造を取得 AXTreeだけで不足する情報を補うため、 DOMから必要なエッセンスだけを抽出して AXTreeにマージ。 IDでLLMとやり取りする。参考: https://www.browserbase.com/blog/taming-iframes-a-stagehand-update

11 LLMの実⾏からブラウザ操作の流れ参考: https://www.browserbase.com/blog/stagehand-v3 Context Building：前ページ最適化された構造と命令（act）をプロンプトに統合 LLM Reasoning：
「こボタン（ID: 42）がログインボタンだ」と判断し、次にすべきアクションを決定。そ要素を指し示す**「頑丈な一時的セレクタ（XPath等）」**を生成して返します。 Execution： • Chrome DevTools Protocol (CDP) を直接叩き、クリックや入力を実行 V2で Playwrightに依存していたが、V3で CDPを直接実行することでPlaywrightへ依存が減りパフォーマンスが44%改善したとこと。

12 キャッシュと再学習参考: https://www.browserbase.com/blog/stagehand-caching 初回実行時指示テキストとそ時 DOM 状態を組み合わせたキャッシュを生成
1. 機能的役割による要素特定 • 2回目以降 AIを呼ずに「普通 Playwright（的な動作）」として動く

13 セキュリティ 1. variables LLM Providerへ共有されないため、氏名やパスワードに variablesを使う 2. HTMLをそ
まま送信するわけでない前述通り AXTree + DOM 必要な属性だけをLLMに送信する 3. LLM Provider 選定。契約・設定見直し AWS Bedrock、Google Vertex AIなどマネージドなサービス利用 OllamaなどローカルLLM 利用 4. そもそもテストに顧客情報を利用しない

14 コスト⾯ 1. トークン消費最適化前述通り AXTree + DOM
必要な属性だけをLLMに送信することでHTMLそままと比較して80%節約 2. LLM 利用初回だけ初回成功したらそパターンをキャッシュに保存。次回以降LLM推論なしでキャッシュから通常スクリプトとして実行される 3. Browserbase 料金体系 Stagehand自体オープンソースで、Browserbase 実行環境を提供するクラウドサービス • Free ($0)：月1時間、1台 • Developer ($20)：月100時間、並列25台 • Startup ($99)：月500時間、並列100台 • Scale (要問合せ)： 250台以上並列実行と、SSOやHIPAA等 https://www.browserbase.com/pricing

18 Thank you

【Browser Automation × AI】 Stagehandを試してみよう

【Browser Automation × AI】 Stagehandを試してみよう

NearMeの技術発表資料です PRO

More Decks by NearMeの技術発表資料です

Featured

Transcript

0 【Browser Automation × AI】 Stagehandを試してみよう 2026-03-12 第142回NearMe技術勉強会 Ryo Omori

1 従来のBrowser Automationの苦しみ 1. 命令型：壊れやすい (Too Brittle) • Playwright /

2 Stagehand とは？命令型「確実性」 × LLM 「柔軟性」壊れやすい部分だけをAIに任せる

3 Stagehand とは？ 1. AIとコード自由な使い分け • コードを書く : 操作対象が明確で、100%確実な挙動が必要なとき

4 Stagehand とは？ • act：「実行する」（クリック、入力、選択） • extract：「抽出する」（構造化データ取得）

5 Stagehand とは？ act : 指示ベースアクション従来： Stagehand：メリット：

6 Stagehand とは？ extract : 構造化データ抽出従来： DOMをパースして、ループで回して、オブジェクトに詰め替える。 Stagehand：

7 Stagehand とは？ observe : アクション可能な要素発見従来： Stagehand：メリット：

8 Stagehand とは？ agent : 複雑なタスクを agentに任せる Stagehand： act 「1つ

9 実演 ```bash git clone [email protected]:majent/my-stagehand-app.git cd my-stagehand-app npm install

10 ページ情報をどのようにLLMに渡しているか CDP(Chrome DevTools Protocol) Accessibility.getFullAXTree でアクセシビリティツリーを取得。情報削ぎ落とし操作可能な要素を抽出 CDP DOM.getDocument

11 LLMの実⾏からブラウザ操作の流れ参考: https://www.browserbase.com/blog/stagehand-v3 Context Building：前ページ最適化された構造と命令（act）をプロンプトに統合 LLM Reasoning：

12 キャッシュと再学習参考: https://www.browserbase.com/blog/stagehand-caching 初回実行時指示テキストとそ時 DOM 状態を組み合わせたキャッシュを生成

13 セキュリティ 1. variables LLM Providerへ共有されないため、氏名やパスワードに variablesを使う 2. HTMLをそ

14 コスト⾯ 1. トークン消費最適化前述通り AXTree + DOM

18 Thank you