agent-browser + wterm + opencodeとは｜Claude CodeでAIがAIを見守る3点入れ子構造とPlaywright MCPの違い

Q: agent-browserはPlaywrightの完全上位互換ですか？

いいえ。webfuse.comやmorphllm.comの比較記事では、20ステップ以上の複雑なCRUDワークフローではPlaywright MCPのほうが効率的という実測が示されています。agent-browserは日常的なブラウザ操作と、トークン効率が効く中短尺のタスク向けです。

Q: Claude Codeと連携させるのにMCPサーバーは必要ですか？

不要です。agent-browserはCLIツールでBashから呼び出す設計なので、Claude CodeやCursor、Gemini、Codex、opencodeなどBashを叩けるエージェントすべてが対象です。

Q: wtermとagent-browserはセットで使う必要がありますか？

独立したツールです。wtermはブラウザ上のターミナル描画ライブラリで、agent-browserは外部ブラウザの操作CLI。単体運用も可能です。

Q: 料金はどれくらいかかりますか？

3ツールとも本体無料（Apache-2.0またはMIT）。実運用でかかるのはAIのAPIトークン代のみです。

Q: opencodeとAnthropicの関係で注意点は？

sst/opencodeは2026年1月9日にAnthropicからConsumer OAuthトークン経由のClaude利用をブロックされました。APIキー直打ちなら継続利用可能です。

2026年4月21日

この記事の結論

agent-browserはVercel LabsがOSSで公開したAIエージェント向けブラウザ操作CLI。
GitHubスター29,800・週500,000ダウンロード到達。

wtermはDOMレンダリング型のWeb用ターミナル。
Zigコア12KB WASMで、
Claude Codeなどから呼び出せる。

この2つとopencodeを組み合わせた「3点セット入れ子構造」がX上で話題。
Playwright MCPとの違いまで引用ベースで整理しました。

agent-browserとwtermって結局なに？

まずagent-browserから。

Vercel Labsが公開したブラウザ操作CLIで、
Claude CodeやCursorなどのAIエージェントから呼び出す前提で設計されている。

開発の中心はChris Tate氏（@ctatedev）。

2026年1月11日の元ポストはこう書かれています。

Weekend project: agent-browser. Browser automation CLI for agents → Zero config → Fast Rust CLI → Headed or Headless → Up to 93% less context than Playwright MCP → Compatible with Codex, Claude Code, Gemini, Cursor, Copilot, opencode, and any agent that supports Bash

— Chris Tate（元ポスト、1.7Kいいね・95返信）

ポストから1ヶ月で週次ダウンロードが500,000を突破。本人発表の数字です。

これ、相当な速度。

私が気になったのは、
単なるCLIツールではなくAIエージェント専用に設計されている点。

一方のwtermは「web terminal」の略で、
ブラウザ上で動くターミナルエミュレータ。

Chris Tate氏が紹介ポストで挙げた特徴はこれ。

A terminal emulator for the web → DOM rendering — not canvas → Select text, copy/paste, ⌘+F, a11y → Dirty-row tracking, 24-bit color, themes → WebSocket transport with reconnection → Zig core compiled to ~12 KB WASM → just-bash, local, SSH

CanvasではなくDOMでレンダリングしている点がポイント。
テキスト選択やコピペ、
⌘+F検索、
アクセシビリティが標準で使えます。

Zigで書かれたコアをコンパイルして約12KBのWASMにしているのも異常な軽さ。

Playwright MCPと何がそんなに違うの？

agent-browser推しの一次ソースが強調するのはコンテキスト効率。

ただし数字の扱いには注意が必要で、
「最大93%削減」という留保付きの表現が正確です。

公式サイトにはこう明示されている。

snapshot出力: 約200〜400トークン／フルDOM表現: 約3,000〜5,000トークン（出典: agent-browser.dev）

実測検証もいくつか出ています。

paddo.dev（2026年1月）の6操作ベンチマークでは、
Playwright MCPが約31,000文字（約7,800トークン）に対して、
agent-browserは約5,500文字（約1,400トークン）で約5.7倍差。

一方で真逆の実測もあります。

morphllm.com（2026年3月8日）は20ステップの複雑ワークフローでPlaywright MCPのほうが2.0〜3.2倍効率的だったと報告。

Playwright MCP should remain the default for complex CRUD and coding agent workflows.（出典: morphllm.com）

ここが面白いところ。

高橋清二氏（株式会社ベースマキナCEO）のnoteでは、
93%削減は-i（対話要素のみ）-c（空構造削除）-d（深さ制限）というフィルタフラグの組み合わせで初めて達成されると指摘されている。

93%削減は常に達成できるわけではない。
視覚的レイアウト判断には補助的な画像分析が必要なケースもある。
（出典: Seiji Takahashi note 2026年1月14日）

では両者の立ち位置を表にまとめます。

観点	agent-browser	Playwright MCP
設計思想	AIエージェント向けCLI（Bashから呼ぶ）	MCPサーバ経由でツール呼び出し
コンテキスト効率（単純UI）	snapshot 200〜400トークン	フルDOM 3,000〜5,000トークン
コンテキスト効率（複雑タスク）	morphllm実測では劣後あり	20ステップCRUDで優位との報告
言語	100% Rust（v0.20.0以降）	Node.js／TypeScript
デーモンメモリ	約8MB（v0.20.0以降）	Node.js依存で大きめ
対応エージェント	Bash対応の全エージェント（Claude Code／Cursor／Gemini／Codex／opencode等）	MCP対応クライアント
推奨用途（外部レビュー）	日常的なブラウザ自動化（ytyng.com）	複雑CRUD・長尺ワークフロー（morphllm）

個人的には「agent-browserが全面的に勝ち」という整理ではなく「用途で選ぶべきもの」という読みのほうがフェアだと思っています。

実際、webfuse.com（2026年4月10日）はこう書いています。

Playwright remains the strongest default for most engineering teams.（出典: webfuse.com）

どんな3点セット構成で話題になっているの？

ここが本記事で一番書きたかったところ。

Chris Tate氏が示唆している構図は、
agent-browser単体ではなく3点セット入れ子構造です。

図にするとこう。

3点セット入れ子構造
┌─ Claude Code（外側のAI・指示する側）
│
├─ wterm（ブラウザ内ターミナル・AIの操作画面）
│
└─ opencode（内側のAI・wterm上で動くエージェント）
│
└─ agent-browser（Claude Codeが外部ブラウザを操作するCLI）

構図の要点は3つ。

Claude Codeが外側で全体を見張る
wtermで描画されたターミナルの中でopencodeが別のAIとして動く
agent-browserで外部ブラウザの操作結果を両方のAIに見せる

つまりAIがAIを見守る構造。

opencodeはSST（Serverless Stack）チーム製のターミナルエージェントCLI。
GitHubスター146,000（2026年4月19日時点）、
75以上のモデルプロバイダに対応しています。

Claude、
OpenAI、
Gemini、
Bedrock、
Groq、
Mistral、
Ollamaまで一本で叩ける柔軟さが評価されている印象。

ただしChris Tate氏のデモで示された具体的な操作画面は、
一次URLで詳細が確認できた範囲に限界があります。
agent-browserの公式「対応エージェント」リストにopencodeが含まれている事実と、
wterm紹介ポストで「just-bash, local, SSH」が明示されている事実を組み合わせると、
技術的には成立する構成という粒度の整理が妥当です。

ここは歯切れよく書きたいところですが、誇張は避けます。

日本語解説が薄い領域なのは確か。
shinyaa31氏のzenn記事（2026年4月11日）はClaude CodeとagentBrowser単体の連携を丁寧に実演していますが、
3点入れ子構造を日本語で図解した記事は現時点でほぼ見当たりません。

私の見方では、ここが今後1〜2ヶ月で日本語技術ブログの主戦場になるエリア。

料金と環境はどれくらい必要？

3ツールとも本体は無料。

内訳を表に整理します。

項目	agent-browser	wterm	opencode
ライセンス	Apache-2.0	Apache-2.0	MIT
本体料金	無料	無料	無料
実運用コスト	AIのAPIトークン代のみ	なし（ライブラリ）	AIのAPIトークン代のみ
インストール	npm / Homebrew / Cargo	npm（@wterm/core等）	CLIバイナリ
依存	Chrome for Testing自動DL	ブラウザ／Node	Go製TUI
最新バージョン	v0.26.0（2026-04-16）	継続更新	v1.14.18（2026-04-19）

運用費で効いてくるのはAIのAPIトークン代だけ、と公式は案内しています。

agent-browserの公式changelogによれば、
v0.20.0以降はNode.js依存を完全除去してネイティブバイナリ化。
コールドスタートが1002ms→617ms、
デーモンメモリが143MB→8MB、
インストールサイズが710MB→7MBと激減しています。

この数字はさすがに強い。

18倍減、99倍減の桁が並ぶとインパクトがあります。

v0.26.0ではdoctorコマンド（環境診断・自動修復）と安定タブID（t1, t2）が追加されました。

opencodeについては運用上の注意点がひとつあります。
sst/opencodeはAnthropicから2026年1月9日に法的要求を受け、
Consumer OAuthトークン経由のClaude利用はブロック済み。
APIキー直打ち運用は継続可能、
とアナウンスされています。

Claude ProやMaxプランのアカウント連携で使おうとしている場合は、
API契約が別途必要です。

どんな場面で効きそうか？

個人開発者・副業エンジニア目線で整理します。

Playwright MCPを既に使っている層から見ると、
agent-browserの旨みはトークン代の削減と起動の速さ。
ここが効くユースケースを挙げます。

ケース1: 朝イチの管理画面チェック自動化

WordPressやShopifyの管理画面をClaude Codeに見張らせるタスク。

毎朝1回スナップショットを取ってレポート化する運用なら、
snapshot 200〜400トークン×複数ページでも消費量は軽め。

Playwright MCPでフルDOMを毎回読ませると、
APIコストが厚くなる構造です。

ケース2: 副業サービスの回帰テスト

ランディングページのフォーム送信、決済フローの見た目確認、レスポンスの取得。

agent-browserのbatchコマンドで複数操作をJSONパイプで流せるので、
shinyaa31氏のzenn記事で示されている通り、
Claude Codeが自動でコマンドを組み立てて実行する流れになります。

ケース3: AIエージェントのデモ環境

wterm + opencodeで「ブラウザ上でAIが動くデモ」を作るパターン。

Zigコア12KBのおかげでCDN配信も軽く、
静的ファイル配信不要（WASMはbase64でJSバンドルにインライン化）。

個人の技術ブログや副業サービスのランディングページにデモを埋め込むなら、
この軽さは武器になります。

ケース4: 複雑ワークフローは従来通り

morphllm.comの実測で示された「20ステップ以上のCRUD処理」ではPlaywright MCPのほうが効率的なので、
こちらは従来通り。

agent-browserに全移行ではなく、
用途で使い分けるスタンスが今のところ無難です。

安全設定で気をつける点はある？

ここは引用しておきたい箇所。

hirokaji氏のnote（2026年4月6日）がこう指摘しています。

agent-browserはブラウザ自動化ツールではない。
本質は「LLMが限られたコンテキストウィンドウでWeb UIを読むための中間表現レイヤー」。
安全制御（ドメイン許可リスト、
アクション確認）はデフォルトオフで要明示設定。
単体では計画・管理・長期記憶機能がなく、
タスク全体のオーケストレーションには不向き。
（出典: hirokaji note）

この指摘は重要。

ドメイン許可リストとアクション確認ポリシーがデフォルトでオフなので、
本番環境で寝かせ運用するならconfigで明示設定が必要です。

セッションCookieやlocalStorageはAES-256-GCMで暗号化されますが、
それは保存時の話。
操作範囲を絞る設定は別に必要です。

Hacker Newsのコメントでも現実的な懸念が挙がっています。

freezing doesn't pause servers. Real SPAs with optimistic UI updates still create confusion when DOM says 'saved' but network requests haven't finished.（出典: Hacker News agent-browser-protocolスレッド）

DOMが「保存済み」と言っていてもネットワークリクエストが終わっていない、
というSPA特有の罠。

私ならここを読んだ時点で、
本番投入前にテスト環境で最低1週間は挙動を眺める運用にします。

よくある疑問

Q. agent-browserはPlaywrightの完全上位互換ですか？

いいえ。
webfuse.comやmorphllm.comの比較記事では、
20ステップ以上の複雑なCRUDワークフローではPlaywright MCPのほうが効率的という実測が示されています。
agent-browserは日常的なブラウザ操作と、
トークン効率が効く中短尺のタスク向け。
ytyng.comも「日常用途はagent-browser、
複雑操作はPlaywright CLIで補完」と整理しています。

Q. 93%削減というのは誰の数字ですか？

agent-browser開発者のChris Tate氏本人による2026年1月11日のXポスト「Up to 93% less context than Playwright MCP」が一次ソースです。
「Up to」（最大）という留保付き。
paddo.devの6操作実測では約5.7倍差、
morphllm.comの20ステップ実測ではPlaywright MCPのほうが優位という結果もあるため、
ページ複雑度に依存する数字です。

Q. Claude Codeと連携させるのにMCPサーバーは必要ですか？

不要です。
agent-browserはCLIツールでBashから呼び出す設計なので、
Claude Codeに限らずCursor、
GitHub Copilot、
Codex、
Gemini、
opencodeなど「Bashを叩けるエージェント全部」が対象。
MCP未対応のエージェントでも動きます。

Q. wtermとagent-browserはセットで使う必要がありますか？

いいえ、
独立したツールです。
wtermはブラウザ上のターミナル描画ライブラリで、
agent-browserは外部ブラウザの操作CLI。
Chris Tate氏のXポストでは両者とjust-bashを組み合わせたデモが示唆されていますが、
単体運用も可能です。

Q. 料金はどれくらいかかりますか？

agent-browser、
wterm、
opencodeの3ツールは本体無料（Apache-2.0またはMIT）。
実運用でかかるのはAIのAPIトークン代だけです。
Claude APIを使うならAnthropicの従量課金、
OpenAIやGeminiを使うなら各社の料金体系が適用されます。

Q. opencodeとAnthropicの関係で注意点は？

sst/opencodeは2026年1月9日にAnthropicから法的要求を受け、
Consumer OAuthトークン経由のClaude利用はブロックされました。
APIキー直打ちなら継続利用可能です。
Claude Pro/Maxのサブスクを流用する運用は不可なので、
API契約が必要です。

まとめ

ここまで整理した論点を3つに絞ります。

agent-browser＋wterm＋opencodeは「AIがAIを見守る」3点入れ子構造を成立させる新興OSS。Chris Tate氏の元ポスト1.7Kいいね・週500,000DL到達・GitHubスター29,800が示す通り勢いは本物
「最大93%コンテキスト削減」はケース依存。単純ページでは5.7倍差の実測もあるが、複雑CRUDではPlaywright MCPに軍配。用途で使い分けるのが今のところ妥当
安全設定はデフォルトオフ。本番運用するならドメイン許可リストとアクション確認ポリシーを明示設定すること

個人開発者にとって「毎朝の管理画面チェック」「副業サービスの画面回帰テスト」「ブログやLPへのAIデモ埋め込み」はフィットしやすい領域。

ここは抑えておきたい組み合わせ。

日本語での3点入れ子構造解説はまだ薄いので、
英語圏のChris Tate氏の発信と日本語エンジニア記事を引き続きウォッチしていく予定です。

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-agent-browser, Claude Code, opencode, wterm

AI活用全般

2026/4/23

Claude全モデル進化家系図｜Claude 1→Opus 4.7を4つの転換点で読むPro／Max／API使い分け地図

この記事の結論（3文） Claude 1から3年で「テキストを返すだけのAI」が「16台が協調してLinuxカーネルをコンパイルするAI」になった。進化の節目は4つ。2024-06の3.5 Sonnet下克上、2025-02の3.7 Sonnet拡張思考、2026-02の4.6 Agent Teams、2026-04の4.7（SWE-bench 87.6%＋Vision 98.5%＋xhigh effort）。ただしOpus 4.7はMRCR @1Mが78.3%→32.2%に後退、新トークナイザーで実 ...

AI活用全般

2026/4/23

Apple Intelligenceでできること8機能とChatGPT連携の要否｜iPhone 15 Pro以降ユーザー向け初心者ガイド（2026年4月版）

この記事の結論（3行） Apple IntelligenceはiPhone 15 Pro以降で無料で動くAI機能の総称です。文章の校正・言い換え（Writing Tools）、オリジナル絵文字づくり（Genmoji）、画像生成（Image Playground）、通知やメールの要約、写真から不要なモノを消す編集（Clean Up）など、多くはChatGPT連携なしで使えます。 Claude・Geminiの連携は2026年4月時点ではCarPlayのみ。iPhone本体のSiriへの統合はiOS 27から ...

AI活用全般

2026/4/23

Gemini Enterprise Agent Platform解説｜Vertex AIリブランドで200超モデル同居、個人AIユーザーが会社提案に使う地図

この記事の要点 2026-04-22にGoogle Cloud Next '26で発表。正式名は「Gemini Enterprise Agent Platform (formerly Vertex AI)」 Vertex AIの単なる改名ではない。エージェント運用層が正式に独立した転換点 Model GardenにClaude Opus/Sonnet/Haikuが並ぶ200超モデル構成。Google純正基盤にAnthropicが正式同居する構造変化個人でAIを使い込んできた人向けの「次に会社で提案する時 ...

AI活用全般

2026/4/23

GPT-5.5漏洩47分の時系列整理｜arcanine・glacier-alpha・HeisenbergでOpenAIの特化モデル路線と個人開発者が今日やる準備5つ

この記事の結論（3行） 2026年4月22日、OpenAI Codexのモデルピッカーが約47分だけ内部モデル群を露出させた（出典: StartupFortune）。出てきた名前は「GPT-5.5 / arcanine / glacier-alpha / Heisenberg / oai-2.1」など、用途別コードネームの群れ。「汎用一本勝負」から「特化モデル並列」への舵切りが、47分の画面越しに透けて見えた。これが今回の論点。 ChatGPT Plus/Proを払いながら、Claude Codeも横 ...

AI活用全般

2026/4/23

ChatGPT Group Chats・Collabモード解説｜Claude Cowork／Gemini Enterpriseと三社比較でチームAI導入の判断軸

この記事の3行要約 ChatGPT Group Chatsは2025年11月20日にグローバル提供開始、最大20人・追加料金なし・GPT-5.1 Autoで動く「ライブ会話ルーム」型の機能。モバイル版で目撃された「Collab」モードは未発表・仕様未公表。断言できるのは目撃報告レベルまで。 Claude Cowork（PCファイル自律操作）／Gemini Enterprise（社内インフラ化）と並べると、三社の方向性は全く別物。向いているチーム像も違う。チームでAIを回すとき、私が一番しんどいと感じる ...

Claude Designとは何か｜画像AIでもFigma代替でもない「第3のポジション」を公式発表と一次ソースで読み解く

Claude Code・Codex・CursorでiPhoneアプリが画面内で動く時代へ｜Evan Bacon氏が2026年4月に3大AIエディタ統合を完成させた旬ニュースをExpo MCPとXcode 26.3の文脈で読み解く