GPT-5.5 vs Claude Opus 4.7｜Plus月$20（約3,000円）で使えるか、Terminal-Bench 82.7%/SWE-Bench 64.3%で用途別比較

Q: ChatGPT Plus（月$20）でGPT-5.5は本当に使えますか？

OpenAI公式ではPlus、Pro、Business、Enterpriseに2026年4月23日からロールアウトと案内。Plusでは「GPT-5.5 Thinking」が週3,000メッセージまで使える。「GPT-5.5 Pro」はPro（月$200）以上限定。

Q: Claude Opus 4.7から乗り換えるべきですか？

用途次第。Terminal-Bench 2.0ではGPT-5.5が+13.3pp優位だがSWE-Bench ProではOpus 4.7が+5.7pp、MCP-Atlasで+3.8ppリード。長尺エージェントはGPT-5.5、リポジトリ修正・ツール連携はOpus 4.7が合理的。

Q: GPT-5.5 ProとGPT-5.5 Thinkingは何が違いますか？

GPT-5.5 Proは深い推論に特化した上位モデルで、Pro（月$200）プラン以上限定。API料金は入力$30／出力$180とThinking版（$5／$30）の6倍。複雑な数学・科学研究・コード最適化タスク向け。

Q: API料金が前世代から2倍になったのは妥当ですか？

OpenAI公式は約40%少ない出力トークンで同タスク完了のため実質コスト増は約20%と説明。一方the-decoder.comは2倍を正当化する証拠が不足と批判。SWE-Bench Proで+0.9ppしか改善していない事実を踏まえると用途次第で割に合わない可能性あり。

Q: 「SWE-bench 88.7%」と「SWE-Bench Pro 58.6%」はどちらが本当の数字ですか？

両方本当の数字。88.7%はSWE-bench Verified（標準版）、58.6%はSWE-bench Pro（高難度版）のスコアで別ベンチマーク。ProはGPT-5.4から+0.9ppの改善にとどまる。

Q: Plus週3,000メッセージ上限はエージェント運用で足りますか？

個人の手動プロンプトなら余裕だが、Codex CLI経由の自律ループは短時間で数百メッセージを消費するため週次で枯れる可能性あり。エージェント重用者はProプラン（$200）かAPI直叩きが安全。

この記事の結論（3行）

GPT-5.5はChatGPT Plus（月$20／約3,000円）で「Thinking」が使える。ただしPro（月$200／約30,000円）でないと「GPT-5.5 Pro」には届かない。
3軸マトリクスで見ると、Terminal-Bench 2.0ではGPT-5.5（82.7%）がOpus 4.7（69.4%）を+13.3pp引き離す一方、SWE-Bench ProではOpus 4.7（64.3%）がGPT-5.5（58.6%）を+5.7ppリードしている。
API出力単価は GPT-5.5 $30 / Opus 4.7 $25 で、GPT-5.5のほうが2割高い。長尺エージェントはGPT-5.5、リポジトリ修正はOpus 4.7、という振り分けが現実的。

ChatGPT Plus（月$20／約3,000円）にGPT-5.5が降ってきました。
ただ、
私の周りのPlus課金者でも「まだ画面に出てない」という人が結構いて、
ロールアウトがアカウント単位でじわじわ進んでいるのが実態です。
公式発表は2026年4月23日、
9to5Googleの確認記事によれば広いロールアウトは4月24日から数日かけて順次、
と案内されています。

この記事は、
ChatGPT PlusかProを課金しつつClaude Code／Opus 4.7も併用している私のような読者が、
「手元のプランで今週GPT-5.5が使えるか」「乗り換え・併用をどう判断するか」を料金×ベンチ×用途の3軸で突き合わせるためのものです。
数字は全てOpenAI公式／Anthropic公式／llm-stats／MarkTechPost／digitalapplied等の一次・二次ソースから取りました。
情報の主語は私ではなく、
これらのソースです。

先に言っておくと、
既存の日本語ブログに出回っている「Opus 4.7 出力$75」は誤りです。
Anthropic公式の現行表は$25/MTok。
ここを間違えると比較の土台が崩れるので、
本記事ではOpus 4.7は$25で計算しています。

GPT-5.5とは何が変わったモデルか

OpenAI公式リリースによれば、
GPT-5.5は「GPT-4.5以来、
初めての完全再トレーニングベースモデル」という位置づけです。
GPT-5.1〜5.4は同じベース上のポストトレーニング反復だったのに対し、
5.5はベースごと作り直した。
ここが効くかどうかが今回の一番の論点。

OpenAI会長はTechCrunchへのコメントで次のように述べています。

「より少ないトークンでより速く、
鋭い思考が可能。
より主体的で直感的なコンピューティングへの大きな前進であり、
スーパーアプリ開発への一歩だ」（OpenAI会長の発言、
TechCrunch掲載）

公式が強調しているポイントはこの3点です。

長時間・マルチツール横断のエージェント業務（コード生成、デバッグ、調査、データ分析、文書作成、ソフトウェア操作）
GPT-5.4比で約40%少ない出力トークンで同タスクを完了（OpenAI主張）
ハルシネーション60%減（前世代比、OpenAI主張）

ハルシネーション60%減のところは正直ちょっと引っかかる。
独立ベンチのAA-Omniscienceでは、
GPT-5.5が全モデル中最高のハルシネーション率86%を記録したというデータも出ていて、
公式主張とは別の顔がある。
タスク次第で大きく変わる指標だ、
という前提で読むのが健全です。

GPT-5.5はどのプランで使えるのか（Plus/Pro/Business別）

ChatGPT側の対応プランはこうです。実益でいちばん気になる部分。

プラン	月額	GPT-5.5 Thinking	GPT-5.5 Pro	週間上限
Free	$0	×（Codex経由で一時利用のみ）	×	レート制限あり
Go	$8	×（Codex経由で一時利用のみ）	×	ー
Plus	$20（約3,000円）	○	×	最大3,000メッセージ/週
Pro	$200（約30,000円）	○	○	実質無制限
Business	$25/人〜	○	○	最大3,000メッセージ/週
Enterprise / Edu	要問合せ	○	○	要問合せ

出典: ChatGPT公式料金ページ、9to5Googleロールアウト解説。

私はここが一番刺さった。
月$20のPlusで「GPT-5.5 Thinking」までは届くが、
「GPT-5.5 Pro」は月$200のProプラン以上に閉じている。
週3,000メッセージは日常運用ならまず枯れない量だが、
エージェント系で反復実行するとあっという間に届く感触もあって、
副業エンジニアは要注意です。

ChatGPT画面で今週GPT-5.5が使えるかを確認する手順

「ロールアウトが来てるかどうか」はモデルセレクタで確認できます。
OpenAI公式と9to5Googleの案内を元に、
私が読者に推奨する再現ステップはこうです。

STEP1: ChatGPT Webまたはデスクトップアプリを開き、画面左上のモデル名（「GPT-5」等と表示されている箇所）をクリックしてモデル一覧を開く。
STEP2: 一覧に「GPT-5.5 Thinking」（Pro契約なら「GPT-5.5 Pro」も）が出ているか確認する。出ていれば即使える。出ていなければアカウントにまだロールアウトされていないので、数日待つか、設定→「ベータ機能」の新モデル項目がないか見る。
STEP3: 出ていたら短いプロンプト（例:「このリポジトリ構成でルーティング層を切り出す設計案を3つ比較して」）を投げ、応答モデル名が「GPT-5.5 Thinking」になっているかをレスポンス下部のモデル表示で確認する。モデル表示が古い名前のままなら、セレクタで明示的に切り替え直す。

前提条件として、
ブラウザを一度リロードしないと新モデルがキャッシュに載らないケースがあります。
1回リロードしてから見る、
が無難。

API料金の3モデル比較表（GPT-5.5 / Opus 4.7 / GPT-5.4）

ここがこの記事でいちばん資産価値がある部分。
OpenAI API公式料金とAnthropic公式料金から最新値を並べました。

モデル	入力/1Mトークン	出力/1Mトークン	コンテキスト	出力1Mあたり日本円
GPT-5.5 Thinking	$5	$30	1M	約4,500円
GPT-5.5 Pro	$30	$180	1M	約27,000円
GPT-5.4	$2.50	$15	1M	約2,250円
Claude Opus 4.7	$5	$25	1M	約3,750円
Claude Sonnet 4.6	$3	$15	200K	約2,250円

※$1=150円換算。
Batch処理は標準の半額、
Priority処理は2.5倍（OpenAI側）。

これで見えてくる事実が3つ。

1. GPT-5.5の出力単価はGPT-5.4から倍増。
$15→$30へ2倍に跳ねた。
the-decoder.comは「API料金倍増の正当性を支持するコスト便益分析のエビデンスが欠けている」と明確に批判しています。
倍の価値があるかは用途次第。

2. OpenAI自身は「トークン効率化で実質コスト増は約20%」と説明。
apidogによれば、
GPT-5.4比で約40%少ない出力トークンで同タスクが完了するため、
単価2倍でも実コストは約1.2倍に収まる、
というのが公式の説明ロジック。
私はここを冷静に見ておくべきだと思っていて、
出力量が40%減るかは個別タスク依存。
エージェント系の反復ループだとその40%減が出にくい経験則もあります。

3. Opus 4.7は表記$25のまま据え置きだが、
実質コストは最大+35%の懸念。
finout.ioの分析によれば、
Opus 4.7は新トークナイザー搭載で同じ入力テキストに対して最大35%多くのトークンを生成する可能性があり、
コーディングエージェント用途では月+$105（+35%）の実質増加が起こりうる、
とされています。
見かけの$25だけ見て決めると、
月末に請求で驚く。

ベンチマーク3モデル比較マトリクス

ここが「乗り換え判断」の核。
公開されているベンチマークをllm-stats・digitalapplied・MarkTechPostから集約しました。

ベンチマーク	GPT-5.5	Claude Opus 4.7	GPT-5.4	勝者
Terminal-Bench 2.0（長尺エージェント）	82.7%	69.4%	75.1%	GPT-5.5（+13.3pp vs Opus）
SWE-Bench Verified（標準版）	88.7%	87.6%	ー	GPT-5.5（+1.1pp）
SWE-Bench Pro（高難度版）	58.6%	64.3%	57.7%	Opus 4.7（+5.7pp）
MCP-Atlas（ツール連携）	75.3%	79.1%	ー	Opus 4.7（+3.8pp）
OSWorld-Verified	78.7%	78.0%	75.0%	GPT-5.5（+0.7pp）
GDPval（職業タスク）	84.9%	80.3%	83.0%	GPT-5.5（+4.6pp）
GPQA Diamond（科学推論）	93.6%	94.2%	ー	Opus 4.7（+0.6pp）
HLE（ツールなし）	41.4%	46.9%	ー	Opus 4.7（+5.5pp）
BrowseComp	84.4%	79.3%	ー	GPT-5.5（+5.1pp）
CyberGym	81.8%	73.1%	ー	GPT-5.5（+8.7pp）

10指標でOpus 4.7が4勝（SWE-Bench Pro・MCP-Atlas・GPQA・HLE）、
GPT-5.5が6勝（Terminal-Bench・SWE-Bench Verified・OSWorld・GDPval・BrowseComp・CyberGym）。
明確な勝ち負けというより用途別の得意領域が分かれた、
と読むのが正確です。

特に重要なのがSWE-benchの版の違い。
公式が発表した88.7%はSWE-bench Verified（標準版）のスコアで、
より難度が高いSWE-bench Proになると58.6%に下がる。
しかもSWE-Bench ProではGPT-5.4（57.7%）からの改善が+0.9ppしかない。
the-decoder.comが「API料金は2倍なのに、
GitHubリポジトリ修正の実測能力はほぼ変わらない」と批判するのはここ。

ここは読者が数字で判断すべき一番の分岐点。

速度・スループットの違い

llm-statsの実測値では、初トークン時間に大きな差があります。

初トークン時間: GPT-5.5 約3秒 / Opus 4.7 約0.5秒（Opus 4.7が6倍速い）
スループット: GPT-5.5 約50tps / Opus 4.7 約42tps
画像解像度: GPT-5.5 約1.15MP / Opus 4.7 約3.75MP（Opus 4.7が3倍以上）

初トークン3秒はエージェントの試行錯誤ループに重い。
インタラクティブな用途でOpus 4.7のほうが体感いい、
という評価が出ている理由の一端です。

他の開発者はどう使い分けているか

触ってる海外の実務者の声を並べます。賛と批を両方。

「GPT-5.5は私の新しい日常のツール。
コーディングタスク全般で最初に選ぶモデル。
数日間デバッグに費やした最高のエンジニアのセッションを巻き戻して、
GPT-5.4ができなかった修正を再現できた」（Every CEOの発言、
Every.to Vibe Check掲載）

「数百のフロントエンドリファクタリング変更を含むブランチを約20分でマージできた」（MagicPath CEOの発言、
lushbinary掲載）

「デザインが一貫していない。
細部は良いが全体的にランダムに感じる。
高度な空間認識とビジュアル設計が不足しているため、
製品開発では一日のドライバーには不十分」（エンジニア評者の発言、
Every.to Vibe Check掲載）

「Opus 4.7のほうが優れた計画と製品感覚を持つ」（Every.to Vibe Check掲載）

賛の声は「コード長尺・リファクタ・デバッグの巻き戻し」で厚い。
批の声は「製品レベルのデザイン感覚・全体整合」で出ている。
私の見方では、
Opus 4.7とGPT-5.5は「交代制」で回るタイプの組み合わせで、
片方だけにする必要はないと読みます。

用途別にどっちを選ぶべきか

ここまでの数字と声を踏まえた、私の振り分け判断。断定的に書きます。

用途	推奨モデル	理由
長時間・マルチツール横断のエージェント（CLI操作、複数ファイル操作、自律ループ）	GPT-5.5 Thinking	Terminal-Bench 2.0で+13.3pp、CyberGymで+8.7ppリード
既存リポジトリ修正・PR作成（SWE-Bench Pro型）	Claude Opus 4.7	SWE-Bench Proで+5.7ppリード。GPT-5.5の+0.9pp改善は弱い
MCPツール連携ワークフロー	Claude Opus 4.7	MCP-Atlasで+3.8ppリード
Web調査・情報集約タスク	GPT-5.5 Thinking	BrowseCompで+5.1ppリード
インタラクティブな試行錯誤（応答速度重視）	Claude Opus 4.7	初トークン時間6倍速い
科学研究・高難度推論	僅差（Opusやや優位）	GPQA +0.6pp、HLE +5.5pp でOpus
コスト最優先の本番API	GPT-5.4またはSonnet 4.6	出力$15/1Mで半額

Opus併用者がGPT-5.5を試す手順（公式ドキュメントベース）

既にClaude Code／Opus 4.7を日常使いしている人が、
壊さずGPT-5.5を並列検証する手順です。
OpenAI公式およびofox.aiガイドの案内を再構成しました。

STEP1: 評価タスクを3本用意する。 具体的には「長尺エージェントタスク（複数ファイル横断のリファクタ1件）」「既存リポジトリのSWE-Bench型タスク（既存PRの再現1件）」「MCP連携タスク（ツール呼び出し2〜3個チェーン1件）」。これを切らずに両モデルへ投げる準備をする。
STEP2: API経由で両モデルに同一プロンプトを投げる。 GPT-5.5は `model=gpt-5.5` 、Opus 4.7は `model=claude-opus-4-7` で指定。最大出力トークン、temperature、system promptは揃える。応答時間・出力トークン数・タスク完了率をスプレッドシートに記録する。
STEP3: 3タスク×2モデル=6回の結果で勝率と実コストを計算する。 コストは「入力$ × 入力トークン + 出力$ × 出力トークン」で算出。勝敗のつかないタスクはドローで処理。Terminal-Bench型で負けた側は以後そのパターンで使わない、という運用ルールを決めて切り替える。

ここで引っかかりやすいのは、
Opus 4.7の新トークナイザーで出力トークン数が見かけより最大35%膨らむところ。
同じ文章量でもコストに差が出るので、
finout.io分析を先に読んでおくと余計な驚きがない。

4/22漏洩時の数字と正式版の差分

前日の4月22日に出回っていた社内リーク値と、
公式版の差分をここで整理しておきます。
Aisola Labでは4/22漏洩時の記事を先に出しており、
読み続けてる方向けのアップデートです。

項目	4/22漏洩時	4/23正式発表
推論速度	18%高速化	出力トークン約40%削減（同タスク）
ハルシネーション	40%減	60%減（公式主張）
主要ベンチ	SWE-bench中心で言及	Terminal-Bench 2.0 82.7% / GDPval 84.9% を主軸に
位置づけ	「5.4の改善版」	「4.5以来の完全再トレーニング」

漏洩時より公式のほうが強気な数字になっている。
ただしハルシネーション60%減のところはAA-Omniscienceベンチの独立測定で86%ハルシネーション率という逆データも出ていて、
タスク依存で大きく変わる数字、
と読むのが現実的です。

料金の円換算で見る「払う価値があるか」

API出力を1M/日消費する開発者の月額コスト試算です。
出力100万トークン×30日で計算。

モデル	月額（出力のみ）	円換算
GPT-5.5 Thinking	$900	約135,000円
GPT-5.5 Pro	$5,400	約810,000円
GPT-5.4	$450	約67,500円
Claude Opus 4.7	$750	約112,500円
Claude Sonnet 4.6	$450	約67,500円

※$1=150円換算、
出力のみ単純試算。
Opus 4.7の新トークナイザーによる+35%を加味するとOpus実質は月約152,000円までありうる。

ChatGPT側のプラン課金だけで済むなら話は別で、
Plus月3,000円でGPT-5.5 Thinkingが週3,000メッセージまで使えるのは、
API換算で言えば破格。
私はここでの二層運用が正直いちばん合理的だと見ています。
副業エンジニアの日常運用はChatGPT Plus枠に寄せて、
エージェント自動化はAPIで最適モデルを叩く、
という形が現実解。

FAQ（よくある質問）

Q1. ChatGPT Plus（月$20）でGPT-5.5は本当に使えますか？

OpenAI公式では「Plus、
Pro、
Business、
Enterpriseに2026年4月23日からロールアウト」と案内されています。
Plusでは「GPT-5.5 Thinking」が週3,000メッセージまで使える。
ただし「GPT-5.5 Pro」はPro（月$200）以上限定。
ロールアウトはアカウント単位で順次なので、
画面に出ていない場合は数日待ちます。

Q2. Claude Opus 4.7から乗り換えるべきですか？

用途次第です。
Terminal-Bench 2.0（長尺エージェント）ならGPT-5.5が+13.3pp、
CyberGymで+8.7pp優位なので、
CLIエージェント中心なら乗り換え価値あり。
逆にSWE-Bench Pro（リポジトリ修正）ではOpus 4.7が+5.7ppリード、
MCP-Atlasでも+3.8ppリードなので、
既存PR修正・ツール連携中心ならOpus継続が合理的。
llm-stats比較参照。

Q3. GPT-5.5 ProとGPT-5.5 Thinkingは何が違いますか？

GPT-5.5 Proは深い推論に特化した上位モデルで、
Pro（月$200）プラン以上でしか使えません。
API料金も入力$30／出力$180とThinking版（$5／$30）の6倍。
apidogによれば、
複雑な数学・科学研究・コード最適化タスク向けの位置づけです。

Q4. API料金が前世代から2倍になったのは妥当ですか？

OpenAI公式は「約40%少ない出力トークンで同タスクを完了するため、
実質コスト増は約20%に収まる」と説明しています（apidog）。
一方the-decoder.comは「2倍の価格を正当化する証拠が不足」と批判。
SWE-Bench Proで+0.9ppしか改善していない事実を踏まえると、
用途によっては割に合わない可能性があります。

Q5. 「SWE-bench 88.7%」と「SWE-Bench Pro 58.6%」はどちらが本当の数字ですか？

両方本当の数字です。
88.7%はSWE-bench Verified（標準版）、
58.6%はSWE-bench Pro（高難度版）のスコア。
別ベンチマークです。
MarkTechPostによれば、
Proのほうが現実のリポジトリに近い難度設計で、
GPT-5.4（57.7%）から+0.9ppの改善にとどまっています。
数字を引用するときは必ず版名を明記することが大事。

Q6. Plus週3,000メッセージ上限はエージェント運用で足りますか？

個人の手動プロンプトなら余裕ですが、
ofox.aiによればCodex CLI経由の自律ループは短時間で数百メッセージを消費するため、
週次で枯れる可能性があります。
エージェント重用者はProプラン（$200）かAPI直叩きが安全。