GPT-5.5 vs Claude Opus 4.7｜Plus月$20（約3,000円）で使えるか、Terminal-Bench 82.7%/SWE-Bench 64.3%で用途別比較

Q: ChatGPT Plus（月$20）でGPT-5.5は本当に使えますか？

OpenAI公式ではPlus、Pro、Business、Enterpriseに2026年4月23日からロールアウトと案内。Plusでは「GPT-5.5 Thinking」が週3,000メッセージまで使える。「GPT-5.5 Pro」はPro（月$200）以上限定。

Q: Claude Opus 4.7から乗り換えるべきですか？

用途次第。Terminal-Bench 2.0ではGPT-5.5が+13.3pp優位だがSWE-Bench ProではOpus 4.7が+5.7pp、MCP-Atlasで+3.8ppリード。長尺エージェントはGPT-5.5、リポジトリ修正・ツール連携はOpus 4.7が合理的。

Q: GPT-5.5 ProとGPT-5.5 Thinkingは何が違いますか？

GPT-5.5 Proは深い推論に特化した上位モデルで、Pro（月$200）プラン以上限定。API料金は入力$30／出力$180とThinking版（$5／$30）の6倍。複雑な数学・科学研究・コード最適化タスク向け。

Q: API料金が前世代から2倍になったのは妥当ですか？

OpenAI公式は約40%少ない出力トークンで同タスク完了のため実質コスト増は約20%と説明。一方the-decoder.comは2倍を正当化する証拠が不足と批判。SWE-Bench Proで+0.9ppしか改善していない事実を踏まえると用途次第で割に合わない可能性あり。

Q: 「SWE-bench 88.7%」と「SWE-Bench Pro 58.6%」はどちらが本当の数字ですか？

両方本当の数字。88.7%はSWE-bench Verified（標準版）、58.6%はSWE-bench Pro（高難度版）のスコアで別ベンチマーク。ProはGPT-5.4から+0.9ppの改善にとどまる。

Q: Plus週3,000メッセージ上限はエージェント運用で足りますか？

個人の手動プロンプトなら余裕だが、Codex CLI経由の自律ループは短時間で数百メッセージを消費するため週次で枯れる可能性あり。エージェント重用者はProプラン（$200）かAPI直叩きが安全。

2026年5月20日

公開日: 2026年4月25日／最終更新: 2026年5月20日

この記事の結論

GPT-5.5はChatGPT Plus（月$20／約3,000円）で「Thinking」が使える。ただしPro（月$200／約30,000円）でないと「GPT-5.5 Pro」には届かない。
3軸マトリクスで見ると、Terminal-Bench 2.0ではGPT-5.5（82.7%）がOpus 4.7（69.4%）を+13.3pp引き離す一方、SWE-Bench ProではOpus 4.7（64.3%）がGPT-5.5（58.6%）を+5.7ppリードしている。
API出力単価は GPT-5.5 $30 / Opus 4.7 $25 で、GPT-5.5のほうが2割高い。長尺エージェントはGPT-5.5、リポジトリ修正はOpus 4.7、という振り分けが現実的。

この記事はChatGPT Plus/Proを課金しつつClaude Code・Opus 4.7も触っている開発者・副業エンジニア向け（API料金とベンチマークの読み方の基本が分かる前提）。

ChatGPT Plus（月$20／約3,000円）にGPT-5.5が降ってきました。

ただ、私の周りのPlus課金者でも「まだ画面に出てない」という人が結構いて、ロールアウトがアカウント単位でじわじわ進んでいるのが実態です。

公式発表は2026年4月23日、OpenAI公式リリースでは広いロールアウトを順次案内しています。

この記事は、ChatGPT PlusかProを課金しつつClaude Code／Opus 4.7も併用している私のような読者が、「手元のプランで今週GPT-5.5が使えるか」「乗り換え・併用をどう判断するか」を料金×ベンチ×用途の3軸で突き合わせるためのものです。

数字はOpenAI公式／Anthropic公式から取り、独立分析が必要な箇所だけ第三者ベンチを当てます。

先に言っておくと、既存の日本語ブログに出回っている「Opus 4.7 出力$75」は誤りです。

Anthropic公式の現行表は$25/MTok。

ここを間違えると比較の土台が崩れるので、本記事ではOpus 4.7は$25で計算しています。

GPT-5.5とは何が変わったモデルか

OpenAI公式リリースによれば、GPT-5.5は「GPT-4.5以来、初めての完全再トレーニングベースモデル」という位置づけです。

GPT-5.1〜5.4は同じベース上のポストトレーニング反復だったのに対し、5.5はベースごと作り直した。

ここが効くかどうかが今回の一番の論点。

OpenAI公式が強調しているポイントはこの3点です。

長時間・マルチツール横断のエージェント業務（コード生成、デバッグ、調査、データ分析、文書作成、ソフトウェア操作）
GPT-5.4比で約40%少ない出力トークンで同タスクを完了（OpenAI主張）
ハルシネーション60%減（前世代比、OpenAI主張）

ハルシネーション60%減のところは正直ちょっと引っかかる。

独立ベンチのAA-Omniscienceでは、GPT-5.5が全モデル中最高のハルシネーション率86%を記録したというデータも出ていて、公式主張とは別の顔がある。

タスク次第で大きく変わる指標だ、という前提で読むのが健全です。

私なら、60%減という数字は社内向けの汎用タスクで効く目安、と割り引いて受け取ります。

GPT-5.5はどのプランで使えるのか（Plus/Pro/Business別）

ChatGPT側の対応プランはこうです。実益でいちばん気になる部分。

プラン	月額	GPT-5.5 Thinking	GPT-5.5 Pro	週間上限
Free	$0	×（Codex経由で一時利用のみ）	×	レート制限あり
Go	$8	×（Codex経由で一時利用のみ）	×	ー
Plus	$20（約3,000円）	○	×	最大3,000メッセージ/週
Pro	$200（約30,000円）	○	○	実質無制限
Business	$25/人〜	○	○	最大3,000メッセージ/週
Enterprise / Edu	要問合せ	○	○	要問合せ

出典: ChatGPT公式料金ページ、OpenAI公式リリース。

私はここが一番刺さった。

月$20のPlusで「GPT-5.5 Thinking」までは届くが、「GPT-5.5 Pro」は月$200のProプラン以上に閉じている。

週3,000メッセージは日常運用ならまず枯れない量だが、エージェント系で反復実行するとあっという間に届く感触もあって、副業エンジニアは要注意です。

私の感覚では、手動チャット中心なら週500件もいかない。

逆に自動ループを回すと2日で1,000件溶けます。

ChatGPT画面で今週GPT-5.5が使えるかを確認する手順

「ロールアウトが来てるかどうか」はモデルセレクタで確認できます。

OpenAI公式の案内を元に、私が読者に推奨する再現ステップはこうです。

STEP1: ChatGPT Webまたはデスクトップアプリを開き、画面左上のモデル名（「GPT-5」等と表示されている箇所）をクリックしてモデル一覧を開く。期待結果: 一覧がドロップダウンで出る。詰まりどころは、Free/Goプランだとそもそも一覧が短く、Thinkingが出ない点。
STEP2: 一覧に「GPT-5.5 Thinking」（Pro契約なら「GPT-5.5 Pro」も）が出ているか確認する。出ていれば即使える。出ていなければアカウントにまだロールアウトされていないので、数日待つか、設定→「ベータ機能」の新モデル項目がないか見る。私の周りでも公式発表から3日経って初めて出てきた例があるので、即日勝負ではないです。
STEP3: 出ていたら短いプロンプト（例:「このリポジトリ構成でルーティング層を切り出す設計案を3つ比較して」）を投げ、応答モデル名が「GPT-5.5 Thinking」になっているかをレスポンス下部のモデル表示で確認する。期待結果: 応答下部に「GPT-5.5 Thinking」表示。詰まりどころ: 古いセッションを引き継いだ場合、モデル表示が古い名前のままなので、セレクタで明示的に切り替え直す。

前提条件として、ブラウザを一度リロードしないと新モデルがキャッシュに載らないケースがあります。

1回リロードしてから見る、が無難。

API料金の3モデル比較表（GPT-5.5 / Opus 4.7 / GPT-5.4）

ここがこの記事でいちばん資産価値がある部分。

OpenAI API公式料金とAnthropic公式料金から最新値を並べました。

モデル	入力/1Mトークン	出力/1Mトークン	コンテキスト	出力1Mあたり日本円
GPT-5.5 Thinking	$5	$30	1M	約4,500円
GPT-5.5 Pro	$30	$180	1M	約27,000円
GPT-5.4	$2.50	$15	1M	約2,250円
Claude Opus 4.7	$5	$25	1M	約3,750円
Claude Sonnet 4.6	$3	$15	200K	約2,250円

※$1=150円換算。

Batch処理は標準の半額、Priority処理は2.5倍（OpenAI側）。

これで見えてくる事実が3つ。

1. GPT-5.5の出力単価はGPT-5.4から倍増。

$15→$30へ2倍に跳ねた。

the-decoder.comは「API料金倍増の正当性を支持するコスト便益分析のエビデンスが欠けている」と明確に批判しています。

私は、月$300以上APIに払っている開発者なら、この+$300の差は丸ごとSonnet 4.6に流すほうが合理的だと見ています。

2. OpenAI自身は「トークン効率化で実質コスト増は約20%」と説明。

apidogによれば、GPT-5.4比で約40%少ない出力トークンで同タスクが完了するため、単価2倍でも実コストは約1.2倍に収まる、というのが公式の説明ロジック。

私はここを冷静に見ておくべきだと思っていて、出力量が40%減るかは個別タスク依存。

エージェント系の反復ループだとその40%減が出にくい経験則もあります。

3. Opus 4.7は表記$25のまま据え置きだが、実質コストは最大+35%の懸念。

finout.ioの分析によれば、Opus 4.7は新トークナイザー搭載で同じ入力テキストに対して最大35%多くのトークンを生成する可能性があり、コーディングエージェント用途では月+$105（+35%）の実質増加が起こりうる、とされています。

見かけの$25だけ見て決めると、月末に請求で驚く。

ベンチマーク3モデル比較マトリクス

ここが「乗り換え判断」の核。

公開されているベンチマークをllm-stats・digitalapplied・MarkTechPostから集約しました。

ベンチマーク	GPT-5.5	Claude Opus 4.7	GPT-5.4	勝者
Terminal-Bench 2.0（長尺エージェント）	82.7%	69.4%	75.1%	GPT-5.5（+13.3pp vs Opus）
SWE-Bench Verified（標準版）	88.7%	87.6%	ー	GPT-5.5（+1.1pp）
SWE-Bench Pro（高難度版）	58.6%	64.3%	57.7%	Opus 4.7（+5.7pp）
MCP-Atlas（ツール連携）	75.3%	79.1%	ー	Opus 4.7（+3.8pp）
OSWorld-Verified	78.7%	78.0%	75.0%	GPT-5.5（+0.7pp）
GDPval（職業タスク）	84.9%	80.3%	83.0%	GPT-5.5（+4.6pp）
GPQA Diamond（科学推論）	93.6%	94.2%	ー	Opus 4.7（+0.6pp）
HLE（ツールなし）	41.4%	46.9%	ー	Opus 4.7（+5.5pp）
BrowseComp	84.4%	79.3%	ー	GPT-5.5（+5.1pp）
CyberGym	81.8%	73.1%	ー	GPT-5.5（+8.7pp）

10指標でOpus 4.7が4勝（SWE-Bench Pro・MCP-Atlas・GPQA・HLE）、GPT-5.5が6勝（Terminal-Bench・SWE-Bench Verified・OSWorld・GDPval・BrowseComp・CyberGym）。

明確な勝ち負けというより用途別の得意領域が分かれた、と読むのが正確です。

私の見方では、6勝4敗は実用上「ほぼ五分」のスコアで、片方に寄せる根拠としては薄い。

勝ち負け6対4、実コスト差で月+135,000円。

私の判断は「両方持つ」一択です。

特に重要なのがSWE-benchの版の違い。

公式が発表した88.7%はSWE-bench Verified（標準版）のスコアで、より難度が高いSWE-bench Proになると58.6%に下がる。

しかもSWE-Bench ProではGPT-5.4（57.7%）からの改善が+0.9ppしかない。

the-decoder.comが「API料金は2倍なのに、GitHubリポジトリ修正の実測能力はほぼ変わらない」と批判するのはここ。

ここは読者が数字で判断すべき一番の分岐点。

標準版で1%強の差、高難度版で5.7%逆転、私はこれを完全に別物として扱います。

速度・スループットの違い

llm-statsの実測値では、初トークン時間に大きな差があります。

初トークン時間: GPT-5.5 約3秒 / Opus 4.7 約0.5秒（Opus 4.7が6倍速い）
スループット: GPT-5.5 約50tps / Opus 4.7 約42tps
画像解像度: GPT-5.5 約1.15MP / Opus 4.7 約3.75MP（Opus 4.7が3倍以上）

初トークン3秒はエージェントの試行錯誤ループに重い。

1回のループで3秒待つだけでも、10回繰り返せば30秒、100回なら5分の遅延が積み上がります。

インタラクティブな用途でOpus 4.7のほうが体感いい、という評価が出ている理由の一端です。

初トークン0.5秒対3秒、私なら対話用途はOpus 4.7に倒します。

※SWE-Bench － GitHubに上がっている本物のバグ修正タスクをAIに解かせて、実際にテストが通る修正を出せるかを測るベンチマーク。

VerifiedとProは別物

※Terminal-Bench －ターミナル（黒い画面で文字コマンドを打つ画面）でAIに長めの作業をさせて、最後まで自走できるかを測るベンチマーク

※MCP-Atlas － AIが外部ツールを呼び出して使う能力（MCP=モデルコンテキストプロトコル）を測るベンチマーク

※GDPval / GPQA Diamond / HLE / BrowseComp / CyberGym －それぞれ職業タスク、科学推論、人類最高難度試験、Web調査、サイバーセキュリティ系タスクを測るベンチマーク

※pp（パーセントポイント） － 60%と65%の差は「+5pp」と書く。

比率の％とは別の単位

※初トークン時間 / スループット － AIが応答を1文字目から出すまでの待ち時間 / 1秒あたり何トークン出せるかの速さ（tps=tokens per second）

他の開発者はどう使い分けているか

海外の実務者の声を並べます。賛と批を両方。

「GPT-5.5は私の新しい日常のツール。

コーディングタスク全般で最初に選ぶモデル。

数日間デバッグに費やした最高のエンジニアのセッションを巻き戻して、GPT-5.4ができなかった修正を再現できた」（Every CEOの発言、Every.to Vibe Check掲載）

「数百のフロントエンドリファクタリング変更を含むブランチを約20分でマージできた」（MagicPath CEOの発言、lushbinary掲載）

「デザインが一貫していない。

細部は良いが全体的にランダムに感じる。

高度な空間認識とビジュアル設計が不足しているため、製品開発では一日のドライバーには不十分」（エンジニア評者の発言、Every.to Vibe Check掲載）

「Opus 4.7のほうが優れた計画と製品感覚を持つ」（Every.to Vibe Check掲載）

賛の声は「コード長尺・リファクタ・デバッグの巻き戻し」で厚い。

批の声は「製品レベルのデザイン感覚・全体整合」で出ている。

私の見方では、Opus 4.7とGPT-5.5は「交代制」で回るタイプの組み合わせで、片方だけにする必要はないと読みます。

月$20のPlusと月$20のClaude Pro、合計月$40で両方持つ運用が、副業エンジニアにはいちばん刺さるはず。

用途別にどっちを選ぶべきか

ここまでの数字と声を踏まえた、私の振り分け判断。断定的に書きます。

用途	推奨モデル	理由
長時間・マルチツール横断のエージェント（CLI操作、複数ファイル操作、自律ループ）	GPT-5.5 Thinking	Terminal-Bench 2.0で+13.3pp、CyberGymで+8.7ppリード
既存リポジトリ修正・PR作成（SWE-Bench Pro型）	Claude Opus 4.7	SWE-Bench Proで+5.7ppリード。GPT-5.5の+0.9pp改善は弱い
MCPツール連携ワークフロー	Claude Opus 4.7	MCP-Atlasで+3.8ppリード
Web調査・情報集約タスク	GPT-5.5 Thinking	BrowseCompで+5.1ppリード
インタラクティブな試行錯誤（応答速度重視）	Claude Opus 4.7	初トークン時間6倍速い
科学研究・高難度推論	僅差（Opusやや優位）	GPQA +0.6pp、HLE +5.5pp でOpus
コスト最優先の本番API	GPT-5.4またはSonnet 4.6	出力$15/1Mで半額

Opus併用者がGPT-5.5を試す手順（公式ドキュメントベース）

既にClaude Code／Opus 4.7を日常使いしている人が、壊さずGPT-5.5を並列検証する手順です。

OpenAI公式およびAnthropic公式の案内を元に再構成しました。

STEP1: 評価タスクを3本用意する。 具体的には「長尺エージェントタスク（複数ファイル横断のリファクタ1件）」「既存リポジトリのSWE-Bench型タスク（既存PRの再現1件）」「MCP連携タスク（ツール呼び出し2〜3個チェーン1件）」。これを切らずに両モデルへ投げる準備をする。期待結果: 3タスクとも両モデルで一度は完走する。詰まりどころ: タスクが短すぎると差が出ないので、最低でも合計30分かかる規模にする。
STEP2: API経由で両モデルに同一プロンプトを投げる。 GPT-5.5は model=gpt-5.5、Opus 4.7は model=claude-opus-4-7 で指定。最大出力トークン、temperature、system promptは揃える。応答時間・出力トークン数・タスク完了率をスプレッドシートに記録する。期待結果: 1タスクあたりGPT-5.5側が出力トークン2割減で完了することが多い。詰まりどころ: temperatureを揃え忘れると比較が崩れる。
STEP3: 3タスク×2モデル=6回の結果で勝率と実コストを計算する。 コストは「入力$ × 入力トークン + 出力$ × 出力トークン」で算出。勝敗のつかないタスクはドローで処理。Terminal-Bench型で負けた側は以後そのパターンで使わない、という運用ルールを決めて切り替える。期待結果: 読者の業務に近い3パターンで、どちらに寄せるか判断材料が揃う。詰まりどころ: 6回だと統計的にぶれるので、本気で決めるなら各3回×6回=18回まで増やす。

ここで引っかかりやすいのは、Opus 4.7の新トークナイザーで出力トークン数が見かけより最大35%膨らむところ。

同じ文章量でもコストに差が出るので、finout.io分析を先に読んでおくと余計な驚きがない。

4/22漏洩時の数字と正式版の差分

前日の4月22日に出回っていた社内リーク値と、公式版の差分をここで整理しておきます。

Aisola Labでは4/22漏洩時の記事を先に出しており、読み続けてる方向けのアップデートです。

項目	4/22漏洩時	4/23正式発表
推論速度	18%高速化	出力トークン約40%削減（同タスク）
ハルシネーション	40%減	60%減（公式主張）
主要ベンチ	SWE-bench中心で言及	Terminal-Bench 2.0 82.7% / GDPval 84.9% を主軸に
位置づけ	「5.4の改善版」	「4.5以来の完全再トレーニング」

漏洩時より公式のほうが強気な数字になっている。

ただしハルシネーション60%減のところはAA-Omniscienceベンチの独立測定で86%ハルシネーション率という逆データも出ていて、タスク依存で大きく変わる数字、と現実的に読みます。

料金の円換算で見る「払う価値があるか」

API出力を1M/日消費する開発者の月額コスト試算です。

出力100万トークン×30日で計算。

モデル	月額（出力のみ）	円換算
GPT-5.5 Thinking	$900	約135,000円
GPT-5.5 Pro	$5,400	約810,000円
GPT-5.4	$450	約67,500円
Claude Opus 4.7	$750	約112,500円
Claude Sonnet 4.6	$450	約67,500円

※$1=150円換算、出力のみ単純試算。

Opus 4.7の新トークナイザーによる+35%を加味するとOpus実質は月約152,000円までありうる。

ChatGPT側のプラン課金だけで済むなら話は別で、Plus月3,000円でGPT-5.5 Thinkingが週3,000メッセージまで使えるのは、API換算で言えば破格。

私はここでの二層運用が正直いちばん合理的だと見ています。

副業エンジニアの日常運用はChatGPT Plus枠に寄せて、エージェント自動化はAPIで最適モデルを叩く、という形が現実解。

月$40（Plus+Claude Pro）に収まる人と、月$300以上APIに払う人で線引きが綺麗に分かれる。

FAQ（よくある質問）

Q1. ChatGPT Plus（月$20）でGPT-5.5は本当に使えますか？

OpenAI公式では「Plus、Pro、Business、Enterpriseに2026年4月23日からロールアウト」と案内されています。

Plusでは「GPT-5.5 Thinking」が週3,000メッセージまで使える。

ただし「GPT-5.5 Pro」はPro（月$200）以上限定。

ロールアウトはアカウント単位で順次なので、画面に出ていない場合は数日待ちます。

Q2. Claude Opus 4.7から乗り換えるべきですか？

用途次第です。

Terminal-Bench 2.0（長尺エージェント）ならGPT-5.5が+13.3pp、CyberGymで+8.7pp優位なので、CLIエージェント中心なら乗り換え価値あり。

逆にSWE-Bench Pro（リポジトリ修正）ではOpus 4.7が+5.7ppリード、MCP-Atlasでも+3.8ppリードなので、既存PR修正・ツール連携中心ならOpus継続が合理的。

llm-stats比較参照。

Q3. GPT-5.5 ProとGPT-5.5 Thinkingは何が違いますか？

GPT-5.5 Proは深い推論に特化した上位モデルで、Pro（月$200）プラン以上でしか使えません。

API料金も入力$30／出力$180とThinking版（$5／$30）の6倍。

apidogによれば、複雑な数学・科学研究・コード最適化タスク向けの位置づけです。

Q4. API料金が前世代から2倍になったのは妥当ですか？

OpenAI公式は「約40%少ない出力トークンで同タスクを完了するため、実質コスト増は約20%に収まる」と説明しています（apidog）。

一方the-decoder.comは「2倍の価格を正当化する証拠が不足」と批判。

SWE-Bench Proで+0.9ppしか改善していない事実を踏まえると、用途によっては割に合わない可能性があります。

Q5. 「SWE-bench 88.7%」と「SWE-Bench Pro 58.6%」はどちらが本当の数字ですか？

両方本当の数字です。

88.7%はSWE-bench Verified（標準版）、58.6%はSWE-bench Pro（高難度版）のスコア。

別ベンチマークです。

MarkTechPostによれば、Proのほうが現実のリポジトリに近い難度設計で、GPT-5.4（57.7%）から+0.9ppの改善にとどまっています。

数字を引用するときは必ず版名を明記することが大事。

Q6. Plus週3,000メッセージ上限はエージェント運用で足りますか？

個人の手動プロンプトなら余裕ですが、Codex CLI経由の自律ループは短時間で数百メッセージを消費するため、週次で枯れる可能性があります。

エージェント重用者はProプラン（$200）かAPI直叩きが安全。

このページに出てきた言葉

ベースモデル: AIの土台部分。大量のテキストで一度だけ重い学習をして作る本体。後から微調整するのとは別物。
ポストトレーニング: 既存のベースモデルに追加でチューニングを重ねる工程。
ハルシネーション: AIが事実でないことを自信ありげに答えてしまう現象。
エージェント: 1問1答で終わらず、AI自身がツールを呼び出して何往復もしながらタスクを進めるAIの動かし方。
ロールアウト: 新機能を全ユーザーに一斉公開せず、何日かけて少しずつ配信していく出し方。
モデルセレクタ: ChatGPTの画面で、どのAIモデルを使うかを選ぶプルダウン。
Codex: OpenAIが提供しているコード生成・編集に特化したエージェントツール。
トークン: AIが文章を読み書きする時の最小単位。日本語1文字でだいたい1〜2トークン、英語1単語で1トークン前後。
コンテキスト: AIが1回の会話で扱える文章の長さの上限。「1M」は約100万トークン分。
トークナイザー: 文章をトークン単位に分解するアルゴリズム。変わると同じ文章でもトークン数が違ってくる。
SWE-Bench: GitHubの本物のバグ修正タスクをAIに解かせて、テストが通る修正を出せるかを測るベンチマーク。VerifiedとProは別物。
Terminal-Bench: ターミナル（黒い画面で文字コマンドを打つ画面）でAIに長めの作業をさせ、最後まで自走できるかを測るベンチマーク。
MCP-Atlas: AIが外部ツールを呼び出して使う能力（MCP=モデルコンテキストプロトコル）を測るベンチマーク。
pp（パーセントポイント）: 60%と65%の差は「+5pp」と書く。比率の％とは別の単位。
初トークン時間: AIが応答を1文字目から出すまでの待ち時間。短いほど体感速い。
スループット: 1秒あたり何トークン出せるかの速さ。tps（tokens per second）で表記。