これまでGPT-5系で正解だった「ステップごとに細かく指示する書き方」は、GPT-5.5ではむしろ精度を下げる方向に働きます。
OpenAI公式が公開したプロンプトガイドが要求するのは3つだけ。
「短く」「成果と制約だけ」「経路は任せる」です。
長いプロンプトを丁寧に書ける人が評価された時代が終わり、成果と制約だけを言語化できる人がそのまま強い時代に入ります。
この記事はChatGPTやAPIで毎日プロンプトを書いている実務者向け(プロンプトの基本構造が分かれば読めます)。
そもそも何が変わった?「短く・成果と制約・任せる」の3原則
OpenAIが公開した 公式プロンプトガイド のトップに、こう書かれています。
"Shorter, outcome-first prompts usually work better than process-heavy prompt stacks."
(短く、成果を先に書くプロンプトのほうが、手順を積み重ねたプロンプトより精度が出ることが多い)
― OpenAI Prompt guidance(GPT-5.5)
核は3つ。私はこれを「3原則」と呼んでいます。
- 短く(process-heavyな積み上げをやめる)
- 成果と制約を先に書く(outcome-first)
- 経路はモデルに任せる(細かい順序指定をしない)
3つ目が一番きつい変更です。
「ステップ・バイ・ステップで考えて」「必ず5段階で分析せよ」がGPT-5.4まではベストプラクティスでした。
これがGPT-5.5では「ノイズ」「探索空間を狭める」「機械的な答えを誘発する」とOpenAI自身が断言しています。
はい、ハシゴを外されました。
注目すべき理由は何?「長く書ける人=強い」が逆転する
私がこのガイドを最重要扱いしているのは、機能アップデートではなく「プロンプトを書く人の評価軸が逆転した」点です。
2024〜2025年のプロンプトエンジニアリングは、長く・厳密に・全パターン網羅で書ける人が優位でした。
だからこそ「完全性契約」「検証ループ」「ツール永続性ルール」のような長いフレームワークが流行ったわけです。
このトレンドが終わりました。
OpenAI公式は、旧来の長いプロンプトについてこう書いています。
"Treat GPT-5.5 as a new model family to tune for, not a drop-in replacement for gpt-5.2 or gpt-5.4."
(GPT-5.5は新しいモデルファミリーとして調整せよ。
GPT-5.2やGPT-5.4の置き換えとして扱うな)― OpenAI Prompt guidance
Simon Willisonも公式ガイドの解説記事で、要点を以下のようにまとめています。
"The headline is: shorter prompts, less hand-holding, fewer ALWAYS/NEVER directives. The model is trusted to do more on its own."
(要点はこうだ:短いプロンプト、過剰な手取り足取りをやめる、ALWAYS/NEVER 指示を減らす。
モデル側により多くを任せる)
個人的にはこの「モデルに任せる」が今回の話の中心です。
GPT-5.4以前で必要だった防御的記述、これをGPT-5.5は不要にした、ということです。
悪い例 vs 良い例:何がそんなに違う?
公式ガイドが提示している対比は刺さります。
同じカスタマーサポートの業務を例にした、悪い例と良い例の英文をそのまま引用します。
悪い例(公式記載)
"First inspect A, then inspect B, then compare every field, then think through all possible exceptions, then decide which tool to call..."
(まずAを調べ、次にBを調べ、すべてのフィールドを比較し、考えられる例外を全部考え抜いて、どのツールを呼ぶか決めて……)
― OpenAI Prompt guidance
良い例(公式記載)
"Resolve the customer's issue end to end. Success means: the eligibility decision is made from available policy and account data; any allowed action is completed before responding..."
(顧客の課題を最後まで解決すること。
成功条件: 利用可能なポリシーとアカウントデータから資格判定がなされていること、許容されたアクションは応答前に完了していること……)― OpenAI Prompt guidance
違いは1つだけ。
前者は「順序」を書いている、後者は「成果(=何を達成すれば成功か)」を書いている。
表で並べるとこうなります。
| 観点 | 悪い例(GPT-5.4まで通用) | 良い例(GPT-5.5の標準) |
|---|---|---|
| 主語 | AIが踏む手順 | 達成すべき成果 |
| 長さの目安 | 500語超のプロセス記述 | 50〜150語の成果と制約 |
| 順序の指定 | 「まず〇、次に△、最後に□」と細かく | 順序は書かない、経路は任せる |
| 例外処理 | あらゆる例外を事前列挙 | 「迷ったら〇〇を優先」のdecision rule |
| ALWAYS/NEVER | 多用して制御 | 真の不変量(安全規則・必須出力)にだけ使う |
| ステップ思考の促し | 「ステップ・バイ・ステップで考えて」 | 書かない(reasoning.effortパラメータで指定) |
正直、5.4以前のテンプレを大量に持ってる人ほどダメージが大きいです。
長く書く能力=価値、という前提が崩れたので、今までの努力の一部が「むしろ邪魔」に変わります。
既存プロンプトをどう書き換える?3ステップ手順
OpenAIは旧プロンプトの後方互換性を保ちつつ「ベストプラクティスではない」と明記しました。
実務者が今やる作業は、社内に溜まったテンプレを段階的に書き換えることです。
公式ガイドが示している7項目テンプレートと、書き換えの流れを整理します。
STEP1. 7項目に分解して捨てるブロックを決める
公式が推奨する7項目テンプレートはこれです。
各項目が何を担当するかを1行ずつ添えます。
- Role(役割定義、1〜2文) - 「あなたはカスタマーサポート担当者」「あなたはコードレビュアー」のようにAIの立場を1〜2文で固定
- Personality(口調・温度感) - 丁寧/フランク/毒舌など、AIが「どう話すか」のキャラ設定。出力の見た目を決める部分
- Goal(達成目的) - 何のためにこの対話をするのか、最終的な目的を1文で書く
- Success Criteria(成功条件・合否判定軸) - 「成功とは○○が満たされた状態」と合否判定軸を3〜5個。outcome-firstの心臓部
- Constraints(法律・セキュリティ等の制約) - 個人情報を出力しない・特定APIを呼ばない・社内秘情報を書かない等の絶対ルール
- Output(成果物形式) - JSON / Markdown / 箇条書き等、出力フォーマットの指定
- Stop Rules(中止条件) - 「権限を超える操作が必要になったら止まれ」「3回試して解決しなければユーザーに確認せよ」等の停止条件
2のPersonalityは「どう話すか」(話し方の見た目)、4のSuccess Criteriaは「どこまで達成すれば終わるか」(合否の中身)。
混同しがちですが、別物です。
Personalityをいくら盛っても合否軸にはならない、というのが公式の整理。
既存プロンプトをこの7枠に振り分けて、どの枠にも入らない記述(「ステップ・バイ・ステップで考えて」「全例外を列挙せよ」等)は削除候補。
OpenAI公式は「すべてを埋める必要はなく、実際に動作を変える情報に絞る」と注釈しています。
STEP2. process-heavyな手順記述を「成果+制約」に置換する
具体的には、「First inspect A, then inspect B…」型の文を、「Resolve X end to end. Success means: …, …, …」型に書き直します。
やることは2つだけ。
- 動詞を「inspect / compare / decide」から「resolve / deliver / produce」に変える
- 「Success means:」のセミコロン区切りリストで合否判定軸を3〜5個書く
STEP3. ABテストで段階的に切り替える
本番投入前に旧プロンプトと新プロンプトを並行運用し、品質指標(正答率・トークン消費・遅延)で評価する流れが安全です。
私の感覚値ではテンプレ1本のABテストは1日、テンプレ書き換えは半日もあれば回ります。
社内テンプレが10〜20本ある組織でも、評価環境さえ整っていれば1週間以内に切り替えは終わるはずです。
逆に評価環境を持たないチームが「短くしただけ」で本番投入すると、合否判定軸を残せていない箇所で精度が落ち、結局2〜3日のリファクタリングを抱えます。
短く書くことと、合否軸を残すことはセットです。
「削りすぎ事故」をどう防ぐ?短くすれば良い、ではない
ここが一番見落とされがちな部分です。
「短く書け」を真に受けて制約まで削ると、モデルが暴走します。
公式は ALWAYS / NEVER について、こう書いています。
"Use those words for true invariants, such as safety rules, required output fields, or actions that should never happen. For judgment calls...prefer decision rules instead."
(安全規則・必須出力・絶対に起きてはならないアクションには ALWAYS / NEVER を使え。
判断が必要な場面では decision rule を使え)― OpenAI Prompt guidance
つまり「絶対指示を全廃しろ」ではなく「真の不変量にだけ残せ」という話です。
具体的には次のものは削ってはいけません。
- セキュリティ・コンプライアンス上の禁止事項(個人情報の出力禁止など)
- 必須出力項目(JSON形式・特定フィールドの存在)
- 絶対にやってはいけないアクション(外部API呼び出しの権限境界など)
削っていいのは「プロセス記述」「ムダに長い思考誘導」「過剰な例示」「全例外列挙」。
ここの線引きを誤ると、社内テンプレで確実にされていた安全性が一気に外れます。
OpenAI公式自身も、過度な指示追従について自己注意を出しています。
"GPT-5.5 follows instructions more literally than previous models. Overly aggressive ALWAYS/NEVER directives can cause the model to ignore reasonable judgment calls."
(GPT-5.5は従来モデルより指示をリテラルに受け取る。
攻撃的すぎるALWAYS/NEVER指示は、モデルが妥当な判断を無視する原因になる)― OpenAI Prompt guidance
だからこそ、短く書くと同時に「真の不変量」と「判断ルール」の切り分けが必須になります。
短ければ短いほど偉い、ではありません。
料金は2倍だけど実効コストはどう動く?
API料金はGPT-5.4比で2倍に上がりました。
ここは触る前に押さえておきたい数字です。
| 料金区分 | GPT-5.4 | GPT-5.5 | 変化 |
|---|---|---|---|
| 入力(100万トークン) | $2.50 | $5.00 | 2倍 |
| 出力(100万トークン) | $15.00 | $30.00 | 2倍 |
| キャッシュ入力 | ― | $0.50 | 新規 |
| バッチ処理(50%引) | ― | 入$2.50/出$15.00 | 新規 |
| GPT-5.5 Pro入力 | ― | $30.00 | 標準の6倍 |
| GPT-5.5 Pro出力 | ― | $180.00 | 標準の6倍 |
単価だけ見ると2倍ですが、ここで効いてくるのが「短く書く」の3原則です。
OpenAI公式ガイドは「process-heavyな積み上げをやめる」と明示しているので、入力トークンは構造的に減ります。
出力側もtext.verbosityパラメータで制御できるようになり、過剰な装飾出力が減る方向です。
私の見方では、単価2倍を実効コストの2倍と見るのは雑です。
プロンプトを3原則に沿って書き直したテンプレなら、トークン量が下がる分だけ単価増を吸収できます。
逆に、長いプロンプトを温存したまま5.5に投げると、料金だけ素直に2倍になります。
書き換えしないと損する構造、と理解するのが妥当です。
ChatGPTプラン側はPlusが$20/月、Proが$200/月、Businessが$25/ユーザー/月。
Plusで触るならまずReasoningパラメータを意識した短いプロンプトから入るのが妥当です。
リリース後の評価をどう読む?「日常タスクには影響薄」論の意味
すべての論者が前向きなわけではありません。
Simon Willisonも、ベンチマーク勝利と日常タスクの体感差を分けて語っています。
"The benchmark numbers are real, but most users running everyday chat tasks won't feel a dramatic step-change. The big wins are in agentic flows and structured prompting."
(ベンチマークの数字は本物だが、日常的なチャットタスクを回しているほとんどのユーザーは劇的な変化を感じない。
大きな勝ちはエージェント的フローと構造化プロンプトにある)
私はこの整理に同意です。
プロンプトを「ふわっと使う」層には体感差が出ない、「業務フローに組み込んでいる」層には深刻な書き換え圧、という二極化です。
カスタマーサポート・エージェント設計・構造化出力(JSON生成等)を仕事で扱っている人は、書き換え遅延がそのまま品質遅延につながります。
一方、ChatGPT Plusで雑にブレストしてるだけの層は、別に急がなくていい。
立場で温度差が割れる、それが今回の正体です。
結局、誰にとって今がやり時なのか
3つのタイプに分かれます。
- 社内テンプレ運用者:今すぐ7項目分解→3原則書き換え→ABテストの流れに入る。遅らせると競合に先行される。
- カスタマーサポート設計者:公式の「悪い例→良い例」がカスタマーサポート文脈そのまま。outcome-first書き換えの効果が一番分かりやすい領域です。
- ChatGPTカスタム指示を作り込む個人:500語超の指示文を持っているなら見直し時。ただし削りすぎ事故防止のために、安全制約だけは残すこと。
逆に「Plusで月数回しか触らない」層は、わざわざ大改修する必要は薄いです。
FAQ
GPT-5.5用の新ルールは、GPT-4系やGPT-5.4以前にも適用していい?
いいえ。
OpenAIは公式に「treat as a new model family to tune for, not a drop-in replacement for gpt-5.2 or gpt-5.4」と明示しており、GPT-5.5専用のチューニングが必要だと書いています。
GPT-4系・GPT-5.4向けには従来の書き方の方が有効です。
「短く書け」を徹底すると、品質が下がりませんか?
「短くする」と「制約を削る」は別の話です。
削ってよいのはプロセス記述・ムダに長い思考誘導・全例外列挙。
安全規則・必須出力・絶対にやってはいけないアクションは ALWAYS/NEVER で残す、と公式が明示しています。
「ステップ・バイ・ステップで考えて」と書くのは完全にダメ?
プロンプト本文での明示記述は推奨されません。
GPT-5.5では推論の深さを reasoning.effort パラメータ(low/medium/high)で指定する設計に変わっています。
プロンプト内に書く代わりにAPIパラメータで制御するのが新しい流儀です。
移行作業の所要時間はどのくらいかかる?
テンプレ1本あたり、ABテストは1日、書き換え自体は半日が目安です。
社内テンプレが10〜20本ある組織でも、評価環境さえ整っていれば1週間以内に切り替えは終わります。
評価環境を持たずに「短くしただけ」で本番投入すると、合否軸が抜け落ちて2〜3日のリファクタリングが発生します。
GPT-5.5 と Claude のどちらを使えばいい?
領域で使い分けるのが現実的です。
OpenAI公式は GPT-5.5 を「新しいモデルファミリーとして調整せよ」と位置づけており、過去のGPT系プロンプトをそのまま流用しないこと、構造化プロンプトとエージェント的フローで真価を出すことを推奨しています。
Claude側との比較は Artificial Analysis の総合評価が参考になります。
このページに出てきた言葉
- プロンプト
- AIへの指示文。何をしてほしいか・どう答えてほしいかを書いた文字列
- process-heavy(プロセスヘビー)
- AIが踏むべき手順を細かく書き並べたプロンプトの形。GPT-5.5では非推奨
- outcome-first(アウトカムファースト)
- 手順より先に「最終的にどんな結果が欲しいか」を書く形。GPT-5.5の中心思想
- decision rule(判断ルール)
- 「Aの場合は○○、Bの場合は△△」のように判断軸だけを書く形。例外を全部列挙する代わりに使う
- ALWAYS / NEVER
- プロンプト内の強い禁止・必須指示。GPT-5.5では真の不変量にだけ使う
- reasoning.effort
- 推論の深さを指定するAPIパラメータ(low/medium/high)。プロンプト本文の「深く考えろ」の代わりに使う
- text.verbosity
- 出力の量を指定するAPIパラメータ(low/medium)。「短く答えて」をプロンプトに書く代わりにAPIで指定
- ハルシネーション
- AIがもっともらしいウソを言う現象
- 後方互換
- 古い書き方でも動く状態。「動く」と「最適」は別物
- evals(エバルス)
- 出力品質を機械的に評価する仕組み。正答率や合否判定の自動化
- System Card
- OpenAIが公開するモデル性能・安全性の自社評価レポート
参考リンク
- OpenAI 公式プロンプトガイド(GPT-5.5)
- OpenAI 公式 GPT-5.5 モデルページ
- Simon Willison: GPT-5.5 prompting guide 解説
- Artificial Analysis: モデル総合評価
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。