AI活用全般

GPT-5.5の公式プロンプトガイドが従来と真逆に|長く書く人より「成果と制約だけ書く人」が強くなる3原則

OpenAI GPT-5.5 プロンプトガイドが既存ベスプラを逆転|長く書ける人より「成果と制約だけ書ける人」が強くなる3原則

これまでGPT-5系で正解だった「ステップごとに細かく指示する書き方」は、GPT-5.5ではむしろ精度を下げる方向に働きます。

OpenAI公式が公開したプロンプトガイドが要求するのは3つだけ。

「短く」「成果と制約だけ」「経路は任せる」です。

長いプロンプトを丁寧に書ける人が評価された時代が終わり、成果と制約だけを言語化できる人がそのまま強い時代に入ります。

この記事はChatGPTやAPIで毎日プロンプトを書いている実務者向け(プロンプトの基本構造が分かれば読めます)。

そもそも何が変わった?「短く・成果と制約・任せる」の3原則

OpenAIが公開した 公式プロンプトガイド のトップに、こう書かれています。

"Shorter, outcome-first prompts usually work better than process-heavy prompt stacks."

(短く、成果を先に書くプロンプトのほうが、手順を積み重ねたプロンプトより精度が出ることが多い)

― OpenAI Prompt guidance(GPT-5.5)

核は3つ。私はこれを「3原則」と呼んでいます。

  • 短く(process-heavyな積み上げをやめる)
  • 成果と制約を先に書く(outcome-first)
  • 経路はモデルに任せる(細かい順序指定をしない)

3つ目が一番きつい変更です。

「ステップ・バイ・ステップで考えて」「必ず5段階で分析せよ」がGPT-5.4まではベストプラクティスでした。

これがGPT-5.5では「ノイズ」「探索空間を狭める」「機械的な答えを誘発する」とOpenAI自身が断言しています。

はい、ハシゴを外されました。

注目すべき理由は何?「長く書ける人=強い」が逆転する

私がこのガイドを最重要扱いしているのは、機能アップデートではなく「プロンプトを書く人の評価軸が逆転した」点です。

2024〜2025年のプロンプトエンジニアリングは、長く・厳密に・全パターン網羅で書ける人が優位でした。

だからこそ「完全性契約」「検証ループ」「ツール永続性ルール」のような長いフレームワークが流行ったわけです。

このトレンドが終わりました。

OpenAI公式は、旧来の長いプロンプトについてこう書いています。

"Treat GPT-5.5 as a new model family to tune for, not a drop-in replacement for gpt-5.2 or gpt-5.4."

(GPT-5.5は新しいモデルファミリーとして調整せよ。

GPT-5.2やGPT-5.4の置き換えとして扱うな)

― OpenAI Prompt guidance

Simon Willisonも公式ガイドの解説記事で、要点を以下のようにまとめています。

"The headline is: shorter prompts, less hand-holding, fewer ALWAYS/NEVER directives. The model is trusted to do more on its own."

(要点はこうだ:短いプロンプト、過剰な手取り足取りをやめる、ALWAYS/NEVER 指示を減らす。

モデル側により多くを任せる)

Simon Willison: GPT-5.5 prompting guide

個人的にはこの「モデルに任せる」が今回の話の中心です。

GPT-5.4以前で必要だった防御的記述、これをGPT-5.5は不要にした、ということです。

悪い例 vs 良い例:何がそんなに違う?

公式ガイドが提示している対比は刺さります。

同じカスタマーサポートの業務を例にした、悪い例と良い例の英文をそのまま引用します。

悪い例(公式記載)

"First inspect A, then inspect B, then compare every field, then think through all possible exceptions, then decide which tool to call..."

(まずAを調べ、次にBを調べ、すべてのフィールドを比較し、考えられる例外を全部考え抜いて、どのツールを呼ぶか決めて……)

― OpenAI Prompt guidance

良い例(公式記載)

"Resolve the customer's issue end to end. Success means: the eligibility decision is made from available policy and account data; any allowed action is completed before responding..."

(顧客の課題を最後まで解決すること。

成功条件: 利用可能なポリシーとアカウントデータから資格判定がなされていること、許容されたアクションは応答前に完了していること……)

― OpenAI Prompt guidance

違いは1つだけ。

前者は「順序」を書いている、後者は「成果(=何を達成すれば成功か)」を書いている。

表で並べるとこうなります。

観点悪い例(GPT-5.4まで通用)良い例(GPT-5.5の標準)
主語AIが踏む手順達成すべき成果
長さの目安500語超のプロセス記述50〜150語の成果と制約
順序の指定「まず〇、次に△、最後に□」と細かく順序は書かない、経路は任せる
例外処理あらゆる例外を事前列挙「迷ったら〇〇を優先」のdecision rule
ALWAYS/NEVER多用して制御真の不変量(安全規則・必須出力)にだけ使う
ステップ思考の促し「ステップ・バイ・ステップで考えて」書かない(reasoning.effortパラメータで指定)

正直、5.4以前のテンプレを大量に持ってる人ほどダメージが大きいです。

長く書く能力=価値、という前提が崩れたので、今までの努力の一部が「むしろ邪魔」に変わります。

既存プロンプトをどう書き換える?3ステップ手順

OpenAIは旧プロンプトの後方互換性を保ちつつ「ベストプラクティスではない」と明記しました。

実務者が今やる作業は、社内に溜まったテンプレを段階的に書き換えることです。

公式ガイドが示している7項目テンプレートと、書き換えの流れを整理します。

STEP1. 7項目に分解して捨てるブロックを決める

公式が推奨する7項目テンプレートはこれです。

各項目が何を担当するかを1行ずつ添えます。

  1. Role(役割定義、1〜2文) - 「あなたはカスタマーサポート担当者」「あなたはコードレビュアー」のようにAIの立場を1〜2文で固定
  2. Personality(口調・温度感) - 丁寧/フランク/毒舌など、AIが「どう話すか」のキャラ設定。出力の見た目を決める部分
  3. Goal(達成目的) - 何のためにこの対話をするのか、最終的な目的を1文で書く
  4. Success Criteria(成功条件・合否判定軸) - 「成功とは○○が満たされた状態」と合否判定軸を3〜5個。outcome-firstの心臓部
  5. Constraints(法律・セキュリティ等の制約) - 個人情報を出力しない・特定APIを呼ばない・社内秘情報を書かない等の絶対ルール
  6. Output(成果物形式) - JSON / Markdown / 箇条書き等、出力フォーマットの指定
  7. Stop Rules(中止条件) - 「権限を超える操作が必要になったら止まれ」「3回試して解決しなければユーザーに確認せよ」等の停止条件

2のPersonalityは「どう話すか」(話し方の見た目)、4のSuccess Criteriaは「どこまで達成すれば終わるか」(合否の中身)。

混同しがちですが、別物です。

Personalityをいくら盛っても合否軸にはならない、というのが公式の整理。

既存プロンプトをこの7枠に振り分けて、どの枠にも入らない記述(「ステップ・バイ・ステップで考えて」「全例外を列挙せよ」等)は削除候補。

OpenAI公式は「すべてを埋める必要はなく、実際に動作を変える情報に絞る」と注釈しています。

STEP2. process-heavyな手順記述を「成果+制約」に置換する

具体的には、「First inspect A, then inspect B…」型の文を、「Resolve X end to end. Success means: …, …, …」型に書き直します。

やることは2つだけ。

  • 動詞を「inspect / compare / decide」から「resolve / deliver / produce」に変える
  • 「Success means:」のセミコロン区切りリストで合否判定軸を3〜5個書く

STEP3. ABテストで段階的に切り替える

本番投入前に旧プロンプトと新プロンプトを並行運用し、品質指標(正答率・トークン消費・遅延)で評価する流れが安全です。

私の感覚値ではテンプレ1本のABテストは1日、テンプレ書き換えは半日もあれば回ります。

社内テンプレが10〜20本ある組織でも、評価環境さえ整っていれば1週間以内に切り替えは終わるはずです。

逆に評価環境を持たないチームが「短くしただけ」で本番投入すると、合否判定軸を残せていない箇所で精度が落ち、結局2〜3日のリファクタリングを抱えます。

短く書くことと、合否軸を残すことはセットです。

「削りすぎ事故」をどう防ぐ?短くすれば良い、ではない

ここが一番見落とされがちな部分です。

「短く書け」を真に受けて制約まで削ると、モデルが暴走します。

公式は ALWAYS / NEVER について、こう書いています。

"Use those words for true invariants, such as safety rules, required output fields, or actions that should never happen. For judgment calls...prefer decision rules instead."

(安全規則・必須出力・絶対に起きてはならないアクションには ALWAYS / NEVER を使え。

判断が必要な場面では decision rule を使え)

― OpenAI Prompt guidance

つまり「絶対指示を全廃しろ」ではなく「真の不変量にだけ残せ」という話です。

具体的には次のものは削ってはいけません。

  • セキュリティ・コンプライアンス上の禁止事項(個人情報の出力禁止など)
  • 必須出力項目(JSON形式・特定フィールドの存在)
  • 絶対にやってはいけないアクション(外部API呼び出しの権限境界など)

削っていいのは「プロセス記述」「ムダに長い思考誘導」「過剰な例示」「全例外列挙」。

ここの線引きを誤ると、社内テンプレで確実にされていた安全性が一気に外れます。

OpenAI公式自身も、過度な指示追従について自己注意を出しています。

"GPT-5.5 follows instructions more literally than previous models. Overly aggressive ALWAYS/NEVER directives can cause the model to ignore reasonable judgment calls."

(GPT-5.5は従来モデルより指示をリテラルに受け取る。

攻撃的すぎるALWAYS/NEVER指示は、モデルが妥当な判断を無視する原因になる)

― OpenAI Prompt guidance

だからこそ、短く書くと同時に「真の不変量」と「判断ルール」の切り分けが必須になります。

短ければ短いほど偉い、ではありません。

料金は2倍だけど実効コストはどう動く?

API料金はGPT-5.4比で2倍に上がりました。

ここは触る前に押さえておきたい数字です。

料金区分GPT-5.4GPT-5.5変化
入力(100万トークン)$2.50$5.002倍
出力(100万トークン)$15.00$30.002倍
キャッシュ入力$0.50新規
バッチ処理(50%引)入$2.50/出$15.00新規
GPT-5.5 Pro入力$30.00標準の6倍
GPT-5.5 Pro出力$180.00標準の6倍

単価だけ見ると2倍ですが、ここで効いてくるのが「短く書く」の3原則です。

OpenAI公式ガイドは「process-heavyな積み上げをやめる」と明示しているので、入力トークンは構造的に減ります。

出力側もtext.verbosityパラメータで制御できるようになり、過剰な装飾出力が減る方向です。

私の見方では、単価2倍を実効コストの2倍と見るのは雑です。

プロンプトを3原則に沿って書き直したテンプレなら、トークン量が下がる分だけ単価増を吸収できます。

逆に、長いプロンプトを温存したまま5.5に投げると、料金だけ素直に2倍になります。

書き換えしないと損する構造、と理解するのが妥当です。

ChatGPTプラン側はPlusが$20/月、Proが$200/月、Businessが$25/ユーザー/月。

Plusで触るならまずReasoningパラメータを意識した短いプロンプトから入るのが妥当です。

リリース後の評価をどう読む?「日常タスクには影響薄」論の意味

すべての論者が前向きなわけではありません。

Simon Willisonも、ベンチマーク勝利と日常タスクの体感差を分けて語っています。

"The benchmark numbers are real, but most users running everyday chat tasks won't feel a dramatic step-change. The big wins are in agentic flows and structured prompting."

(ベンチマークの数字は本物だが、日常的なチャットタスクを回しているほとんどのユーザーは劇的な変化を感じない。

大きな勝ちはエージェント的フローと構造化プロンプトにある)

Simon Willison: GPT-5.5 prompting guide

私はこの整理に同意です。

プロンプトを「ふわっと使う」層には体感差が出ない、「業務フローに組み込んでいる」層には深刻な書き換え圧、という二極化です。

カスタマーサポート・エージェント設計・構造化出力(JSON生成等)を仕事で扱っている人は、書き換え遅延がそのまま品質遅延につながります。

一方、ChatGPT Plusで雑にブレストしてるだけの層は、別に急がなくていい。

立場で温度差が割れる、それが今回の正体です。

結局、誰にとって今がやり時なのか

3つのタイプに分かれます。

  • 社内テンプレ運用者:今すぐ7項目分解→3原則書き換え→ABテストの流れに入る。遅らせると競合に先行される。
  • カスタマーサポート設計者:公式の「悪い例→良い例」がカスタマーサポート文脈そのまま。outcome-first書き換えの効果が一番分かりやすい領域です。
  • ChatGPTカスタム指示を作り込む個人:500語超の指示文を持っているなら見直し時。ただし削りすぎ事故防止のために、安全制約だけは残すこと。

逆に「Plusで月数回しか触らない」層は、わざわざ大改修する必要は薄いです。

FAQ

GPT-5.5用の新ルールは、GPT-4系やGPT-5.4以前にも適用していい?

いいえ。

OpenAIは公式に「treat as a new model family to tune for, not a drop-in replacement for gpt-5.2 or gpt-5.4」と明示しており、GPT-5.5専用のチューニングが必要だと書いています。

GPT-4系・GPT-5.4向けには従来の書き方の方が有効です。

「短く書け」を徹底すると、品質が下がりませんか?

「短くする」と「制約を削る」は別の話です。

削ってよいのはプロセス記述・ムダに長い思考誘導・全例外列挙。

安全規則・必須出力・絶対にやってはいけないアクションは ALWAYS/NEVER で残す、と公式が明示しています。

「ステップ・バイ・ステップで考えて」と書くのは完全にダメ?

プロンプト本文での明示記述は推奨されません。

GPT-5.5では推論の深さを reasoning.effort パラメータ(low/medium/high)で指定する設計に変わっています。

プロンプト内に書く代わりにAPIパラメータで制御するのが新しい流儀です。

移行作業の所要時間はどのくらいかかる?

テンプレ1本あたり、ABテストは1日、書き換え自体は半日が目安です。

社内テンプレが10〜20本ある組織でも、評価環境さえ整っていれば1週間以内に切り替えは終わります。

評価環境を持たずに「短くしただけ」で本番投入すると、合否軸が抜け落ちて2〜3日のリファクタリングが発生します。

GPT-5.5 と Claude のどちらを使えばいい?

領域で使い分けるのが現実的です。

OpenAI公式は GPT-5.5 を「新しいモデルファミリーとして調整せよ」と位置づけており、過去のGPT系プロンプトをそのまま流用しないこと、構造化プロンプトとエージェント的フローで真価を出すことを推奨しています。

Claude側との比較は Artificial Analysis の総合評価が参考になります。

このページに出てきた言葉

プロンプト
AIへの指示文。何をしてほしいか・どう答えてほしいかを書いた文字列
process-heavy(プロセスヘビー)
AIが踏むべき手順を細かく書き並べたプロンプトの形。GPT-5.5では非推奨
outcome-first(アウトカムファースト)
手順より先に「最終的にどんな結果が欲しいか」を書く形。GPT-5.5の中心思想
decision rule(判断ルール)
「Aの場合は○○、Bの場合は△△」のように判断軸だけを書く形。例外を全部列挙する代わりに使う
ALWAYS / NEVER
プロンプト内の強い禁止・必須指示。GPT-5.5では真の不変量にだけ使う
reasoning.effort
推論の深さを指定するAPIパラメータ(low/medium/high)。プロンプト本文の「深く考えろ」の代わりに使う
text.verbosity
出力の量を指定するAPIパラメータ(low/medium)。「短く答えて」をプロンプトに書く代わりにAPIで指定
ハルシネーション
AIがもっともらしいウソを言う現象
後方互換
古い書き方でも動く状態。「動く」と「最適」は別物
evals(エバルス)
出力品質を機械的に評価する仕組み。正答率や合否判定の自動化
System Card
OpenAIが公開するモデル性能・安全性の自社評価レポート

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-, , ,

← 戻る