この記事の結論
GPT Image 2.0は2026年4月21日リリース。
Thinkingモードを使うと1プロンプトから最大8枚を一貫性ありで並列出力できる。
広告クリエイティブは「キャンバス・共通・差分・文字・出力」の5要素プロンプトテンプレで組むと、
SNS縦×LP横×OOH正方の3チャネル分を1リクエストで揃えられる。
OpenAI公式Cookbookは「背景→主体→主要詳細→制約条件」の順で書けと明示。
テキストは引用符かALL CAPSで囲む。
これだけ守れば毎週の発注往復が1分で済む型に落ちる。
この記事はSNS広告・LP・OOHのクリエイティブを毎週複数サイズで発注しているマーケ担当・広告運用者・小規模EC運営者向け(ChatGPTを開いて文字を打ったことがあれば読めます)。
そもそも「1プロンプトで9コマ」って何の話?
毎週、
同じ商品のクリエイティブをSNS縦長・LP横長・OOH正方・サムネ16:9と4サイズ発注している人。
訴求コピー違いも入れると週20案。
これを今までは「サイズごとに1プロンプト×4回」「訴求違いごとに別プロンプト×5回」で20往復していた。
正直、
この往復が一番だるい。
GPT Image 2.0のThinkingモードは、
1キャンバスを3×3に区切ってコマごとに別サイズ・別訴求・別色違いを描画させる、
いわゆる「9コマグリッド」生成が現実的になった。
OpenAI公式リリースによれば、
Thinkingモード時は1プロンプトから最大8枚を一貫性ありで同時出力できる。
ChatGPT Images 2.0 is our first image model with thinking capabilities. When a thinking model is selected in ChatGPT, Images 2.0 can search the web for real-time information, create multiple distinct images from one prompt, and double-check its own outputs.
— OpenAI公式リリース(Introducing ChatGPT Images 2.0)
「複数の異なる画像を1プロンプトから生成」と公式が断言している。
ここが今回の記事の出発点。
GPT Image 2.0は2026年4月21日リリース、何が変わったのか
OpenAI公式リリースは2026年4月21日。
モデルIDはgpt-image-2、
スナップショット版はgpt-image-2-2026-04-21。
Images 2.0 introduces a thinking mode that reasons through a prompt before generating, integrated web search that pulls real-time visual references into the process, and multi-image coherence that maintains characters, lighting, and style consistency across up to 8 images generated from a single prompt.
— OpenAI公式リリース(Introducing ChatGPT Images 2.0)
変更点は3つ。
生成前に推論を挟むThinkingモード、
Webサーチ統合、
そして最大8枚までの一貫性維持。
私が一番大きいと判断するのは3つ目。
キャラクター・照明・スタイルが8コマで揃うので、
商品のパッケージ画像を入れて「同じパッケージで9コマ」をやらせると、
コマごとに勝手にロゴ位置がズレる事故が減る。
週20案を発注する運用だと、
この差分修正の手戻りが消えるだけで実作業時間がガクッと落ちる。
過去モデルとの違いを表で確認
| モデル | リリース | 1プロンプトの最大画像数 | テキストレンダリング | 2K解像度 |
|---|---|---|---|---|
| DALL-E 3 | 2023年 | n=1 | 不安定 | 非対応 |
| gpt-image-1.5 | 2025年12月16日 | 非公開 | 改善 | 限定 |
| gpt-image-2 | 2026年4月21日 | 最大8枚(Thinking時) | 大幅改善 | 2048px/辺ネイティブ |
DALL-E 3がn=1固定だったので、
同じ商品で4案ほしい時は4回叩いていた。
8枚が1リクエストで揃うのは正直やばい。
料金の正しい読み方、ChatGPTの6プラン階層を整理
ChatGPT側のプラン階層は公式pricingの順でこう。
| プラン | 月額 | 主な対象 | Thinkingモード |
|---|---|---|---|
| Free | $0 | お試し利用 | × |
| Go | $8 | 軽量利用の個人 | 公式pricing参照 |
| Plus | $20 | 個人のフル機能利用 | ○ |
| Pro | $200 | ヘビー利用・拡張枠 | ○(拡張枠) |
| Business | 要問合せ | チーム導入 | ○ |
| Enterprise | 要問合せ | 大企業導入 | ○ |
2026年4月時点でChatGPTのpricingページにはFree / Go ($8) / Plus ($20) / Pro ($200) / Business / Enterpriseの6階層が並んでいる。
Goプラン($8)は軽量利用向けの個人プランとして追加された枠。
各プランごとのThinkingモード生成枠の具体的な月間上限は公式pricingに数値明記がない(2026年4月時点)。
アカウント単位で動的に絞られる仕様と読める。
Freeは無料で触れる範囲が限定。
広告制作で本気で運用するならPlus $20以上が現実的なラインになる。
API従量課金は「per image」で書けない
API側はトークンベース料金で、
「1枚いくら」のフラット表記が公式に存在しない。
OpenAI公式pricingの数字はこう。
| 項目 | 単価(/100万トークン) |
|---|---|
| テキスト入力 | $5.00 |
| 画像出力 | $30.00 |
| キャッシュ済み画像入力 | $2.00 |
| 編集(参照画像含む・入力) | $8.00 |
| 編集(参照画像含む・出力) | $32.00 |
1024×1024でhigh qualityを叩くと、
画像出力トークン量×$30/Mトークンの掛け算で計算する形になる。
low qualityなら出力トークンが大幅に減るので単価は下がる。
あくまでトークン量ベースの計算で、
公式は「1枚いくら」のリスト価格を出していない。
Pricing for image generation is token-based. You are charged for input tokens (text and reference images) and output tokens (the generated image). Image output tokens vary by resolution and quality.
— OpenAI公式 image generation guide(developers.openai.com)
Thinkingモードを使うと推論トークン分のオーバーヘッドが乗るが、
その額は事前にpredictできない構造。
私はここが正直、
運用上の一番の不安要素だと思う。
本番投入前に小ロットで実コストを測るのが安全。
5要素プロンプトテンプレ、何をどの順で書くか
OpenAI公式Cookbookは推奨プロンプト構造をこう書いている。
背景/シーン → 主体 → 主要詳細 → 制約条件。
複雑なリクエストは短いラベル付きセグメントまたは改行区切りで構成する。— OpenAI公式Cookbook(image-gen-models-prompting-guide)
これを広告クリエイティブの「9コマ並列出力」に落とすと、5要素に展開できる。
| 要素 | 役割 | 公式区分との対応 | 記述例 |
|---|---|---|---|
| 1. キャンバス指定 | グリッド全体の枠組み | 背景/シーン | 「3×3 grid, 9 equal-sized panels」 |
| 2. 共通要素 | 全コマで揃える要素 | 主体 | 「商品: ◯◯ボトル300ml、ロゴ位置: 中央上」 |
| 3. 差分 | コマごとの変化軸 | 主要詳細 | 「Panel1: SNS縦9:16、Panel2: LP横16:9...」 |
| 4. 文字指定 | テキスト書式制約 | 制約条件 | 「キャッチコピー: "夏の限定" を引用符で固定」 |
| 5. 出力指定 | 解像度・品質制約 | 制約条件 | 「2048×2048, quality=high」 |
公式は4区分、
Aisolaの5要素テンプレは「制約条件」を「文字」と「出力」に分けただけ。
構造的に矛盾しない。
テキストの書き方は引用符かALL CAPSが鉄則
Literal text should be wrapped in quotation marks or written in ALL CAPS. Difficult words should be spelled letter-by-letter to improve character accuracy.
— OpenAI公式Cookbook(image-gen-models-prompting-guide)
キャッチコピーを画像内に出したい時、
プロンプトに「夏の限定セール」とそのまま書いても文字崩れが出る。"夏の限定セール"と引用符で囲むか、
英字ならSUMMER SALEのようにALL CAPSで書く。
これだけで精度が体感で大きく変わる仕様。
密集テキスト・複数フォント配置の場合はquality="medium"かquality="high"が公式推奨。
lowで作ると価格表記がジワッと滲むことがある。
SNS縦×LP横×OOH正方を1プロンプトで出す具体テンプレ
毎週やる「サイズ違い・訴求違い」の発注を1リクエストに圧縮する型を、
5要素で組むとこうなる。
Create a 3x3 grid with 9 equal-sized panels for a single ad campaign.
【共通要素】
Product: bottled iced tea, 300ml, brand logo "AISOLA" centered at top.
Mood: bright summer afternoon, soft natural light.
【差分(各パネル)】
Panel1: SNS vertical 9:16, copy "夏の限定セール"
Panel2: LP horizontal 16:9, copy "夏の限定セール"
Panel3: OOH square 1:1, copy "夏の限定セール"
Panel4: SNS vertical 9:16, copy "今だけ30%OFF"
Panel5: LP horizontal 16:9, copy "今だけ30%OFF"
Panel6: OOH square 1:1, copy "今だけ30%OFF"
Panel7: SNS vertical 9:16, copy "新発売"
Panel8: LP horizontal 16:9, copy "新発売"
Panel9: OOH square 1:1, copy "新発売"
【文字指定】
All copy text wrapped in Japanese quotation marks. Font: bold sans-serif.
【出力指定】
Output size: 2048x2048, quality=high.
これで1プロンプト1リクエスト。
3チャネル × 3訴求が並列で出てくる構成。
公式の「最大8枚まで一貫性維持」仕様と「9コマ」のズレが気になる人がいるかも。
OpenAI公式のn=8はAPI側のバッチ枚数の話で、
ここでは「1枚のキャンバスを9分割して描画」を指示しているので別レイヤー。
1枚生成でThinkingモードに9分割を解かせる形になる。
このテンプレを実際に使う手順(Plus $20の最短ルート)
OpenAI公式pricingとCookbookの記述を組み合わせて、
Plus $20プランで上記テンプレを動かす最短ステップはこう。
- STEP1: ChatGPT Plus($20/月)を契約。chatgpt.com/pricing/ で「Upgrade to Plus」を選び、決済を済ませる。Freeのままだとバッチ生成枠が一切開かない
- STEP2: モデル切り替えで「Thinking」を選択。ChatGPTの新規会話画面で、モデル選択メニューから「Images 2.0 Thinking」を選ぶ。Instantモードでは多コマ並列の精度が落ちる
- STEP3: 上の5要素テンプレをそのまま貼って、商品名・コピーだけ置換。「Product:」と「copy "..."」の中身を自社商品に書き換える。それ以外は触らない
- STEP4: 出力を確認して、崩れたコマだけ部分修正リクエスト。「Panel5の文字が崩れているので再生成」と指示。Thinkingモードは自己検証を持つので、崩れの自覚があることが多い
- STEP5: 完成した9コマをスクショかDLで取得し、コマ単位で切り出して各サイズに書き出す。OOH用に再リサイズが必要なら
2048×2048 quality=highで出しておくとピクセル余裕がある
初回テンプレ作りに半日。
2回目以降は商品名とコピーを書き換えるだけなので1分。
私は、
この学習曲線の落差が広告運用者の最大メリットだと判断している。
解像度・アスペクト比の制約を先に頭に入れる
9コマグリッドを設計する前に、出力可能な解像度範囲を把握しておく必要がある。
Native maximum resolution is 2048px per side. Outputs above 2560×1440px (3,686,400 pixels) become experimental and results can be more variable. Each side must be a multiple of 16. Aspect ratios from 3:1 to 1:3 are supported.
— OpenAI公式 image generation guide(developers.openai.com)
ポイントを表にまとめる。
| 項目 | 値 | 運用上の意味 |
|---|---|---|
| ネイティブ最大 | 2048px/辺 | OOH正方の高解像度はここまで |
| 実験的閾値 | 2560×1440px超 | 4Kサイネージは結果不安定 |
| 最大総ピクセル数 | 8,294,400px | 3840×2160(4K相当)まで指定可 |
| 最小総ピクセル数 | 655,360px | サムネ用途も下限あり |
| 各辺の倍数制約 | 16の倍数 | 1080や1920は使えない(1024/1536/2048を使う) |
| アスペクト比 | 3:1 〜 1:3 | SNS縦9:16・LP横16:9はギリ範囲内 |
「16の倍数制約」は地味に効く。
1080×1920を指定したくなるが、
これは公式仕様外。
1024×1536(縦長)か2048×2048(正方)を使う。
1080pxからの再リサイズは別ツールで処理する前提で組むのが現実的。
未公開・限界・注意点を先に潰す
歯切れよく書ける話だけ並べると後でハマる。
OpenAI公式が「ここはまだ弱い」と認めている部分を確認しておく。
Although significantly improved, the model can still struggle with precise text placement and clarity.
— OpenAI公式 image generation guide(developers.openai.com)
「テキスト精度は改善されたがまだ崩れる」と公式自ら明示。
Image ArenaのText Renderingサブカテゴリで2位に+316ポイント差をつけて1位という数字は事実だが、
それでも崩れる時は崩れる。
ブランドガイド厳格な企業案件は、
AIで9コマたたき台→デザイナーが文字部分だけ差し替えの二段運用が現実的。
| 項目 | 限界・注意 | 運用回避策 |
|---|---|---|
| テキスト精度 | たまに崩れる | quality=high・引用符で囲む・letter-by-letter記法 |
| 2K超解像度 | 2560×1440超は実験的 | 2048×2048で生成→外部ツールでアップスケール |
| Thinkingモードのコスト | 推論トークン分が公式非公開 | 本番運用前に小ロットで実コスト測定 |
| Plusの生成枠 | 月上限が公式非明示 | API併用で枠切れ対策 |
| 商用利用 | API/SaaSでToS差異の可能性 | クライアント案件は法務確認 |
OpenAI Service Termsは「OpenAIはOutputに関する権利・利益をユーザーに譲渡する」と明示しているので、
原則ユーザーに帰属。
ただし公人の顔の無断使用、
知財侵害、
性的・暴力的コンテンツは禁止。
クライアント案件で使う時は契約書側で生成AI利用条項を1行入れておく方が安全。
FAQ
Q. Plus $20でThinkingモードは何枚まで生成できますか?
A. OpenAI公式pricingに2026年4月時点で明確な月間枚数上限の記載なし。
アカウント単位で動的に制限される仕様と読めます。
本番運用するならAPI併用で枠切れリスクを分散するのが安全。
Q. 1キャンバス9コマと、APIのn=8バッチは何が違いますか?
A. 全く別レイヤーです。n=8はAPIで「1リクエストにつき独立した画像を8枚返す」設定で、
各画像は別キャンバス。
9コマグリッドは「1枚の画像内を3×3に分割して描画」する指示で、
Thinkingモードに分割を解かせる形になります。
広告のサイズ違い一括は9コマグリッド型、
ABテスト用4案バリエーションはn=4〜8のバッチ型と使い分ける。
Q. 生成された9コマの広告画像、商用利用していいですか?
A. OpenAI Service Termsは「OpenAIはOutputに関する権利・利益をユーザーに譲渡する」と明示。
原則商用OK。
ただし公人の顔の無断使用、
既存キャラクターの模倣、
知財侵害は禁止。
クライアント案件で使う時は契約書に生成AI利用条項を入れておくと安心です。
Q. 文字が日本語だと崩れませんか?
A. GPT Image 2.0で日本語・韓国語・中国語・ヒンディー語・ベンガル語のテキストレンダリングに初対応。
Image ArenaのText Renderingサブカテゴリで2位に+316ポイント差で1位。
ただし公式自身が「精度はまだ完全ではない」と明示しています。
引用符で囲む・quality=highを指定する・密集テキストは避ける、
の3点で精度を上げる。
Q. デザイナーの仕事はなくなりますか?
A. たたき台・サイズ違い量産・訴求バリエーションの工程は明確に圧縮されます。
一方でブランドガイド厳格な最終仕上げ、
コンセプト設計、
撮影ディレクションは引き続き残る。
AIで9コマたたき台→デザイナーが文字部分とトーン調整、
の二段運用が現実的です。
Q. 4Kサイズの広告も作れますか?
A. 最大総ピクセル数8,294,400pxまでなので3840×2160(4K相当)は指定可能。
ただし2560×1440超は公式が「結果が変動しうる」と明記する実験的範囲。
確実に欲しい解像度なら2048×2048で生成→アップスケールツールで4K化のフローが安定です。
参考リンク
- OpenAI公式リリース: Introducing ChatGPT Images 2.0
- OpenAI 画像生成ガイド(解像度・アスペクト比仕様)
- OpenAI Cookbook: プロンプティングガイド
- OpenAI APIリファレンス: 画像生成エンドポイント
- gpt-image-2 モデル仕様
- OpenAI API Pricing
- ChatGPT Pricing
- OpenAI Service Terms(権利帰属)
- OpenAI Usage Policies
このページに出てきた言葉
- Thinkingモード
- 生成前に推論プロセスを挟む「考えてから描く」モード。Plus($20/月)以上で利用可能
- Instantモード
- 推論なしで即時生成する高速モード。無料プランでも使えるがバッチ・Webサーチは不可
- 9コマグリッド
- 1枚の画像を3×3に区切って、各コマに別サイズ・別訴求の広告案を並べる構成
- OOH
- Out Of Home。屋外広告の総称(駅貼りポスター・看板・タクシーサイネージなど)
- nパラメータ
- API側で「1リクエストにつき何枚生成するか」を指定する数値。gpt-image-2のThinkingモードは最大8
- スナップショット版
- モデルの特定日付バージョンを固定で呼び出すID。本番運用で生成傾向の急変を防ぐために使う
- テキストレンダリング
- 画像内に文字を正確に描かせる能力。広告クリエイティブだとキャッチコピーや価格表記の精度がここに依存する
- quality(low/medium/high)
- API呼び出し時に指定する品質レベル。1024×1024でlow=196トークン、high=4160トークン相当(約21倍)の処理量差
- per image料金
- 「1枚あたり◯ドル」の固定価格表記。OpenAIはトークンベースで、解像度とqualityで変動するため断言できない
- 引用符(quotation marks)
- 半角ダブルクォート「"〜"」のこと。プロンプト内で「この文字列をそのまま画像に出して」と指示する記法
- ALL CAPS
- 英字を全部大文字にした表記。「summer sale」ではなく「SUMMER SALE」と書くと文字精度が上がる
- キャンバス
- プロンプト用語で「描画する1枚の画像枠」。3×3グリッドは1キャンバスを9コマに分割している
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。