AI活用全般

ChatGPT Image 2.0で参考デザインを1プロンプト複製|3ブロック構造と4つの限界

ChatGPT Image 2.0は、
参考デザインを1プロンプトでほぼ複製できる。

ただし「再現する要素/差し替える要素/用途」を分けて書かないとブレる。

そして複雑レイアウト・低解像度入力・ブランドロゴ・再現性の4点では崩れる。
ここを先に知っておくと事故らない。

この記事はSNS運用者・個人事業主・副業ブロガー・ノンデザイナーマーケター向け(Photoshopが触れなくても読めます)。

そもそも「参考画像を1プロンプトで複製」って何ができるの?

Pinterestで見つけたバナーや、
競合のSNS投稿画像。
あれを「手元の商品版に置き換えたい」場面、
けっこうあると思います。

従来は、
Photoshopで構図をなぞるか、
Canva(無料で使えるデザインツール)でテンプレを探すか、
外注でした。
これが正直しんどい。

2026年4月21日にリリースされたChatGPT Image 2.0(APIモデル名: gpt-image-2、
OpenAIの最上位画像生成モデル)は、
参考画像を1枚〜最大16枚渡して、
自然言語の指示だけで「ここはそのまま、
ここだけ変えて」が一発で通せる。

OpenAI公式コミュニティの発表はこう書いている。

gpt-image-2 is our most capable image generation model yet, designed for complex visual tasks...produces precise, usable images with stronger editing, better layouts, improved text rendering.

出典: OpenAI Developer Community

つまり「複雑な視覚タスク向け」「編集・レイアウト・テキスト描画が強くなった」と公式が明言している。
これがフックです。

1プロンプト複製の中身は「3ブロック構造」で書けばいい

OpenAI公式CookbookとサードパーティのプロンプトガイドであるFal.ai(gpt-image-2のAPIを提供する画像生成プラットフォーム)の手順書を読むと、
参考画像を複製するプロンプトは3ブロックで整理できる。

結論を先に書きます。

  • 再現する要素: 配色・レイアウト・写真の質感など、そのまま残したい部分
  • 差し替える要素: 商品名・ロゴ・人物・キャッチコピーなど、手元の素材に置き換える部分
  • 用途: SNSバナー / プロダクトモックアップ / ポスター / UIスクリーン など出力用途

fal.ai公式ガイドはこう説明している。

Labeling each input by role keeps compositing prompts grounded instead of making the model guess which image is content and which image is reference.

出典: fal.ai Prompting Guide for gpt-image-2

「画像をロール(役割)で分けてラベル付けしないと、
モデルがどっちが参考でどっちが本体か推測することになる」。
ここが最重要。

具体的なプロンプト雛形はこうなる。

Image 1: base scene to preserve.
Image 2: jacket reference.
Instruction: Dress the person using the jacket from Image 2.

出典: fal.ai Prompting Guide

「Image 1: 〜」「Image 2: 〜」と番号つきで役割を書いて、
最後に「Image 2のスタイルをImage 1に当てて」と相互関係を明示する。
これだけ。
私が見た限り、
ここの「ロール明示」を抜くと出力が一気に荒れるパターンが各レビューで一致している。

正直、シンプルすぎて拍子抜けする。

fal.aiのガイドでは、
さらに5スロット(Scene / Subject / Important details / Use case / Constraints)で書く方法も紹介されている。
慣れたらこっちに広げると指示精度が上がる。

Pinterestのバナーを手元の商品版に置き換える手順

SNS運用や副業ブロガーで一番多い使い道がこれ。
OpenAI Cookbookとfal.aiガイドの推奨フローを再構成すると、
3ステップでいけます。

  1. STEP1: 参考画像と差し替え用素材を用意する。 Pinterestで気になったバナーをスクショ保存。手元の商品写真も1枚用意します。両方ともPNG・JPEG・WebPで、50MB未満(OpenAI公式APIドキュメントの上限)。低解像度すぎると後で崩れるので、できれば長辺1024px以上推奨。
  2. STEP2: ChatGPT(Plus以上が望ましい)に2枚を添付して、3ブロック構造でプロンプトを書く。 例:「Image 1: reference banner(保持: 配色・余白・タイポグラフィ階層)。Image 2: 手元の商品写真。Instruction: Image 1のレイアウトと配色を保ちつつ、被写体だけImage 2の商品に差し替えて。SNS用1080×1080の正方形で出力」のように書く。
  3. STEP3: 出てきた画像をその場で保存する。 後述するけど、再現性がブレるので「気に入った1枚は即保存」が鉄則。気になる箇所があれば「Image 1の配色は保持。商品の影だけもう少し柔らかく」と保持指定を再記述して再生成する。

引っかかりやすいポイントが1つ。
差し替えの指示だけ書いて、
保持指定を省くと毎回違う構図に流れる。
「保持する要素」を必ず書く、
これが事故防止の核です。

OpenAI Cookbookは保持指定の重要性をこう言っている。

Preserve camera angle, room lighting, floor shadows.

出典: OpenAI Cookbook: Image Gen Models Prompting Guide

Thinkingモードを使うと「SNS4色違いバリエ」が1プロンプトで揃う

ChatGPT Plus(月20ドル、
約3,000円)以上で使えるThinkingモード(生成前にWeb検索・推論ステップを挟むモード)は、
最大8枚を1プロンプトで一貫生成できる。

ここが既存のCanvaテンプレ運用を置き換える本命。

buildfastwithaiが紹介している公式サンプルプロンプトはこれです。

A 4-panel social campaign for a coffee brand named Morni.
Panel 1: Sunrise with a Morni cup. Panel 2: Hand holding the cup in an office.
Panel 3: Outdoor cafe scene. Panel 4: Morni logo on clean white.
Maintain consistent warm amber and forest green brand palette across all panels.

出典: buildfastwithai - ChatGPT Images 2.0 Developer Breakdown

4パネル分のシーンを羅列して、
最後に「全パネルで暖色アンバーとフォレストグリーンのパレットを一貫させて」と書くだけ。
配色・キャラ・ロゴが全枚で揃って出てくる。

SNSの月次バリエーション制作では、これが効きます。

Thinkingモードで4色違いSNSバリエを作る手順

  1. STEP1: ChatGPT PlusでThinkingモードを有効化。 画像生成のオプションでThinkingを選ぶ(FreeとGoは非対応、Plus以上が必要)。
  2. STEP2: 4パネル分の場面と、共通させたい要素を1プロンプトに書く。 例:「4-panel campaign for [自社サービス名]. Panel 1: 朝のシーン. Panel 2: オフィスシーン. Panel 3: 外出シーン. Panel 4: ロゴと白背景. Maintain consistent [自社ブランドカラー] palette and [ロゴ位置] across all panels.」のように、シーン4つ+共通制約1つ。
  3. STEP3: 数分待つ。 Thinkingモードは候補生成→自己検証→最良を返すので、複雑リクエストでは数分かかります。出てきた4枚をそのまま使うか、気に入らないパネルだけ番号指定で再生成。

キャラクター連続性・オブジェクト連続性・ブランド一貫性の3軸が同時に保たれるのが強みです。

料金は実質いくら? どこから始めると損しない?

結論、
まずChatGPT Plus(月20ドル)で十分始められる。
APIから入る必要は最初はないです。

料金の整理を表にしておきます。

使い方料金1プロンプト複製で使える機能
ChatGPT Free / Go無料標準モードのみ。約8枚/24時間でリセット
ChatGPT Plus月$20(約3,000円)Thinking、2K解像度、最大8枚一貫生成
ChatGPT Pro月$200Plusと同機能+上限拡大
API(gpt-image-2)従量課金入力$8 / 出力$30 per 1Mトークン、最大16枚リファレンス

API料金の目安は、
buildfastwithaiの試算で高品質1024×1024を1,000枚生成すると約$211。
SNS運用で月50〜100枚なら、
Plus月$20で完結します。

サードパーティのfal.ai経由なら$0.01〜$0.41/枚。
Nano Banana 2(Google系の画像生成モデル)は$0.02/枚で1〜3秒。

私の見方では、
まずPlusで触って、
月の生成枚数が500枚を超えたらAPIに移すルートが事故りにくい。

1プロンプト複製で踏みやすい4つの限界

ここが本記事の本丸。
「すごい」「感動した」だけの記事が多いけど、
私が一次ソースを読み込んだ範囲では、
実務で踏む地雷は4種に集約できる。

限界1: 複雑レイアウトは崩れる

weshop.aiのデザイン視点レビューがいちばん辛辣です。

language is an imprecise medium for achieving precise results, and these generators cannot follow precise technical instructions properly... terrible for graphic design specifically.

出典: weshop.ai - gpt-image-2 limits

「言葉は曖昧なので、
ピクセル単位の正確な指示は通らない」。
spacing(余白)、
hierarchy(情報階層)、
control(細部の制御)が苦手と明記されている。

mindwiredaiも具体例を出している。
「特定の手の位置をずらす、
ピクセル単位で要素を配置する系は不安定」。
mindwiredai解説より。

API上で2K以上の出力は「beta」扱いで精度が不安定との報告もある。
Phygital+ガイドに記載。

逃げ道。
プレゼン資料や複雑なインフォグラフィックを丸ごと作らせるのは諦めて、
SNSバナー・モックアップ・1画面UIまでに留める。

限界2: 参考画像が低解像度だと読み取り誤る

Phygital+はこう書いている。

The clearer the source image, the less the model has to invent, which usually means fewer weird surprises later.

出典: Phygital+ ガイド

「参考画像が鮮明であるほど、
モデルが勝手に補完する量が減る」。
messy screenshot(雑なスクショ)でも処理はしてくれるけど、
明瞭さが低いほど予測不可能な出力になる。

逃げ道。
参考画像はPNG・JPEG・WebPで50MB未満。
長辺1024px以上を推奨。
Pinterestのサムネをそのまま使わず、
元サイトに飛んで高解像度版を取りに行く一手間が効きます。

限界3: ブランドロゴはそのまま再現できない

これが一番事故りやすい。PixVerseのレビューが明確です。

Brand logo reproduction is unreliable. If you need exact logos, you will still need to composite them in Photoshop or Figma after generation.

出典: PixVerse Review & Prompt Guide

「ブランドロゴの再現は信頼できない。
必要ならPhotoshopかFigma(ブラウザで動くデザインツール)で後合成する必要がある」。
ZDNetの実検証でも「ZDNETロゴを生成画像に入れるよう指示したら、
毎回失敗」と記録されている。

buildfastwithaiも「あるレビュアーは特定の出版社ロゴを正しく出させようと何度もイテレーションしたが、
毎回失敗した」と書いている。
buildfastwithaiより。

OpenAI利用規約も「avoid generating content that infringes on copyrights, trademarks, or depicts brands in a negative or controversial manner」と明記。
OpenAI Usage Policyより。

逃げ道。
自社ロゴはAIに描かせず、
出力後にCanvaやFigmaで後合成。
これがいちばん安全です。

限界4: 同じプロンプトで2回叩いても結果が違う

weshop.aiが指摘する再現性問題。

Content filter is visibly looser than Image Gen 1...the filter feels non-deterministic — the same prompt can pass once and get refused an hour later.

出典: weshop.ai

「フィルタが非決定論的(毎回挙動が違う)。
同じプロンプトが通る時もあれば、
1時間後に拒否される時もある」。
さらに「複数回の編集パスでノイズパターンが出る」「単純なプロンプトの方が出力品質が良い」とも。

OpenAI公認の限界もある。

iterative editing shows diminishing returns after the first few rounds, meaning a bad starting image rarely recovers through prompting alone.

出典: AIAutomationGlobal(OpenAIスタッフ言及の引用)

「最初の数ラウンド以降、
編集を重ねても改善は頭打ち。
最初の出力が悪ければ、
プロンプトだけで挽回するのは難しい」。

逃げ道。
気に入った1枚はその場で保存。
微調整で詰めようとせず、
最初の生成を粘る。
これが鉄則です。

競合と何が違う? Midjourney・Nano Banana 2との実力差

1プロンプトで参考画像を複製する目的に絞ると、3者の住み分けは明確です。

用途ChatGPT Image 2.0Midjourney v7Nano Banana 2
参考画像をロール分けで複製強い(自然言語で完結)--srefで部分対応JSONで構造化、参考画像複製はImage 2.0が楽
テキスト描画精度95%超(多言語)誤字頻発(CLARITY→CLARTIY等)中程度
純粋な美的品質良い勝つ場面あり速い・安い寄り
料金Plus月$20 / API従量Basic月$10$0.02/枚
APIありパブリックAPIなしあり

pxz.aiの比較記事はこうまとめている。

ChatGPT is better at following instructions precisely. Midjourney is better at making things look stunning.

出典: pxz.ai

「ChatGPTは指示の正確な従順性、
Midjourneyは見た目の華やかさ」。
これがいちばん腹落ちする整理です。

私なら、
参考画像を1枚丸ごと真似たいならImage 2.0、
大量バルク生成ならNano Banana 2、
芸術寄りの一発勝負ならMidjourneyという棲み分けで使い分けます。

商用利用は大丈夫?

OpenAIの規約上、
生成画像の商用利用はOK。
出力の所有権はユーザー側にあり、
OpenAIは著作権を主張しない。
OpenAI公式FAQに明記。

ただし注意点が3つ。

  • 第三者の商標・ロゴ・著作物を生成画像に含めるのはユーザー側の法的責任。ディズニーキャラやNikeロゴなどは知財リスクあり。商用利用ガイドより
  • 米国著作権局2025年報告書では、「人間的な創作的入力が十分でない場合は著作権保護を受けない」とされる
  • クライアントワークでは、相手側の納品ルール(AI使用OK / NG / 申告必須)を事前確認

SNS用バナーや個人ブログのアイキャッチで使う分には、まず問題ないです。

FAQ

Q1. 参考画像は何枚まで渡せますか?

OpenAI公式APIドキュメントによると、
editエンドポイント経由で最大16枚。
形式はPNG・WebP・JPEGで各50MB未満。
公式APIリファレンスに記載。
ChatGPTアプリ(ブラウザ・モバイル)側の上限は別途確認が必要です。

Q2. 日本語のテキストはきれいに出ますか?

ラテン文字・中国語・日本語・韓国語・アラビア語で95%超の精度(複数レビュー一致)。
Image Arenaのテキスト→画像カテゴリで1位、
2位との差は+242ポイント。
ただし200〜300字を超える長文ブロックは画像内で崩れる傾向ありとmindwiredaiが指摘しています。

Q3. ロゴガードは確実に効きますか?

非決定論的です。
同じプロンプトでも、
通る時と拒否される時がある。
weshop.aiやPixVerseのレビューで実証されています。
OpenAI規約上は「商標・ロゴの侵害コンテンツ生成は禁止」と明記されているため、
自社ロゴを描かせず、
Photoshop / Figmaで後合成するのが安全です。

Q4. 同じプロンプトを何回も試して詰めるのはアリですか?

OpenAIスタッフ自身が「最初の数ラウンド以降は編集の改善が頭打ち」と言及(AIAutomationGlobal経由の引用)。
微調整で挽回するより、
最初の生成を粘って気に入った1枚をその場で保存するのが効率的です。

Q5. APIから始めるべきですか? ChatGPT Plusで足りる?

SNS用に月50〜100枚生成する用途なら、
ChatGPT Plus(月$20)で十分。
月500枚を超えたあたりからAPI(gpt-image-2、
出力$30/1Mトークン)の方が安くなる目安です。
fal.ai経由なら$0.01〜$0.41/枚で従量課金で試せます。

このページに出てきた言葉

gpt-image-2
ChatGPT Image 2.0のAPI上のモデル名。2026年4月21日リリースの最上位画像生成モデル
API
外部のプログラムからツールの機能を呼び出す仕組み。月額プランとは別の従量課金
editエンドポイント
APIの中で「画像を編集する」機能を呼び出す窓口。最大16枚のリファレンス画像を渡せる
Thinkingモード
生成前にWeb検索や推論ステップを挟む高品質モード。Plus以上で利用可、最大8枚を1プロンプトで一貫生成できる
ロール分け(role labeling)
複数の参考画像を渡す時、どれが「保持する元画像」「スタイル参照」「差し替え素材」かをラベル付けする書き方
非決定論的
同じ入力に対して毎回違う結果が返ること。フィルタやガードが「通る時と通らない時がある」状態
1Mトークン
API料金の単位。100万トークンあたりの値段。画像入出力でも文字と同じくトークン換算される
fal.ai
gpt-image-2をはじめとする画像生成APIをまとめて提供する外部プラットフォーム。$0.01〜$0.41/枚で試せる
Nano Banana 2
Google系の画像生成モデル。$0.02/枚で1〜3秒の高速生成、バルク用途向け

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-, ,

← 戻る