この記事の結論
DALL-E 3のAPIは2026年5月12日に廃止済みです(記事公開時点: 2026年4月23日、当時の残り20日カウントダウン記事)。
既存プロンプト資産はgpt-image-1系列への作り直しが必要です。
ChatGPT Images 2.0は「考えてから描く」新世代画像AIです。
テキスト描画と日本語精度でImage Arena全3部門1位を取っています。
5モデル比較では「速度のNano Banana 2」「画質のMidjourney V8.1」「思考型のImages 2.0」で棲み分けが進んでいます。
この記事はDALL-E 3をAPI経由で使っているマーケ担当・個人事業主・資料作成者向け(画像生成AIの料金プランが分かる前提)。
ChatGPT Images 2.0は何が変わったのか
2026年4月21日、OpenAIがgpt-image-2を発表しました。
翌22日には全ユーザーに開放されています。
OpenAI公式ブログでは次のように説明されています。
Images 2.0 generates images by reasoning before rendering, including web search, layout planning, and self-verification.
「描く前に推論する」という言い切り。
画像モデルでここまで設計思想を前に出してきたのは珍しいです。
中身を見ると、従来のDALL-E 3とは設計思想が違います。
プロンプトを受け取って即描画するのではなく、Web検索・レイアウト推論・複数案比較・自己検証を描画の前に回す仕組みです。
OpenAIはこれを「Thinking Mode」と呼んでいます(公式モデルページ)。
出力されるのは単なる綺麗な絵ではありません。
資料・メニュー・SNS広告・インフォグラフィック。
ここが非エンジニア業務に刺さります。
DALL-E 3は2026年5月12日で本当に終わるのか
終わります。
OpenAI Developer Communityの公式アナウンスに以下の記載があります。
As part of our continuous upgrade process, we are deprecating the following models on May 12, 2026: Dall-e-2, Dall-e-3
注意したいのは、廃止が2段階で進んでいる点です。
- ChatGPT UIからの削除: 2025年12月(予告なしで実施済み)
- API廃止: 2026年5月12日(記事公開時点の2026年4月23日から数えて残り20日)
ChatGPT Plusを使っている人は、昨年12月の時点で裏でgpt-image-1.5に自動移行されています。
気づかないまま使い続けている人もいます。
API利用者はここから20日で移行判断を迫られます。
ちなみに公式Deprecationsページでの移行推奨先はgpt-image-1/gpt-image-1-miniと記載されています(公式Deprecations)。
ChatGPT UI上の表示が「Images 2.0」、API billing上はgpt-image-1.5系列の扱いという解説記事もあり、命名は少し混乱しています。
API叩いてる人は、Deprecationsページ基準で動くのが安全です。
5モデル比較マトリクス|設計思想はこれだけ違う
DALL-E 3/Nano Banana 2/Midjourney V8.1/Grok Imagine/ChatGPT Images 2.0の5つを並べると、設計思想の違いがきれいに見えてきます。
| モデル | 設計思想 | 最大解像度 | API単価(1K画像) | 公開API | 提供元 |
|---|---|---|---|---|---|
| DALL-E 3 | 即描画(思考なし) | 1024×1024 | 廃止済み(2026年5月12日) | 廃止済み(2026年5月12日) | OpenAI |
| Nano Banana 2 | JSON構造化+速度特化 | 4K | $0.067 | あり | |
| Midjourney V8.1 | 画質・アート表現特化 | 2K HD | サブスク制 | なし | Midjourney |
| Grok Imagine | 3モード切替(Fun/Normal/Spicy) | 高解像度対応 | $0.02〜0.03 | あり | xAI |
| ChatGPT Images 2.0 | 思考してから描く(Thinking) | 2K(4Kベータ) | $0.006〜0.211 | あり | OpenAI |
私が面白いと思うのは、思想が全部バラバラなことです。
Nano Banana 2はJSONで精度を制御する工学的アプローチ。
Midjourneyは画質とテクスチャに全振り。
Grokはモードで性格を切り替える発想。
Images 2.0は「描く前に考える」。
全部違う方向を向いてます。
私なら月20ドルのPlus 1本で運用を始めます。
料金だけ別表で並べ直すとこう
| モデル | 無料利用 | サブスク最低 | API従量(代表値) |
|---|---|---|---|
| DALL-E 3 | 廃止済み(2026年5月12日) | ー | 廃止済み(2026年5月12日) |
| Nano Banana 2 | Google AI Studioで一部可 | Gemini Advanced相当 | $0.067/枚(1K) |
| Midjourney V8.1 | なし | Basic $10/月 | 公開APIなし |
| Grok Imagine | 制限あり | SuperGrok $30/月 | $0.02〜0.03/枚 |
| ChatGPT Images 2.0 | Instant Modeは無料可 | Plus $20/月(Thinking解放) | $0.006〜0.211/枚 |
Images 2.0のAPIは下限$0.006/枚でかなり安いです。
ただしOpenAI公式モデルページの料金記載では、3840×2160のHigh品質では1枚あたり$0.211、トークン課金併用時はさらに上振れする設計です(出典)。
解像度で倍率がかなり動く料金設計。ここは見落とすと痛い。
Image Arenaでどのくらい差をつけているのか
OpenAI公式発表とOpenAI Developersの記載によれば、Image Arenaリーダーボードの結果はかなり極端な数字が出ています。
gpt-image-2 ranks #1 across all three Image Arena categories: text-to-image, single-image edit, and multi-image edit.
出典: OpenAI公式ブログ
| 部門 | GPT-Image-2 | 2位 | 差 |
|---|---|---|---|
| Text-to-Image | 1,512点 | Nano Banana 2(1,271点) | +242点 |
| Single-Image Edit | 1,513点 | Nano Banana Pro | +125点 |
| Multi-Image Edit | 1,464点 | Nano Banana 2 | +90点 |
3部門1位。
しかも過去最大のリード幅です。
私が特に注目したのは前モデル比の改善スコアです(OpenAI公式発表より)。
- Text Rendering: +316点(vs GPT-Image-1.5)
- Cartoon/Anime/Fantasy: +296点
- Portraits: +296点
- Art: +197点
特にText Renderingの+316点が大きい。
今までの画像AIで「文字が崩れる」問題は定番の弱点でした。
ここが潰れたなら、資料・メニュー・広告バナーの作業フローが根本的に変わる。
日本語描画はどこまで実用に耐えるのか
私が一番気になる論点もここです。
日本語メディアの実使用レポートを3つ並べておきます。
GIGAZINEはマンガ形式で複数の日本語セリフを検証しています。
日本語のセリフが完璧に再現されています。
出典: GIGAZINE
「おなかがすいたな」「寿司でも食べるか」「やっぱり寿司はサーモンに限るクマね〜」といったセリフを正確に生成。
縦書きへの切り替えも問題なしです。
これ実務視点だとかなり効きます。
チャエンのAI研究所はもう一歩踏み込んだ評価です。
日本語のテキストがほぼ崩れない。
そのまま資料として使えるレベルで日本語を描画する。
画像生成AIを「遊び道具」から「実務ツール」に引き上げたモデル。出典: チャエンのAI研究所
「遊び道具から実務ツール」。この言い回しが一番腹落ちします。
WEELは少年漫画スタイルで吹き出し・効果音・コマ割りページを生成しています(出典)。
Brooklyn Heightsの抹茶店SNS広告を複数アスペクト比で量産する例も紹介されていて、非エンジニアの業務に直接刺さる事例です。
OpenAIの公式デモでは、日本語マンガ・韓国語広告・インドの書店ポスターなど非ラテン文字を前面に押し出した作例が公開されています(OpenAI公式ブログ)。
非ラテン文字に注力した点が、今回の発表のポイントだと感じます。
「考えてから描く」で業務フローはどう変わるのか
非エンジニアの業務視点で大きいのは、プロンプトの書き方そのものが変わることです。
従来のDALL-E 3時代は、プロンプトを盛りに盛って精度を出す書き方が定番でした。
「cinematic lighting, ultra detailed, 8k, high quality...」みたいなやつ。
Images 2.0のThinking Modeはそこをモデル側で補完します。
Web検索・レイアウト推論・複数案比較・自己検証を描画の前に回すため、プロンプト側はむしろ簡潔にして意図を伝える方が噛み合う設計です(OpenAI公式モデルページ)。
OpenAIのアナウンスはこの変化をこう説明しています。
Images 2.0 is not just better at aesthetics. It significantly improves on practical use cases like UI mockups, documents, and productivity visuals.
出典: OpenAI公式ブログ
「遊び」から「業務インフラ」への移動。
マーケ担当・個人事業主・資料作成者にとって、ここが今回の本題です。
実務で刺さる3パターン
- 複数アスペクト比の同時量産: 1プロンプトで最大8枚を一貫したキャラクター・スタイルで生成(Thinking Mode限定)。SNS広告の正方形・横長・縦長を同時に出せる
- 日本語テキスト入りの資料・メニュー: 文字崩れを気にせず、そのまま資料として使える出力
- 最新情報反映の必要な図解: Web検索統合により、知識カットオフ(2025年12月)以降の情報も描画内容に反映できる
5月12日までに何をしておくべきか
DALL-E 3のAPI廃止日は2026年5月12日。
記事公開時点(2026年4月23日)で残り20日のため、やることを絞ります。
STEP1: DALL-E 3を叩いている場所を洗い出す
まず手元の環境でdall-e-3またはdall-e-2を呼び出している箇所を全部リスト化します。
具体的にはこの3つ。
- 自作スクリプト(PythonやNode.jsでOpenAI APIを直叩きしているもの)
- Zapier/Make/n8nの連携ステップ内でモデル名指定しているもの
- サードパーティSaaSでバックエンドにDALL-E 3を使っているもの(管理画面のモデル設定欄を確認)
期待結果は「移行対象がN件」と数字で出ること。
詰まりどころは、サードパーティSaaSはモデル名が見えない場合があるので、サポートに「DALL-E 3 deprecation対応はどうなりますか」と1通投げると確実です。
STEP2: 移行先をgpt-image-1またはgpt-image-1-miniに切り替える
OpenAI公式Deprecationsページの推奨先はgpt-image-1とgpt-image-1-miniです(出典)。
コード上はモデル名の文字列を差し替えるだけで動きますが、レスポンス形式とパラメータ名が一部変わるので、リクエストJSONをドキュメントと突き合わせて確認します。
期待結果は、テスト環境で1枚生成して既存と同等の品質が出ること。
詰まりどころは、DALL-E 3で「natural」「vivid」のstyleパラメータを使っていた場合の置き換え。
新APIではquality(low/medium/high)に集約されているため、品質を上げたいならhighを指定します。
STEP3: プロンプト資産を「簡潔型」に書き直す
DALL-E 3時代の「盛るプロンプト」はImages 2.0ではむしろノイズになります。
Thinking Modeが描画前に内部で補完するため、人間側は「何を作りたいか」と「どう使うか」だけ書けば足りる設計です。
期待結果は、同じ意図を1/3の文字数で書けるようになること。
詰まりどころは、過去にチームで共有したプロンプトテンプレートがある場合の周知。
1人だけ短くしても全体は変わらないので、社内ドキュメントごと書き換えるのが早いです。
追加で押さえておきたい点もまとめておきます。
- ChatGPT UI側(Plus契約)は既にgpt-image-1.5系列に自動移行済みのため個別対応は不要
- 高解像度出力(3840×2160)を多用する場合は1枚あたり$0.21級のコストも織り込む
- 移行は5月12日ギリギリではなく、5月初旬までに切り替えてテスト期間を1週間取るのが安全
ここだけ押さえておけば、5/12に慌てることはない。
Images 2.0の弱点はどこにあるのか
私はベタ褒め一色の記事が苦手なので、弱点もちゃんと拾います。
OpenAI自身が公式ブログで限界を認めているのがここです。
物理的推論や高度に詳細な構造の正確さが必要な領域では依然として限界がある。
折り紙手順、ルービックキューブ、非常に密度の高い繰り返し表現(砂粒など)。出典: OpenAI公式ブログ
ITSC Newsの早期アクセスレビューでは、ZDNETのロゴ再現テストで3回連続失敗という報告が出ています(出典)。
Z字が崩れる、2022年以前の旧ロゴを使ってしまう、D文字に不明な形状を追加。
「the model is impressive, mostly」とした上で「one exception」と指摘されています。
既存ブランドロゴの正確再現は依然課題です。
OpenAI公式ブログも自己検証の限界には触れています。
The model can still hallucinate when asked to verify or reason over images it generated itself.
出典: OpenAI公式ブログ
描画能力と検証能力は別物。この指摘は重い。
チャエンのAI研究所も「ラベルや図解は正確性の確認が必要な場合がある。
特に矢印や部品ラベル」「料金・商用利用などの事実情報は必ず公式で裏取りすること」と注意喚起しています(出典)。
インフォグラフィックを作る人は、最終チェックは人間が入る運用にしておく方が安全です。
結局どのモデルを選ぶべきか
5モデルを業務目的別に私なりに整理するとこうなります。
| 目的 | 最適モデル | 理由 |
|---|---|---|
| 日本語入り資料・メニュー | ChatGPT Images 2.0 | Text Rendering +316点、非ラテン文字対応が強い |
| 大量バッチ生成・速度優先 | Nano Banana 2 | 1K解像度で4〜6秒、バッチ半額 |
| アート作品・高画質ポートレート | Midjourney V8.1 | テクスチャ品質、ネイティブ2K HD |
| X連携・ビデオ生成 | Grok Imagine | X統合、6秒動画$0.15 |
| DALL-E 3のAPI運用 | gpt-image-1系列へ移行 | 5/12廃止、公式推奨先 |
マーケ担当・個人事業主・資料作成者の多くにとっては、私はImages 2.0のInstant Mode(無料)かPlus $20/月で十分だと感じます。
画質を極めたい人だけMidjourneyを併用する形。
正直、全部契約する必要はない。
私の見方では月20ドルで90%の業務はカバーできます。
FAQ
DALL-E 3はいつ廃止されますか?
API廃止は2026年5月12日です。
最初のアナウンスは2025年11月14日で、2026年4月9日にOpenAI Developer Communityで再通知が出ています(公式アナウンス)。
ChatGPT UIからは2025年12月に既に削除済みで、Plus契約者は自動的にgpt-image-1.5系列に移行されています。
ChatGPT Images 2.0は無料で使えますか?
Instant Modeは全ユーザーが無料で利用できます。
Thinking Mode(Web検索統合・複数案比較・最大8枚一貫生成)はPlus($20/月)・Pro($200/月)・Business・Enterpriseに限定されています(公式モデルページ)。
API料金はいくらですか?
OpenAI公式モデルページの記載では、1024×1024でLow $0.006/Medium $0.053/High $0.211(いずれも1枚あたり)。
高解像度3840×2160のHighでも単価ベースは$0.211ですが、トークン課金が併用されるため、入出力トークン量によっては実コストがさらに上振れします(出典)。
バッチ処理は半額です。
日本語のテキストはどこまで正確に描けますか?
GIGAZINEの実使用レポートでは「日本語のセリフが完璧に再現されています」と評価(GIGAZINE)。
チャエンのAI研究所は「そのまま資料として使えるレベル」としています(チャエン)。
Text Renderingスコアは前モデル比+316点という大幅改善です。
Midjourneyから乗り換えるべきですか?
目的によります。
Image ArenaではImages 2.0が全3部門1位ですが、Midjourney V8.1はネイティブ2K HDとテクスチャ品質で独自ポジションを保っています(Midjourney公式プラン比較)。
日本語入り資料・業務ビジュアルはImages 2.0、アート寄りの作品はMidjourneyという棲み分けが現実的です。
既存ブランドロゴの再現は可能ですか?
ITSC Newsの早期アクセスレビューでは、ZDNETのロゴ再現テストで3回連続失敗が記録されています(ITSC News)。
Z字の崩れ、旧ロゴの混入、D文字への不明形状の追加が報告されており、既存ブランドロゴの正確再現は依然として課題です。
DALL-E 3のプロンプト資産はそのまま使えますか?
動きはしますが、最適ではありません。
Images 2.0のThinking Modeは描画前にモデル側で補完するため、「cinematic lighting, ultra detailed, 8k」のような盛り系プロンプトはむしろノイズになります。
同じ意図を1/3の文字数で簡潔に書く方が噛み合います。
このページに出てきた言葉
このページに出てきた言葉
- gpt-image-2
- OpenAIが2026年4月21日に発表した新しい画像生成モデルのAPI名。ChatGPT上の表示名は「ChatGPT Images 2.0」
- Thinking Mode
- 描画前にWeb検索・レイアウト推論・複数案比較・自己検証を回す動作モード。Plus契約以上で利用可能
- Instant Mode
- Thinking Modeを使わず即描画するモード。無料でも利用可能
- API
- プログラムから外部サービスを叩くための窓口。ZapierやMake、自作スクリプトから画像生成を呼び出す時に使う
- deprecation(デプリケーション)
- 提供終了の予告。指定された日付以降は使えなくなる
- gpt-image-1.5系列
- DALL-E 3の後継として2025年に登場した中間モデル。ChatGPT UIの裏側で既にDALL-E 3を置き換えている
- Image Arena
- 画像生成AIを匿名で並べてユーザー投票で順位を決めるリーダーボード
- Text Rendering
- 画像内に文字を正確に描き込む能力の評価項目
- JSON構造化
- 項目別に指定を分けて書くプロンプト記法。Nano Banana 2が得意
- knowledge cutoff(知識カットオフ)
- AIモデルが学習に使ったデータの最終日付
関連リンク
- OpenAI公式発表: Introducing ChatGPT Images 2.0
- gpt-image-2モデルページ: OpenAI Developers
- DALL-E廃止公式アナウンス: OpenAI Community
- 公式Deprecationsページ: OpenAI Deprecations
- Midjourney公式プラン比較: Comparing Midjourney Plans
- 日本語実使用レポート: GIGAZINE/チャエンのAI研究所/WEEL
- ITSC News早期アクセスレビュー: ITSC News
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。