この記事の結論(3行)
ChatGPT Images 2.0は「考えてから描く」新世代画像AI。
テキスト描画と日本語精度でImage Arena全3部門1位。
DALL-E 3は2026年5月12日にAPI廃止。
残り20日で既存プロンプト資産は作り直しが必要。
5モデル比較では「速度のNano Banana 2」「画質のMidjourney V8.1」「思考型のImages 2.0」で棲み分けが進行中。
ChatGPT Images 2.0は何が変わったのか
2026年4月21日、
OpenAIがgpt-image-2を発表。
翌22日には全ユーザーに開放された。
私が最初に引っかかったのは、
Sam Altmanの発言です。
Images 2.0 is a huge step forward. It's like going from GPT-3 to GPT-5 all at once.
出典: Sam Altman X投稿
「GPT-3からGPT-5に一気に飛んだ」という言い方。
正直、
画像モデルでここまで強い言葉は珍しい。
中身を見ると、
従来のDALL-E 3とは設計思想が違います。
プロンプトを受け取って即描画するのではなく、
Web検索・レイアウト推論・複数案比較・自己検証を描画の前に回す。
OpenAIはこれを「Thinking Mode」と呼んでいます(公式モデルページ)。
出力されるのは単なる綺麗な絵ではありません。
資料・メニュー・SNS広告・インフォグラフィック。
ここが非エンジニア業務に刺さる。
DALL-E 3は2026年5月12日で本当に終わるのか
終わります。
OpenAI Developer Communityの公式アナウンスに以下の記載があります。
As part of our continuous upgrade process, we are deprecating the following models on May 12, 2026: Dall-e-2, Dall-e-3
注意したいのは、廃止が2段階で進んでいる点です。
- ChatGPT UIからの削除: 2025年12月(予告なしで実施済み)
- API廃止: 2026年5月12日(残り20日)
ChatGPT Plusを使っている人は、
昨年12月の時点で裏でgpt-image-1.5に自動移行されています。
気づかなかった人も多いはず。
API利用者はここから20日で移行判断を迫られます。
ちなみに公式Deprecationsページでの移行推奨先はgpt-image-1/gpt-image-1-miniと記載されています(公式Deprecations)。
ChatGPT UI上の表示が「Images 2.0」、
API billing上はgpt-image-1.5系列の扱いという指摘もあり(laozhang.ai解説)、
命名は少し混乱しています。
API叩いてる人は、Deprecationsページ基準で動くのが安全です。
5モデル比較マトリクス|設計思想はこれだけ違う
DALL-E 3/Nano Banana 2/Midjourney V8.1/Grok Imagine/ChatGPT Images 2.0の5つを並べると、
設計思想の違いがきれいに見えてきます。
| モデル | 設計思想 | 最大解像度 | API単価(1K画像) | 公開API | 提供元 |
|---|---|---|---|---|---|
| DALL-E 3 | 即描画(思考なし) | 1024×1024 | 廃止予定 | 5/12廃止 | OpenAI |
| Nano Banana 2 | JSON構造化+速度特化 | 4K | $0.067 | あり | |
| Midjourney V8.1 | 画質・アート表現特化 | 2K HD | サブスク制 | なし | Midjourney |
| Grok Imagine | 3モード切替(Fun/Normal/Spicy) | 高解像度対応 | $0.02〜0.03 | あり | xAI |
| ChatGPT Images 2.0 | 思考してから描く(Thinking) | 2K(4Kベータ) | $0.006〜0.211 | あり | OpenAI |
個人的に面白いのは、
思想が全部バラバラなこと。
Nano Banana 2はJSONで精度を制御する工学的アプローチ。
Midjourneyは画質とテクスチャに全振り。
Grokはモードで性格を切り替える発想。
Images 2.0は「描く前に考える」。
全部違う方向を向いてる。
料金だけ別表で並べ直すとこう
| モデル | 無料利用 | サブスク最低 | API従量(代表値) |
|---|---|---|---|
| DALL-E 3 | 廃止予定 | ー | 廃止予定 |
| Nano Banana 2 | Google AI Studioで一部可 | Gemini Advanced相当 | $0.067/枚(1K) |
| Midjourney V8.1 | なし | Basic $12/月 | 公開APIなし |
| Grok Imagine | 制限あり | SuperGrok $30/月 | $0.02〜0.03/枚 |
| ChatGPT Images 2.0 | Instant Modeは無料可 | Plus $20/月(Thinking解放) | $0.006〜0.211/枚 |
Images 2.0のAPIは下限$0.006/枚でかなり安い。
ただしSimon Willisonの実測によれば、
高解像度(3840×2160)では1枚約$0.40(13,342 output tokens)までコストが跳ねる(出典)。
解像度で倍率がかなり動く料金設計。ここは見落とすと痛い。
Image Arenaでどのくらい差をつけているのか
Office Chaiが発表12時間以内にまとめたImage Arenaリーダーボード結果が、
かなり極端です。
No model has dominated Image Arena with margins this wide.
出典: Office Chai
| 部門 | GPT-Image-2 | 2位 | 差 |
|---|---|---|---|
| Text-to-Image | 1,512点 | Nano Banana 2(1,271点) | +242点 |
| Single-Image Edit | 1,513点 | Nano Banana Pro | +125点 |
| Multi-Image Edit | 1,464点 | Nano Banana 2 | +90点 |
3部門1位。
しかも過去最大のリード幅。
私が特に注目したのは前モデル比の改善スコアです。
- Text Rendering: +316点(vs GPT-Image-1.5)
- Cartoon/Anime/Fantasy: +296点
- Portraits: +296点
- Art: +197点
特にText Renderingの+316点が大きい。
今までの画像AIで「文字が崩れる」問題は定番の弱点でした。
ここが潰れたなら、
資料・メニュー・広告バナーの作業フローが根本的に変わる。
日本語描画はどこまで実用に耐えるのか
私が一番気になる論点もここです。
日本語メディアの実使用レポートを3つ並べておきます。
GIGAZINEはマンガ形式で複数の日本語セリフを検証しています。
日本語のセリフが完璧に再現されています。
出典: GIGAZINE
「おなかがすいたな」「寿司でも食べるか」「やっぱり寿司はサーモンに限るクマね〜」といったセリフを正確に生成。
縦書きへの切り替えも問題なし。
これ実務視点だとかなり効きます。
チャエンのAI研究所はもう一歩踏み込んだ評価です。
日本語のテキストがほぼ崩れない。
そのまま資料として使えるレベルで日本語を描画する。
画像生成AIを「遊び道具」から「実務ツール」に引き上げたモデル。出典: チャエンのAI研究所
「遊び道具から実務ツール」。この言い回しが一番腹落ちします。
WEELは少年漫画スタイルで吹き出し・効果音・コマ割りページを生成しています(出典)。
Brooklyn Heightsの抹茶店SNS広告を複数アスペクト比で量産する例も紹介されていて、
非エンジニアの業務に直接刺さる事例です。
OpenAI product leadのAbhi Muchhalは、
日本語マンガ・韓国語広告・インドの書店例を公式デモとして公開しています(Engadget報道)。
非ラテン文字を前面に出してきた点が、
今回の発表のポイントだと感じます。
「考えてから描く」で業務フローはどう変わるのか
非エンジニアの業務視点で大きいのは、
プロンプトの書き方そのものが変わることです。
従来のDALL-E 3時代は、
プロンプトを盛りに盛って精度を出す書き方が定番でした。
「cinematic lighting, ultra detailed, 8k, high quality...」みたいなやつ。
Images 2.0のThinking Modeはそこをモデル側で補完します。
Web検索・レイアウト推論・複数案比較・自己検証を描画の前に回すため、
プロンプト側はむしろ簡潔にして意図を伝える方が噛み合う設計です(the-decoder解説)。
Latent.Spaceはこの変化をこう整理しています。
単なる美的向上ではなく、
UI・モック・ドキュメント・生産性ビジュアルの実用性向上が特徴。
画像生成がコード化エージェントのフロントエンドになりつつある。出典: Latent.Space
「遊び」から「業務インフラ」への移動。
マーケ担当・個人事業主・資料作成者にとって、
ここが今回の本題です。
実務で刺さる3パターン
- 複数アスペクト比の同時量産: 1プロンプトで最大8枚を一貫したキャラクター・スタイルで生成(Thinking Mode限定)。SNS広告の正方形・横長・縦長を同時に出せる
- 日本語テキスト入りの資料・メニュー: 文字崩れを気にせず、そのまま資料として使える出力
- 最新情報反映の必要な図解: Web検索統合により、知識カットオフ(2025年12月)以降の情報も描画内容に反映できる
Images 2.0の弱点はどこにあるのか
私はベタ褒め一色の記事が苦手なので、弱点もちゃんと拾います。
OpenAI自身が限界を認めているのがここ。
物理的推論や高度に詳細な構造の正確さが必要な領域では依然として限界がある。
折り紙手順、
ルービックキューブ、
非常に密度の高い繰り返し表現(砂粒など)。出典: PetaPixel
ITSC Newsの早期アクセスレビューでは、
ZDNETのロゴ再現テストで3回連続失敗という報告が出ています(出典)。
Z字が崩れる、
2022年以前の旧ロゴを使ってしまう、
D文字に不明な形状を追加。
「the model is impressive, mostly」とした上で「one exception」と指摘されています。
既存ブランドロゴの正確再現は依然課題。
Simon Willisonは別の角度から指摘しています。
自分で生成したパズル画像を自分で解かせるとハルシネーションが発生する。
モデルは自己検証タスクには信頼できない。出典: Simon Willison
描画能力と検証能力は別物。この指摘は重い。
チャエンのAI研究所も「ラベルや図解は正確性の確認が必要な場合がある。
特に矢印や部品ラベル」「料金・商用利用などの事実情報は必ず公式で裏取りすること」と注意喚起しています(出典)。
インフォグラフィックを作る人は、
最終チェックは人間が入る運用にしておく方が安全です。
結局どのモデルを選ぶべきか
5モデルを業務目的別に私なりに整理するとこうなります。
| 目的 | 最適モデル | 理由 |
|---|---|---|
| 日本語入り資料・メニュー | ChatGPT Images 2.0 | Text Rendering +316点、非ラテン文字対応が強い |
| 大量バッチ生成・速度優先 | Nano Banana 2 | 1K解像度で4〜6秒、バッチ半額 |
| アート作品・高画質ポートレート | Midjourney V8.1 | テクスチャ品質、ネイティブ2K HD |
| X連携・ビデオ生成 | Grok Imagine | X統合、6秒動画$0.15 |
| DALL-E 3のAPI運用 | gpt-image-1系列へ移行 | 5/12廃止、公式推奨先 |
マーケ担当・個人事業主・資料作成者の多くにとっては、
Images 2.0のInstant Mode(無料)かPlus $20/月で十分だと感じます。
画質を極めたい人だけMidjourneyを併用する形。
正直、全部契約する必要はない。
5月12日までに何をしておくべきか
DALL-E 3のAPI廃止日が2026年5月12日。
残り時間は限られているので、
やることを絞ります。
- DALL-E 3 APIを叩いているスクリプト/Zapier/Make連携を洗い出す
- 移行先を公式Deprecations基準の
gpt-image-1/gpt-image-1-miniで組む - ChatGPT UI側(Plus契約)は既にgpt-image-1.5系列に自動移行済みのため個別対応不要
- プロンプト資産を「盛る書き方」から「簡潔に意図を伝える書き方」に見直す
- 高解像度出力を多用する場合は1枚あたり$0.40級のコストも織り込む
ここだけ押さえておけば、5/12に慌てることはない。
FAQ
DALL-E 3はいつ廃止されますか?
API廃止は2026年5月12日です。
最初のアナウンスは2025年11月14日で、
2026年4月9日にOpenAI Developer Communityで再通知が出ています(公式アナウンス)。
ChatGPT UIからは2025年12月に既に削除済みで、
Plus契約者は自動的にgpt-image-1.5系列に移行されています。
ChatGPT Images 2.0は無料で使えますか?
Instant Modeは全ユーザーが無料で利用できます。
Thinking Mode(Web検索統合・複数案比較・最大8枚一貫生成)はPlus($20/月)・Pro($200/月)・Business・Enterpriseに限定されています(公式モデルページ)。
API料金はいくらですか?
blog.laozhang.aiおよびbuildfastwithai.comの解説記事で一致している数字は、
1024×1024でLow $0.006/Medium $0.053/High $0.211(いずれも1枚あたり)。
高解像度3840×2160はSimon Willisonの実測で約$0.40/枚(出典)。
トークン課金は画像出力$30/Mトークン、
バッチ処理は半額です。
日本語のテキストはどこまで正確に描けますか?
GIGAZINEの実使用レポートでは「日本語のセリフが完璧に再現されています」と評価(GIGAZINE)。
チャエンのAI研究所は「そのまま資料として使えるレベル」としています(チャエン)。
Text Renderingスコアは前モデル比+316点という大幅改善です。
Midjourneyから乗り換えるべきですか?
目的によります。
Image ArenaではImages 2.0が全3部門1位ですが、
Midjourney V8.1はネイティブ2K HDとテクスチャ品質で独自ポジションを保っています(Medium解説)。
日本語入り資料・業務ビジュアルはImages 2.0、
アート寄りの作品はMidjourneyという棲み分けが現実的です。
既存ブランドロゴの再現は可能ですか?
ITSC Newsの早期アクセスレビューでは、
ZDNETのロゴ再現テストで3回連続失敗が記録されています(ITSC News)。
Z字の崩れ、
旧ロゴの混入、
D文字への不明形状の追加が報告されており、
既存ブランドロゴの正確再現は依然として課題です。
関連リンク
- OpenAI公式発表: Introducing ChatGPT Images 2.0
- gpt-image-2モデルページ: OpenAI Developers
- DALL-E廃止公式アナウンス: OpenAI Community
- 公式Deprecationsページ: OpenAI Deprecations
- Image Arena結果: Office Chai
- Simon Willisonレビュー: simonwillison.net
- 日本語実使用レポート: GIGAZINE/チャエンのAI研究所/WEEL
※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。