AI活用全般

Nano Banana 2のJSONプロンプト設計|ヒーロー画像を毎回ブレずに出す雛形と料金

この記事の要点

  • Nano Banana 2はGemini 3.1 Flash Image(モデルID: gemini-3.1-flash-image-preview、2026年2月26日リリース)。Nano Banana Proとは別モデル
  • 文章プロンプトが毎回ブレる原因は「形容詞の係り先が曖昧になること」。JSONで項目を分離すれば混ざらない
  • API料金は2K=$0.101 / 4K=$0.151(Batchは半額)。Pro比で約4倍高速・コスト50%削減
  • ヒーロー画像用のJSON雛形を本文中に配布。コピペして値だけ差し替えれば動く想定

画像生成AIを触っていて、
同じプロンプトを投げているのに毎回違う絵が出てきて発狂しかけた経験
みなさんにもあるのではないでしょうか。
私は過去にMidjourneyとStable Diffusionで散々これをやりました。
結局のところ、
文章プロンプトは「形容詞がどの名詞にかかるか」をAIが毎回違う解釈で処理してしまうので、
運ゲーになる。

Nano Banana 2(Gemini 3.1 Flash Image)でもこの問題は残っています。
ただ、
2026年に入ってコミュニティで明確に広がっているのが「JSONで書くとブレが劇的に減る」という報告です。
しかも公式(Google Cloud Blog)まで推奨フィールドを例示している。
これは構造的に説明がつく話で、
そこを記事の背骨にしました。

Nano Banana 2とは何か(Proと混同しがちな点)

まず名前を整理します。
2026年現在、
Googleの画像生成モデルにはNano Banana ProNano Banana 2の2つがあり、
これが名称的に紛らわしい。
一次情報を並べるとこうなります。

呼称 正式モデル名 リリース 位置づけ
Nano Banana Pro Gemini 3 Pro Image 2025年11月 高品質・多様性重視の上位モデル
Nano Banana 2 Gemini 3.1 Flash Image 2026年2月26日 Flash系。約4倍高速・コスト約50%削減

ネット上の解説記事で「Nano Banana 2 = Gemini 3 Pro Image」と書いている例をちらほら見かけますが、
これは誤り

Google公式発表(blog.google)とDeepLearning.AIが明言している通り、
Nano Banana 2の中身はFlash Imageです。
ここを取り違えたまま料金表を書くと、
Pro側の値段(4K=$0.24)を書いてしまう事故が起きます。

地味だけど大事なポイント。

機能面では、
アスペクト比14種、
参照画像14枚、
キャラクター一貫性5人、
4K解像度ネイティブ対応、
131,072トークンのコンテキストウィンドウ。
SynthIDとC2PAメタデータが自動で入る透かし仕様です。

なぜ文章プロンプトは毎回ブレるのか

本題。記事の背骨はここです。

たとえばこんな文章プロンプトを投げたとします。

赤い革のジャケットを着た女性ヒーローが、雨の降る夜のネオン街で立っている。背景のビルには青い看板。シネマティックな構図。

一見丁寧に書いていますが、
このプロンプトには「赤い」がどこまで係るのか曖昧な箇所が潜んでいます。
革のジャケットだけが赤いのか、
背景のネオンも赤寄りに傾くのか、
AIには判別しきれない。
結果、
生成結果のたびに「ジャケットは赤、
ネオンは青」「ジャケットも背景も赤っぽい」「ジャケットが朱色で背景はマゼンタ」と揺れる。

これを業界では「概念ブリーディング(concept bleeding)」と呼びます。
形容詞や修飾語が意図しない要素にしみ出す現象です。
atlabs.aiのJSONガイド(出典)がこの用語を使って明確に整理しています。

Token confusion reduction — whether "red" belongs to RoomObjects or Subject becomes explicit, which improves color separation.
(「red」がRoomObjectsに属するのかSubjectに属するのかが明示され、カラー分離が改善する)

Patrick Zepeda氏はMediumで「JSONはAIの視覚出力を制御するDNAに直接アクセスする手段」と表現しています。
言い得て妙。
文章だと地の文に混ぜて書くしかない情報を、
キー名つきでAIに手渡せるのがJSONの本質です。

JSONで書くと何が起きるのか(5つの効き方)

複数のガイドと公式ドキュメントを横断すると、
JSONが効く理由は次の5つに収斂します。

効き方 中身 出典
トークン混乱の低減 色・素材などの属性がどの要素に係るかキー単位で固定される atlabs.ai
概念ブリーディングの防止 形容詞が別要素に染み出すのを防ぐ atlabs.ai
変数の明確な分離 subject/environment/mood/compositionを独立させ個別調整が効く miraflow.ai
弱い入力の発見 値が薄いフィールドが一目で見つかり、品質問題の原因特定が容易 miraflow.ai
再現性 一部フィールドだけ変更し、他を固定したまま再生成できる cloud.google.com

このうち個人的に効きが大きいと感じるのは4番目の「弱い入力の発見」です。
文章で書いていると、
書き漏らしに気づきにくい。
JSONだとlightingフィールドが空だから絵が平板になる、
といった当たりがつきやすくなる。
設計レビューの言語として優秀なんですよね。

ちなみにarxivには「SCHEMA for Gemini 3 Pro Image」という論文もあり、
JSON Schema制約による制御の効果を論じています。
論文レベルの裏付けがあるのは心強い。

公式が推奨しているJSONフィールドは何か

業界のデファクトは分かったとして、
Google本家は何を推すのか。
Google Cloud Blogの公式プロンプトガイドが掲載している代表フィールドはこの通りです。

  • subject: 被写体・人物特徴
  • action: 動作
  • location_context: 場所・文脈
  • composition: 構図・カメラアングル
  • style: スタイル・フィルム種別
  • lighting_setup: 照明セットアップ(「三点ソフトボックス」等の機材用語が効く)
  • camera_hardware: カメラ機材(GoPro、Fujifilm、使い捨てカメラ等)
  • lens_settings: レンズ設定(焦点距離・絞り・深度を数値指定)
  • color_grading / film_stock / materiality / texture_emphasis: 質感系

公式のベストプラクティスとして「ポジティブフレーミング」(〜なしと書かず、
欲しいものだけ書く)

「テキストは引用符で囲む」
「カメラ用語で構図をコントロール」の3点が明示されています。
ここ地味に重要。

ヒーロー画像用のJSON雛形(コピペ用)

ここからが記事の本丸です。
LPのファーストビュー画像やSNSサムネを想定したヒーロー画像用のJSON雛形を、
公式フィールド+atlabs.aiのCreative Director Frameworkから統合して組みました。

{
  "label": "hero_visual_v1",
  "tags": ["cinematic", "heroic", "editorial"],
  "aspect_ratio": "16:9",
  "subject": {
    "character": "Asian woman in her 30s",
    "expression": "calm but intense, slight half-smile",
    "wardrobe": "matte black tailored jacket, white inner shirt",
    "pose": "three-quarter view, arms loose, weight on right leg"
  },
  "location_context": "minimalist concrete studio, soft fog, seamless gray backdrop",
  "composition": "centered, rule of thirds, low-angle shot, head room preserved",
  "lighting_setup": "three-point softbox, key light 45 degrees camera-left, warm rim light from back-right",
  "camera_hardware": "Sony A7R V, full-frame sensor",
  "lens_settings": {
    "focal_length": "85mm",
    "aperture": "f/1.8",
    "depth_of_field": "shallow, subject sharp, background smooth bokeh"
  },
  "color_grading": "cool shadows, warm highlights, film-like contrast",
  "film_stock": "Kodak Portra 400 emulation",
  "materiality": "fine fabric weave visible, skin texture natural, no plastic smoothing",
  "mood": "confident, editorial, premium",
  "text_elements": {
    "content": "LAUNCH 2026",
    "font": "sans-serif, bold, clear outline",
    "position": "lower-left, 8% margin"
  },
  "negative_constraints_as_positive": "clean background with no clutter, undistorted hands, natural facial proportions"
}

使い方としては、
まずsubjectlocation_contextだけ差し替えて生成→気に入った構図が出たらlighting_setuplens_settingsを微調整、
という流れが無難だと思います。
一気に全フィールド書き換えると、
どの変更が効いたのか分からなくなる。
これ地味に重要な運用原則。

ポイントがいくつかあります。

  • キーと値は基本すべて英語にする。romptn.comの調査と複数の日本語コミュニティ報告で「英語のほうが精度が出る」という結論で一致。日本語も動くが不安定
  • ネガティブは使わない。ポジティブ言い換え"no people"ではなく"empty room only"と書く(公式推奨)
  • カメラパートは分離するcamera_hardwarelens_settingsをネストで独立させると、機材感・ボケ・遠近感を個別調整できる
  • text_elementsは必ず引用符で囲う。公式ガイドの明示ルール

2Kと4Kでいくらかかるのか

料金の話。
ここが既存の日本語記事でブレやすい部分です。
aifreeapi.comのAPI価格表を基準に、
Nano Banana 2のAPI単価をまとめます。

解像度 通常単価 Batch単価(50%オフ) 生成時間の目安
512px $0.045 $0.022 3〜8秒
1K $0.067 $0.034 5〜15秒
2K $0.101 $0.050 10〜25秒
4K $0.151 $0.076 15〜40秒

日本語で流通している「2K=$0.134 / 4K=$0.24」という数字はNano Banana Proの料金です。
Nano Banana 2のほうは上表の通りで、
4Kで$0.151。
Proと比べると約50%安い。
これはDeepLearning.AIが「約4倍高速、
コスト50%削減」とまとめている通りです。

Gemini Appのサブスク経由で使う場合は次の通り。

プラン 月額 画像生成上限の目安
無料 $0 約20枚/日(2026年1月にクォータ削減後)
AI Plus $7.99/月(約¥1,200) 約50枚/日(2K上限)
AI Pro $19.99/月(約¥2,900) 約100枚/日、フルGemini 3 Pro
AI Ultra $249.99/月(約¥36,400) 約1,000枚/日、ネイティブ4K

無料枠はもともと100枚/日あったのが、
2026年1月のクォータ削減で20枚/日に急減しました。
LaoZhang AI Blogいわく、
一部のProサブスクライバーでさえピーク時に2〜5枚まで絞られる例があるそうです。
本格運用するならAPI直叩きかUltraが現実解
というのが数字を見ての所感です。

評判はどうなっているのか

賛否両論あります。まず賛成側。

従来のAI画像生成の日本語がグチャグチャになる問題がNano Banana 2で解決された。3分で完成する速さ、無料で4K品質。
— KAWAI(noteクリエイター、出典

Nano Banana 2は全体として安定した出力。主要なプロンプト要素を確実に再現する。速く、コスト効率も高い。一方でPro比では出力の多様性が低く、構図・光の演出に変化が出にくい。
— taziku(生成AIスタジオ、出典

一方で、批判・懸念の声も無視できない量が出ています。

昨日Nano Banana 2を試した限りでは、リファレンス周りがProよりも使いづらくなってた印象でした。FLASHは安定度増してるし、0から作るならいい感じ。メリット、デメリットですね。2の癖になれる必要ありますね。
— ユニコ氏(X投稿

日々のProクォータ超過時にNano Banana 2(無料版相当)へ通知なしで自動切り替えされる。ユーザーから「顔が30年老けて見える」「肌のテクスチャがプラスチックのようになった」という報告がReddit等で大規模に発生。
— apiyi.com(2026年4月、出典

同じプロンプトを投げた時に、
Proのほうが多彩な解釈を返してくる、
という観察はコミュニティ全体の共通見解になりつつあります。

ここから個人的な見立てですが、
Nano Banana 2は「速くて安定」、
Nano Banana Proは「多様で豊か」という棲み分け
になってきた感じです。
大量生成・高速イテレーションがしたいならNB2、
アート性重視なら現状はProが上、
と整理するのが公平だと思います。

JSON運用でハマるポイント(先回りメモ)

触る前に知っておきたい罠を、レビュー記事からまとめました。

  • 日本語テキスト描画は改善したが完璧ではない。複雑な漢字・長文・装飾フォントでは崩れる。ひらがな中心+短文+中央配置+"sans-serif, bold, clear outline"指定で回避(romptn.com
  • API経由で日本語プロンプトを投げると画像が返らない事例あり。Thinking modeを明示的に選択すると解消するとの報告(Zenn・ml_bear氏
  • 1K解像度でテキストがぼけることがある。テキスト重要なら最低2K推奨(LaoZhang AI
  • 参照画像を過剰に編集するケースあり。preservedo_not_changeフィールドで保持したい要素を明示(miraflow.ai推奨)
  • ピーク時503エラー。朝方・週末にリクエスト集中。Batch APIで時間をずらすのが得策

実際に遭遇した事象があれば記事はその都度更新します。

どんな人に向いているのか

向いている層と、そうでもない層を整理します。

向いている人 微妙かも
SNSサムネ・LPヒーロー画像を毎週量産したい副業/個人事業主 アート作品として一枚絵の多様性を追求したい人(Proのほうが向く)
コストを下げつつ4K出力が欲しい層 参照画像でのキャラ一貫性を最優先したい人(Proに分がある報告あり)
API経由でバッチ生成したい開発者 Gemini無料枠だけで回したい人(クォータ削減で枠が狭い)
JSONやスキーマ設計が苦じゃない人 直感的UIを好む完全ノーコード層

総括すると、
私がいまから本格的に画像生成を業務に組み込むなら、
「プロンプトはJSONテンプレで固定運用、
モデルはNB2をデフォルト、
アート性が必要な場面だけProに切り替え」
という使い分けが現実的だと思っています。
これが注目している理由です。

よくある質問

Q. Nano Banana 2とNano Banana Proはどちらを使うべきですか

用途によります。
SNSサムネ・LPヒーロー画像の量産ならNB2(速くて安い)。
アート作品や広告ビジュアルなど一枚絵の質を追い込むならPro。
迷うなら両方試せるAI Ultra(月$249.99)が無難ですが、
API直叩きでコスト計算するのも現実的です。

Q. JSONプロンプトは英語で書かないとダメですか

英語のほうが安定するというのが複数ソースの共通見解です(atlabs.ai、
romptn.com等)。
日本語でも動きますが、
特にキー名は英語で固定、
値は英語を基本とし、
どうしても日本語にしたいテキスト要素(画像内に表示する文言)だけ日本語にするのが無難です。
APIで日本語プロンプトが反応しない事例も報告されています。

Q. 無料で使える1日の枚数は本当に20枚ですか

2026年1月のクォータ削減後、
多くのソースが「約20枚/日」と記載しています。
ただしピーク時はさらに絞られる報告あり(一部Proサブスクライバーでも2〜5枚まで制限される例)。
本番運用するなら無料枠に頼らず、
AI PlusかAPIに切り替えるのが安全です。

Q. JSONで書いても毎回違う絵が出るのですがなぜですか

JSONは「揺れを減らす」仕組みであって「揺れをゼロにする」仕組みではありません。
固定したい要素にはseed(使える場合)を明示、
値を具体化する(「明るい」ではなく「45度キーライト、
色温度5600K」等)、
ネガティブをポジティブに書き換える、
の3点を徹底すると揺れがさらに減ります。

Q. Nano Banana 2にはAPIはありますか

あります。
Gemini API経由でgemini-3.1-flash-image-previewモデルIDを指定してアクセスします。
料金は2K=$0.101、
4K=$0.151。
Batch APIなら半額です。
詳細はGemini API公式ドキュメント(ai.google.dev)を参照してください。

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-, , ,

← 戻る