Nano Banana 2のJSONプロンプト設計｜ヒーロー画像を毎回ブレずに出す雛形と料金

Q: Nano Banana 2とNano Banana Proはどちらを使うべきですか

用途によります。SNSサムネ・LPヒーロー画像の量産ならNB2（速くて安い）。アート作品や広告ビジュアルなど1枚絵の質を追い込むならPro。迷うなら両方試せるAI Ultra（月249.99ドル）が無難ですが、API直叩きでコスト計算するのも現実的です。

Q: JSONプロンプトは英語で書かないとダメですか

英語のほうが安定するというのが公式ガイドと複数の検証報告の共通見解です。日本語でも動きますが、特にキー名は英語で固定、値は英語を基本とし、どうしても日本語にしたいテキスト要素だけ日本語にするのが無難です。APIで日本語プロンプトが反応しない事例も報告されています。

Q: 無料で使える1日の枚数は本当に20枚ですか

2026年1月のクォータ削減後、複数のソースが約20枚/日と記載しています。ただしピーク時はさらに絞られる報告あり。本番運用するなら無料枠に頼らず、AI PlusかAPIに切り替えるのが安全です。

Q: JSONで書いても毎回違う絵が出るのですがなぜですか

JSONは揺れを減らす仕組みであって揺れをゼロにする仕組みではありません。固定したい要素にはseedを明示、値を具体化する、ネガティブをポジティブに書き換える、の3点を徹底すると揺れがさらに減ります。

Q: Nano Banana 2にAPIはありますか

あります。Gemini API経由でgemini-3.1-flash-image-previewモデルIDを指定してアクセスします。料金は2K=0.101ドル、4K=0.151ドル。Batch APIなら半額です。

2026年5月17日

公開日: 2026年4月19日／最終更新: 2026年5月17日

この記事の結論

Nano Banana 2は Gemini 3.1 Flash Image（モデルID: gemini-3.1-flash-image-preview、2026年2月26日リリース）。Nano Banana Proとは別モデル
文章プロンプトが毎回ブレるのは「形容詞がどの名詞にかかるか」をAIが毎回違う解釈で処理するから。JSONで項目を分ければ混ざらない
API料金は2K=0.101ドル / 4K=0.151ドル（Batch APIは半額）。Pro比で約4倍速く、コストは半分
ヒーロー画像用のJSON雛形をコピペできる形で本文中に置きました

この記事は LPやSNSサムネのヒーロー画像をAIで毎週量産したい副業・個人事業主向け（JSONを触ったことがなくても読めます）。

画像生成AIに同じプロンプトを投げているのに毎回違う絵が出てきて、3回叩いたら3回ブレた、という経験はみなさんもあると思います。

私もMidjourneyとStable Diffusionでこれを散々やりました。

文章プロンプトは「形容詞がどの名詞にかかるか」をAIが毎回違う解釈で処理するので、運ゲーになる。

Nano Banana 2（Gemini 3.1 Flash Image）でもこの問題は残っています。

ただ、2026年に入って公式ガイド側から 「JSONで書くとブレが劇的に減る」 という運用が推奨され始めた。

Google Cloud Blogが推奨フィールドを明示しているので、引用ベースで構造的に説明がつきます。

そこを記事の背骨にしました。

Nano Banana 2とNano Banana Proはどう違うのか

まず名前の整理から。

2026年現在、Google公式の画像生成モデルには Nano Banana Pro と Nano Banana 2 があります。

これが名称的に紛らわしい。

一次情報を並べるとこうなります。

呼称	正式モデル名	リリース	立ち位置
Nano Banana Pro	Gemini 3 Pro Image	2025年11月	高品質・多様性重視の上位モデル
Nano Banana 2	Gemini 3.1 Flash Image	2026年2月26日	Flash系。約4倍速い／コスト約50%減

日本語の解説記事で 「Nano Banana 2 = Gemini 3 Pro Image」と書いてある例 をちらほら見かけますが、これは誤りです。

Google公式ブログ（blog.google）と Gemini API公式ドキュメント（ai.google.dev）が明示している通り、Nano Banana 2の中身はFlash Imageです。

私はここを取り違えたまま料金表を書いている記事を3本見ました。

Pro側の値段（4K=0.24ドル）を書いてしまうと、読者が10倍規模で予算を見誤ります。

地味だけど大事なポイント。

機能面では、アスペクト比14種、参照画像14枚、キャラクター一貫性5人、4K解像度ネイティブ対応、131,072トークンのコンテキスト。

SynthIDとC2PAメタデータの透かしが自動で入る仕様です。

なぜ文章プロンプトは毎回ブレるのか

記事の背骨はここです。たとえばこんな文章プロンプトを投げたとします。

赤い革のジャケットを着た女性ヒーローが、雨の降る夜のネオン街で立っている。背景のビルには青い看板。シネマティックな構図。

一見丁寧に見えますが、ここには 「赤い」がどこまでかかるのか分からない箇所 が潜んでいます。

革のジャケットだけが赤いのか、背景のネオンも赤寄りに傾くのか、AIにも判別しきれない。

結果、生成のたびに「ジャケット赤・ネオン青」「ジャケットも背景も赤っぽい」「ジャケット朱色・背景マゼンタ」と揺れる。

私が5回叩いた時は3回ブレました。

これを業界では「概念ブリーディング（concept bleeding）」と呼びます。

形容詞や修飾語が、意図しない別の要素にじわっとしみ出す現象のことです。

Google Cloud Blogのプロンプトガイド（cloud.google.com）でも、属性をどの要素に紐づけるかを明示することの重要性が示されています。

構造化された記述によって「red」がどの要素に属するのかが明示され、色の分離が改善される（要約）。
— Google Cloud Blog, Ultimate prompting guide for Nano Banana

文章だと地の文に混ぜて書くしかない情報を、キー名つきでAIに手渡せる。

これがJSONプロンプトの本質です。

私はこの「属性をキーで縛る」発想を知ってから、ブレ率が体感で半分以下になりました。

JSONで書くと何が起きるのか

公式ガイドと複数の解説を横断すると、JSONが効く理由は次の5つに集約されます。

効き方	中身	出典
トークン混乱の低減	色・素材などの属性がどの要素に係るかキー単位で固定される	Google Cloud Blog
概念ブリーディングの防止	形容詞が別要素に染み出すのを防ぐ	Google Cloud Blog
変数の明確な分離	subject/environment/mood/compositionを独立させ個別調整できる	Google Cloud Blog
弱い入力の発見	値が薄いフィールドが一目で見つかり、品質問題の原因特定が早い	Google Cloud Blog
再現性	一部フィールドだけ変更して、他を固定したまま再生成できる	Google Cloud Blog

私が一番効きを実感したのは4番目の「弱い入力の発見」です。

文章で書いていると、書き漏らしに気づきにくい。

JSONだと lighting フィールドが空だから絵が平板になる、という当たりが3秒でつく。

設計レビューの言語として優秀なんですよね。

公式が推奨しているJSONフィールドは何か

業界の流れは分かったとして、Google本家は何を推すのか。

Google Cloud Blogの公式プロンプトガイド（出典）が掲載している代表フィールドはこの通りです。

subject: 被写体・人物特徴
action: 動作
location_context: 場所・文脈
composition: 構図・カメラアングル
style: スタイル・フィルム種別
lighting_setup: 照明セットアップ（「三点ソフトボックス」等の機材用語が効く）
camera_hardware: カメラ機材（GoPro、Fujifilm、使い捨てカメラ等）
lens_settings: レンズ設定（焦点距離・絞り・深度を数値指定）
color_grading / film_stock / materiality / texture_emphasis: 質感系

公式が明示しているベストプラクティスは 「ポジティブフレーミング」（〜なしと書かず、欲しいものだけ書く）、「テキストは引用符で囲む」、「カメラ用語で構図を指定する」 の3点です。

ここ地味に重要。

ヒーロー画像用のJSON雛形（コピペ用）

ここからが記事の本丸です。

LPのファーストビュー画像やSNSサムネを想定したヒーロー画像用のJSON雛形を、公式フィールドを軸に組みました。

値だけ差し替えれば、誰でも同じ構図で量産できます。

{
  "label": "hero_visual_v1",
  "tags": ["cinematic", "heroic", "editorial"],
  "aspect_ratio": "16:9",
  "subject": {
    "character": "Asian woman in her 30s",
    "expression": "calm but intense, slight half-smile",
    "wardrobe": "matte black tailored jacket, white inner shirt",
    "pose": "three-quarter view, arms loose, weight on right leg"
  },
  "location_context": "minimalist concrete studio, soft fog, seamless gray backdrop",
  "composition": "centered, rule of thirds, low-angle shot, head room preserved",
  "lighting_setup": "three-point softbox, key light 45 degrees camera-left, warm rim light from back-right",
  "camera_hardware": "Sony A7R V, full-frame sensor",
  "lens_settings": {
    "focal_length": "85mm",
    "aperture": "f/1.8",
    "depth_of_field": "shallow, subject sharp, background smooth bokeh"
  },
  "color_grading": "cool shadows, warm highlights, film-like contrast",
  "film_stock": "Kodak Portra 400 emulation",
  "materiality": "fine fabric weave visible, skin texture natural, no plastic smoothing",
  "mood": "confident, editorial, premium",
  "text_elements": {
    "content": "LAUNCH 2026",
    "font": "sans-serif, bold, clear outline",
    "position": "lower-left, 8% margin"
  },
  "negative_constraints_as_positive": "clean background with no clutter, undistorted hands, natural facial proportions"
}

使い方の3ステップ

ステップ1: subjectとlocation_contextだけ差し替えて生成する。

最初は2フィールドだけいじります。

期待結果は「絵柄の方向性が固まる」。

詰まりどころは、subjectの人物特徴を抽象語（「美しい女性」）で書いてしまうこと。

私は「Asian woman in her 30s, short black hair」のように年齢・髪型・人種までは必ず具体化します。

ステップ2: 構図が気に入ったらlighting_setupとlens_settingsを微調整する。

期待結果は「光と被写界深度が制御できる」。

詰まりどころは、照明と焦点距離を同時にいじって、どっちが効いたか分からなくなること。

1回1フィールドが鉄則です。

ステップ3: text_elementsで文字を入れる。

期待結果は「LPに使える文字入り画像が完成」。

詰まりどころは、長文・複雑な漢字を入れると崩れること。

短文（10文字以内）・ひらがな中心・引用符で囲む、の3点で回避できます。

運用ポイントを4つ。

キーと値は基本すべて英語にする。複数の日本語コミュニティ報告と私の手元検証で「英語のほうが精度が出る」という結論で一致。日本語も動くけど不安定です
ネガティブは使わず、ポジティブに言い換える。"no people" ではなく "empty room only" と書く（公式推奨）
カメラパートは分離する。camera_hardware と lens_settings をネストで独立させると、機材感・ボケ・遠近感を個別調整できる
text_elementsは必ず引用符で囲う。公式ガイドの明示ルール

2Kと4Kでいくらかかるのか

料金の話。

ここが既存の日本語記事でブレやすい部分です。

Gemini API公式ドキュメント（ai.google.dev/pricing）の数字を基準に、Nano Banana 2のAPI単価をまとめます。

解像度	通常単価	Batch単価（50%オフ）	生成時間の目安
512px	0.045ドル	0.022ドル	3〜8秒
1K	0.067ドル	0.034ドル	5〜15秒
2K	0.101ドル	0.050ドル	10〜25秒
4K	0.151ドル	0.076ドル	15〜40秒

日本語で流通している「2K=0.134ドル / 4K=0.24ドル」という数字は Nano Banana Proの料金 です。

Nano Banana 2のほうは上表の通りで、4Kで0.151ドル。

Proと比べると約50%安い。

100枚作って計算してみると、Proなら24ドル、NB2なら15ドル、差額は9ドル。

月に1,000枚なら90ドル違います。

私なら間違いなくNB2を選びます。

Gemini Appのサブスク経由で使う場合は次の通り。

プラン	月額	画像生成上限の目安
無料	0ドル	約20枚/日（2026年1月にクォータ削減後）
AI Plus	7.99ドル/月（約1,200円）	約50枚/日（2K上限）
AI Pro	19.99ドル/月（約2,900円）	約100枚/日、フルGemini 3 Pro
AI Ultra	249.99ドル/月（約36,400円）	約1,000枚/日、ネイティブ4K

無料枠はもともと100枚/日あったのが、2026年1月のクォータ削減で20枚/日に急減しました。

一部のProサブスクライバーでさえピーク時に2〜5枚まで絞られる例が報告されています。

本格運用するならAPI直叩きかUltraが現実解、というのが数字を見ての所感です。

私なら月100枚以下ならAI Plus、それ以上ならAPI直叩きを選びます。

私は月100枚以下ならAI Plus、月7.99ドルが妥当です。

API直叩きで1,000枚生成しても約101ドル、AI Ultraの249ドルより安く済みます。

2Kで10枚作るのに3分、これがNB2の現実的な速度感です。

評判はどうなっているのか

賛否の両方があります。まずGoogle側の公式発表から。

Nano Banana 2は、Pro並みの世界知識・品質・推論能力を、Flashの高速性と組み合わせたモデル。512pxから4Kまでの解像度に対応し、画像内のテキスト描画と翻訳、最大5キャラクター・14オブジェクトでの一貫性を備える（要約）。
— Google公式ブログ Nano Banana 2発表（出典）

公式の打ち出しは「Pro並みの品質をFlashの速さで」というポジショニング。

私の見方では、これは 「多様性ではなく安定性を取った設計」 として読むのが正確です。

Flash系は元々「同じプロンプトに対する出力ブレを抑える」方向にチューニングされる傾向があり、Nano Banana 2もその系譜に乗っている。

量産用途では追い風、アート用途では物足りない、という温度差はここから来ます。

批判・懸念の側も無視できません。

私が触ってみて感じた弱点と、ユーザーコミュニティで指摘されている弱点を整理するとこうです。

参照画像の保持力はPro系に劣る。同じキャラを別構図で出したい時、Pro系のほうが顔の一貫性が高い印象。NB2は「だいたい同じ」止まりで、SNSサムネには十分でも写真集レベルの厳密さには届かない
テキスト描画の改善は大きいが完璧ではない。短い英文・ひらがなは強くなったが、複雑な漢字や長文は依然崩れる
多様性は意図的に抑えられている。同じJSONを5回叩くと、Proなら5通りの解釈が出るところ、NB2は3〜4通りに収束する。量産には向くがアート性は薄い

私の見方では、Nano Banana 2は「速くて安定」、Nano Banana Proは「多様で豊か」という棲み分けに落ち着きつつあります。

大量生成・高速イテレーションがしたいならNB2、アート性重視なら現状はProが上、と整理するのが公平だと思います。

10枚作って2〜3枚採用するワークフローならNB2、1枚を作り込むならProです。

JSON運用でハマるポイント（先回りメモ）

触る前に知っておきたい罠を、公式ドキュメントと私の検証メモからまとめました。

日本語テキスト描画は改善したが完璧ではない。複雑な漢字・長文・装飾フォントでは崩れる。ひらがな中心＋短文（10文字以内）＋中央配置＋ "sans-serif, bold, clear outline" 指定で回避できる
API経由で日本語プロンプトを投げると画像が返らない事例 あり。Thinking modeを明示的に選択すると解消するという報告がある（Gemini API公式ドキュメントのトラブルシューティング項参照）
1K解像度でテキストがぼけることがある。テキスト重要なら最低2K推奨
参照画像を過剰に編集してしまう ケースあり。preserve や do_not_change フィールドで保持したい要素を明示すると効く
ピーク時に503エラー。朝方・週末にリクエストが集中する。Batch APIで時間をずらすのが得策

私の手元では、土曜午前11時に503が連発した日が1回ありました。

Batchに切り替えて2時間後にまとめて返してもらう運用が一番ストレスがないです。

どんな人に向いているのか

向いている層と、そうでもない層を整理します。

向いている人	微妙かも
SNSサムネ・LPヒーロー画像を毎週量産したい副業・個人事業主	アート作品として1枚絵の多様性を追求したい人（Proのほうが向く）
コストを下げつつ4K出力が欲しい層	参照画像でのキャラ一貫性を最優先したい人(Pro系に分がある)
API経由でバッチ生成したい開発者	Gemini無料枠だけで回したい人（クォータ削減で枠が狭い）
JSONテンプレを使い回したい量産派	直感的UIで触りたい完全ノーコード層

私がいまから本格的に画像生成を業務に組み込むなら、「プロンプトはJSON雛形で固定運用、モデルはNB2をデフォルト、アート性が必要な場面だけProに切り替え」 という使い分けにします。

月のAPI予算は1,000枚で約151ドル、サブスクなら AI Plus（月7.99ドル）を出発点にして、足りなくなったらPro/Ultraに上げる、というのが現実的な階段です。

よくある質問

Q. Nano Banana 2とNano Banana Proはどちらを使うべきですか

用途によります。

SNSサムネ・LPヒーロー画像の量産ならNB2（速くて安い）。

アート作品や広告ビジュアルなど1枚絵の質を追い込むならPro。

迷うなら両方試せるAI Ultra（月249.99ドル）が無難ですが、API直叩きでコスト計算するのも現実的です。

私は月100枚以下なら AI Plus からスタートを薦めます。

Q. JSONプロンプトは英語で書かないとダメですか

英語のほうが安定するというのが公式ガイドと複数の検証報告の共通見解です。

日本語でも動きますが、特にキー名は英語で固定、値は英語を基本とし、どうしても日本語にしたいテキスト要素（画像内に表示する文言）だけ日本語にするのが無難です。

APIで日本語プロンプトが反応しない事例も報告されています。

Q. 無料で使える1日の枚数は本当に20枚ですか

2026年1月のクォータ削減後、複数のソースが「約20枚/日」と記載しています。

ただしピーク時はさらに絞られる報告あり（一部Proサブスクライバーでも2〜5枚まで制限される例）。

本番運用するなら無料枠に頼らず、AI PlusかAPIに切り替えるのが安全です。

Q. JSONで書いても毎回違う絵が出るのですがなぜですか

JSONは「揺れを減らす」仕組みであって「揺れをゼロにする」仕組みではありません。

固定したい要素にはseed（使える場合）を明示、値を具体化する（「明るい」ではなく「45度キーライト、色温度5600K」等）、ネガティブをポジティブに書き換える、の3点を徹底すると揺れがさらに減ります。

私の手元では3回叩いて2回ブレた状態から、5回叩いて1回ブレるくらいまで安定しました。

Q. Nano Banana 2にAPIはありますか

あります。

Gemini API経由で gemini-3.1-flash-image-preview モデルIDを指定してアクセスします。

料金は2K=0.101ドル、4K=0.151ドル。

Batch APIなら半額です。

詳細はGemini API公式ドキュメント（ai.google.dev）を参照してください。

このページに出てきた言葉

プロンプト: AIに対する指示文。「こういう絵を出して」と書いて渡す入力テキスト
JSONプロンプト: 項目名と値を波カッコでセットにしてAIに渡す指示書。文章プロンプトより属性のかかり先が明確で、機械にも人にも読みやすい
ヒーロー画像: LPやSNSで一番目立つメインビジュアル。最初に視線をつかむ1枚
アスペクト比: 画像の縦横比。16:9、1:1、4:5など
トークン: AIが文章を読むときの最小単位。日本語1文字〜2文字でだいたい1トークン
概念ブリーディング: 形容詞が意図しない要素に染み出す現象。色や素材の指定が別物に流れて出る
被写界深度: ピントが合って見える奥行きの範囲。浅いと背景がボケる
ネスト: JSONの入れ子構造。波カッコの中にさらに波カッコを入れる書き方
API: プログラムからAIを呼び出す窓口。コードから直接画像生成を頼める仕組み
Batch API: リクエストをまとめて送って結果を後で受け取る仕組み。料金が半額になる代わりに即時返答ではない
クォータ: 1日あたりの利用上限。サービス側が設定する利用枠
参照画像: 「この絵を参考にして」と添えて渡す元画像。顔や服装を引き継ぎたい時に使う
Thinking mode: Geminiが回答前に内部で考えるプロセスを挟むモード。複雑な指示の取りこぼしが減る

参考リンク

Google公式ブログ（Nano Banana 2）: blog.google
Google Cloud 公式プロンプトガイド: cloud.google.com
Gemini API ドキュメント（画像生成）: ai.google.dev
Gemini API ドキュメント（料金）: ai.google.dev/pricing

この記事を書いた人

aisola

Aisola Lab 運営者

AIツールを使ったコンテンツ制作・リサーチ・WordPress運用を日常的にやっています。自分で動かせるものは実際に触って書き、触っていないものは公式ドキュメントと一次情報をもとに書き分けています。

運営者情報 X（@ai_sola27）note

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-Gemini, Nano Banana, プロンプト, プロンプト設計, 画像作り, 画像生成AI

AI活用全般

2026/7/15

ChatGPT Sitesで家計簿・進捗ボードを作ってURLで配る手順｜サーバー契約もコードも不要

課金中のChatGPTに、プロンプトからWebサイトを作ってURLで配れる「ChatGPT Sites」が入り始めました。サーバー契約もコードも要らず、家計簿・進捗ボード・イベント案内級の小さいサイトを作って共有できるのが売りです。ただしパブリックベータで、容量やデータの保存地域など公式が数字を出していない部分もあります。この記事は課金中のChatGPTで小さなWebサイトを作って誰かに配りたい非エンジニア向け（HTMLを触ったことがなくても読めます）。 ChatGPT Sitesとは？プロンプトか ...

AI活用全般

2026/7/15

ChatGPTに絵コンテを頼むと文字の表しか出ない時｜GPT Image 2で12コマ・秒数つきの撮影設計図を画像1枚で出すプロンプト全文

ChatGPTに「絵コンテを作って」と頼むと、返ってくるのは文字だけの表がほとんどです。でも海外で拡散したあるプロンプトを貼ると、12コマ・秒数つきの撮影設計図が画像1枚で出てきます。 GPT Image 2なら無料プランでも試せて、書き換えるのは商品名の1箇所だけ。この記事は短尺動画を1人で撮っている非エンジニア向け（英語のプロンプトはコピペで大丈夫です）。そもそもこの「12コマ絵コンテ」プロンプトって何？ TikTokやInstagramの短尺動画を撮るとき、多くの人は段取りを頭の中だけで組みま ...

AI活用全般

2026/7/14

Gemini 3.5 Flashは本当に安いのか｜「Proより安い」の裏で前のFlashは3〜6倍値上げ、自分が損か得か見極める

Gemini 3.5 Flashは「3.1 Proより40%安い」も「前のFlashより3〜6倍高い」も、両方ほんとです。無料のGeminiアプリで使う人は前と同じ月額で性能アップ、APIで使う開発者は同じ処理で請求が跳ね上がる。同じモデルなのに損得が逆になります。飛びつく前に、手元の使い方が「無料アプリ側」か「API課金側」かだけは確認しといた方がいい。この記事はGeminiを業務で使い、ChatGPTやClaudeと使い分けているAPIコストが気になる人向け（モデルの料金とトークンの基本が分かれ ...

AI活用全般

2026/7/14

Perplexity ComputerがWord・Excel・Outlookに対応｜会社員の調べ物コピペ往復が消える（月20ドルProから）

WordやExcelの横で調べ物が完結する仕組みが、2026年5月29日に動き出しました。資料を別タブで調べてコピペで戻す、あの往復が消えるという話です。月20ドルのProプランから使えると、Perplexity公式が発表しました。この記事はWord・Excel・Outlookを毎日触る事務・営業・企画職の人向け（関数やプログラミングが分からなくても読めます）。 Perplexity Computerという調べ物AIが、Microsoftのオフィスソフトの中に入りました。Word、Excel、Pow ...

AI活用全般

2026/7/14

Gemini 3.5 Live Translateで旅行・接客・家族の会話を画面見せ合いなしで進める｜Google翻訳に無料で入った同時通訳

スマホの画面を相手に見せ合って、打ち込んで、また見せて。あのもどかしいやり取りが、会話のまま進むようになりました。 Gemini 3.5 Live Translate は、いつものGoogle翻訳アプリに無料で追加された同時通訳機能です。70以上の言語に対応し、サインアップも新アプリも要りません。ただし、契約や医療みたいに誤訳が命取りになる場面では、まだ人の通訳を残したほうがいい。旅行・接客・家族との会話で使い倒すのが、いまの正解だと私は思っています。この記事は英語が苦手で、海外旅行や外国人の接客に不 ...

Claude Learning Modeは答えを返さず問い返すAI｜教師・講師・親が使える3場面とAnthropic公式・学習科学の一次ソース

Grok 4.3 Heavy $300/月は必要か｜v0・Claude Artifacts・Lovableとの料金比較で見る個人開発者の最適解