AI活用全般

Gemini Nano Banana Proで同じ顔のキャラを量産する方法|参照画像14枚+12フィールドJSONで2枚目以降のブレを止める手順

同じ顔・同じブランドで100枚作っても、2枚目以降がブレて毎回ディレクター修正が入る。

Gemini Nano Banana Proは、参照画像を最大14枚(公式内訳: オブジェクト6枚+人物5枚)と12フィールドJSONで挟むと、初回の一貫性スコアが順を追ったアプローチで85〜90%まで上がるとlaozhang.aiが報告している。

私が注目しているのは、Gemini自身に画像→JSONの特徴抽出をさせる二段ループ。

Banana Editorがツールとして実装し、Lilys.ai掲載のAI Edge Mastery手順(2025年12月28日公開)でも同じ流れが紹介されている。

この記事はクライアント案件でキャラやブランドの一貫性に毎回詰まっている中級クリエイター向け(Photoshop・Figmaを触ったことがあって、AI画像生成は試したけど「2枚目以降ブレる」で実務投入できていない人)。

そもそもGemini Nano Banana Proで何が変わるのか

正式モデル名はGemini 3 Pro Image。

モデルIDは gemini-3-pro-image-preview で、2025年11月20日にGoogle DeepMindが公式発表した。

提供形態はGeminiアプリ・Google AI Studio・Vertex AI・Gemini APIの4経路。

出力解像度は2Kと4Kが選べる。

注目すべきは「考えてから描く」という推論統合。

複雑な指示でも崩れにくいというのが公式の主張。

看板やポスターの多言語テキスト描画にも強いとされる。

Turn your visions into studio-quality designs with unprecedented control(出典: Google DeepMind公式ブログ

個人的に効くと感じているのは、参照画像の枠が一気に増えたこと。

旧世代のGemini 2.5 Flashは「最大3枚入力が最適」とされていたが、Nano Banana Proは合計14枚。

これ正直やばい。

なぜ私が注目しているのか(中級クリエイター視点で3つ)

クライアント案件で「同じキャラで20カット欲しい」「同じブランドのSNSバナーを月50枚」という発注は珍しくない。

1枚目はAIで作れても、2枚目以降が顔・配色・トーンでブレる。

これがAI画像生成を実務投入できなかった最大の壁。

私がNano Banana Proに注目している理由は3つある。

1. 14枚参照という枠の広さ

Google AI Developers公式ドキュメントは、参照画像の上限を次のように明示している。

Up to 6 images of objects with high-fidelity to include in the final image(オブジェクト最大6枚、高精度で最終画像に含める)

Up to 5 images of characters to maintain character consistency(人物キャラクター最大5人、一貫性を維持する)

出典: Google AI Developers Docs

合計14枚から、オブジェクトとキャラクターを使い切ると残り3枚がスタイル参照に回せる、という構造。

「style=3枚」の直接表記は公式にはない点に注意。

サードパーティ記事で「残り3枚はスタイル参照」と解釈されて流通している。

2. JSON構造化プロンプトの効きが数字で出ている

laozhang.aiの分析では、順を追ったJSONワークフローを使うと初回の一貫性スコアが85〜90%、何もしないと60〜70%。

eコマース用途では比率・照明・色再現の不整合率が40%減ったとAiformarketingsが報告している。

私が特に重視しているのは、200枚プロジェクトで生成コストが25〜35%下がるという数字。

50〜70枚の再生成が不要になる計算。

3. Gemini自身に画像→JSON抽出をさせる二段ループ

これが日本語圏ではほぼ紹介されていない技法。

Banana Editorは画像→JSON自動抽出を機能として実装していて、wardrobe・pose・lighting・gear・stylingのセクションごとに属性を分離する仕様。

Detail completeness pass — attribute-by-attribute notes into JSON sections(出典: Banana Editor

JSONを人間が手書きするのではなく、参照画像をGeminiに投げて先にJSON化させてから本生成に回す。

これが量産ワークフローの核。

14枚参照の内訳はどうなっているのか

公式表記とサードパーティ解釈を区別して整理する。表で見るのが速い。

用途枚数出典
オブジェクト(高精度再現)最大6枚Google AI Developers Docs(公式明記)
人物キャラクター(一貫性維持)最大5人Google AI Developers Docs(公式明記)
スタイル参照残り3枚(解釈)サードパーティ解説の解釈。公式に「style=3枚」直接表記なし
合計上限14枚Google公式

比較として、Gemini 3.1 Flash Imageは「人物4人+オブジェクト10枚」で内訳が違う。

Pro版は人物枠に厚く、Flash版はオブジェクト枠に厚い設計。

個人的には、人物5人枠が大きい。

クライアント案件で兄弟キャラ・チームメンバー4人を1枚に収める発注はよくある。

Flash版の4人だと「中心キャラ+脇役3」が限界、Pro版の5人なら主役級5キャラを同時に固定できる。

12フィールドJSONの「3つロック+9つ可変」構造

Atlabs AIが解説しているのは、JSONがコンセプトブリーディング(単語同士が混ざって意図が崩れる現象)を防ぐ仕組み。

By explicitly telling the AI that 'red' belongs to RoomObjects and not Subject, you get a cleaner image with better color separation.(AIに「赤」はSubjectではなくRoomObjectsに属すると明示することで、色の分離がきれいな画像が得られる)

出典: Atlabs AI

ただし12フィールド全部を均等に書く必要はない。

人物一貫性で本当に効くのは3フィールド。

残り9フィールドはシーンごとに可変で構わない。

分類フィールド役割
ロック(固定)subjectキャラ自体の特徴。骨格・髪型・目の色・服装の核
ロック(固定)style絵柄・タッチ・色調の方向性
ロック(固定)camera_or_lensレンズ・画角・距離感
可変poseシーンごとに変える
可変expression表情はカット別
可変lighting朝昼夕夜で変わる
可変backgroundシーン依存
可変wardrobe制服・私服・特殊衣装で切り替え
可変props持ち物
可変composition構図・余白
可変color_paletteシーン色調
可変aspect_ratio1:1 / 9:16 / 16:9

3つロック・9つ可変。

これが量産時の鉄則。

subjectとstyleとcamera_or_lensを固定したJSONテンプレを1キャラ分作っておくと、次のカットからは可変側だけ書き換えれば済む。

Gemini自身にJSONを抽出させる二段ループの手順

これがクライアントワーク量産の本丸。

Banana Editor(画像→JSON抽出ツール)とLilys.ai掲載のAI Edge Mastery手順で示されている流れを再構成する。

核となる考え方はシンプル。

参照画像をGeminiに渡して「この画像のすべての視覚情報をJSON形式で書き出して」と指示し、出てきたJSONを本生成プロンプトに使う。

STEP1: 参照画像をGeminiに投げて特徴を抽出させる

Geminiアプリ(gemini.google.com)またはGoogle AI Studioで、参照キャラ写真を1枚アップロードして次の英文を貼る。

Extract all the visual from this image including all text content and format as it's structured in JSON file.(この画像の視覚情報をすべて抽出して、テキスト内容も含めてJSON形式で構造化してください)

出力は12フィールド前後のJSON。

Banana Editorのドキュメントでは、この処理を「Detail completeness pass」と呼んでいて、wardrobe / pose / lighting / gear / stylingのセクション単位で属性を分離してくれる。

STEP2: 出てきたJSONを編集する(subject・style・camera_or_lensは触らない)

抽出されたJSONのうち、ロック3フィールドはそのまま。

ポーズ・表情・背景・服装などの可変側だけ次のカット用に書き換える。

ここが面倒に見えて実は速い。

subjectの中の「目の色」「肌のトーン」「髪型の細部」を一度AIに書き起こさせると、人間が見落としてた特徴まで残る。

STEP3: 元参照画像+編集後JSONを同時に投げて本生成

Nano Banana Proに、ステップ1で使った参照画像と、ステップ2で編集したJSONを同時投入する。

これで「JSONが伝える特徴」と「画像が伝える特徴」の二重ロックがかかる。

laozhang.aiの実測では、この順を追ったアプローチで初回の一貫性スコアが85〜90%。

手順なしの素プロンプトだと60〜70%。

差は20ポイント。

STEP4: テンプレ化して2キャラ目以降は十数分

laozhang.aiが報告している海外クリエイターの数字では、初回1キャラのテンプレ化に30分〜1時間。

テンプレ化したJSONをDriveなどに保管しておくと、2キャラ目以降は十数分で量産に入れる。

クライアントワークだと「あのキャラ案件のJSONテンプレ」が再利用資産になる。

これが個人クリエイターの単発生成と、制作会社のワークフローの分岐点。

料金はいくらかかるのか

2026年5月時点の公式・参考価格を整理する。

プラン / 経路価格(概算)用途
無料プラン$0(限定枠あり)使い切ると通常Nano Bananaへフォールバック
Google AI Plus約$10/月標準利用枠
Google AI Pro約$20/月高頻度利用
Google AI Ultra約$200/月Flow含む
Vertex AI / Gemini API$0.134/枚(公式)従量課金、4Kは+$0.1/枚
商用案件の推奨ルートVertex AI / Workspace GeminiGoogle公式が明記

私はVertex AIの$0.134/枚という単価が地味に効くと見ている。

200枚プロジェクトでJSONの順を追った設計により再生成50〜70枚減らせるなら、6.7〜9.4ドル分のコスト削減。

月1案件でも年間で意外と効く。

日本ユーザーへの正確な日本円表示はGeminiアプリ内で出るので、そこで確認するのが安全。

為替で揺れる。

限界・注意点はどこにあるのか

歯切れよく書きたいので、限界も同じ温度で書く。

1. 2026年4月に品質低下の報告が出ている

Apiyi(2026年4月)が、コミュニティフォーラム上で「fever pitch」状態の品質低下報告を集約している。

faces look thirty years older / skin textures have become plastic-like / distorted features and skin smearing(顔が30歳老ける/肌がプラスチック質に/特徴の歪みと肌のにじみ)

出典: Apiyi品質低下分析

同記事では、サイレントフォールバック(クォータ消化後に無告知で標準版に切り替わる)、午前は正常で午後に劣化する時間帯依存、3〜4回の編集ループでの累積圧縮も報告されている。

本記事執筆時点の2026年5月でGoogle側が対処済みかは未確認。

2. 著名IPキャラクターは2026年1月から全面拒否

Apiyi(IP制限強化記事)によれば、2026年1月24日ごろからDisneyからの法的警告書受領後、Marvel・Star Wars・Pixarなどの著名IPキャラクター生成が全面拒否対象に。

クライアント案件で「アベンジャーズ風に」みたいな指示は通らない。

これはGoogleのポリシーと著作権側の合意で動いている話。

3. 肖像権・実在人物の扱いは特に厳しい

Google公式の「Generative AI Prohibited Use Policy」(2024年12月更新)は、ディープフェイク・本人合意なしの私的画像・個人データの不正利用を明確に禁止。

romptn.com(日本語一次解説)が整理している商用利用NG例は次の3つ。

  • 他人の顔写真をアップロードして加工する行為
  • 実在人物が特定できる画像の商用利用
  • 実在有名人に酷似した画像の広告利用

商用案件はVertex AIまたはGoogle Workspace with Geminiが公式の推奨ルート。

個人プランで作って業務納品は規約上グレー、ここを外さない。

4. SynthID透かしは削除不可

生成画像にはSynthID電子透かしが自動で入る。

圧縮・色調補正・リサイズしても残存する設計で、意図的な削除は利用規約違反。

C2PA Content Credentialsにも対応。

商用納品ではこの仕様を前提に運用する。

クライアントに「AI生成画像は透かし入り、削除不可」を最初に共有しておくと揉めない。

5. ベンチマーク上の弱点

AtlasCloud Q2 2026のベンチマークでは、文字精度はGPT Image 2が98.50%でトップ。

Nano Banana Proは94.80%、Nano Banana 2は91.20%。

モデル文字精度処理速度API単価
GPT Image 298.50%約4,200ms
Nano Banana Pro94.80%約1,800ms$0.13〜$0.24/コール
Nano Banana 291.20%約850ms$0.06〜$0.09/コール

速度はNB2のほうが2倍以上速い。

文字精度を妥協できる量産案件はNB2、肖像・キャラ一貫性が肝の案件はProという使い分け。

私はキャラ案件をPro、商品撮影系をNB2で振り分けるのが現実的だと思っている。

FAQ

Q1. Aisola Labの過去JSONプロンプト記事と何が違うのか

本記事の独自角度は3つ。

①「JSONを人間が書く」前提を捨てて「Gemini自身に画像→JSON抽出させる二段ループ」を中心に置いた。

②14枚参照の公式内訳(オブジェクト6枚・人物5枚)と「style=3枚」がサードパーティ解釈である点を区別した。

③「3つロック+9つ可変」の運用構造で、12フィールド全部を解説しない焦点設計。

過去記事は「ゼロから生成」「2モデル比較」「JSON一般論」が主軸。

Q2. 実在の有名人やクライアントの顔写真を参照画像に使っていい?

Googleの「Generative AI Prohibited Use Policy」は他人の顔写真の無断使用・実在人物の特定可能な商用利用・有名人酷似画像の広告利用を禁止している。

商用案件はVertex AIまたはGoogle Workspace with Geminiが公式推奨ルート。

クライアント本人または所属モデルから書面で参照画像使用の同意を取った上で、Vertex AI経路で進めるのが安全。

詳細はromptn.comAI総合研究所の商用利用ガイドにある。

Q3. 二段ループは無料プランでもできる?

Geminiアプリの無料枠でNano Banana Proは限定的に使える。

ただしフリークォータを使い切ると通常Nano Bananaへフォールバックする仕様。

本格運用はGoogle AI Pro(約$20/月)かVertex AIのAPI従量課金($0.134/枚)が現実的。

Q4. JSONはどのフィールドが必須?全部書かないとダメ?

必須は3フィールド:subject・style・camera_or_lens。

残り9フィールドはシーンごとに可変で構わない。

Atlabs AIの解説によれば、JSONの本質は「コンセプトブリーディング防止」なので、属性をどのフィールドに置くかさえ明示すればOK。

Q5. 参照画像のサイズや構図に推奨はある?

laozhang.aiが推奨しているのは最小1024×1024px、フレーム内での顔占有率30〜50%。

これより小さい・顔が小さすぎると、subjectフィールドの抽出精度が落ちて一貫性が下がる。

Q6. SynthID透かしは消せる?

消せない。

圧縮・リサイズ・色調補正後も残存する設計で、意図的な削除はGoogle利用規約違反。

商用納品ではこの仕様を前提にクライアントに事前共有しておく。

このページに出てきた言葉

Gemini Nano Banana Pro
Googleが2025年11月にリリースした画像生成モデル。正式名称はGemini 3 Pro Image
JSONプロンプト
項目名と値のセットで構造化したプロンプト書式。AIが「赤」をどの要素に適用すべきか迷わない
コンセプトブリーディング
単語同士の意味が混ざって意図が崩れる現象。JSONで属性の所属を明示することで防げる
二段ループ
①参照画像→JSON抽出→②本生成、の2ステップ構造。Gemini自身に特徴抽出を任せる
subject / style / camera_or_lens
JSONの中で人物一貫性に効く3フィールド。これを固定して残り9フィールドを可変にする
SynthID
生成画像に自動付与される電子透かし。削除不可
サイレントフォールバック
クォータ切れ時に告知なくモデルが下位版に切り替わる挙動
Banana Editor
第三者運営の画像→JSON抽出ツール。bananaeditor.art
法的警告書
著作権者から出される「直ちにやめろ」と求める書面

参考リンク

※この記事の内容は執筆時点のものです。AIは進化が速い分野のため、最新の仕様は公式サイトでご確認ください。

-AI活用全般
-, , ,

← 戻る