短い答え: 2026年3月28日 時点で、Nano Banana Pro reference images を最も安定して使う方法は、画像を「雰囲気の寄せ集め」として渡すことではなく、役割つきの入力として扱うことです。まず 2-4 枚から始め、絶対に残したい情報を最初の 6 スロットに入れ、最後に「各画像が何を担当するか」を 1 文で指定します。最初から便利そうな画像を全部突っ込むと、精度が上がるより先に drift が増えます。
Nano Banana Pro は Google's gemini-3-pro-image-preview です。公式の Gemini image generation ドキュメント では、Gemini 3 の image models が 1 リクエストで最大 14 枚の reference images を混ぜられ、Pro モデルでは最大 6 枚の high-fidelity object references と、最大 5 枚の character-consistency references を使えると明記されています。ここで重要なのは、この数字が「上限」であって「推奨スタート数」ではないことです。
実務で役立つルールはもっと単純です。最終画像で何を絶対に守るべきかを最初に決めます。人物の identity なのか、商品の silhouette なのか、scene なのか、material detail なのか、style direction なのか。そのアンカーを早いスロットに置き、別の仕事をする画像だけをあとから足します。それ以外の画像は、基礎 workflow が動いてからで十分です。後でより広い 14-image 構成が必要なら、次に読むべきは multi-image composition の完全ガイド です。このページは意図的に狭く保っています。reference-image の setup、slot order、prompt structure、そして Pro が drift するときの理由だけに絞ります。
要点まとめ
- 公式上限: Google は Gemini 3 image models が最大 14 枚の reference images を混ぜられると案内しており、Nano Banana Pro では最大 6 枚の high-fidelity object references と最大 5 枚の character-consistency references が使えます。
- 最初のセット: 最初は 2-4 枚で十分です。10 枚以上から始める必要はありません。
- 最初の 6 スロット: 失えない情報は必ず最初の 6 スロットに置きます。
- prompt の基本: 1 枚に 1 役。subject、identity、pose、environment、style、detail、lighting を混ぜないこと。
- 典型的な失敗: reference 同士が競合すると、モデルはどちらかを選ぶより平均化しやすくなります。
- Pro を使うべき場面: より強い fidelity、より安定した text rendering、より複雑な reference composition が必要なとき。初期の試行や安価なラフには Nano Banana 2 が向きます。
まずは最小限で足りる参照画像セットから始める
reference images で最も多い失敗は、「保険のつもりで画像を増やしすぎる」ことです。足りない情報を補うために数枚追加したつもりでも、実際には別の crop、別の lighting、別の style cue が入り込み、モデルがどの画像を優先すべきか分かりにくくなります。Nano Banana Pro は強力ですが、互いに矛盾する視覚指示を同時に解釈しなければならない点は変わりません。
だから最初の default は最小限で成立する setにするべきです。商品の見た目を保ったまま style を変えたいなら、subject 画像 1 枚と style または environment 画像 1 枚で十分なことが多いです。人物の identity を保ちたいなら、identity 写真 1 枚と pose または environment 画像 1 枚で、まず顔と body language が固定できるかを見ます。そこが通ってから、lighting、texture、background cue のために 3 枚目や 4 枚目を足す方が結果が読みやすくなります。
少ない枚数から始める最大の利点は、troubleshooting がしやすいことです。2 枚や 3 枚なら、どの reference が hierarchy を崩したかを比較的すぐ切り分けられます。ところが 8 枚以上を最初から入れると、style image が強すぎたのか、subject image が弱かったのか、あるいは mood board 画像が composition を奪ったのかが見えなくなります。
コスト面でも小さく始める意味があります。公式の pricing ページ では、2026年3月28日 時点で Nano Banana Pro は 1K / 2K 画像が $0.134 相当、4K 画像が $0.24 相当です。高精度な workflow 向けの価格としては極端ではありませんが、大量の reference pack を使って手当たり次第に試すには十分高い価格です。まず小さい set で visual logic を固め、そのあとで Pro を final renderer として使うか判断した方が合理的です。
本当に考えるべきなのは「Pro は何枚まで入るのか」ではなく、「モデルにこの判断をさせるために必要な最小セットは何か」です。そこを正直に考えると、多くの workflow は最初の成功版が 2-4 枚の範囲に収まります。
最初の6スロットに入れるべきもの

Google の公式 docs は上限そのものはかなり明確に書いていますが、実際に重要なのはその解釈です。最初の 6 つの high-fidelity object slots は、絶対に残ってほしい visual anchor を置く場所です。特定の product silhouette、特定の face、重要な garment detail、surface texture など、失ったら困る情報は早い slot に置くべきです。後ろの slot は optional influence のために使い、最重要情報をそこに隠してはいけません。
覚え方はシンプルです。前半の slot は identity と structure、後半の slot は influence です。後ろの画像が不要という意味ではなく、最重要情報がそこにしか存在しない状態を作るな、という意味です。
| reference の仕事 | 最初の 6 に入れるべきか | 優先すべき理由 | よくあるミス |
|---|---|---|---|
| 主役の subject / product | はい | もっとも忠実に残したい対象だから | 後ろの style / scene image に主役を負けさせる |
| 人物の identity 写真 | はい | character consistency は良い identity input が前提 | 小さな顔、強い filter、悪い lighting の selfie を使う |
| pose / composition の anchor | たいていはい | decorative influence より先に framing を理解させやすい | 「prompt であとから直る」と思って遅らせる |
| environment / scene anchor | 背景が重要ならはい | 背景が story の一部なら早い方が安定する | perspective の違う scene images を複数入れる |
| texture / detail close-up | 重要ならはい | material や logo を落としたくない workflow で効く | detail image を後ろに置いて texture loss を招く |
| style reference | 場合による | style が hard requirement のときだけ早めでよい | identity や product fidelity より style を先にする |
| lighting reference | ふつうは後ろ | lighting は support signal であることが多い | 矛盾する light references を複数入れる |
| extra inspiration / mood board | 後ろか、最初は不要 | base workflow が安定した後の influence 用 | vague な inspiration 画像を入れて本物の reference と競合させる |
人物 workflow では、"character consistency" が「画像全体が固定される」意味ではないことも重要です。主に守られるのは人物そのものです。だから identity 写真は clear で、well lit で、顔が十分大きくないといけません。DeepMind の Pro model ページ も small faces や complex blends を弱点として挙げています。identity drift が起こりやすいのはここです。
商品 workflow では優先順位が少し変わります。大事なのは silhouette、logo、material finish、proportion です。この場合は hero product shot を最優先に置き、その次に texture や packaging detail を持った close-up を置きます。style や lifestyle context はそのあとです。
実務でいちばん使いやすい判断基準はこれです。失ったら腹が立つ情報は、後ろの slot に隠さない。それだけで構成はかなり改善します。
画像ごとに役割を割り当てるプロンプトの型

Nano Banana Pro の prompt advice は「clarity が大事」「constraint が大事」という方向では正しいです。ただ、それだけでは足りません。workflow が安定するのは、prompt の構造が reference set の構造をそのまま写しているときです。どの画像が identity を供給し、どの画像が pose を決め、どの画像が environment を決め、どの画像が style influence だけを与えるのかをモデルが読める必要があります。
もっとも安定しやすいのは role-assignment prompt です。先に最終画像だけを説明して、reference images はあとで補足する、という書き方は避けた方がいいです。最初に各 image の role を宣言し、そのあとでどう組み合わせるかを書く方が、モデルにとって inference しやすくなります。
たとえば次のような形です。
textImage 1: main subject or product to preserve exactly Image 2: character identity / face reference Image 3: pose or composition reference Image 4: environment or scene reference Image 5: style or lighting reference Create one final image that keeps the subject from image 1 intact, preserves the face from image 2, follows the pose from image 3, uses the environment from image 4, and applies only the color mood and lighting direction from image 5. Do not redesign the subject. Do not replace the face. Keep the final result realistic and cohesive.
この形が良い理由は 2 つあります。1 つ目は role overlap を減らせること。2 つ目は debug しやすいことです。顔が drift したなら image 2 まわりを見ればよいし、environment が強すぎたなら image 4 の wording や scene reference を調整すればよい、という見通しが立ちます。
避けたいのは "全部をまとめて参考にしてすごい画像を作って" という prompt です。たとえば "use all these images as reference and make a premium lifestyle image" のような prompt は一見具体的ですが、実際には「どの画像を一番重く扱うか」をモデルに丸投げしています。drift はその推測から始まります。
より安定するのは、constraint を 3 つに分ける書き方です。
- Must keep: face、product silhouette、logo placement、fabric pattern
- Can adapt: background styling、lighting warmth、crop、camera angle
- Should avoid: subject の redesign、person の差し替え、複数 style cue の泥状ミックス
style transfer を強めたいときも、style reference は 1 枚ずつ扱い、「style は rendering にだけ影響し、identity や subject を置き換えない」と明記する方が安定します。role logic が固まったあとで、次に読むべきは prompt mastery guide と clone image style guide です。reference を闇雲に増やすのは順番が逆です。
要するに、prompt は「完成図」だけでなく、画像と画像の関係を説明しないといけません。Nano Banana Pro は推論が得意ですが、悪い推論をさせない設計は人間側の仕事です。
そのまま真似しやすい3つの参照画像ワークフロー
reference-image workflow は、種類によって壊れ方が違います。だから 1 つの万能 recipe を信じるより、再利用しやすい形を 3 つほど持っておく方が実用的です。大事なのは template を暗記することではなく、自分が今どの shape の workflow を動かしているかを見抜くことです。
1. Product + style reference
これは最も clean で、最初に試す価値が高い workflow です。残したい product image が 1 枚あり、mood や composition、background quality を決める style / environment image が 1 枚ある。モデルの役割は明快で、product を守りながら presentation だけを変えることです。
この形は cosmetics、consumer electronics、packaging、furniture、shoes、fashion accessories で特に使いやすいです。product image はもっとも clear で早い slot に置きます。style / environment image は 2 番目に置き、hero product の angle や lighting と強く矛盾しないものを使います。front-facing product に対して overhead campaign image をぶつけると、モデルはどちらを優先すべきか迷います。
prompt は短くても成立します。
textImage 1: hero product to preserve exactly Image 2: premium campaign style and background mood Create a polished product campaign image that keeps the product from image 1 unchanged while applying the lighting mood, composition style, and background treatment from image 2. Keep the product proportions, logos, and material finish intact.
この workflow は、Pro が本当に役に立っているかを見極める fastest check でもあります。2-image の product flow でさえ silhouette や logo が崩れるなら、原因は reference 数不足よりも input quality と role wording の方にあることがほとんどです。
2. Character identity + pose / environment control
人物 workflow は product workflow より壊れやすいです。少し違う顔でも人間はすぐに気づくからです。だから identity photo は強くなければなりません。good lighting、visible eyes、十分な face size が必要です。顔が小さいと、モデルは「その人っぽさ」は残せても「その人そのもの」は残しにくくなります。
この workflow では identity reference を 1 番目か 2 番目に置き、pose / environment はその後に置きます。environment が dramatic でも、あなたが本当に守りたいのが人物なら、environment を最強 slot に置くべきではありません。同じことは style transfer にも当てはまります。identity が目的なのに aggressive な style image を先頭に置くと、priority が逆転します。
この場面では prompt を疑う前に input を疑うべきケースが多いです。identity photo が low resolution だったり、strong filter がかかっていたり、目標 angle と乖離していたりすると、モデルは補間しすぎてしまいます。より良い identity image は、より巧妙な段落より効果が大きいことが多いです。
3. 小さめの multi-reference composition
ここから workflow は不安定になりやすいですが、同時に Pro の意味が出てくる領域でもあります。人、product、background、style、あるいは garment、model、location、lighting など、複数の仕事を同時に解く必要があるケースです。
ただし安定版はやはり「小さい」です。4-5 枚で roles がきれいに分かれている方が、12 枚の曖昧な images より強いです。reference images が同じ dimension を二重に支配しないようにします。2 枚とも composition を取りに行ったり、2 枚とも同じ identity を取りに行ったりすると、モデルは average します。ユーザーが「reference を無視した」と感じる現象の多くは、実際にはこの average です。
考え方としては次の 4 層が分かりやすいです。
- Core fidelity layer: drift してはいけない subject、person、product
- Structural layer: pose、environment、scene layout
- Aesthetic layer: style、color mood、lighting direction
- Optional detail layer: texture、prop、finish refinement
どこにも自然に入らない reference は、たいてい初回 run には不要です。
トラブルシュート: なぜ Nano Banana Pro は参照画像を無視したり混ぜたり崩したりするのか

悪い news は、reference-image failure は普通に起こることです。良い news は、多くの failure が診断可能だということです。DeepMind の Pro ページ も、複数画像の blend で disjointed scene が起こりうると認めていますし、API 経由では output size behavior や preview 特有の rough edge が残るケースもあります。なので prompt 全体を書き直し続けるより、順番に原因を潰す方が合理的です。
| 症状 | ありがちな原因 | 最初に直すべきこと |
|---|---|---|
| style は合っているのに subject が変わった | style image の方が強いか、slot が早い | hero subject を早い slot に移し、style wording を弱め、subject preserve を明示する |
| 顔は少し似ているが同一人物ではない | identity photo が弱い、小さい、または別画像と競合している | より clear な face image に差し替え、競合する character-style image を削る |
| composition が muddy で averaged に見える | 同じ役割を担う reference が多すぎる | duplicate-role image を外し、1 つの composition anchor に絞る |
| background は合うのに product texture が落ちる | detail image が遅いか足りない | texture / detail reference を最初の 6 に上げる |
| 最終画像が disjointed に見える | perspective、lighting、realism level が衝突している | 入力画像同士を 먼저 harmonize し、mixed aesthetic を避ける |
| 2K output が不安定 | preview model や SDK path の rough edge | 返却ファイルの寸法を確認し、別 SDK や REST を試し、fallback plan を持つ |
| 503 / overload が断続的に出る | backend capacity の問題 | backoff retry を行い、workflow failure と混同しない |
もっとも役に立つ習慣は 足すより削ること です。失敗したら reference set を最小構成に戻します。2-image 版が動いて 6-image 版で壊れるなら、問題カテゴリはもう見えています。次にやるべきことは、どの追加画像が hierarchy を壊したかを突き止めることです。
また、多くの人は最初に直す変数を間違えます。reference pack が悪いのに prompt を書き換え続けたり、prompt が役割を明示していないのに画像だけ差し替えたりします。安定しやすい debugging order は次の通りです。
- subject または identity image 自体が十分強いか確認する
- overlapping / duplicate-role の reference を外す
- 最初の 6 スロットを並べ替え、must-keep を前に出す
- prompt で各 image の role を明示する
- そのあとで style strength や detail reference を調整する
もし failure が drift ではなく refusal や safety block なら、進むべきルートは別です。その場合は image generation refused のガイド と image safety error のガイド を見てください。そこは prompt quality というより policy と request shape の問題です。
Pro に払うべき場面と Nano Banana 2 で足りる場面
すべての reference-image task に Nano Banana Pro が必要なわけではありません。価値が出やすいのは、より硬い fidelity、より clean な text rendering、より複雑な reference composition が必要なときです。brand product visuals、より厳しい character continuity、promotional graphics、subject を保ったまま art direction だけを変えたいケースは Pro 向きです。
一方で、まだ探索段階なら Nano Banana 2 の方が合理的です。公式の Gemini 3 developer guide は gemini-3.1-flash-image-preview を高スループット・低価格寄りの lane として位置づけています。mood、rough composition、scene idea を探っている段階では、安い方で logic を固める方が正しい順番です。logic が固まってから final render に Pro を使うのが自然です。
いちばん単純な分け方はこうです。
- reference hierarchy が speed より重要なら Pro
- iteration speed と cost が perfect adherence より重要なら Nano Banana 2
つまり、単なる「画像 1 枚の価格比較」にしてしまうべき話ではありません。実際の問いは、そのモデルが retry の回数をどれだけ減らしてくれるかです。reference-heavy な commercial workflow では yes になりやすく、rough ideation では no になりやすい。さらに 公式 changelog でも、Pro が 2025年11月20日 に公開された preview-line model だと分かります。慎重な期待値は weakness ではなく、正しい workflow の一部です。
ここから implementation 側に進みたいなら、次は API setup guide が自然です。output quality が次の論点なら 4K image generation guide を見てください。もっと広い reference system が必要なら multi-image composition の完全ガイド に進むのが正解です。
結局いちばん大切なのは、最初の成功を luck ではなく hierarchy から作ることです。Nano Banana Pro は強いですが、reference images に最も素直に従うのは、あなたが先に priority を決めているときです。
