짧은 답: 2026년 3월 28일 기준으로 Nano Banana Pro reference images 는 "쓸모 있어 보이는 이미지를 많이 넣는 방식"보다 역할이 분명한 입력 세트로 다룰 때 훨씬 잘 맞습니다. 먼저 2-4장으로 시작하고, 절대 잃으면 안 되는 정보를 첫 6 슬롯에 배치한 뒤, 마지막으로 prompt 에서 각 이미지가 무엇을 제어하는지 적어 주는 방식이 가장 안정적입니다. 처음부터 모든 reference 를 한꺼번에 넣으면 정확도가 올라가기보다 drift 가 커질 가능성이 높습니다.
Nano Banana Pro 는 Google's gemini-3-pro-image-preview 를 가리킵니다. 공식 Gemini image generation 문서는 Gemini 3 image models 가 한 요청에서 최대 14장의 reference images 를 섞을 수 있고, Pro 모델은 최대 6장의 high-fidelity object references 와 최대 5장의 character-consistency references 를 지원한다고 안내합니다. 중요한 점은 이것이 추천 시작점이 아니라 상한선이라는 것입니다.
실전에서는 더 단순한 규칙이 필요합니다. 최종 이미지에서 절대 지우면 안 되는 것이 무엇인지 먼저 정합니다. 사람의 identity 인지, 제품의 silhouette 인지, scene 인지, material detail 인지, style direction 인지부터 결정합니다. 그 핵심 앵커를 가장 이른 슬롯으로 보내고, 그다음에는 다른 역할을 수행하는 이미지만 추가합니다. 나머지는 기본 workflow 가 통과한 뒤에 넣어도 늦지 않습니다. 나중에 더 넓은 14-image 시스템이 필요해지면 multi-image composition 전체 가이드 로 넘어가는 것이 맞습니다. 이 글은 의도적으로 더 좁습니다. reference-image setup, slot order, prompt structure, 그리고 drift 원인만 다룹니다.
핵심 요약
- 공식 한도: Google 은 Gemini 3 image models 가 최대 14장의 reference images 를 섞을 수 있다고 말하며, Nano Banana Pro 는 최대 6장의 high-fidelity object references 와 최대 5장의 character-consistency references 를 지원합니다.
- 가장 좋은 시작 세트: 처음에는 2-4장이면 충분합니다.
- 첫 6 슬롯 규칙: 잃으면 안 되는 정보는 반드시 첫 6 슬롯 안에 둡니다.
- prompt 규칙: 한 이미지에는 한 역할만 줍니다. subject, identity, pose, environment, style, detail, lighting 을 섞지 않습니다.
- 대표적인 실패 원인: reference 들이 서로 충돌하면 모델은 한쪽을 고르는 대신 평균내는 쪽으로 가기 쉽습니다.
- 언제 Pro 를 쓸까: 더 강한 fidelity, 더 안정적인 text rendering, 더 복잡한 composition 이 필요할 때 Pro 가 맞고, 초반 실험이나 저비용 반복에는 Nano Banana 2 가 더 낫습니다.
먼저 최소하지만 충분한 레퍼런스 세트로 시작하기
reference images 를 다룰 때 가장 흔한 실수는 "보험"처럼 이미지를 계속 추가하는 것입니다. 뭔가를 놓칠까 봐 몇 장을 더 넣으면 모델이 더 정확해질 것 같지만, 실제로는 다른 crop, 다른 lighting, 다른 style cue 가 서로 경쟁하면서 hierarchy 를 흐리게 만드는 경우가 많습니다. Nano Banana Pro 가 강력하더라도, 서로 충돌하는 시각 지시를 동시에 해석해야 한다는 사실은 바뀌지 않습니다.
그래서 가장 좋은 기본값은 최소한의 유효 세트입니다. 제품의 형태를 지키면서 스타일만 바꾸고 싶다면 subject 이미지 1장과 style 또는 environment 이미지 1장으로도 workflow 건강 상태를 확인하기에 충분한 경우가 많습니다. 사람을 유지해야 한다면 identity 사진 1장과 pose 또는 environment 이미지 1장으로 얼굴과 body language 가 잘 고정되는지를 먼저 확인할 수 있습니다. 그 기본 버전이 이미 동작할 때만 lighting, texture, background cue 를 위한 3번째와 4번째 이미지를 추가하는 편이 훨씬 낫습니다.
작게 시작하면 troubleshooting 이 훨씬 쉬워집니다. 실패가 나왔을 때 어떤 reference 가 문제를 만들었는지 좁혀 가기 쉽기 때문입니다. 반대로 8장 이상으로 시작하면 무엇이 hierarchy 를 깨뜨렸는지 불분명해집니다. style image 가 너무 강했던 것인지, subject image 가 약했던 것인지, 아니면 mood board 가 composition 을 가져가 버린 것인지가 보이지 않게 됩니다.
비용 측면에서도 작은 세트가 유리합니다. 공식 pricing 페이지에 따르면 2026년 3월 28일 기준 Nano Banana Pro 는 1K 또는 2K 이미지당 $0.134 상당, 4K 이미지당 $0.24 상당입니다. 정밀한 workflow 를 위한 가격으로는 이해할 수 있지만, 큰 reference pack 을 넣고 무작정 시행착오를 하기에는 충분히 비싼 가격입니다. 먼저 작은 세트로 visual logic 를 확인한 다음, 최종 렌더러로 Pro 를 쓸지 결정하는 편이 훨씬 경제적입니다.
실제로 물어야 할 질문은 "Pro 가 몇 장까지 받는가" 가 아니라 "모델이 내가 원하는 결정을 내리기 위해 필요한 최소 세트가 무엇인가" 입니다. 이 질문에 솔직하게 답하면, 대부분의 첫 성공 버전은 2-4장 범위에 머뭅니다.
첫 6개 슬롯에 넣어야 할 것

Google 공식 문서는 한도 자체는 비교적 잘 설명하지만, 실무에서 중요한 것은 그 의미입니다. 첫 6개의 high-fidelity object slots 은 절대 잃으면 안 되는 visual anchor 를 위한 자리입니다. 특정 product silhouette, 특정 face, 중요한 garment detail, 핵심 surface texture 같은 정보는 앞쪽에 있어야 합니다. 뒤쪽 slots 는 optional influence 를 위한 자리이지, 가장 중요한 정보를 몰래 숨겨 두는 곳이 아닙니다.
이 구조를 기억하는 가장 쉬운 방법은 이렇습니다. 앞쪽 slots 은 identity 와 structure 를 위해 쓰고, 뒤쪽 slots 은 influence 를 위해 씁니다. 뒤에 있는 이미지가 무의미하다는 뜻이 아니라, 가장 중요한 정보가 거기에만 있어서는 안 된다는 뜻입니다.
| reference 의 역할 | 첫 6개에 넣어야 하나 | 앞쪽이어야 하는 이유 | 흔한 실수 |
|---|---|---|---|
| 핵심 subject / product | 예 | 모델이 가장 충실하게 보존해야 하는 대상이기 때문 | 뒤쪽 style / scene image 가 주인공을 덮어버리게 두기 |
| 캐릭터 identity 사진 | 예 | character consistency 는 좋은 identity input 이 전제 | 얼굴이 작은 셀카, 강한 필터, 나쁜 조명을 쓰기 |
| pose / composition anchor | 보통 예 | decorative influence 보다 먼저 framing 을 잡게 해 준다 | "prompt 로 나중에 고치면 된다"고 생각해 뒤로 보내기 |
| environment / scene anchor | 배경이 중요하면 예 | environment 가 이야기의 일부라면 앞쪽이 안정적이다 | perspective 가 다른 scene images 를 여러 장 넣기 |
| texture / detail close-up | 중요하면 예 | material, logo, 표면 질감을 잃지 않게 도와준다 | detail 이미지를 뒤로 보내 texture loss 를 부르기 |
| style reference | 경우에 따라 | style 이 hard requirement 일 때만 앞쪽이 맞다 | identity 나 product fidelity 보다 style 을 먼저 세우기 |
| lighting reference | 보통 뒤쪽 | lighting 은 대개 support signal 이다 | 서로 다른 조명을 여러 장 올리기 |
| 추가 inspiration / mood board | 뒤쪽 또는 첫 시도에서는 제외 | base workflow 가 통과한 뒤 influence 로 쓰기 좋다 | vague 한 inspiration 이미지가 실제 reference 와 경쟁하게 두기 |
사람을 다루는 workflow 에서는 "character consistency" 가 전체 프레임 전체를 고정한다는 뜻이 아니라는 점도 중요합니다. 주로 보존되는 것은 사람 그 자체입니다. 따라서 identity 사진은 clear 하고, well lit 이고, 얼굴 비중이 충분히 커야 합니다. DeepMind 의 Pro 모델 페이지도 small faces 와 complex blends 를 약점으로 언급합니다. identity drift 가 자주 생기는 이유가 바로 여기에 있습니다.
제품 workflow 에서는 우선순위가 조금 바뀝니다. 중요한 것은 silhouette, logo, material finish, proportion 입니다. 이 경우에는 hero product shot 을 가장 앞에 두고, texture 나 packaging detail 을 담은 close-up 을 그 다음에 둡니다. style 과 lifestyle context 는 그 뒤에 두는 편이 안전합니다.
실무적으로 가장 유용한 기준은 간단합니다. 잃어버리면 화날 정보라면 뒤쪽 슬롯에 숨기지 말라. 이 한 줄만 지켜도 결과가 많이 좋아집니다.
각 이미지에 역할을 주는 프롬프트 공식

Nano Banana Pro prompt 에 대한 일반적인 조언은 "clarity 가 중요하다", "constraint 가 중요하다"는 수준에서는 맞습니다. 하지만 그것만으로는 부족합니다. workflow 가 안정되는 시점은 prompt 의 구조가 reference set 의 구조를 그대로 닮아 있을 때입니다. 어떤 이미지가 identity 를 공급하고, 어떤 이미지가 pose 를 잡고, 어떤 이미지가 environment 를 담당하고, 어떤 이미지가 style influence 만 주는지 모델이 읽을 수 있어야 합니다.
가장 안정적인 형태는 role-assignment prompt 입니다. 최종 이미지를 먼저 길게 설명한 다음 reference images 를 뒤에 붙이는 방식은 피하는 편이 좋습니다. 먼저 각 image 의 role 을 선언하고, 그 다음에 어떻게 결합할지를 쓰는 편이 모델에게 훨씬 친절합니다.
예를 들면 이런 형태입니다.
textImage 1: main subject or product to preserve exactly Image 2: character identity / face reference Image 3: pose or composition reference Image 4: environment or scene reference Image 5: style or lighting reference Create one final image that keeps the subject from image 1 intact, preserves the face from image 2, follows the pose from image 3, uses the environment from image 4, and applies only the color mood and lighting direction from image 5. Do not redesign the subject. Do not replace the face. Keep the final result realistic and cohesive.
이 구조가 좋은 이유는 두 가지입니다. 첫째, role overlap 을 줄여 줍니다. 둘째, 디버깅이 쉬워집니다. 얼굴이 drift 했으면 image 2 와 그 주변 wording 을 보면 되고, environment 가 너무 강했으면 scene reference 와 관련 문장을 조정하면 됩니다.
반대로 피해야 하는 것은 "모든 이미지가 다 같이 참고되도록" 쓰는 prompt 입니다. 예를 들어 "use all these images as reference and make a premium lifestyle image" 같은 문장은 그럴듯하지만, 실제로는 어떤 reference 가 더 중요한지 모델이 추측하게 만듭니다. drift 는 대개 그 추측에서 시작됩니다.
더 나은 방법은 constraint 를 세 가지로 나누는 것입니다.
- Must keep: 얼굴, product silhouette, logo placement, fabric pattern
- Can adapt: background styling, lighting warmth, crop, camera angle
- Should avoid: subject redesign, person 교체, 여러 style cue 를 muddy 하게 섞는 것
style transfer 를 더 강하게 주고 싶더라도 style reference 는 한 번에 1장만 쓰고, "style 은 rendering 에만 영향을 주고 identity 나 subject 를 바꾸면 안 된다" 고 써 주는 편이 안정적입니다. role logic 가 이미 선명해진 뒤에는 prompt mastery guide 와 clone image style guide 가 더 자연스러운 다음 단계입니다. reference 를 무턱대고 늘리는 것은 순서가 틀렸습니다.
핵심은 prompt 가 "원하는 완성 이미지" 만 설명하는 것이 아니라 이미지들 사이의 관계를 설명해야 한다는 점입니다. Nano Banana Pro 는 inference 는 잘하지만, 나쁜 inference 를 줄이도록 설계하는 일은 사용자의 몫입니다.
그대로 가져다 쓰기 좋은 레퍼런스 워크플로 3가지
reference-image workflow 는 종류에 따라 무너지는 방식이 다릅니다. 그래서 하나의 만능 recipe 를 믿는 것보다, 반복해서 쓸 수 있는 형태를 몇 가지 갖고 있는 편이 훨씬 실용적입니다. 포인트는 템플릿을 외우는 것이 아니라 지금 자신이 어떤 workflow shape 를 돌리고 있는지 알아차리는 것입니다.
1. Product + style reference
가장 깨끗하고 먼저 시험하기 좋은 workflow 입니다. 반드시 살아남아야 하는 product image 가 1장 있고, mood 나 composition, environment quality 를 정하는 style / environment image 가 1장 있습니다. 모델의 임무는 명확합니다. product 는 유지하고 presentation 만 바꾸는 것입니다.
이 패턴은 cosmetics, consumer electronics, packaging, furniture, shoes, fashion accessories 에 특히 잘 맞습니다. product image 는 가장 clear 하고 가장 이른 slot 에 두어야 합니다. style / environment image 는 그 다음에 두되, hero product 의 angle 이나 lighting 과 강하게 충돌하지 않는 것이 좋습니다. 제품은 정면인데 style image 는 극단적인 탑뷰라면, 모델은 둘 중 하나를 선택해야 합니다.
prompt 는 짧아도 충분히 작동합니다.
textImage 1: hero product to preserve exactly Image 2: premium campaign style and background mood Create a polished product campaign image that keeps the product from image 1 unchanged while applying the lighting mood, composition style, and background treatment from image 2. Keep the product proportions, logos, and material finish intact.
이 workflow 는 Pro 가 실제로 도움을 주는지 확인하는 가장 빠른 테스트이기도 합니다. 2-image product flow 조차 silhouette, proportion, logo 를 지키지 못한다면, 문제는 대개 reference 수 부족이 아니라 input quality 와 role wording 에 있습니다.
2. Character identity + pose / environment control
사람이 들어가는 workflow 는 product workflow 보다 훨씬 민감합니다. 얼굴이 조금만 달라져도 바로 어색하게 보이기 때문입니다. 그래서 identity photo 는 강해야 합니다. good lighting, visible eyes, 충분한 얼굴 크기가 필요합니다. 얼굴이 작으면 모델은 "비슷한 사람" 느낌은 유지해도 정확한 identity 는 놓치기 쉽습니다.
이 구조에서는 identity reference 를 1번 또는 2번에 두고, pose / environment 는 그 뒤에 둡니다. environment 가 dramatic 하더라도, 정말 중요한 것이 사람이라면 environment 가 가장 강한 slot 을 차지해서는 안 됩니다. style transfer 에도 같은 논리가 적용됩니다. identity 가 핵심인데 aggressive 한 style image 를 앞세우면 우선순위가 뒤집힙니다.
이 구간에서는 prompt 를 의심하기 전에 input 을 의심해야 할 때가 많습니다. identity photo 가 low resolution 이거나, filter 가 심하거나, 목표 각도와 너무 다르면 모델이 과하게 보간하게 됩니다. 보통은 더 똑똑한 문단보다 더 좋은 identity 이미지가 결과를 더 많이 개선합니다.
3. 작은 multi-reference composition
여기서부터 workflow 가 흔들리기 쉬워지지만, 동시에 Pro 의 존재 이유가 가장 잘 드러나기도 합니다. 사람, product, background, style, 또는 garment, model, location, lighting 처럼 여러 가지 실제 문제를 동시에 풀어야 하는 상황입니다.
하지만 안정적인 버전은 여전히 "작은 구성"입니다. 역할이 분리된 4-5장의 reference 가, 모호한 12장의 이미지보다 낫습니다. reference images 가 같은 dimension 을 동시에 차지하지 않게 해야 합니다. 두 이미지가 동시에 composition 을 가져가거나, 같은 identity 를 두고 경쟁하면 모델은 평균을 냅니다. 사용자가 "reference 를 무시했다"고 느끼는 현상의 상당수는 실제로 이 평균화입니다.
다음과 같이 층을 나누면 이해가 쉽습니다.
- Core fidelity layer: drift 하면 안 되는 subject, person, product
- Structural layer: pose, environment, scene layout
- Aesthetic layer: style, color mood, lighting direction
- Optional detail layer: texture, prop, finish refinement
어느 층에도 자연스럽게 들어가지 않는 reference 는 첫 번째 run 에서는 대체로 필요하지 않습니다.
문제 해결: 왜 Nano Banana Pro 가 레퍼런스를 무시하거나 섞거나 왜곡하는가

나쁜 소식은 reference-image failure 가 정상적인 현상이라는 점입니다. 좋은 소식은 대부분의 failure 가 진단 가능하다는 점입니다. DeepMind 의 Pro 페이지도 여러 이미지를 섞을 때 scene 이 분리되어 보일 수 있다고 인정하고 있고, 커뮤니티 보고에서도 API 경로에 따라 output size behavior 나 preview 특유의 rough edge 가 남아 있는 사례가 보입니다. 그래서 여기서는 prompt 전체를 계속 다시 쓰기보다, 순서대로 원인을 줄여 가는 편이 맞습니다.
| 증상 | 흔한 원인 | 먼저 고칠 것 |
|---|---|---|
| style 은 맞는데 subject 가 바뀜 | style image 가 더 강하거나 더 앞에 있음 | hero subject 를 앞당기고, style wording 을 약하게 하며, subject preserve 를 명시 |
| 얼굴은 비슷하지만 같은 사람이 아님 | identity photo 가 약하거나 작거나, 다른 이미지와 충돌 | 더 선명한 face image 로 교체하고 경쟁하는 character-style 이미지를 삭제 |
| composition 이 muddy 하고 averaged 됨 | 같은 역할을 하는 reference 가 너무 많음 | duplicate-role 이미지를 제거하고 composition anchor 를 하나만 남김 |
| background 는 맞는데 texture 가 사라짐 | detail image 가 늦거나 없음 | texture / detail reference 를 첫 6 슬롯 안으로 이동 |
| 결과가 조각나 보임 | perspective, lighting, realism level 이 충돌 | 입력 이미지를 먼저 harmonize 하고 mixed aesthetic 을 줄임 |
| 2K output 이 불안정함 | preview model 또는 SDK path 의 rough edge | 실제 반환 파일 크기를 확인하고, 다른 SDK 또는 REST 를 시험하며 fallback plan 유지 |
| 503 / overload 가 간헐적으로 나옴 | backend capacity 문제 | backoff retry 를 하고 workflow failure 와 혼동하지 않기 |
가장 유용한 습관은 추가보다 제거입니다. 실패하면 reference set 을 최소 구성으로 줄입니다. 2-image 버전은 되고 6-image 버전은 깨진다면, 문제 범주는 이미 보이는 것입니다. 다음 할 일은 hierarchy 를 깨뜨린 추가 이미지를 찾는 것이지, prompt 를 더 복잡하게 만드는 것이 아닙니다.
또 하나의 흔한 실수는 잘못된 변수를 먼저 고치는 것입니다. reference pack 이 문제인데 prompt 를 계속 고치거나, prompt 가 role 을 명확히 말하지 않았는데 input 이미지부터 바꾸는 식입니다. 안정적인 debugging order 는 대체로 이렇습니다.
- subject 또는 identity image 자체가 충분히 강한지 확인
- overlapping / duplicate-role reference 제거
- 첫 6 슬롯을 재배치해 must-keep 을 앞쪽으로 이동
- prompt 에서 각 image 의 role 을 명시
- 그다음에야 style strength 나 detail reference 를 조정
문제가 drift 가 아니라 refusal 이나 safety block 이라면 경로는 달라집니다. 그 경우에는 image generation refused 가이드 와 image safety error 가이드 로 가야 합니다. 그것은 prompt quality 문제가 아니라 policy 와 request shape 문제입니다.
언제 Pro 에 비용을 써야 하고 언제 Nano Banana 2 로 충분한가
모든 reference-image 작업에 Nano Banana Pro 가 필요한 것은 아닙니다. 더 단단한 fidelity, 더 안정적인 text rendering, 더 복잡한 composition 이 필요한 경우에 가치가 커집니다. branding 이 중요한 product visuals, 더 엄격한 character continuity, promotional graphics, 그리고 subject 구조를 유지한 채 art direction 을 바꾸고 싶은 경우가 대표적입니다.
반대로 아직 탐색 단계라면 Nano Banana 2 가 더 합리적입니다. 공식 Gemini 3 developer guide는 gemini-3.1-flash-image-preview 를 더 높은 처리량과 더 낮은 비용의 lane 으로 설명합니다. mood, rough composition, scene direction 을 탐색하는 단계라면 더 싼 쪽으로 visual logic 를 먼저 잡는 편이 맞습니다. logic 가 검증된 다음에 Pro 를 final render 에 쓰는 것이 순서상 자연스럽습니다.
가장 간단한 분류는 이렇습니다.
- reference hierarchy 가 speed 보다 중요하면 Pro
- iteration speed 와 cost 가 perfect adherence 보다 중요하면 Nano Banana 2
즉, 이 문제를 "이미지 한 장당 얼마인가" 로만 볼 필요는 없습니다. 실제 질문은 모델이 retry 횟수를 얼마나 줄여 주느냐입니다. reference-heavy 한 commercial workflow 에서는 대개 yes 쪽이고, rough ideation 에서는 no 쪽인 경우가 많습니다. 또 공식 changelog 를 보면 Pro 가 2025년 11월 20일에 공개된 preview-line model 이라는 점도 확인됩니다. 조심스러운 기대치는 약점이 아니라 올바른 workflow 의 일부입니다.
이제 implementation 쪽으로 가고 싶다면 다음은 API setup guide 가 자연스럽습니다. output quality 가 다음 질문이라면 4K image generation guide 를 보세요. 더 넓은 multi-reference system 이 필요하면 multi-image composition 전체 가이드 로 넘어가면 됩니다.
결국 가장 중요한 것은 첫 성공을 luck 이 아니라 hierarchy 에서 만들어 내는 것입니다. Nano Banana Pro 는 강력하지만, reference images 를 가장 잘 따르는 순간은 사용자가 먼저 우선순위를 정해 두었을 때입니다.
