Respuesta corta: a 28 de marzo de 2026, Nano Banana Pro reference images funciona mejor cuando tratas cada imagen como una responsabilidad concreta y no como una mood board desordenada. Empieza con 2 a 4 referencias, coloca en los seis primeros slots aquello que debe sobrevivir sí o sí y usa una frase del prompt para decir qué controla cada imagen. Si cargas demasiadas imágenes útiles desde el principio, normalmente obtienes más drift, no más precisión.
Nano Banana Pro es el nombre práctico de Google's gemini-3-pro-image-preview, la variante de más precisión dentro de la familia Gemini para imagen. La documentación oficial de Gemini image generation dice ahora que los modelos Gemini 3 para imagen pueden mezclar hasta 14 reference images en una sola petición y que el modelo Pro admite hasta 6 high-fidelity object references más hasta 5 character-consistency references. Ese dato importa, pero hay que leerlo bien: es el techo, no el punto de partida recomendable.
La regla útil es más sencilla. Antes de añadir nada, decide qué parte del resultado no puede perderse: una cara, un producto, un entorno, una textura, un estilo o una pose. Dale a ese ancla visual uno de los slots más tempranos y añade solo imágenes que hagan otro trabajo. Todo lo demás debe esperar hasta que el workflow base ya funcione. Si después necesitas el sistema más amplio de 14 imágenes, el siguiente paso correcto es nuestra guía completa de multi-image composition. Esta página es más estrecha a propósito: setup, orden de slots, estructura de prompt y diagnóstico del drift.
Resumen rápido
- Límite oficial: Google dice que Gemini 3 image models puede mezclar hasta 14 reference images; Nano Banana Pro admite hasta 6 referencias de alta fidelidad para objetos y hasta 5 referencias de consistencia de personaje.
- Mejor set inicial: empieza con 2 a 4 imágenes, no con 10 o más.
- Regla de los seis primeros: lo que no te puedes permitir perder debe estar dentro de los seis primeros slots.
- Regla del prompt: una imagen, un trabajo: subject, identity, pose, environment, style, detail o lighting.
- Fallo típico: cuando las referencias se contradicen, el modelo suele promediarlas en lugar de obedecer la que más te importa.
- Cuándo pagar Pro: cuando necesitas más fidelidad, mejor text rendering o una mezcla compleja de referencias. Para borradores rápidos y baratos, Nano Banana 2 suele ser suficiente.
Empieza con el conjunto de referencias más pequeño que siga siendo útil
El error más común es usar las reference images como si fueran un seguro. Parece lógico pensar que, si añades unas cuantas imágenes extra "por si acaso", el modelo tendrá más contexto y cometerá menos errores. En la práctica suele pasar lo contrario. Una segunda foto de la cara con otra iluminación, otra foto del producto con otro ángulo o una mood board muy marcada pueden competir entre sí y convertir el resultado final en una negociación visual.
Por eso el mejor default es un set mínimo útil. Si estás reestilizando un producto, una imagen del subject y una imagen de estilo o de entorno suelen bastar para comprobar si el workflow está sano. Si quieres preservar a una persona, una identidad clara y una referencia de pose o entorno suelen ser suficientes para ver si el modelo fija la cara y el lenguaje corporal correctos. Solo después de que esa base funcione merece la pena añadir una tercera o cuarta imagen para luz, textura o fondo.
La gran ventaja de empezar pequeño es que el troubleshooting se vuelve legible. Cuando algo falla, puedes aislar con bastante rapidez qué imagen rompió la jerarquía. En cambio, si empiezas con 8 referencias, cada error se vuelve opaco: ya no sabes si el drift viene de una style image demasiado fuerte, de una subject image demasiado débil o de una inspiración secundaria que terminó apoderándose de la composición.
También hay un argumento directo de coste. La página oficial de pricing sitúa Nano Banana Pro, a 28 de marzo de 2026, en el equivalente a $0.134 por imagen 1K o 2K y $0.24 por imagen 4K. No es una barbaridad para un workflow de precisión, pero sí lo bastante caro como para que probar a ciegas con packs enormes de referencias se vuelva un desperdicio. Mucho mejor validar la lógica visual con un set pequeño y decidir después si Pro merece ser el render final.
La pregunta útil no es "¿cuántas imágenes acepta Pro?" sino "¿cuál es el conjunto más pequeño que describe por completo la decisión visual que necesito?". Si respondes eso con honestidad, la mayoría de workflows acaban en la franja de 2 a 4 imágenes para la primera versión realmente buena.
Qué debe ir en tus primeros seis slots

La documentación oficial de Google ya deja más claro el límite que muchas páginas de terceros, pero todavía es fácil perder la consecuencia práctica. Los primeros seis high-fidelity object slots son el lugar donde deben vivir tus anclas visuales no negociables. Si el resultado tiene que conservar una silueta exacta, una cara concreta, un detalle de ropa, una textura o un acabado, esa información debe ir muy pronto. Los slots posteriores deberían funcionar como influencia opcional, no como el lugar donde escondes lo que en realidad esperas que el modelo respete.
La forma más sencilla de pensar esta jerarquía es así: los slots tempranos son para identidad y estructura; los slots tardíos son para influencia. No quiere decir que lo tardío no importe. Quiere decir que tu información más importante no debe existir solo allí.
| Trabajo de la referencia | ¿Debe ir en los seis primeros? | Por qué merece prioridad | Error típico |
|---|---|---|---|
| Subject o producto principal | Sí | Es lo que el modelo debe conservar con más fidelidad | Dejar que una style o scene image posterior le gane peso |
| Foto de identidad del personaje | Sí | La consistencia solo funciona si la cara se lee bien | Usar una selfie pequeña, filtrada o mal iluminada |
| Ancla de pose o composición | Normalmente sí | Ayuda a fijar framing antes de que entren influencias decorativas | Esperar que el texto del prompt arregle la pose después |
| Ancla de entorno o escena | Sí cuando el fondo importa | Si el entorno forma parte de la historia, no puede llegar tarde | Mezclar varias escenas con perspectivas incompatibles |
| Detalle de material o textura | Sí si ese detalle es crítico | Muy útil para packaging, telas, superficies y logos | Poner el close-up tarde y luego perder la textura |
| Referencia de estilo | A veces | Solo cuando el estilo es una restricción dura | Darle prioridad al estilo cuando la fidelidad del subject importa más |
| Referencia de iluminación | Normalmente más tarde | Suele ser apoyo, no ancla principal | Subir varias luces que se contradicen |
| Mood board extra o inspiración | Más tarde o fuera del primer intento | Solo ayuda cuando el set base ya funciona | Subir imágenes vagas que compiten con referencias reales |
Si trabajas con personas, recuerda que "character consistency" no significa que todo el fotograma vaya a quedar congelado. Se refiere sobre todo a preservar a la persona. Eso obliga a que la foto de identidad sea limpia, bien iluminada y lo bastante grande como para que el modelo pueda leerla de verdad. La página del modelo Pro en DeepMind advierte precisamente sobre caras pequeñas, detalles finos y mezclas complejas. Ahí nace buena parte del drift facial.
En workflows de producto, la prioridad cambia un poco. Suele importar más la silueta, el logo, los materiales y las proporciones que la identidad. En ese caso, el hero product shot debe ir primero, seguido de la referencia de detalle o packaging que contiene la textura y las señales de superficie que no puedes perder. El estilo y el lifestyle context deben venir después.
La regla operativa más fácil de aplicar es esta: si te enfadaría perder ese detalle, no lo escondas en un slot tardío.
Una fórmula de prompt que le da a cada imagen un solo trabajo

Muchos consejos sobre prompts para Nano Banana Pro son correctos, pero insuficientes. Sí, la claridad importa. Sí, las restricciones importan. Pero el workflow se vuelve realmente estable cuando la estructura del prompt copia la estructura del set de referencias. El modelo necesita saber qué imagen aporta identity, cuál manda sobre la pose, cuál define el entorno y cuál solo puede influir en el render.
El patrón más fiable es un role-assignment prompt. No describas primero la imagen final y dejes las referencias para el final. Haz lo contrario: nombra las referencias primero y explica después cómo deben combinarse. Eso reduce la probabilidad de que el modelo las trate como inspiración general en lugar de tratarlas como instrucciones.
Un esquema útil es este:
textImage 1: main subject or product to preserve exactly Image 2: character identity / face reference Image 3: pose or composition reference Image 4: environment or scene reference Image 5: style or lighting reference Create one final image that keeps the subject from image 1 intact, preserves the face from image 2, follows the pose from image 3, uses the environment from image 4, and applies only the color mood and lighting direction from image 5. Do not redesign the subject. Do not replace the face. Keep the final result realistic and cohesive.
Esta estructura ayuda por dos motivos. Primero, reduce el role overlap. Segundo, te da algo que puedes depurar. Si deriva la cara, revisas la imagen 2 y la frase asociada. Si el entorno domina demasiado, sabes que la reference image de escena o el wording sobre esa escena eran demasiado fuertes.
Lo que conviene evitar es el prompt de "todo influye en todo". Frases como "use all these images as reference and make a premium cinematic lifestyle image" suenan sofisticadas, pero siguen dejando que el modelo adivine qué referencia manda más. Y ahí empieza el drift.
Es más útil separar las restricciones en tres bloques:
- Must keep: la cara, la silueta del producto, la posición del logo, el patrón del tejido
- Can adapt: el fondo, la temperatura de luz, el recorte final, el ángulo exacto de cámara
- Should avoid: cambiar el producto, cambiar la persona, mezclar dos estilos en un resultado embarrado
Si quieres empujar más fuerte el style transfer, usa una sola style image cada vez y escribe que el estilo debe influir en el render, pero no reemplazar identity ni subject. Después de fijar la lógica de roles, tiene más sentido continuar con nuestra guía de prompt mastery y la guía de clone image style que seguir añadiendo referencias a ciegas.
La idea clave es que el prompt debe describir las relaciones entre imágenes, no solo la imagen final deseada. Nano Banana Pro es bueno inferiendo, pero tu trabajo consiste en reducir el número de inferencias malas que tiene que hacer.
Tres workflows de imágenes de referencia que sí merece la pena copiar
No todos los workflows de referencias fallan del mismo modo. Por eso conviene tener en la cabeza varias formas repetibles de trabajar en lugar de una receta universal. La cuestión no es memorizar plantillas, sino reconocer qué tipo de problema estás resolviendo de verdad.
1. Producto + referencia de estilo
Este es el workflow más limpio y el que la mayoría debería probar primero. Tienes un product shot que debe sobrevivir y una segunda imagen que define mood, composición o tipo de entorno. La misión del modelo es clara: conservar el objeto y cambiar la presentación.
Funciona muy bien para cosmética, electrónica, packaging, mobiliario, calzado y accesorios. La imagen del producto debe ser la más clara y la más temprana. La imagen de estilo o entorno debe ir detrás y no contradecir el ángulo ni la lógica de luz del producto. Si una referencia mira frontal y la otra obliga a una vista cenital extrema, el modelo tendrá que elegir un ganador. Eso no es fidelidad; es conflicto.
El prompt puede ser breve:
textImage 1: hero product to preserve exactly Image 2: premium campaign style and background mood Create a polished product campaign image that keeps the product from image 1 unchanged while applying the lighting mood, composition style, and background treatment from image 2. Keep the product proportions, logos, and material finish intact.
Además, esta es la forma más rápida de saber si Pro te está ayudando de verdad. Si ni siquiera un workflow de dos imágenes consigue mantener silueta, proporciones o logos, el problema suele estar en la calidad de entrada o en el reparto de roles, no en que te falten referencias.
2. Identidad de personaje + control de pose o entorno
Los workflows con personas son más frágiles porque la gente detecta enseguida una cara mal resuelta. Por eso la foto de identidad debe ser fuerte: buena luz, ojos visibles, suficiente tamaño de cara y poco ruido visual. Si la cara es pequeña, el modelo puede conservar el tipo general de persona y aun así perder la identidad exacta.
Aquí la imagen de identidad debe ir primera o segunda, y la pose o el entorno deben llegar después. Si el entorno es dramático pero lo importante es la persona, el entorno no debería ocupar el slot más fuerte. Lo mismo vale para style transfer: no dejes que una style image agresiva ocupe el lugar dominante si el objetivo principal del workflow es conservar la identidad.
Mucha gente culpa al prompt cuando, en realidad, tiene un problema de input. Si la foto de identidad es de baja resolución, está muy filtrada o se parece poco al ángulo deseado, el modelo tiene que interpolar demasiado. Una mejor foto de identidad suele ayudar más que un párrafo más ingenioso.
3. Multi-reference composition pequeña
Aquí es donde muchos workflows se vuelven inestables, pero también donde Pro justifica mejor su existencia. Una composición pequeña con varias referencias significa resolver más de dos trabajos reales a la vez: una persona, un producto, un fondo y una referencia de estilo; o una prenda, una modelo, una localización y una referencia de iluminación.
La versión estable de este patrón sigue siendo pequeña. Cuatro o cinco referencias bien separadas por función suelen ser mejores que doce imágenes ambiguas. Tus referencias no deberían describir la misma dimensión. Si dos imágenes intentan controlar la composición, o dos imágenes compiten por la misma identidad, el modelo promediará. Ese promedio es precisamente lo que mucha gente interpreta como "ignoró mis reference images".
La forma más útil de pensar esta capa es:
- Capa de fidelidad central: subject, persona o producto que no puede derivar
- Capa estructural: pose, environment, layout de la escena
- Capa estética: style, color mood, dirección de iluminación
- Capa opcional de detalle: textura, prop o acabado
Si una referencia no encaja de forma clara en una de esas capas, probablemente no debería estar en la primera ejecución.
Solución de problemas: por qué Nano Banana Pro ignoró, mezcló o deformó tus referencias

La mala noticia es que los fallos con reference images son normales. La buena es que casi siempre se pueden diagnosticar. La propia página de Pro en DeepMind avisa de que mezclar varias imágenes puede crear escenas desajustadas, y los hilos de comunidad también muestran que en algunos workflows de API todavía puede haber rarezas con tamaños de salida y comportamiento preview. Por eso el troubleshooting aquí debe seguir un orden.
| Síntoma | Causa probable | Qué tocar primero |
|---|---|---|
| El estilo sobrevivió pero el subject cambió | La style image pesa más o va antes que el subject | Sube el subject, baja el lenguaje de estilo y exige conservar el subject exactamente |
| La cara se parece, pero no es la misma persona | La foto de identidad es débil, pequeña o está contradicha | Sustituye la foto por una más limpia y elimina cualquier referencia de personaje que compita |
| La composición sale embarrada o promediada | Demasiadas referencias controlan la misma dimensión | Elimina referencias con roles duplicados y deja un solo ancla de composición |
| El fondo es correcto pero la textura del producto falla | El detalle va tarde o falta | Mueve el close-up de textura a los seis primeros slots |
| El resultado final se siente incoherente | Las referencias discrepan en perspectiva, luz o nivel de realismo | Armoniza inputs antes de generar y no mezcles varios objetivos visuales a la vez |
| La API no respeta bien el 2K o responde de forma irregular | Rough edges del preview model o del SDK | Comprueba el tamaño real devuelto, prueba otro SDK o REST directo y mantén un plan de fallback |
| Ves 503 o overload de forma intermitente | Capacidad del backend, no necesariamente el prompt | Reintenta con backoff y no confundas servicio saturado con workflow roto |
El hábito más útil es quitar, no añadir. Si una ejecución falla, recorta el set de referencias hasta la versión mínima que debería seguir funcionando. Si con dos imágenes funciona y con seis deja de funcionar, ya conoces la categoría del problema. A partir de ahí debes averiguar qué imagen añadida rompió la jerarquía, no escribir un prompt cada vez más complejo.
Otro error muy común es corregir la variable equivocada primero. A veces la gente reescribe el prompt cuando el problema real está en el pack de referencias. O cambia las imágenes cuando el prompt nunca asignó roles con claridad. Un orden de depuración fiable sería:
- Confirmar que la imagen de subject o de identidad es realmente buena.
- Eliminar referencias con roles solapados o duplicados.
- Reordenar los seis primeros slots para que lo imprescindible vaya antes.
- Reescribir el prompt nombrando el rol de cada imagen.
- Solo después, tocar la fuerza del estilo o añadir detalles nuevos.
Si el problema no es drift sino refusal o safety block, la ruta cambia. En ese caso conviene pasar a nuestras guías sobre image generation refused y image safety error. Eso ya no es un problema de calidad del prompt, sino de políticas y forma de la petición.
Cuándo merece la pena pagar Pro y cuándo basta con Nano Banana 2
No necesitas Nano Banana Pro para cualquier tarea con referencias. Tiene más sentido cuando te importa una fidelidad más dura, un text rendering más limpio o una composición más compleja de lo que suele aguantar un modelo barato. Eso incluye visuales de producto con branding, continuidad de personaje más estricta, creatividades promocionales y escenas donde una imagen debe conservar mucha estructura mientras otra cambia la dirección visual.
Usa Nano Banana 2 cuando todavía estés explorando. La guía oficial de Gemini 3 coloca gemini-3.1-flash-image-preview como la opción de mayor volumen y menor coste, y ese es justamente el marco mental correcto. Si aún estás probando mood, composición general o ideas de escena, la ruta barata suele tener más sentido. Una vez que la lógica visual ya está demostrada, Pro pasa a ser la herramienta para el render final.
La división más simple sería:
- Elige Pro cuando la jerarquía de reference images importe más que la velocidad.
- Elige Nano Banana 2 cuando la velocidad de iteración y el coste importen más que la adherencia perfecta en el primer intento.
Eso también significa que no conviene reducir esta decisión a "precio por imagen". La pregunta real es si el modelo te ahorra suficientes reintentos como para justificar el coste adicional. En workflows comerciales cargados de referencias, muchas veces sí. En ideación temprana, muchas veces no. Además, el changelog oficial recuerda que Pro sigue siendo una preview-line model lanzada el 20 de noviembre de 2025, así que unas expectativas prudentes forman parte del workflow correcto.
Si el siguiente paso para ti es la parte más técnica, continúa con nuestra API setup guide. Si tu siguiente decisión gira en torno a la calidad de salida, ve a la guía de 4K image generation. Y si terminas necesitando el sistema amplio de referencias múltiples, la lectura correcta es la guía completa de multi-image composition.
La idea final es sencilla: tu primer éxito debería venir de una jerarquía limpia, no de la suerte. Nano Banana Pro es potente, pero sigue mejor las reference images cuando tú ya decidiste de antemano qué manda y qué solo influye.
