AIFreeAPI Logo

Nano Banana Pro Reference Images: лучшая настройка и исправления (2026)

A
19 min readГенерация изображений ИИ

Reference images в Nano Banana Pro работают лучше всего, когда вы начинаете с 2-4 изображений, резервируете первые шесть слотов под критически важные референсы и назначаете каждой картинке одну роль. Это руководство объясняет официальные лимиты, структуру промпта против дрейфа и что менять первым, если модель игнорирует ваши референсы.

Схема workflow для reference images в Nano Banana Pro: приоритет слотов, роли изображений и путь диагностики

Короткий ответ: по состоянию на 28 марта 2026 года reference images в Nano Banana Pro работают лучше не как хаотичная mood board-подборка, а как набор явно назначенных ролей. Начинайте с 2-4 изображений, ставьте то, что обязано сохраниться, в первые шесть слотов, и отдельной строкой в промпте объясняйте, что контролирует каждое изображение. Если сразу загрузить все "полезные" картинки, обычно получается не больше точности, а больше дрейфа.

Nano Banana Pro — это Google's gemini-3-pro-image-preview, более точная image-модель внутри семейства Gemini. Официальные документы по image generation теперь прямо говорят, что Gemini 3 image models могут смешивать до 14 reference images в одном запросе, а Pro-модель поддерживает до 6 high-fidelity object references и до 5 character-consistency references. Это реальные верхние лимиты, но это не лучший стартовый набор. Большинство неудачных генераций ломаются не от "слишком мало", а от "слишком широко и слишком рано".

Практическое правило простое. Сначала решите, что в итоговой картинке нельзя потерять: человека, продукт, сцену, материал, фирменную форму или стиль. Этот визуальный якорь должен получить максимально ранний слот. После этого добавляйте только те reference images, которые выполняют другую работу. Все остальные изображения должны ждать, пока базовый workflow уже не заработал. Если позже вам нужен более широкий 14-image сценарий, продолжайте с нашим полным руководством по multi-image composition. Эта страница намеренно уже: стартовая настройка reference images, порядок слотов, структура промпта и причины, по которым Pro все равно иногда дрейфует.

Краткое содержание

  • Официальный лимит: Google пишет, что Gemini 3 image models могут смешивать до 14 reference images, а Nano Banana Pro поддерживает до 6 high-fidelity object references и до 5 character-consistency references.
  • Лучший стартовый набор: начинайте с 2-4 изображений, а не с 10+.
  • Правило первых шести: все, что обязано пережить генерацию без потерь, должно сидеть в первых шести слотах.
  • Правило промпта: одна картинка — одна роль: subject, identity, environment, pose, style, detail или lighting.
  • Типичный сбой: когда reference images конфликтуют, модель чаще усредняет их, чем выбирает тот источник, который вы имели в виду.
  • Когда Pro действительно нужен: когда вам важны жесткая fidelity, более уверенный text rendering или более сложное совмещение нескольких референсов. Для дешевых быстрых черновиков лучше подходит Nano Banana 2.

Начинайте с минимально достаточного набора референсов

Главная ошибка большинства пользователей в том, что они воспринимают reference images как страховку. Кажется логичным добавить еще несколько картинок "на всякий случай", чтобы модель точно ничего не упустила. На практике дополнительные изображения часто вносят не ясность, а конкурирующие сигналы. Вторая фотография лица с другим светом, другой crop продукта, агрессивная стильовая mood board-картинка — все это начинает спорить за управление финальным кадром.

Именно поэтому лучший дефолт — минимальный полезный набор. Если вы стилизуете продукт или предмет, одной subject-картинки и одной style/environment картинки обычно достаточно, чтобы проверить, здоров ли workflow. Если вы сохраняете человека, одной identity-фотографии и одной pose/environment картинки хватает, чтобы понять, держит ли модель правильное лицо и нужный язык тела. Только после того как эта базовая версия уже работает, стоит добавлять третью или четвертую reference image для света, материалов, фактуры или конкретного фона.

Преимущество малого набора в том, что он хорошо диагностируется. Когда модель ошибается, вы относительно быстро понимаете, какой референс вызвал проблему. Когда вы стартуете с 8 картинками, каждая неудача становится загадкой. Вы уже не знаете, виноват ли слишком сильный style reference, слишком слабый subject image или случайная mood board-картинка, которая тихо перехватила композицию.

Есть и прямой аргумент по стоимости. На официальной странице цен Nano Banana Pro на 28 марта 2026 года стоит эквивалент $0.134 за изображение 1K или 2K и $0.24 за 4K. Для precision-workflow это не экстремально дорого, но достаточно дорого, чтобы слепой перебор огромных reference packs быстро стал бессмысленной тратой. Намного разумнее сначала проверить логику на маленьком наборе, а затем уже решать, нужен ли Pro для финального high-quality рендера.

Правильный вопрос — не "сколько reference images умеет Pro", а "какой минимальный набор полностью описывает то решение, которое мне нужно от модели". Если отвечать честно, первый рабочий запуск у большинства людей попадает именно в диапазон 2-4 изображений.

Что должно попасть в первые шесть слотов

Схема приоритета слотов для Nano Banana Pro reference images: какие задачи должны занимать первые шесть high-fidelity слотов
Схема приоритета слотов для Nano Banana Pro reference images: какие задачи должны занимать первые шесть high-fidelity слотов

Официальные документы Google сегодня объясняют лимиты лучше, чем большинство сторонних страниц, но практический смысл этих лимитов все равно легко упустить. Первые шесть high-fidelity object reference slots — это место для ваших необсуждаемых визуальных якорей. Если итог обязательно должен сохранить конкретный силуэт продукта, конкретное лицо, важную деталь одежды или определенную фактуру поверхности, эти картинки должны стоять рано. Поздние слоты должны быть местом для optional influence, а не для того, на что вы тайно надеетесь как на главный источник правды.

Проще всего запомнить так: ранние слоты отвечают за identity и structural fidelity, поздние — за влияние. Это не значит, что поздние изображения бесполезны. Это значит, что ваши самые важные данные не должны жить только там.

Задача референсаКласть в первые шесть?Почему это должно быть раноТипичная ошибка
Главный subject или продукт, который нельзя потерятьДаЭто тот объект, который модель должна сохранить наиболее точноПозволить позднему style или scene image задавить геройский объект
Фото identity персонажаДаCharacter consistency работает только если лицо читается чисто и четкоИспользовать маленькое селфи, фильтр или слишком сложный свет
Pose или композиционный якорьОбычно даРаннее расположение помогает модели понять framing до декоративных влиянийНадеяться, что текст в промпте потом "исправит" позу
Environment или scene anchorДа, если фон важенРанняя позиция помогает, когда среда — часть истории, а не просто декорДавать несколько конфликтующих scene references
Material/detail close-upДа, если фактура критичнаОсобенно важно для luxury products, тканей, упаковки, поверхности, логотиповДержать деталь поздно, а потом удивляться потере фактуры
Style referenceИногдаРанний слот оправдан только когда стиль — жесткое ограничениеСтавить стиль первым, когда product fidelity важнее
Lighting referenceОбычно позжеСвет важен, но чаще он поддерживает, а не определяет сценуЗагружать несколько световых референсов, которые спорят друг с другом
Дополнительная inspiration или mood board-картинкаОбычно позже или вообще не нужна в первом прогонеПодходит как tiebreaker только после того, как базовый набор уже работаетЗагружать размытые вдохновляющие картинки, которые конкурируют с реальными reference images

Если вы работаете с людьми, важно помнить: "character consistency" — это не гарантия того, что вся картинка останется фиксированной. В первую очередь это про сохранение человека. Поэтому identity reference должен быть четким, хорошо освещенным и достаточно крупным, чтобы модель вообще могла прочитать лицо. Страница модели Pro у DeepMind прямо предупреждает, что маленькие лица, сложные сцены и агрессивное смешивание по-прежнему проблемны. Отсюда и возникает большая часть identity drift.

Если вы работаете с продуктами, приоритеты немного смещаются. Для product workflow важнее форма, логотип, материалы и пропорции, чем "character consistency". В этом случае главный product shot должен стоять очень рано, а сразу за ним — detail close-up или packaging reference, в котором живут фактура и фирменные признаки, которые нельзя потерять. Style и lifestyle-контекст должны приходить позже.

Самое полезное рабочее правило такое: если вы будете злиться, потеряв этот элемент, не прячьте его в поздний слот.

Формула промпта, которая назначает каждой картинке одну роль

Формула role assignment для Nano Banana Pro reference images: subject, identity, scene, style и detail работают как отдельные роли
Формула role assignment для Nano Banana Pro reference images: subject, identity, scene, style и detail работают как отдельные роли

Многие советы по промптам для Nano Banana Pro формально верны, но все еще неполны. Да, важна ясность. Да, важны ограничения. Но workflow становится надежным только тогда, когда структура промпта отражает структуру reference set. Модель должна понимать, какая картинка поставляет identity, какая отвечает за pose, какая — за scene, а какая лишь добавляет style influence.

Самый надежный паттерн — role-assignment prompt. Не описывайте сначала только итоговую картинку, а потом вскользь не упоминайте reference images. Сначала назовите роли reference images, а потом уже объясните, как они должны соединиться. Тогда ниже риск, что модель воспримет ваши картинки как "общее вдохновение", а не как instructions.

Рабочий шаблон выглядит так:

text
Image 1: main subject or product to preserve exactly Image 2: character identity / face reference Image 3: pose or composition reference Image 4: environment or scene reference Image 5: style or lighting reference Create one final image that keeps the subject from image 1 intact, preserves the face from image 2, follows the pose from image 3, uses the environment from image 4, and applies only the color mood and lighting direction from image 5. Do not redesign the subject. Do not replace the face. Keep the final result realistic and cohesive.

У такого формата есть два сильных преимущества. Во-первых, он режет role overlap. Во-вторых, он хорошо отлаживается. Если поплыло лицо, вы смотрите на face reference и фразу про image 2. Если фон стал слишком доминирующим, значит scene reference или wording вокруг image 4 оказались слишком сильными.

То, чего стоит избегать, — это промпт "пусть все влияет на все". Формулировки вроде "use all these images as reference and make a premium cinematic lifestyle image with perfect skin and modern composition" звучат богато, но по сути заставляют модель самой угадывать, кто из reference images важнее. Именно в этом месте и рождается дрейф.

Гораздо лучше разделять ограничения на три группы:

  • Must keep: лицо, силуэт продукта, позицию логотипа, рисунок ткани
  • Can adapt: фон, температуру света, crop, точный camera angle
  • Should avoid: менять форму продукта, менять человека, смешивать два style cues в один мутный результат

Если вы хотите сильнее нажать на style transfer, используйте только один style reference за раз и явно пишите, что стиль влияет на rendering, но не заменяет identity. Когда role logic уже стабилен, полезнее идти дальше в наш prompt mastery guide и style cloning guide, чем бездумно добавлять новые картинки.

Ключевая мысль тут в том, что промпт должен описывать отношения между reference images, а не только красивую картинку, которую вы хотите получить. Nano Banana Pro хорош в inference. Ваша задача — сократить число плохих inference, которые ему приходится делать самому.

Три рабочих схемы с референсами, которые стоит копировать

Разные reference workflows ломаются по-разному, поэтому полезнее держать в голове несколько повторяемых схем, чем одну якобы универсальную формулу. Смысл не в том, чтобы зубрить шаблоны, а в том, чтобы быстро распознать, какой workflow вы реально запускаете.

1. Product + style reference

Это самый чистый reference workflow и тот, который большинству людей стоит проверить первым. У вас есть один product shot, который обязан сохраниться, и одна вторая картинка, которая задает mood, композицию или качество сцены. У модели здесь очень ясная задача: продукт сохранить, presentation поменять.

Этот паттерн особенно хорошо работает для косметики, consumer electronics, упаковки, мебели, обуви и fashion accessories. Product image должен быть самым ясным и самым ранним. Style/environment image должен идти следом и не должен противоречить герою по углу или свету. Если продукт снят фронтально, а вторая reference image агрессивно верхнеугольная, модель вынуждена выбирать победителя. Это уже не faithful workflow, а переговоры между конфликтующими сигналами.

Для этой схемы достаточно короткого промпта:

text
Image 1: hero product to preserve exactly Image 2: premium campaign style and background mood Create a polished product campaign image that keeps the product from image 1 unchanged while applying the lighting mood, composition style, and background treatment from image 2. Keep the product proportions, logos, and material finish intact.

Именно на такой схеме быстрее всего видно, помогает ли Pro в вашем случае вообще. Если даже двухизображенческий product workflow не держит силуэт, пропорции и логотип, проблема почти всегда в input quality или role wording, а не в нехватке reference images.

2. Character identity + pose или environment control

Character workflow заметно более хрупкий, потому что люди мгновенно замечают даже чуть неправильное лицо. Поэтому identity reference должен быть сильным: четкое фото, нормальный свет, видимые глаза, достаточная площадь лица. Если лицо слишком маленькое, модель может удержать общий типаж, но потерять точную identity.

В этой схеме identity reference должен идти первым или вторым, а pose/environment reference — после него. Если environment драматичен, но человек для вас важнее, environment не должен занимать самый сильный слот. То же правило действует и для style transfer. Не позволяйте агрессивной style-картинке занимать ключевую позицию, если весь смысл reference workflow — удержать именно этого персонажа.

Именно здесь многие начинают винить wording промпта там, где реальная проблема сидит в input. Если identity photo маленькое, замыленное, фильтрованное или слишком не похоже на желаемый ракурс, модель вынуждена слишком много интерполировать. Более качественное identity image обычно помогает сильнее, чем еще один "умный" абзац.

3. Небольшая multi-reference composition

Тут workflow уже легко становится нестабильным, но именно здесь Pro показывает, зачем он существует. Небольшая multi-reference composition — это когда вы решаете не две, а сразу несколько реальных задач: например, человек, продукт, background и style reference; или модель, одежда, локация и lighting reference.

Надежная версия такого workflow все равно должна оставаться небольшой. Четыре или пять разнесенных по ролям reference images лучше, чем двенадцать расплывчатых. Референсы не должны описывать один и тот же уровень одновременно. Если две картинки обе хотят управлять composition, или две разные картинки спорят за одну и ту же identity, модель будет усреднять. Именно это усреднение люди потом часто называют фразой "модель проигнорировала мои референсы".

Лучше думать слоями:

  1. Core fidelity layer: subject, person или product, который не должен дрейфовать
  2. Structural layer: pose, environment, scene layout
  3. Aesthetic layer: style, color mood, lighting direction
  4. Optional detail layer: texture, prop или finish refinement

Если какая-то reference image не может ясно вписаться в один из этих слоев, скорее всего, ей не место в первом запуске.

Разбор проблем: почему Nano Banana Pro игнорирует, смешивает или искажает референсы

Диагностическая схема дрейфа reference images в Nano Banana Pro: конфликт, слабые входы и исправления порядка слотов
Диагностическая схема дрейфа reference images в Nano Banana Pro: конфликт, слабые входы и исправления порядка слотов

Плохая новость в том, что reference-image failures — нормальная часть процесса. Хорошая новость в том, что их обычно можно диагностировать. Официальная страница модели Pro прямо предупреждает, что смешивание нескольких изображений может давать разрозненные сцены, а обсуждения в сообществах показывают, что даже output size behavior в некоторых API flows все еще бывает шероховатым. Поэтому troubleshoot здесь нужно не хаотично, а в правильном порядке.

СимптомВероятная причинаЧто менять первым
Стиль сохранился, а subject поменялсяStyle image сильнее или стоит раньше, чем subjectПереместите геройский subject раньше, ослабьте style language и явно потребуйте preserve the subject exactly
Лицо похоже, но это не тот же человекIdentity photo слишком слабое, слишком маленькое или ему противоречит другая картинкаЗамените face reference на более чистый снимок и удалите конфликтующую character-style картинку
Композиция выглядит усредненной и мутнойСлишком много reference images пытаются управлять одним измерениемУберите duplicate-role изображения и оставьте один composition anchor
Фон правильный, а фактура продукта потеряласьDetail close-up слишком поздний или отсутствуетПоднимите texture/detail reference в первые шесть слотов
Финальный кадр выглядит разрозненнымРеференсы спорят по перспективе, свету или realism levelСначала гармонизируйте inputs, потом пишите промпт, не смешивайте разные визуальные режимы
API результат не держит ожидаемый 2K output или ведет себя неровноPreview-модель или SDK-specific behaviorПроверяйте размер финального файла, пробуйте другой SDK или прямой REST и держите fallback plan
Появляются 503 или overload spikesПроблема в backend capacity, а не обязательно в промптеДайте backoff-retry и не путайте сервисную перегрузку со сломанным reference workflow

Самая полезная привычка в таких ситуациях — убирать, а не добавлять. Если запуск сломался, сократите reference set до минимальной версии, которая все еще должна работать. Если двухкартинный вариант работает, а шестикартинный ломается, вы уже нашли класс проблемы. Дальше нужно понять, какая из добавленных картинок сместила hierarchy, а не изобретать еще более сложный промпт.

Еще одна частая ошибка — чинить не ту переменную первой. Люди переписывают промпт, когда проблема в самом reference pack. Или меняют input images, когда промпт ни разу явно не назначал им роли. Надежный порядок диагностики выглядит так:

  1. Убедитесь, что subject или identity image сами по себе достаточно сильные.
  2. Удалите overlapping и duplicate-role reference images.
  3. Переставьте первые шесть слотов так, чтобы must-keep изображения шли рано.
  4. Перепишите промпт, называя роль каждой картинки явно.
  5. И только потом регулируйте силу стиля или добавляйте detail references.

Если проблема — не обычный дрейф, а refusal или safety block, путь другой. Тогда переходите к нашим гайдам по image generation refused и image safety error. Это не проблема "плохого prompt quality", а проблема policy boundaries и формы запроса.

Когда стоит платить за Pro, а когда достаточно Nano Banana 2

Nano Banana Pro нужен не для каждой задачи с референсами. Он оправдан тогда, когда вам важны более жесткая fidelity, лучший text rendering или более сложная composition из нескольких reference images, чем может удержать более дешевая модель. Это касается брендовых product visuals, более строгой character continuity, сложных промо-изображений и сценариев, где одна картинка должна сохранить структуру, а другая — изменить art direction.

Nano Banana 2 разумнее использовать тогда, когда workflow еще исследовательский. Официальный developer guide по Gemini 3 позиционирует gemini-3.1-flash-image-preview как более дешевый и более высокопроизводительный sibling. Это именно тот mental model, который здесь нужен. Пока вы только ищете mood, rough composition и общий scene direction, более дешевая линия обычно рациональнее. Когда визуальная логика уже подтверждена, Pro становится хорошим финальным рендерером.

Самое простое разделение такое:

  • Выбирайте Pro, когда hierarchy reference images важнее скорости.
  • Выбирайте Nano Banana 2, когда скорость итераций и стоимость важнее идеальной adherence с первого раза.

Поэтому не стоит сводить все к вопросу "сколько стоит картинка". Настоящее решение — экономит ли модель вам столько повторных запусков, чтобы оправдать более дорогой quality path. Для reference-heavy commercial workflows ответ часто "да". Для rough ideation — часто "нет". И еще один важный факт: официальный changelog напоминает, что Pro — это preview-line model, выпущенная 20 ноября 2025 года. Осторожные ожидания — часть правильного workflow, а не знак, что вы делаете что-то неправильно.

Если после этого вам нужен более технический путь внедрения, следующая страница — наш API setup guide. Если следующий вопрос — про output quality, переходите к гайду по 4K image generation. А если вам действительно нужна более широкая multi-reference система, правильный следующий шаг — полный composition guide.

Самое важное: ваш первый успешный результат должен появиться благодаря четкой hierarchy, а не благодаря удаче. Nano Banana Pro силен, но лучше всего он следует reference images тогда, когда вы заранее решили, что является главным, а что — только влияющим сигналом.

Nano Banana Pro

4K Изображение-80%

Google Gemini 3 Pro Image · AI Генерация

Обслужено 100K+ разработчиков
$0.24/изобр.
$0.05/изобр.
Спецпредложение·Стабильный·Alipay/WeChat
Gemini 3
Нативная модель
Прямой доступ
20мс задержка
4K Ultra HD
2048px
30сек генерация
Сверхбыстро
|@laozhang_cn|$0.05 бонус

200+ AI Models API

Jan 2026
GPT-5.2Claude 4.5Gemini 3Grok 4+195
Image
80% OFF
gemini-3-pro-image$0.05

GPT-Image-1.5 · Flux

Video
80% OFF
Veo3 · Sora2$0.15/gen
16% OFF5-Min📊 99.9% SLA👥 100K+