简短答案:截至 2026 年 3 月 28 日,Nano Banana Pro 参考图最稳定的用法不是把一堆“看起来有帮助”的图片一起塞进去,而是把每张图当成一个明确角色。先从 2 到 4 张开始,把必须高保真的内容放进前六个槽位,再用一句提示词说明每张图分别控制什么。如果一开始就堆到很多张,通常得到的不是更精准,而是更严重的漂移。
Nano Banana Pro 对应 Google 的 gemini-3-pro-image-preview。官方 Gemini 图像生成文档 现在明确写到:Gemini 3 图像模型一次最多可混合 14 张参考图,而 Pro 模型最多支持 6 张高保真物体参考图以及最多 5 张角色一致性参考图。这些数字是真实上限,但不等于推荐起步配置。大多数失败并不是因为参考图太少,而是因为参考图过多、彼此抢角色。
真正有用的默认规则很简单:先决定你最不能丢的是什么,是人物身份、产品外形、场景构图、材质细节,还是风格方向。把那个视觉锚点尽量放在前面,再只加入真正承担不同职责的图片。其余图片等基础工作流跑通之后再说。如果你后面确实需要更完整的多图系统,可以继续看我们的多参考图组合完整指南。这篇文章故意保持更窄:只讲参考图设置、槽位顺序、提示词结构,以及 Pro 为什么仍然会漂移。
要点速览
- **官方上限:**Google 说明 Gemini 3 图像模型最多可以混合 14 张参考图,而 Nano Banana Pro 支持最多 6 张高保真对象参考图,加上最多 5 张角色一致性参考图。
- **最佳起步集:**先用 2 到 4 张,不要一上来就 10 张以上。只有当每张图承担清晰职责时,更多参考图才会真正有帮助。
- **前六规则:**必须保留的主体、身份、细节,应优先放在前六个槽位。
- **提示词规则:**给每张图一个职责,例如主体、角色身份、环境、姿态、风格、材质或光线。
- **常见失败原因:**参考图彼此冲突时,模型往往会把它们平均,而不是听从你真正最在意的那张。
- **什么时候该用 Pro:**当你需要更强的参考保真度、更稳定的文字渲染或更复杂的多图组合时用 Pro;如果只是先找构图和氛围,Nano Banana 2 往往更划算。
先从最小但足够的参考图组合开始
很多人会把参考图当成“保险”。他们担心模型漏掉什么,于是额外多放几张图补强。但在 Nano Banana Pro 里,额外上下文经常带来的不是保险,而是歧义。第二张脸部照片如果光线不同,另一张产品图如果角度冲突,或者某张灵感板图片风格太强,都会和真正应该保留的核心参考图争夺控制权。
因此,最稳的默认策略是最小可用参考集。如果你在做产品重绘或改风格,一个主体图加一张风格图或环境图,已经足够测试流程是否健康。如果你要保留某个人物,一张身份照加一张姿态图或环境图,通常已经足够判断模型是否抓住了对的脸和身体语言。只有在这个基础版本已经工作后,第三张或第四张图才值得用于补光线、材质细节或背景信息。
小集合的最大优势是排错清晰。模型失败时,你比较容易判断是哪张图把结果带偏了。相反,如果你一开始就上传 8 张甚至更多参考图,每一次失败都像黑箱。你不知道到底是风格图太强、主体图太弱,还是某张“看起来挺有用”的灵感图偷偷接管了构图。
这里还有一个直接的成本问题。Google 官方 定价页 目前列出的 Nano Banana Pro 价格,按 2026 年 3 月 28 日计算,相当于 每张 1K 或 2K 图像 0.134 美元,每张 4K 图像 0.24 美元。这不是离谱的价格,但也绝对不适合用大量大包参考图做盲试错。正确做法是先用小集合把视觉逻辑跑通,再决定是否值得把 Pro 用在最终成片上。
真正应该问的问题不是“Pro 最多能吃多少张参考图”,而是“为了让模型做出我需要的那个决定,最小且完整的参考集是什么”。只要你诚实回答这个问题,第一版成功工作流通常都会落在 2 到 4 张这个区间。
前六个槽位应该放什么

Google 的官方文档比大多数第三方页面更清楚地写出了参考图上限,但真正重要的实际含义依然经常被忽略。前六个高保真对象参考槽位,应该留给那些你绝对不能丢的视觉锚点。如果成图必须保留某个产品轮廓、某张脸、某件衣服的关键细节,或者某种材质纹理,这些图片就应该尽量早放。后面的槽位更适合承担可选影响,而不是“你其实最希望模型听它”的信息。
最容易记住的方式是:**前面的槽位负责身份与结构保真,后面的槽位负责影响和微调。**这不代表后面完全不重要,而是说最关键的信息绝对不能只存在于后排。
| 参考图职责 | 应放进前六吗 | 为什么值得优先 | 常见误区 |
|---|---|---|---|
| 必须保住的主体或产品 | 是 | 模型应当最忠实保留这张图里的核心对象 | 让后面的风格图或场景图反过来压过主体 |
| 角色身份照 | 是 | Pro 的角色一致性能力要建立在高质量身份图上 | 用小脸、滤镜重、光线差的自拍做身份图 |
| 姿态或构图锚点 | 通常是 | 提前放置能让模型先理解画面结构 | 觉得“提示词会修好姿势”,所以把它放很后面 |
| 场景或环境锚点 | 背景重要时应优先 | 如果环境本身是叙事的一部分,就不能只当装饰 | 一次给好几张视角冲突的场景图 |
| 材质或细节特写 | 细节必须保留时应优先 | 对包装、布料、表面质感、logo 非常重要 | 把细节图放到很后,再问为什么纹理丢了 |
| 风格参考图 | 有时 | 当风格是硬约束时可以提前 | 身份或产品保真更重要时却把风格排最前 |
| 光线参考图 | 通常靠后 | 光线大多是支持性信息,不应压过主体 | 同时上传多张互相矛盾的打光图 |
| 灵感板或情绪板 | 通常靠后,甚至先不用 | 只有基础流程稳定后才适合作为辅助影响 | 上传含糊、职责不清的灵感图和真正参考图抢控制权 |
如果你做的是人物工作流,要记住“角色一致性”不等于“整张图所有要素都固定不变”。它本质上更偏向于保住这个人本身。因此身份照仍然要清晰、光线稳定、脸部面积足够大。DeepMind 的 Pro 模型页 明确提到,小脸、复杂混合和细节丰富的组合仍然容易出问题,这也是人物漂移最常见的根源之一。
如果你做的是产品图,优先级会略有不同。产品工作流通常最在意的是轮廓、logo、材质表面和比例。这种情况下,英雄产品图应排在最前,接着是承载表面纹理、包装细节或结构特征的特写。生活方式场景图和风格图应排在后面,否则它们很容易反客为主。
一个最好执行的判断标准是:如果这个细节丢了你会生气,就不要把它藏在后排槽位。
给每张图一个职责的提示词公式

很多关于 Nano Banana Pro 的提示词建议本身没有错,但仍然不够。确实,提示词需要清晰、约束要明确;但只有当提示词的结构和参考图的结构对应起来时,流程才会变稳定。模型需要知道:哪张图负责身份,哪张图负责姿态,哪张图负责风格,哪些信息只允许轻度影响,而不能改掉主体。
最稳的提示词模式,是先给图片分角色,再描述这些角色如何组合。不要先写“我想要一张怎样的成图”,最后再补一句“请参考这些图片”。更可靠的顺序是先命名参考图,再说明每张图对最终结果的控制边界。这样可以显著降低模型把你的参考图当成“灵感”而不是“指令”的概率。
你可以用下面这种结构:
text图 1:必须精确保留的主体或产品 图 2:角色身份 / 脸部参考 图 3:姿态或构图参考 图 4:环境或场景参考 图 5:风格或光线参考 请生成一张最终图像,保留图 1 的主体结构, 保留图 2 的人物身份, 遵循图 3 的姿态与画面安排, 使用图 4 的环境, 只吸收图 5 的色彩氛围和光线方向。 不要重设计主体,不要替换人物身份, 保持整体真实、统一、不过度混合。
这个结构有两个直接好处。第一,它能减少角色重叠。第二,它天然更容易排错。如果脸变了,你先检查身份照和与图 2 对应的那句提示词;如果环境把主体压住了,你知道问题大概率出在环境参考图或环境描述太强,而不是整段提示词都要重写。
你真正应该避免的是“让所有图片一起发挥作用”的写法。像“请参考所有这些图片,生成一张高级、电影感、真实、光影完美、构图现代的商业图片”这种提示词,听起来具体,其实还是把最关键的判断交给模型自己猜。漂移大多数时候就发生在这一步。
更稳的写法,是把约束拆成三类:
- **必须保留:**脸、产品轮廓、logo 位置、面料图案
- **可以适配:**背景风格、光线冷暖、最终裁切、具体机位
- **应该避免:**换主体、换脸、把两个风格混成泥、改掉产品结构
如果你想进一步加强风格迁移,也应该一次只用一张风格参考图,并明确写出“风格只影响渲染方式,不得替换身份或主体”。等角色逻辑已经稳固之后,再去看我们的提示词进阶指南和风格克隆指南才更有效,而不是靠继续加图碰运气。
真正的核心不是把最终想要的画面描述得更华丽,而是让提示词准确描述图片与图片之间的关系。Nano Banana Pro 擅长推断,但你的工作是尽量减少它必须做出的错误推断。
三种值得直接照搬的参考图工作流
不同类型的参考图任务会以不同方式失败,因此准备几种可重复的工作流,比指望“一套万能模板”要靠谱得多。重点不是背模板,而是先认出你现在真正跑的是哪种结构。
1. 产品图 + 风格图
这是最干净、也最值得先测试的参考图工作流。你有一张必须保住的产品图,再加一张负责情绪、构图或场景质感的风格图。模型的任务很清楚:产品保持不变,展示方式发生变化。
这种模式很适合化妆品、消费电子、包装、家具、鞋类和时尚配件。产品图应是最清楚、最靠前的那张,风格或环境图排在第二位,而且不应与产品图的角度和光线强烈冲突。如果产品图是正面,环境图却是强俯拍,模型其实是在被迫选边站,这并不是忠实工作流,而是一场视觉谈判。
对应的提示词可以很短:
text图 1:必须精确保留的产品主体 图 2:高级广告风格与背景氛围 请生成一张商业产品图,保持图 1 的产品形状、 logo、材质和比例不变,同时借用图 2 的光线氛围、 构图风格与背景处理方式。
这也是判断 Pro 到底有没有帮到你的最快方法。如果连两张图的产品流程都保不住轮廓、比例或 logo,问题通常不在于“参考图还不够多”,而在于输入图质量和角色分配本身。
2. 人物身份 + 姿态或环境控制
人物流程更脆弱,因为人脸比产品更容易被一眼识别出问题。所以身份图必须足够强,最好是清晰、光线稳定、眼睛可见、脸部占比足够大的照片。如果脸很小,模型可能保住“像这个人”的感觉,却保不住“就是这个人”的精确身份。DeepMind 的限制说明 对这一点说得很直白。
在这种流程里,身份图应该排在第一或第二,姿态图和环境图放在后面。如果环境很戏剧化,但你最在意的是人物本人,那么环境就不应该压过身份。同样的道理也适用于风格迁移。既然你搜索“参考图”的真正动机是保住人物身份,就不要让风格图占据最强槽位。
很多创作者会把这种失败误判成“提示词写得不够聪明”。实际上,问题往往是输入图太差。如果身份照分辨率低、滤镜重,或者和目标角度差太大,模型就会被迫脑补。比起继续打磨文案,一张更好的身份照通常更能提升结果。
3. 小规模多参考图组合
一旦参考图任务超过两张,工作流就开始变得容易失稳,但这也是 Pro 真正体现价值的地方。小规模多参考图组合,通常意味着你要同时解决三到五个明确问题:例如人物、产品、背景和风格,或模特、服装、地点与灯光。
稳定的版本依然应该是“小而清晰”。四到五个职责分离的参考图,通常比十二张含糊不清的图更强。你的每张参考图最好只负责一个维度。如果两张图都试图控制构图,或者两张图都试图定义同一个人物身份,模型就很容易把它们混在一起。人们口中的“模型没听参考图”,很多时候其实就是模型在替你做平均。
这种流程最适合用分层思维来组织:
- **核心保真层:**绝不能漂移的主体、人物或产品
- **结构层:**姿态、环境、画面布局
- **审美层:**风格、颜色氛围、光线方向
- **可选细节层:**纹理、道具、表面修饰
如果某张参考图连自己属于哪一层都说不清,它大概率不应该出现在第一轮里。
排查:为什么 Nano Banana Pro 忽略、混合或扭曲了你的参考图

坏消息是,参考图失败非常正常。好消息是,大多数失败都可以诊断。Google 自己的 Pro 模型页 就提醒过,多图混合可能导致场景割裂,而社区讨论也表明,在某些 API 流程里,输出尺寸和预览模型行为仍然会偶尔不稳定。因此遇到失败时,正确做法不是一次次重写整段提示词,而是按顺序排查。
| 症状 | 可能原因 | 优先先改什么 |
|---|---|---|
| 风格保住了,但主体变了 | 风格图比主体图更强或更靠前 | 把主体图提前,弱化风格描述,明确要求精确保留主体 |
| 脸有点像,但不是同一个人 | 身份图太弱、脸太小,或被别的图冲突 | 换更清晰的身份照,并删掉冲突的人物风格图 |
| 构图发糊、像被平均 | 太多参考图同时控制同一维度 | 删掉重复职责的图片,只保留一个构图锚点 |
| 背景对了,但产品表面细节丢了 | 细节图太靠后或根本没给 | 把材质或表面特写移进前六槽位 |
| 最终图看起来割裂 | 参考图在视角、光线、写实程度上互相打架 | 先统一输入图风格,再写提示词,不要混多个现实层级 |
| API 返回的 2K 尺寸不稳定 | 预览模型或 SDK 处理仍有粗糙处 | 检查返回文件尺寸,换 SDK 或直接 REST 重试,并保留备用渲染方案 |
| 间歇性 503 或 overload 错误 | 服务端容量问题,不一定是提示词 | 退避重试,不要把服务波动误判成参考图工作流失败 |
最有效的排错习惯其实是删,而不是加。当一次生成失败时,把参考图裁回最小可用版本。如果两张图的版本能工作、六张图的版本会失败,你其实已经知道问题类别了。接下来要做的是找出哪张新增图片改变了层级,而不是去发明更复杂的提示词。
另一个常见误区是先修错变量。很多人会先重写提示词,但真正的问题是参考图包本身;也有人先换图,其实是因为提示词从来没明确告诉模型每张图负责什么。更稳的排查顺序应该是:
- 先确认主体图或身份图本身质量足够。
- 删除所有职责重叠或重复的参考图。
- 调整前六个槽位,把必须保留的信息提到前面。
- 重写提示词,逐张命名参考图角色。
- 只有在这之后,再去调整风格强度或增加细节图。
如果你遇到的不是普通漂移,而是拒绝响应或安全拦截,那么路线就不同了。那种情况下应转到我们的图像生成被拒绝指南和图像安全错误指南。那不是提示词“写得不够好”的问题,而是请求形态和政策边界的问题。
什么时候该为 Pro 付费,什么时候 Nano Banana 2 就够了
不是每一个参考图任务都值得直接上 Nano Banana Pro。只有当你需要更硬的保真度、更稳定的文字渲染,或更复杂的参考图组合时,Pro 才最有价值。品牌产品图、要求更高的人物连续性、复杂的宣传画面,以及主体必须严格保住、同时风格又要明显变化的任务,都更适合 Pro。
如果你还处在探索阶段,Nano Banana 2 往往更合理。Google 的 Gemini 3 开发者指南 把 gemini-3.1-flash-image-preview 放在更高吞吐、更低价格的路线里,这正是最适合拿来打草稿的模型。你还在试气质、试大构图、试场景方向时,先用更便宜的路线找到视觉逻辑;等逻辑成立了,再用 Pro 做最终高质量版本。
一个最容易执行的分法是:
- 当参考图层级比速度更重要时,用 Pro。
- 当试错速度和成本比一次性高保真更重要时,用 Nano Banana 2。
这也意味着,不要把这类问题简单理解成“每张图多少钱”。真正的决策是:更高质量的模型能不能帮你减少返工次数,减少无效重试。对于参考图要求严格的商业工作流,答案通常是能;对于早期概念探索,答案往往不是。
官方 changelog 还提醒了一点:Pro 仍然属于 preview 系列,并且在 2025 年 11 月 20 日 发布。因此,对它保持“强,但并非无条件稳定”的预期,本身就是正确工作流的一部分,而不是你用错了模型。
如果你后续想补技术接入,下一篇该看的是我们的API 设置指南。如果你下一步关心成图质量和尺寸,可以继续看4K 图像生成指南。如果你确定需要更完整的多参考图体系,那么多图组合完整指南才是更对路的后续页面。
最重要的一点是:你的第一次成功,应该来自清晰层级,而不是运气。Nano Banana Pro 很强,但它最擅长听懂的是一个已经被你排好优先级的参考图系统,而不是一堆互相争夺角色的图片。
