Nano Banana Pro 参考图：最佳设置与常见修复（2026）

AI Free API Team

•2026年3月28日•18 分钟阅读•AI 图像生成

Nano Banana Pro 参考图最好从 2 到 4 张开始，把必须保留的内容放进前六个槽位，并让每张图只负责一个角色。本文解释官方上限、能减少漂移的提示词结构，以及参考图被忽略时先改什么。

Nano Banana Pro 参考图工作流，展示槽位优先级、角色分配与排查路径

简短答案：截至 2026 年 3 月 28 日，Nano Banana Pro 参考图最稳定的用法不是把一堆“看起来有帮助”的图片一起塞进去，而是把每张图当成一个明确角色。先从 2 到 4 张开始，把必须高保真的内容放进前六个槽位，再用一句提示词说明每张图分别控制什么。如果一开始就堆到很多张，通常得到的不是更精准，而是更严重的漂移。

Nano Banana Pro 对应 Google 的 gemini-3-pro-image-preview。官方 Gemini 图像生成文档现在明确写到：Gemini 3 图像模型一次最多可混合 14 张参考图，而 Pro 模型最多支持 6 张高保真物体参考图以及最多 5 张角色一致性参考图。这些数字是真实上限，但不等于推荐起步配置。大多数失败并不是因为参考图太少，而是因为参考图过多、彼此抢角色。

真正有用的默认规则很简单：先决定你最不能丢的是什么，是人物身份、产品外形、场景构图、材质细节，还是风格方向。把那个视觉锚点尽量放在前面，再只加入真正承担不同职责的图片。其余图片等基础工作流跑通之后再说。如果你后面确实需要更完整的多图系统，可以继续看我们的多参考图组合完整指南。这篇文章故意保持更窄：只讲参考图设置、槽位顺序、提示词结构，以及 Pro 为什么仍然会漂移。

要点速览

**官方上限：**Google 说明 Gemini 3 图像模型最多可以混合 14 张参考图，而 Nano Banana Pro 支持最多 6 张高保真对象参考图，加上最多 5 张角色一致性参考图。
**最佳起步集：**先用 2 到 4 张，不要一上来就 10 张以上。只有当每张图承担清晰职责时，更多参考图才会真正有帮助。
**前六规则：**必须保留的主体、身份、细节，应优先放在前六个槽位。
**提示词规则：**给每张图一个职责，例如主体、角色身份、环境、姿态、风格、材质或光线。
**常见失败原因：**参考图彼此冲突时，模型往往会把它们平均，而不是听从你真正最在意的那张。
**什么时候该用 Pro：**当你需要更强的参考保真度、更稳定的文字渲染或更复杂的多图组合时用 Pro；如果只是先找构图和氛围，Nano Banana 2 往往更划算。

先从最小但足够的参考图组合开始

很多人会把参考图当成“保险”。他们担心模型漏掉什么，于是额外多放几张图补强。但在 Nano Banana Pro 里，额外上下文经常带来的不是保险，而是歧义。第二张脸部照片如果光线不同，另一张产品图如果角度冲突，或者某张灵感板图片风格太强，都会和真正应该保留的核心参考图争夺控制权。

因此，最稳的默认策略是最小可用参考集。如果你在做产品重绘或改风格，一个主体图加一张风格图或环境图，已经足够测试流程是否健康。如果你要保留某个人物，一张身份照加一张姿态图或环境图，通常已经足够判断模型是否抓住了对的脸和身体语言。只有在这个基础版本已经工作后，第三张或第四张图才值得用于补光线、材质细节或背景信息。

小集合的最大优势是排错清晰。模型失败时，你比较容易判断是哪张图把结果带偏了。相反，如果你一开始就上传 8 张甚至更多参考图，每一次失败都像黑箱。你不知道到底是风格图太强、主体图太弱，还是某张“看起来挺有用”的灵感图偷偷接管了构图。

这里还有一个直接的成本问题。Google 官方定价页目前列出的 Nano Banana Pro 价格，按 2026 年 3 月 28 日计算，相当于 每张 1K 或 2K 图像 0.134 美元，每张 4K 图像 0.24 美元。这不是离谱的价格，但也绝对不适合用大量大包参考图做盲试错。正确做法是先用小集合把视觉逻辑跑通，再决定是否值得把 Pro 用在最终成片上。

真正应该问的问题不是“Pro 最多能吃多少张参考图”，而是“为了让模型做出我需要的那个决定，最小且完整的参考集是什么”。只要你诚实回答这个问题，第一版成功工作流通常都会落在 2 到 4 张这个区间。

前六个槽位应该放什么

展示 Nano Banana Pro 参考图前六个高保真槽位该放哪些任务的槽位优先级图

Google 的官方文档比大多数第三方页面更清楚地写出了参考图上限，但真正重要的实际含义依然经常被忽略。前六个高保真对象参考槽位，应该留给那些你绝对不能丢的视觉锚点。如果成图必须保留某个产品轮廓、某张脸、某件衣服的关键细节，或者某种材质纹理，这些图片就应该尽量早放。后面的槽位更适合承担可选影响，而不是“你其实最希望模型听它”的信息。

最容易记住的方式是：**前面的槽位负责身份与结构保真，后面的槽位负责影响和微调。**这不代表后面完全不重要，而是说最关键的信息绝对不能只存在于后排。

参考图职责	应放进前六吗	为什么值得优先	常见误区
必须保住的主体或产品	是	模型应当最忠实保留这张图里的核心对象	让后面的风格图或场景图反过来压过主体
角色身份照	是	Pro 的角色一致性能力要建立在高质量身份图上	用小脸、滤镜重、光线差的自拍做身份图
姿态或构图锚点	通常是	提前放置能让模型先理解画面结构	觉得“提示词会修好姿势”，所以把它放很后面
场景或环境锚点	背景重要时应优先	如果环境本身是叙事的一部分，就不能只当装饰	一次给好几张视角冲突的场景图
材质或细节特写	细节必须保留时应优先	对包装、布料、表面质感、logo 非常重要	把细节图放到很后，再问为什么纹理丢了
风格参考图	有时	当风格是硬约束时可以提前	身份或产品保真更重要时却把风格排最前
光线参考图	通常靠后	光线大多是支持性信息，不应压过主体	同时上传多张互相矛盾的打光图
灵感板或情绪板	通常靠后，甚至先不用	只有基础流程稳定后才适合作为辅助影响	上传含糊、职责不清的灵感图和真正参考图抢控制权

如果你做的是人物工作流，要记住“角色一致性”不等于“整张图所有要素都固定不变”。它本质上更偏向于保住这个人本身。因此身份照仍然要清晰、光线稳定、脸部面积足够大。DeepMind 的 Pro 模型页明确提到，小脸、复杂混合和细节丰富的组合仍然容易出问题，这也是人物漂移最常见的根源之一。

如果你做的是产品图，优先级会略有不同。产品工作流通常最在意的是轮廓、logo、材质表面和比例。这种情况下，英雄产品图应排在最前，接着是承载表面纹理、包装细节或结构特征的特写。生活方式场景图和风格图应排在后面，否则它们很容易反客为主。

一个最好执行的判断标准是：如果这个细节丢了你会生气，就不要把它藏在后排槽位。

给每张图一个职责的提示词公式

Nano Banana Pro 参考图角色分配公式，展示主体、身份、场景、风格与细节任务

很多关于 Nano Banana Pro 的提示词建议本身没有错，但仍然不够。确实，提示词需要清晰、约束要明确；但只有当提示词的结构和参考图的结构对应起来时，流程才会变稳定。模型需要知道：哪张图负责身份，哪张图负责姿态，哪张图负责风格，哪些信息只允许轻度影响，而不能改掉主体。

最稳的提示词模式，是先给图片分角色，再描述这些角色如何组合。不要先写“我想要一张怎样的成图”，最后再补一句“请参考这些图片”。更可靠的顺序是先命名参考图，再说明每张图对最终结果的控制边界。这样可以显著降低模型把你的参考图当成“灵感”而不是“指令”的概率。

你可以用下面这种结构：

text
图 1：必须精确保留的主体或产品
图 2：角色身份 / 脸部参考
图 3：姿态或构图参考
图 4：环境或场景参考
图 5：风格或光线参考

请生成一张最终图像，保留图 1 的主体结构，
保留图 2 的人物身份，
遵循图 3 的姿态与画面安排，
使用图 4 的环境，
只吸收图 5 的色彩氛围和光线方向。
不要重设计主体，不要替换人物身份，
保持整体真实、统一、不过度混合。

这个结构有两个直接好处。第一，它能减少角色重叠。第二，它天然更容易排错。如果脸变了，你先检查身份照和与图 2 对应的那句提示词；如果环境把主体压住了，你知道问题大概率出在环境参考图或环境描述太强，而不是整段提示词都要重写。

你真正应该避免的是“让所有图片一起发挥作用”的写法。像“请参考所有这些图片，生成一张高级、电影感、真实、光影完美、构图现代的商业图片”这种提示词，听起来具体，其实还是把最关键的判断交给模型自己猜。漂移大多数时候就发生在这一步。

更稳的写法，是把约束拆成三类：

**必须保留：**脸、产品轮廓、logo 位置、面料图案
**可以适配：**背景风格、光线冷暖、最终裁切、具体机位
**应该避免：**换主体、换脸、把两个风格混成泥、改掉产品结构

如果你想进一步加强风格迁移，也应该一次只用一张风格参考图，并明确写出“风格只影响渲染方式，不得替换身份或主体”。等角色逻辑已经稳固之后，再去看我们的提示词进阶指南和风格克隆指南才更有效，而不是靠继续加图碰运气。

真正的核心不是把最终想要的画面描述得更华丽，而是让提示词准确描述图片与图片之间的关系。Nano Banana Pro 擅长推断，但你的工作是尽量减少它必须做出的错误推断。

三种值得直接照搬的参考图工作流

不同类型的参考图任务会以不同方式失败，因此准备几种可重复的工作流，比指望“一套万能模板”要靠谱得多。重点不是背模板，而是先认出你现在真正跑的是哪种结构。

1. 产品图 + 风格图

这是最干净、也最值得先测试的参考图工作流。你有一张必须保住的产品图，再加一张负责情绪、构图或场景质感的风格图。模型的任务很清楚：产品保持不变，展示方式发生变化。

这种模式很适合化妆品、消费电子、包装、家具、鞋类和时尚配件。产品图应是最清楚、最靠前的那张，风格或环境图排在第二位，而且不应与产品图的角度和光线强烈冲突。如果产品图是正面，环境图却是强俯拍，模型其实是在被迫选边站，这并不是忠实工作流，而是一场视觉谈判。

对应的提示词可以很短：

text
图 1：必须精确保留的产品主体
图 2：高级广告风格与背景氛围

请生成一张商业产品图，保持图 1 的产品形状、
logo、材质和比例不变，同时借用图 2 的光线氛围、
构图风格与背景处理方式。

这也是判断 Pro 到底有没有帮到你的最快方法。如果连两张图的产品流程都保不住轮廓、比例或 logo，问题通常不在于“参考图还不够多”，而在于输入图质量和角色分配本身。

2. 人物身份 + 姿态或环境控制

人物流程更脆弱，因为人脸比产品更容易被一眼识别出问题。所以身份图必须足够强，最好是清晰、光线稳定、眼睛可见、脸部占比足够大的照片。如果脸很小，模型可能保住“像这个人”的感觉，却保不住“就是这个人”的精确身份。DeepMind 的限制说明对这一点说得很直白。

在这种流程里，身份图应该排在第一或第二，姿态图和环境图放在后面。如果环境很戏剧化，但你最在意的是人物本人，那么环境就不应该压过身份。同样的道理也适用于风格迁移。既然你搜索“参考图”的真正动机是保住人物身份，就不要让风格图占据最强槽位。

很多创作者会把这种失败误判成“提示词写得不够聪明”。实际上，问题往往是输入图太差。如果身份照分辨率低、滤镜重，或者和目标角度差太大，模型就会被迫脑补。比起继续打磨文案，一张更好的身份照通常更能提升结果。

3. 小规模多参考图组合

一旦参考图任务超过两张，工作流就开始变得容易失稳，但这也是 Pro 真正体现价值的地方。小规模多参考图组合，通常意味着你要同时解决三到五个明确问题：例如人物、产品、背景和风格，或模特、服装、地点与灯光。

稳定的版本依然应该是“小而清晰”。四到五个职责分离的参考图，通常比十二张含糊不清的图更强。你的每张参考图最好只负责一个维度。如果两张图都试图控制构图，或者两张图都试图定义同一个人物身份，模型就很容易把它们混在一起。人们口中的“模型没听参考图”，很多时候其实就是模型在替你做平均。

这种流程最适合用分层思维来组织：

**核心保真层：**绝不能漂移的主体、人物或产品
**结构层：**姿态、环境、画面布局
**审美层：**风格、颜色氛围、光线方向
**可选细节层：**纹理、道具、表面修饰

如果某张参考图连自己属于哪一层都说不清，它大概率不应该出现在第一轮里。

排查：为什么 Nano Banana Pro 忽略、混合或扭曲了你的参考图

Nano Banana Pro 参考图漂移排查图，展示冲突、弱输入和槽位修复路径

坏消息是，参考图失败非常正常。好消息是，大多数失败都可以诊断。Google 自己的 Pro 模型页就提醒过，多图混合可能导致场景割裂，而社区讨论也表明，在某些 API 流程里，输出尺寸和预览模型行为仍然会偶尔不稳定。因此遇到失败时，正确做法不是一次次重写整段提示词，而是按顺序排查。

症状	可能原因	优先先改什么
风格保住了，但主体变了	风格图比主体图更强或更靠前	把主体图提前，弱化风格描述，明确要求精确保留主体
脸有点像，但不是同一个人	身份图太弱、脸太小，或被别的图冲突	换更清晰的身份照，并删掉冲突的人物风格图
构图发糊、像被平均	太多参考图同时控制同一维度	删掉重复职责的图片，只保留一个构图锚点
背景对了，但产品表面细节丢了	细节图太靠后或根本没给	把材质或表面特写移进前六槽位
最终图看起来割裂	参考图在视角、光线、写实程度上互相打架	先统一输入图风格，再写提示词，不要混多个现实层级
API 返回的 2K 尺寸不稳定	预览模型或 SDK 处理仍有粗糙处	检查返回文件尺寸，换 SDK 或直接 REST 重试，并保留备用渲染方案
间歇性 503 或 overload 错误	服务端容量问题，不一定是提示词	退避重试，不要把服务波动误判成参考图工作流失败

最有效的排错习惯其实是删，而不是加。当一次生成失败时，把参考图裁回最小可用版本。如果两张图的版本能工作、六张图的版本会失败，你其实已经知道问题类别了。接下来要做的是找出哪张新增图片改变了层级，而不是去发明更复杂的提示词。

另一个常见误区是先修错变量。很多人会先重写提示词，但真正的问题是参考图包本身；也有人先换图，其实是因为提示词从来没明确告诉模型每张图负责什么。更稳的排查顺序应该是：

先确认主体图或身份图本身质量足够。
删除所有职责重叠或重复的参考图。
调整前六个槽位，把必须保留的信息提到前面。
重写提示词，逐张命名参考图角色。
只有在这之后，再去调整风格强度或增加细节图。

如果你遇到的不是普通漂移，而是拒绝响应或安全拦截，那么路线就不同了。那种情况下应转到我们的图像生成被拒绝指南和图像安全错误指南。那不是提示词“写得不够好”的问题，而是请求形态和政策边界的问题。

什么时候该为 Pro 付费，什么时候 Nano Banana 2 就够了

不是每一个参考图任务都值得直接上 Nano Banana Pro。只有当你需要更硬的保真度、更稳定的文字渲染，或更复杂的参考图组合时，Pro 才最有价值。品牌产品图、要求更高的人物连续性、复杂的宣传画面，以及主体必须严格保住、同时风格又要明显变化的任务，都更适合 Pro。

如果你还处在探索阶段，Nano Banana 2 往往更合理。Google 的 Gemini 3 开发者指南把 gemini-3.1-flash-image-preview 放在更高吞吐、更低价格的路线里，这正是最适合拿来打草稿的模型。你还在试气质、试大构图、试场景方向时，先用更便宜的路线找到视觉逻辑；等逻辑成立了，再用 Pro 做最终高质量版本。

一个最容易执行的分法是：

当参考图层级比速度更重要时，用 Pro。
当试错速度和成本比一次性高保真更重要时，用 Nano Banana 2。

这也意味着，不要把这类问题简单理解成“每张图多少钱”。真正的决策是：更高质量的模型能不能帮你减少返工次数，减少无效重试。对于参考图要求严格的商业工作流，答案通常是能；对于早期概念探索，答案往往不是。

官方 changelog 还提醒了一点：Pro 仍然属于 preview 系列，并且在 2025 年 11 月 20 日 发布。因此，对它保持“强，但并非无条件稳定”的预期，本身就是正确工作流的一部分，而不是你用错了模型。

如果你后续想补技术接入，下一篇该看的是我们的API 设置指南。如果你下一步关心成图质量和尺寸，可以继续看4K 图像生成指南。如果你确定需要更完整的多参考图体系，那么多图组合完整指南才是更对路的后续页面。

最重要的一点是：你的第一次成功，应该来自清晰层级，而不是运气。Nano Banana Pro 很强，但它最擅长听懂的是一个已经被你排好优先级的参考图系统，而不是一堆互相争夺角色的图片。

#Nano Banana Pro #参考图 #Gemini 3 Pro Image #提示词工程 #AI 图像生成