AIFreeAPI Logo

Gemini 图片生成教程:App、AI Studio 和 API 怎么用

A
17 分钟阅读AI 图片生成

截至 2026 年 3 月 22 日,Gemini 图片生成已经能真正上手。最合理的默认起点是 Nano Banana 2,但真正决定体验的第一步不是参数,而是先选对 Gemini App、AI Studio 还是 Gemini API。

展示 Gemini App、AI Studio、Gemini API 与当前 Nano Banana 模型路线的 Gemini 图片生成教程封面。

如果你今天想把 Gemini 用起来做图片,默认就先从 Nano Banana 2 开始。想最快出第一张图、又不想写代码,就走 Gemini App;想先在开发者界面里试 prompt,再考虑接入产品,就走 AI Studio;想要可重复工作流、日志、重试和明确的尺寸控制,就走 Gemini API

这个关键词真正难的地方,不是证明 Gemini 会不会画图,而是很多页面把 App、AI Studio、API 讲成了同一件事。它们有关联,但并不是一套完全相同的产品面。你如果一开始就把入口选错,后面的提示词、价格、配额和分辨率判断都会跟着一起歪掉。

如果你只想先拿到最短的可执行答案,先看这张路由表。

你的目标先走哪条路为什么这是当前默认答案什么时候该切换
不写代码,最快出图Gemini App当前帮助页已经把 Nano Banana 2 作为生成和编辑主线,手动出图路径最短你需要可重复输出、日志或自动化时
先用开发者界面试 promptAI Studio适合做 builder 视角的 prompt 调试,但当前主图片模型在这里需要付费 key你准备进生产、做程序化集成时
做自动化、接入产品、控尺寸Gemini API最适合做可重复工作流,支持模型选择、尺寸、比例和多轮 refinement只有更高端成品值得时才切到 Pro
文本多、信息图多、成品价值高Nano Banana Pro只有当结果失败成本已经明显高于模型差价时才值得不要把它当成所有人默认第一步

要点速览

先选对 Gemini 图片生成入口:App、AI Studio 还是 API

对比 Gemini App、AI Studio 和 Gemini API 的 Gemini 图片生成路线图。
对比 Gemini App、AI Studio 和 Gemini API 的 Gemini 图片生成路线图。

最容易犯的错误,就是把 Google 这三个入口看成一回事。

Gemini App 是面向普通用户的入口。Google 当前帮助页明确写到,你可以直接创建图片,也可以上传一张图片做编辑,或者上传多张图让 Gemini 融合生成新画面。帮助页还写了一个很关键的现实差异:免费用户下载是 1K,付费订阅下载是 2K。所以,如果你的目标只是“尽快得到第一张图”,App 仍然是最短路径。

AI Studio 是开发者实验台。它适合你先在界面里试 prompt、调思路、确认模型表现,再决定是否把同样的工作流写进代码。问题在于,很多教程把 AI Studio 的通用 billing 叙述,直接理解成“当前图片模型可以免费用”。更安全的读法是:Google 的 billing FAQ 仍然会说新账户从 free tier 开始,AI Studio 在连接付费 key 之前总体上还是免费 surface;但同一天线上的 Nano Banana 2 开发者文章 又明确说,这个模型在 AI Studio 里需要付费 API key。也就是说,AI Studio 不是“神秘隐藏免费图像入口”,它更像是一个开发者操作面。

Gemini API 则是生产路线。你需要的不是“偶尔做一张图”,而是可重复工作流、明确模型、重试、日志、成本管理、集成进自己的产品时,就应该直接把 API 作为主战场。Google 当前图片文档本身就是按这个逻辑写的:生成、编辑、多轮 refinement、aspect ratio 和 image size 都是 API 层面的显式控制。

所以这篇教程最重要的建议不是“先改 prompt”,而是 先把入口选对。入口选对之后,很多“Gemini 为什么不好用”的问题会直接减少一半。

默认先用 Nano Banana 2,但也要知道什么时候该切 Pro 或 legacy 2.5

这类文章最容易过期的部分,就是模型推荐。

Google 当前的 图片生成文档 直接把 gemini-3.1-flash-image-preview 写成图像生成的默认推荐路线,因为它在效果、成本和延迟之间给了最平衡的答案。这条线就是今天的 Nano Banana 2。Google 的 deprecations 页面 把它的发布日期标为 2026 年 2 月 26 日,而且没有公布关闭日期。这就是为什么现在做新工作流时,默认不该从旧的 2.5 线开始。

但“默认答案”并不等于“唯一答案”。

模型当前状态当前官方图片价格最适合什么要注意什么
gemini-3.1-flash-image-preview当前默认路线,发布于 2026 年 2 月 26 日没有公开 free tier;0.5K 约 $0.045,1K 约 $0.067,2K 约 $0.101,4K 约 $0.151大多数新的图片生成和编辑工作流仍然是 preview 线,配额要看账户 tier
gemini-3-pro-image-preview当前高阶路线没有公开 free tier;1K/2K 约 $0.134,4K 约 $0.24文本多、信息图多、成品价值高的任务成本明显高于 Flash Image
gemini-2.5-flash-image仍在线,但已是 legacy没有公开 free tier;标准约 $0.039,batch 约 $0.0195只想要当前官方最便宜路线时Google 已把关闭日期标到 2026 年 10 月 2 日

实用判断其实很简单。绝大多数人先从 Nano Banana 2 开始。只有在两种情况下,答案才会明显变化:一是你只关心最便宜的 legacy 成本;二是你的图片失败一次就很贵,比如海报、信息图、重文本创意,那时才有理由直接上 Nano Banana Pro

如果你真正想深挖价格,而不是做入门教程,接下来更该看的是 Gemini 图片生成 API 定价 或站内的 Gemini 图片 API 免费额度Gemini 图片生成价格指南。这篇文章的角色,是帮你先把第一条工作流跑通。

想最快跑通第一次出图,Gemini App 和 AI Studio 怎么用

如果你现在还没准备写代码,就不要因为 API 看起来“更专业”就一上来走它。第一次出图,最重要的是把 prompt 和结果之间的反馈回路跑通。

Gemini App 里,步骤其实很短:

  1. 打开 Gemini,进入 Create image
  2. 用清晰动词开头,比如“创建”“生成”“画一张”。
  3. 用一句完整描述写清主体、风格、背景和氛围。
  4. 如果你不是从零生成,而是要改现有图片,就上传图片并明确告诉 Gemini 只改什么。
  5. 如果结果已经接近,但你又是付费用户,需要更强的文本渲染或更高精度,就再走 Redo with Pro

Gemini App 的价值是,你可以先把“什么样的 prompt 会出对的图”这件事搞清楚,而不用先纠结 SDK、imageConfig 或日志结构。

AI Studio 则更适合 builder 视角的第一次上手。你已经不是单纯想出一张图,而是想观察模型在不同 prompt 下的表现,考虑后面是否接 API,这时 AI Studio 很有价值。只是别把它理解成“和 App 一样的免费图像入口”。在当前主图片模型上,它更像是一个需要付费 key 的开发者实验面。

最稳的使用顺序通常是:

  • 只想快点出图:先用 Gemini App
  • 想先试 prompt、再决定是否接代码:先用 AI Studio
  • 想做自动化或产品工作流:直接进入 Gemini API

这个顺序能帮你少走很多弯路。很多人以为 Gemini 图片生成“不稳定”,其实问题往往不是模型,而是自己还没把 surface 选对,就太早进入了 API 层。

如果你真正要做的是图生图编辑,而不是从零生成,可以继续读站内的 Gemini 图生图编辑指南

想做可重复工作流,Gemini API 怎么用

展示 Gemini API 第一次图片生成工作流:prompt、模型、尺寸、结果与 refinement 回路。
展示 Gemini API 第一次图片生成工作流:prompt、模型、尺寸、结果与 refinement 回路。

一旦你需要可重复、可记录、可调试的流程,真正的教程就进入 API 了。

Google 当前 图片生成文档 同时支持 text-to-image 和 text-plus-image 编辑,而且明确推荐 multi-turn refinement。这点很重要。大多数时候,最好的工作流不是“一条超级长 prompt 一次成功”,而是先给出一个清楚 prompt,得到第一张图,再在同一轮上下文里继续细修。

第一次 API 调用,建议尽量简单:先用 gemini-3.1-flash-image-preview,显式设置一个比例,如果真的需要更高分辨率,再显式设置 image size。

js
import { GoogleGenAI } from "@google/genai"; const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY }); const prompt = ` Create a clean 16:9 product hero image of a matte black travel mug on a light concrete surface. Use soft studio lighting, sharp detail on the mug texture, and leave calm negative space on the right. `; const response = await ai.models.generateContent({ model: "gemini-3.1-flash-image-preview", contents: prompt, config: { responseModalities: ["TEXT", "IMAGE"], imageConfig: { aspectRatio: "16:9", imageSize: "2K" } } });

这个例子故意写得“保守”。因为第一步最重要的不是炫技,而是让流程稳定工作。这里真正影响结果的是四件事:

  • model 决定默认成本、质量和主路线
  • aspectRatio 决定构图
  • imageSize 决定分辨率和价格
  • prompt 写法 决定几乎其他所有东西

如果你做的是编辑而不是纯生成,prompt 要比你想象中更具体。告诉模型只改哪里,哪些部分必须保持不变。Google 较早的 prompt 指南虽然写的是 2.5 线,但原则今天仍然成立:别堆关键词,要描述场景;别只说新内容,也要明确旧内容哪些不能动。

API 还有一个很现实的前提:把它当成一个要运维的系统,而不是一条总能一次成功的魔法函数。Google 的 rate-limits 页面 明说当前上限依赖模型和 tier;社区线程也说明,SDK 版本、imageSize 参数和 AI Studio 的行为有时会出现不一致。如果你发现 JS SDK 没按预期给出 2K,先确认 SDK 版本,再用同一 prompt 去 AI Studio 交叉验证。

如果你真正关心的是当前最划算的 API 入口,而不是教程本身,下一篇更适合的是 最便宜的 Gemini 3.1 Flash Image Preview API 指南

更容易出好图的提示词写法

Gemini 图片生成最常见的问题,并不是模型不会,而是 prompt 写得太像“关键词清单”。

Google 的 prompt 指南给了一个今天仍然适用的核心原则:不要只列关键词,要把场景说出来。 对 Gemini 这条图片线来说,这一点尤其重要。它更擅长理解“你想看到什么画面”,而不是猜你脑子里补完的画面。

这篇教程里,最值得记住的是四种 prompt 任务。

1. 从零生成。
最稳的写法是:主体 + 动作 + 场景 + 风格 + 构图。例如:“创建一张 16:9 的写实产品图,一只磨砂黑色旅行杯放在浅灰色混凝土台面上,侧光柔和,右边保留简洁留白。” 这通常比“黑色杯子、电影感、写实”稳定得多。

2. 局部修改。
如果你要改已有图片,最重要的不是把新东西说得多华丽,而是把保护范围说清楚。比如:“基于输入图片,只把蓝色沙发改成深绿色丝绒沙发,光线、房间布局和其他家具保持不变。” 这类 prompt 往往比“把客厅改高级一点”更可靠。

3. 多图融合或风格迁移。
Gemini 的图像栈支持多图工作流,当前文档也提到了更大的 reference image 用法。关键在于每张图要扮演什么角色。比如:“使用图 1 的包,把它放进图 2 的影棚场景里,保持包的真实比例,并匹配图 2 的顶部柔光。” 如果你不分工,模型就会自己乱猜。

4. 文本多、信息图多的任务。
这正是 Nano Banana Pro 更值得用的时候。你要在 prompt 里明确写出要出现的文字、版式和整体视觉风格。比如:“创建一张 16:9 的简洁信息图,用粗体无衬线字体标出 Evaporation、Condensation、Precipitation,并保持结构清晰可读。” 这种任务如果只写“做一张关于水循环的信息图”,结果通常会更花哨,但不够实用。

这些写法背后的共同原则其实就一句:告诉 Gemini 什么重要、什么不能动、画面应该遵循什么视觉逻辑。这比再多加几个形容词更有用。

故障排查:为什么 Gemini 图片生成会比你想象中更难

用于排查 Gemini 图片生成问题的决策图,包括错误入口、配额或 key 状态、提示词过泛、SDK 不匹配和 legacy 模型选择。
用于排查 Gemini 图片生成问题的决策图,包括错误入口、配额或 key 状态、提示词过泛、SDK 不匹配和 legacy 模型选择。

Gemini 图片生成最让人烦的地方,是很多失败一开始看起来像“prompt 写坏了”,但根因其实是 product surface 选错了。

第一种常见问题是 入口选错。如果你现在只是想搞清楚 prompt 怎么写,App 或 AI Studio 通常比 API 更适合起步。如果你要做产品功能,App 的体验又不应该拿来当 API 的基准。很多人来回切 surface,最后以为模型不稳定,实际上只是路由没理顺。

第二种问题是 免费和付费规则混在一起。Google 当前几个官方页面都没错,但它们说的是不同层面。billing FAQ 讲的是通用计费姿态;Nano Banana 2 开发者文章讲的是当前模型在 AI Studio 的要求;pricing 页面讲的是公开图片 API 定价。你如果把三者揉成一句话,听上去当然会自相矛盾。

第三种问题是 prompt 太泛。Gemini 再聪明,也不会自动知道哪些部分不能动。编辑一直“改太多”,往往不是模型不行,而是你没把保护范围说清楚。生成一直“长得很普通”,往往不是模型不懂,而是你给的视觉语言太少。

第四种问题是 配额或 key 状态。Google 的 rate-limits 页面 已经写明,实际限制依赖 tier;社区线程也显示,付费 key 刚接上时,用户体感上可能还会遇到 quota 或 out-of-free-generations 的混乱。如果 AI Studio 还把你当成 free-tier,请先确认当前 project、key 类型和 AI Studio 里的 live usage。

第五种问题是 SDK 不匹配。官方文档显示 imageSize 是支持的,但论坛里也有人反馈 JS SDK 没按预期输出 2K,而 AI Studio 同一 prompt 可以。这不代表 API 本身不支持,而是说明你应该先确认 SDK 版本,再对照 AI Studio 做交叉验证。

第六种问题是 从错误模型开始。如果你因为 gemini-2.5-flash-image 最便宜就直接用它,你可能是在为错误目标优化。它还在线,但 Google 已经在 deprecations 页面 上给它挂出了 2026 年 10 月 2 日 的关闭日期。做新工作流时,默认还是应该从 Nano Banana 2 开始。

如果你真正卡住的是“今天额度什么时候重置”“为什么 App 和 API 说法不一样”,继续读站内的 Gemini 图片额度重置说明Gemini 图片免费额度 会更具体。

结论

2026 年最有用的 Gemini 图片生成教程,不该只是堆模型名,也不该只是复制一页官方文档。

先从 Nano Banana 2 开始。想最快无代码出图,走 Gemini App。想先站在开发者视角试 prompt,再决定是否接代码,走 AI Studio,但要知道当前主模型在这里是付费 key 路线。想做可重复工作流、自动化、控尺寸和重试,直接走 Gemini API。只有当文本渲染、信息图或高价值成品真的值得时,再升级到 Nano Banana Pro。而 gemini-2.5-flash-image 更适合被理解成“还在线但偏 legacy 的便宜路线”,不是今天的新默认答案。

把入口选对之后,Gemini 图片生成其实没有搜索结果里看起来那么乱。很多时候真正的障碍不是模型,而是你一开始就走错了 surface。

Nano Banana Pro

4K图像官方2折

Google Gemini 3 Pro Image · AI图像生成

已服务 10万+ 开发者
$0.24/张
$0.05/张
限时特惠·企业级稳定·支付宝/微信支付
Gemini 3
原生模型
国内直连
20ms延迟
4K超清
2048px
30s出图
极速响应
|@laozhang_cn|送$0.05

200+ AI 模型 API

2026.01
GPT-5.2Claude 4.5Gemini 3Grok 4+195
图像
官方2折
gemini-3-pro-image$0.05

GPT-Image-1.5 · Flux

视频
官方2折
Veo3 · Sora2$0.15/次
省16%5分钟接入📊 99.9% SLA👥 10万+用户