AIFreeAPI Logo

Precio por token de Gemini API: guía actual de marzo de 2026

A
17 min readPrecios API

En marzo de 2026, el precio de Gemini API para modelos de texto va desde 0,10 USD por 1M de tokens de entrada en Gemini 2.5 Flash-Lite hasta 2,00 USD en Gemini 3.1 Pro Preview. Esta guía resume las tarifas actuales, los descuentos batch y las reglas de facturación que realmente cambian el coste final.

Resumen del precio por token de Gemini API en marzo de 2026

En marzo de 2026, el precio de Gemini API para los modelos de texto se mueve entre 0,10 USD y 2,00 USD por cada 1 millón de tokens de entrada, y entre 0,40 USD y 12,00 USD por cada 1 millón de tokens de salida. Gemini 2.5 Flash-Lite sigue siendo la opción estable más barata para texto. Si necesitas quedarte dentro de la familia Gemini 3, hoy la vía económica real es Gemini 3.1 Flash-Lite Preview. Y Gemini 3.1 Pro Preview es la ruta premium actual, con una advertencia importante: en cuanto el prompt supera los 200K tokens, el coste sube de forma clara.

Quien busca esta consulta normalmente no quiere otra guía genérica sobre todos los productos Gemini. Lo que quiere es responder tres preguntas concretas: cuánto cuesta hoy el API, qué modelo conviene presupuestar y por qué la factura real suele terminar siendo distinta del número bonito que aparece en la tabla principal. Muchas páginas del SERP fallan justo aquí, porque mezclan Gemini Developer API, Vertex AI, planes de la app Gemini y otros productos de Google. Este artículo se mantiene intencionalmente estrecho: precios actuales por token en Gemini API y los factores de facturación que de verdad cambian el gasto.

Resumen rápido

  • Modelo de texto estable más barato: Gemini 2.5 Flash-Lite, 0,10 USD por 1M de tokens de entrada y 0,40 USD por 1M de tokens de salida.
  • Modelo Gemini 3 más barato para texto: Gemini 3.1 Flash-Lite Preview, 0,25 USD por 1M de tokens de entrada y 1,50 USD por 1M de tokens de salida.
  • Ruta premium actual: Gemini 3.1 Pro Preview, 2,00 / 12,00 USD por 1M de tokens hasta 200K y 4,00 / 18,00 USD por encima de ese umbral.
  • La opción equilibrada para muchas apps en producción: Gemini 2.5 Flash sigue siendo la recomendación más sensata para empezar.
  • La palanca de ahorro más rápida: el modo Batch, que en las rutas principales suele costar aproximadamente la mitad.
  • El error más común: comparar solo el precio input/output y olvidar el umbral de 200K, el audio, el caching, el almacenamiento del cache y los cargos de grounding.

Tabla de precio por token de Gemini API en marzo de 2026

Matriz de precios de Gemini API agrupando modelos en niveles de presupuesto, equilibrio y premium para marzo de 2026.
Matriz de precios de Gemini API agrupando modelos en niveles de presupuesto, equilibrio y premium para marzo de 2026.

La página oficial de precios de Gemini Developer API es la fuente correcta, pero no siempre es la forma más rápida de entender el panorama si solo quieres comparar las rutas más relevantes. Esta tabla resume las líneas de texto que hoy importan más para la mayoría de desarrolladores.

ModeloPrecio estándar inputPrecio estándar outputBatch inputBatch outputNota
Gemini 3.1 Pro Preview2,00 USD por 1M hasta 200K, 4,00 USD por encima12,00 USD hasta 200K, 18,00 USD por encima1,00 USD hasta 200K, 2,00 USD por encima6,00 USD hasta 200K, 9,00 USD por encimaSolo paid, ruta premium actual
Gemini 3 Flash Preview0,50 USD por text / image / video; 1,00 USD por audio3,00 USD0,25 USD por text / image / video; 0,50 USD por audio1,50 USDRuta rápida de Gemini 3, con free tier
Gemini 3.1 Flash-Lite Preview0,25 USD por text / image / video; 0,50 USD por audio1,50 USD0,125 USD por text / image / video; 0,25 USD por audio0,75 USDLa opción de texto más barata dentro de Gemini 3
Gemini 2.5 Pro1,25 USD hasta 200K, 2,50 USD por encima10,00 USD hasta 200K, 15,00 USD por encima0,625 USD hasta 200K, 1,25 USD por encima5,00 USD hasta 200K, 7,50 USD por encimaAlternativa potente pero más barata que 3.1 Pro
Gemini 2.5 Flash0,30 USD por text / image / video; 1,00 USD por audio2,50 USD0,15 USD por text / image / video; 0,50 USD por audio1,25 USDRuta estable y equilibrada
Gemini 2.5 Flash-Lite0,10 USD por text / image / video; 0,30 USD por audio0,40 USD0,05 USD por text / image / video; 0,15 USD por audio0,20 USDLa opción estable más barata

De esta tabla conviene sacar dos conclusiones rápidas.

La primera es que la línea actual de Google no funciona como una escalera simple en la que lo más nuevo sea automáticamente lo más rentable. Si tu objetivo es el menor coste estable, la mejor opción sigue siendo Gemini 2.5 Flash-Lite. Si necesitas quedarte específicamente en Gemini 3, entonces el carril económico real es Gemini 3.1 Flash-Lite Preview. Muchas páginas del SERP reducen todo a “precio Gemini 3”, y eso hace más difícil tomar una decisión útil.

La segunda es que todavía aparecen páginas antiguas con Gemini 3 Pro Preview como si siguiera activo. En la página oficial de modelos, Google indica que Gemini 3 Pro Preview fue retirado el 9 de marzo de 2026 y que la migración correcta es a Gemini 3.1 Pro Preview. Si una guía no refleja ese cambio, es muy probable que también arrastre cifras viejas en el resto de la tabla.

Qué modelo Gemini deberías presupuestar

Panel de decisión que relaciona tipos de carga de trabajo de Gemini API con el modelo más razonable en coste, equilibrio, razonamiento y gama premium.
Panel de decisión que relaciona tipos de carga de trabajo de Gemini API con el modelo más razonable en coste, equilibrio, razonamiento y gama premium.

La pregunta útil aquí no es “qué modelo es el más potente”, sino qué carril de modelo encaja mejor con tu carga de trabajo. Si te limitas a seguir el nombre más nuevo, el presupuesto suele quedar mal calculado.

Si tu prioridad absoluta es bajar el coste, Gemini 2.5 Flash-Lite sigue siendo la respuesta más directa. Es una opción muy sólida para clasificación, extracción, traducción ligera, enrutamiento, chat sencillo y procesamiento de alto volumen, donde importa más el throughput que la máxima profundidad de razonamiento. En muchos casos, pagar más simplemente no devuelve suficiente valor.

Si quieres una opción más segura como punto de partida para producción, Gemini 2.5 Flash sigue siendo la recomendación más equilibrada. Cuesta más que Flash-Lite, pero no se acerca al nivel de Pro. Para asistentes internos, bots de soporte, preguntas sobre documentos, automatización operativa y flujos ligeros con agentes, suele ser suficiente. Por eso sigue siendo el default más práctico.

Si tu equipo quiere mantenerse en Gemini 3 pero no pagar ya el precio de Pro, la ruta lógica es Gemini 3.1 Flash-Lite Preview. No es más barata que 2.5 Flash-Lite, pero sí es el punto de entrada de bajo coste dentro de la familia Gemini 3. Tiene sentido cuando tu organización prioriza el stack más nuevo y acepta el riesgo natural de los modelos preview.

Si el trabajo realmente requiere razonamiento fuerte, entonces la comparación real pasa a ser Gemini 2.5 Pro frente a Gemini 3.1 Pro Preview. Gemini 2.5 Pro ya no es barato, pero sigue siendo sensiblemente más accesible que 3.1 Pro. Para generación de código, síntesis compleja, planificación agentic o análisis de documentos largos, pagar la prima de 3.1 Pro solo tiene sentido si el incremento de calidad compensa el coste.

Esa es precisamente la parte que muchas páginas genéricas no formulan con claridad. La decisión práctica hoy es:

  • coste mínimo: Gemini 2.5 Flash-Lite
  • equilibrio estable: Gemini 2.5 Flash
  • presupuesto dentro de Gemini 3: Gemini 3.1 Flash-Lite Preview
  • razonamiento fuerte sin precio máximo: Gemini 2.5 Pro
  • ruta premium de frontera: Gemini 3.1 Pro Preview

Si todavía estás en fase de pruebas, no conviertas automáticamente la experiencia gratuita de AI Studio en una estimación de coste de producción. El billing FAQ deja claro que AI Studio puede seguir siendo gratuito hasta que conectas una paid API key a funciones de pago. Probar algo gratis no significa que la misma carga vaya a costar cero en producción.

Qué incluye realmente tu factura de Gemini

Gráfico por capas que muestra los factores que cambian una factura de Gemini API más allá de la tarifa básica por tokens de entrada y salida.
Gráfico por capas que muestra los factores que cambian una factura de Gemini API más allá de la tarifa básica por tokens de entrada y salida.

Muchas guías de “precio Gemini” se quedan en la tabla principal, pero la parte más importante empieza después. En la página de billing, Google explica que Gemini API factura según el número de tokens de entrada, tokens de salida, cached tokens y duración del almacenamiento del cache. Es decir, no pagas solo por lo que escribes ni solo por lo que el modelo responde.

También importa entender qué es un token en la práctica. Según la guía oficial de tokens, un token equivale aproximadamente a 4 caracteres, y 100 tokens equivalen a unas 60–80 palabras en inglés. No es una fórmula exacta de contabilidad, pero sí una referencia útil para no presupuestar mal. Un prompt corto rara vez sale caro; lo que dispara la factura suele ser el contexto repetido, las instrucciones largas de sistema, los fragmentos RAG excesivos o el historial acumulado.

Además, no todos los tipos de input se cobran igual. En varios modelos, el audio input cuesta más que el texto. En las líneas Pro, cruzar el umbral de 200K tokens en el prompt cambia el precio a una banda superior. Y si además usas caching, grounding o multimodalidad, el número que recordabas de la primera fila deja de representar el coste real.

Esta es la tabla corta que conviene tener en mente:

Modificador de facturaciónQué cambiaPor qué importa
Prompts Pro por encima de 200KGemini 3.1 Pro Preview sube de 2,00 / 12,00 a 4,00 / 18,00; Gemini 2.5 Pro de 1,25 / 10,00 a 2,50 / 15,00Las cargas con contexto largo pueden salir mucho más caras de lo previsto
Audio inputFlash y Flash-Lite cobran más por audio que por textoLas apps de voz suelen infrapresupuestarse
Modo BatchEn las líneas principales, el precio baja aproximadamente a la mitadEs la palanca más directa para workloads asíncronos
Context cachingHay coste por cached tokens y por almacenamientoEl caching ahorra, pero no es memoria gratuita
GroundingPuede añadir cargos por consultaLa factura deja de ser solo “precio por token”
Errores 400/500No se facturan, pero siguen consumiendo cuotaNo suben el coste directo, pero sí afectan la capacidad del sistema

Dos puntos merecen atención especial.

El primero es Batch. Si tu flujo no necesita respuesta inmediata, casi siempre merece la pena presupuestar primero con tarifas batch. Procesamiento nocturno, evaluación offline, reescritura masiva, análisis diferido o grandes backfills suelen beneficiarse más de batch que de cualquier micro-optimización del prompt.

El segundo es Context caching. En Gemini se habla mucho de caching como si bastara con guardar un prompt grande para abaratarlo indefinidamente. En realidad, Google también cobra por cached tokens y por almacenamiento. Por tanto, conviene pensar en caching como una herramienta de optimización y no como memoria gratuita. Si reutilizas mucho el mismo contexto, el ahorro puede ser importante. Si no, no conviene forzarlo. Si además quieres revisar el ángulo de límites y cuotas, la guía localizada sobre Gemini API free quota 2026 es el siguiente paso natural.

Por qué el precio de Gemini puede subir más de lo esperado

Hay tres causas que explican la mayoría de desviaciones entre el precio recordado y la factura real.

La primera es el umbral de 200K tokens en los modelos Pro. En cuanto procesas documentos largos, bases de código amplias, resultados RAG pesados o historiales de conversación muy extensos, puedes entrar en el tramo caro. Por eso, algunas cargas que intuitivamente “parecen de Pro” siguen saliendo mejor en Flash si mejoras la estrategia de recuperación y compactación del contexto.

La segunda es la confusión con la capa gratuita. Mucha gente mezcla “lo pude probar gratis en AI Studio” con “el API seguirá teniendo ese coste”. Pero el comportamiento del free tier depende del modelo, y la lógica de facturación de producción es otra. Basar un presupuesto serio en esa experiencia es una receta para equivocarse.

La tercera es la interacción entre precio y límites. El coste es solo una parte. En la página de rate limits, Google recuerda que los límites se aplican por proyecto, no por API key, y que dependen del modelo y del tier. Cuando ya estás en producción, la pregunta deja de ser solo “qué fila es más barata” y pasa a ser “qué fila me da el throughput que necesito sin romperse”. Si ya te estás peleando con 429, la diferencia de unos céntimos por millón de tokens deja de ser el problema principal.

En otras palabras, los grandes cambios de coste en Gemini suelen venir del carril de modelo, de la longitud del contexto, de si usas Batch o no y de la disciplina con la que gestionas prompts y contexto, no de una pequeña diferencia entre dos filas parecidas.

Diferencia entre Gemini Developer API, Vertex AI y AI Studio

Este keyword genera mucho ruido porque los resultados de búsqueda suelen mezclar varias superficies distintas bajo la misma etiqueta “Gemini pricing”.

Pero, para un desarrollador, no es lo mismo:

  • Gemini Developer API es la superficie que importa si estás calculando el coste de llamadas directas al API.
  • Vertex AI es la vía corporativa dentro de Google Cloud, con la misma familia de modelos pero dentro de un contexto enterprise más amplio.
  • AI Studio es una herramienta de experimentación, no un sustituto directo del modelo de precio de producción.

Muchas páginas amplían el tema añadiendo suscripciones de la app Gemini, Workspace o incluso otros productos de Google. Eso las hace más largas, pero no necesariamente más útiles para una consulta concreta sobre precio por token.

La regla práctica es:

A marzo de 2026, Vertex AI replica en gran medida las mismas rutas principales de precio, pero hace más visible el contexto enterprise, priority y Flex / Batch. Si un artículo externo no aclara qué pricing-surface está usando, conviene desconfiar de sus conclusiones hasta comprobar la fuente oficial.

Ejemplos de coste mensual en cargas habituales

El precio por millón de tokens solo se vuelve útil de verdad cuando lo traduces a cargas concretas.

Escenario 1: bot pequeño de soporte con Gemini 2.5 Flash

Supón 30 millones de tokens de entrada y 10 millones de tokens de salida al mes:

  • input: 30 × 0,30 = 9,00 USD
  • output: 10 × 2,50 = 25,00 USD
  • coste mensual estimado: 34,00 USD

Por eso Gemini 2.5 Flash sigue siendo una recomendación tan sólida: lo bastante barata para producción temprana, sin forzar todavía el nivel más bajo de coste.

Escenario 2: servicio de extracción o enrutamiento con Gemini 2.5 Flash-Lite

Supón 200 millones de tokens de entrada y 40 millones de salida al mes:

  • input: 200 × 0,10 = 20,00 USD
  • output: 40 × 0,40 = 16,00 USD
  • coste mensual estimado: 36,00 USD

Este caso deja claro que el precio de salida también importa mucho. En cargas de alto volumen, Flash-Lite no solo gana por input barato, sino también por output barato.

Escenario 3: coding o síntesis premium con Gemini 3.1 Pro Preview

Supón 20 millones de tokens de entrada y 4 millones de salida, manteniendo cada prompt por debajo de 200K:

  • input: 20 × 2,00 = 40,00 USD
  • output: 4 × 12,00 = 48,00 USD
  • coste mensual estimado: 88,00 USD

La misma carga en Gemini 2.5 Pro:

  • input: 20 × 1,25 = 25,00 USD
  • output: 4 × 10,00 = 40,00 USD
  • coste mensual estimado: 65,00 USD

La prima de 3.1 Pro existe de verdad. No es una diferencia pequeña que puedas ignorar por defecto.

Escenario 4: backfill asíncrono en modo Batch

Si tomas el primer escenario y lo pasas a Batch:

  • input: 30 × 0,15 = 4,50 USD
  • output: 10 × 1,25 = 12,50 USD
  • coste mensual estimado: 17,00 USD

Es casi la mitad. Por eso, antes de pensar en cambiar de proveedor o rediseñar todo el prompt stack, conviene preguntar si la carga puede ejecutarse en modo batch.

Si en este momento te preocupa más el comportamiento del free tier que el coste de producción, el mejor complemento sigue siendo la guía sobre Gemini API free quota 2026. Pero el resumen de esta página es sencillo:

La consulta “Gemini API token pricing” no se resuelve solo diciendo cuánto vale 1 millón de tokens. Se resuelve aclarando qué carril de modelo debes elegir y qué modificadores de facturación cambian el número final. Cuando respondes a esa pregunta, el sistema de precios de Gemini deja de parecer confuso.

Nano Banana Pro

Imagen 4K80% DESC.

Google Gemini 3 Pro Image · Generación de imágenes AI

Más de 100K desarrolladores atendidos
$0.24/img
$0.05/img
Oferta limitada·Estable empresarial·Alipay/WeChat
Gemini 3
Modelo nativo
Acceso directo
20ms latencia
4K Ultra HD
2048px
30s generación
Ultra rápido
|@laozhang_cn|Obtén $0.05

200+ AI Models API

Jan 2026
GPT-5.2Claude 4.5Gemini 3Grok 4+195
Image
80% OFF
gemini-3-pro-image$0.05

GPT-Image-1.5 · Flux

Video
80% OFF
Veo3 · Sora2$0.15/gen
16% OFF5-Min📊 99.9% SLA👥 100K+