AIFreeAPI Logo

Gemini API 토큰 가격: 2026년 3월 최신 비용 가이드

A
18 min readAPI 가격

2026년 3월 기준 Gemini API 텍스트 모델 가격은 Gemini 2.5 Flash-Lite의 입력 100만 토큰당 0.10달러부터 Gemini 3.1 Pro Preview의 2.00달러까지 분포합니다. 이 글에서는 현재 가격, batch 할인, 그리고 실제 청구액을 바꾸는 과금 규칙을 정리합니다.

2026년 3월 Gemini API 토큰 가격 개요

2026년 3월 기준 Gemini API의 텍스트 모델 가격은 입력 100만 토큰당 0.10달러에서 2.00달러, 출력 100만 토큰당 0.40달러에서 12.00달러까지 분포합니다. 가장 저렴한 안정형 텍스트 모델은 여전히 Gemini 2.5 Flash-Lite입니다. Gemini 3 계열 안에서 비용을 낮추고 싶다면 현재의 실질적인 저가 라인은 Gemini 3.1 Flash-Lite Preview입니다. 그리고 상위 모델은 Gemini 3.1 Pro Preview인데, 프롬프트가 200K 토큰을 넘는 순간 가격이 한 단계 더 올라간다는 점을 반드시 염두에 둬야 합니다.

이 키워드를 검색하는 사람들은 보통 Gemini 전체 제품군 소개를 읽고 싶은 것이 아닙니다. 정말 알고 싶은 것은 지금 API가 얼마인지, 어떤 모델을 예산 기준으로 잡아야 하는지, 그리고 왜 실제 청구액이 첫 화면의 표보다 더 커지는지입니다. 현재 검색 결과의 많은 글이 Gemini Developer API, Vertex AI, Gemini 앱 구독, Workspace 비용을 한데 섞어 설명하면서 오히려 핵심 질문을 흐리고 있습니다. 이 글은 의도적으로 범위를 좁혀, Gemini API의 현재 토큰 가격과 실제 비용을 바꾸는 과금 요소만 다룹니다.

핵심 요약

  • 가장 저렴한 안정형 텍스트 모델: Gemini 2.5 Flash-Lite, 입력 100만 토큰당 0.10달러, 출력 0.40달러.
  • Gemini 3 계열에서 가장 저렴한 텍스트 모델: Gemini 3.1 Flash-Lite Preview, 입력 0.25달러, 출력 1.50달러.
  • 현재 프리미엄 상위 라인: Gemini 3.1 Pro Preview, 200K 이하에서는 2.00 / 12.00달러, 200K 초과에서는 4.00 / 18.00달러.
  • 많은 운영 환경에서 가장 현실적인 기본값: Gemini 2.5 Flash. Lite보다 비싸지만 Pro보다 훨씬 저렴하고 균형이 좋습니다.
  • 가장 빠른 절감 수단: Batch 모드. 주요 텍스트 모델에서는 보통 표준 가격의 절반 수준입니다.
  • 가장 흔한 오판: input/output 가격만 보고 200K 임계값, 오디오 입력, context caching, cache storage, grounding 비용을 놓치는 것.

2026년 3월 Gemini API 토큰 가격표

2026년 3월 Gemini API 모델을 예산형, 균형형, 프리미엄으로 나눠 보여주는 가격 매트릭스.
2026년 3월 Gemini API 모델을 예산형, 균형형, 프리미엄으로 나눠 보여주는 가격 매트릭스.

공식 Gemini Developer API pricing 페이지가 가장 신뢰할 만한 기준이지만, 지금 실제로 비교해야 하는 모델 라인을 빠르게 읽기에는 다소 불편할 수 있습니다. 그래서 현재 개발자들이 가장 자주 비교하는 텍스트 모델만 모아보면 다음과 같습니다.

모델표준 input 가격표준 output 가격Batch inputBatch output비고
Gemini 3.1 Pro Preview200K 이하 100만 토큰당 2.00달러, 초과 시 4.00달러200K 이하 12.00달러, 초과 시 18.00달러200K 이하 1.00달러, 초과 시 2.00달러200K 이하 6.00달러, 초과 시 9.00달러paid 전용, 현재 상위 텍스트 라인
Gemini 3 Flash Previewtext / image / video는 0.50달러, audio는 1.00달러3.00달러text / image / video는 0.25달러, audio는 0.50달러1.50달러Gemini 3의 빠른 라인, 무료 티어 존재
Gemini 3.1 Flash-Lite Previewtext / image / video는 0.25달러, audio는 0.50달러1.50달러text / image / video는 0.125달러, audio는 0.25달러0.75달러Gemini 3 계열의 저가 텍스트 루트
Gemini 2.5 Pro200K 이하 1.25달러, 초과 시 2.50달러200K 이하 10.00달러, 초과 시 15.00달러200K 이하 0.625달러, 초과 시 1.25달러200K 이하 5.00달러, 초과 시 7.50달러3.1 Pro보다 저렴한 강한 추론 대안
Gemini 2.5 Flashtext / image / video는 0.30달러, audio는 1.00달러2.50달러text / image / video는 0.15달러, audio는 0.50달러1.25달러안정형 균형 라인
Gemini 2.5 Flash-Litetext / image / video는 0.10달러, audio는 0.30달러0.40달러text / image / video는 0.05달러, audio는 0.15달러0.20달러가장 저렴한 안정형

여기서 가장 먼저 기억해야 할 점은 두 가지입니다.

첫째, 지금의 Google 모델 라인은 “최신일수록 무조건 더 낫고 더 저렴하다”는 구조가 아닙니다. 안정형 최저 비용만 보면 Gemini 2.5 Flash-Lite가 여전히 가장 유리합니다. 반대로 Gemini 3 계열에 남아야 한다면 실제 저가 라인은 Gemini 3.1 Flash-Lite Preview입니다. 많은 비교 글이 이 차이를 지우고 Gemini 3 전체를 하나의 가격대로 묶어버립니다.

둘째, 검색 결과에는 아직도 Gemini 3 Pro Preview를 현역처럼 다루는 글이 남아 있습니다. 하지만 공식 모델 페이지 에 따르면 이 모델은 2026년 3월 9일에 종료되었고, Google은 Gemini 3.1 Pro Preview로 이동하라고 안내합니다. 여전히 옛 모델을 현재형으로 설명하는 페이지는 다른 숫자도 같이 낡았을 가능성이 큽니다.

어떤 Gemini 모델을 예산 기준으로 잡아야 할까

Gemini API의 대표적인 작업 유형을 가장 적절한 저비용, 균형형, 추론형, 프리미엄 모델로 연결하는 의사결정 보드.
Gemini API의 대표적인 작업 유형을 가장 적절한 저비용, 균형형, 추론형, 프리미엄 모델로 연결하는 의사결정 보드.

여기서 중요한 질문은 “가장 강한 모델이 무엇인가”가 아니라 내 작업 부하에 맞는 모델 라인이 무엇인가입니다. 최신 모델 이름만 보고 선택하면 비용 추정이 흔들리기 쉽습니다.

비용 절감이 최우선이라면 Gemini 2.5 Flash-Lite가 여전히 가장 명확한 답입니다. 분류, 추출, 가벼운 번역, 라우팅, 단순 챗, 대량 텍스트 처리처럼 최고 수준의 추론보다 저렴한 처리 비용과 높은 처리량이 더 중요한 경우에 특히 적합합니다.

보다 무난한 운영 기본값이 필요하다면 Gemini 2.5 Flash가 여전히 가장 실무적인 선택입니다. Flash-Lite보다 비싸지만 Pro만큼 부담스럽지 않고, 내부 코파일럿, FAQ 봇, 문서 질의응답, 가벼운 에이전트 워크플로우 같은 실제 업무 시나리오에서는 충분한 경우가 많습니다. 아직 제품 구조를 검증 중인 팀이라면 이 라인부터 예산을 잡는 편이 안전합니다.

Gemini 3 계열을 유지하고 싶지만 Pro 가격까지는 원하지 않는다면 Gemini 3.1 Flash-Lite Preview가 현재의 저비용 루트입니다. 2.5 Flash-Lite보다 더 저렴한 것은 아니지만, Gemini 3 계열 안에서 저가 진입점 역할을 합니다. 최신 계열을 선호하고 preview 리스크를 감수할 수 있는 조직에는 의미가 있습니다.

실제로 높은 추론 성능이 필요한 경우라면 비교 대상은 Gemini 2.5 ProGemini 3.1 Pro Preview가 됩니다. 2.5 Pro도 결코 싼 모델은 아니지만, 3.1 Pro Preview는 한 단계 더 비싼 프리미엄 선택입니다. 코드 생성, 긴 문서 통합, 복잡한 agent planning 같은 작업에서 그 차이가 사업 가치로 이어질 때만 3.1 Pro에 프리미엄을 지불할 이유가 생깁니다.

즉, 2026년 3월 기준으로 실무적인 분기는 다음과 같이 정리할 수 있습니다.

  • 최저 비용: Gemini 2.5 Flash-Lite
  • 안정적 균형형 기본값: Gemini 2.5 Flash
  • Gemini 3 계열의 저가 루트: Gemini 3.1 Flash-Lite Preview
  • 강한 추론을 비교적 낮은 비용으로: Gemini 2.5 Pro
  • 최상위 프리미엄 루트: Gemini 3.1 Pro Preview

AI Studio에서 무료로 테스트해봤다고 해서 그 감각을 그대로 운영 비용에 적용해서는 안 됩니다. Google의 billing FAQ 는 paid API key를 paid project에 연결하는 순간 과금 로직이 달라질 수 있음을 분명히 설명합니다. 체험과 운영은 다른 문제입니다.

실제 Gemini 청구서에는 무엇이 포함될까

기본 input/output 단가 외에 Gemini API 청구액을 바꾸는 주요 요인을 층 구조로 보여주는 그래픽.
기본 input/output 단가 외에 Gemini API 청구액을 바꾸는 주요 요인을 층 구조로 보여주는 그래픽.

많은 Gemini 가격 글은 요금표까지만 보여주지만, 진짜 예산 차이는 그 뒤에서 생깁니다. Google의 billing 페이지 에 따르면 Gemini API는 input token count, output token count, cached token count, cached token storage duration을 기준으로 과금합니다. 즉, 사용자가 보낸 텍스트와 모델이 반환한 텍스트만 비용에 반영되는 것이 아닙니다.

토큰 감각도 중요합니다. 공식 token 가이드 에 따르면 Gemini에서 1 Token은 대략 4자, 100 Token은 영어 60~80단어 정도에 해당합니다. 물론 정확한 회계 공식은 아니지만, 비용 직감을 잡기에는 충분합니다. 짧은 프롬프트 하나는 크게 비싸지 않지만, 긴 시스템 지시, 반복되는 RAG 컨텍스트, 도구 호출 흔적, 긴 대화 이력은 비용을 빠르게 키웁니다.

또 하나 중요한 점은 모든 입력 유형의 단가가 같지 않다는 것입니다. 일부 모델에서는 오디오 입력이 텍스트보다 비쌉니다. Pro 라인에서는 단일 요청의 프롬프트가 200K Token을 넘으면 더 높은 가격대로 이동합니다. 여기에 caching, grounding, 멀티모달 입력까지 더해지면, 머릿속에 외워 둔 기본 단가만으로는 실제 청구액을 설명할 수 없습니다.

그래서 청구서를 크게 바꾸는 요소를 정리하면 다음과 같습니다.

과금 수정 요소무엇이 달라지는가왜 중요한가
Pro에서 200K 초과Gemini 3.1 Pro Preview는 2.00 / 12.00에서 4.00 / 18.00으로, Gemini 2.5 Pro는 1.25 / 10.00에서 2.50 / 15.00으로 상승긴 컨텍스트 작업이 갑자기 비싸질 수 있음
오디오 입력Flash 계열은 text보다 audio input 가격이 높음음성 워크로드가 자주 과소평가됨
Batch주요 텍스트 모델에서 표준 가격의 절반 수준비동기 작업에서 가장 직접적인 절감 수단
Context cachingcached token과 저장 시간에 과금분명 도움이 되지만 무료 메모리는 아님
Grounding검색이나 지도 쿼리 비용이 추가될 수 있음청구서가 token-only 구조를 벗어남
400/500 오류직접 과금은 없지만 quota는 사용금액은 안 늘어도 운영 손실이 생김

특히 BatchContext caching은 강조할 필요가 있습니다.

Batch는 야간 처리, 비동기 평가, 대량 리라이트, 지연 허용 파이프라인처럼 실시간 응답이 필요 없는 작업에서 가장 먼저 확인해야 하는 절감 포인트입니다. 복잡한 프롬프트 최적화나 공급자 변경보다, 이 작업을 Batch로 바꿀 수 있는지 보는 편이 더 빠르게 비용을 줄이는 경우가 많습니다.

Context caching도 오해가 많습니다. 반복되는 문맥 비용을 낮출 수 있는 것은 사실이지만, Google은 cached token과 storage duration에도 비용을 매깁니다. 따라서 caching은 “무료 메모리”가 아니라 “맞게 쓰면 비용을 줄여 주는 최적화 기능”으로 이해하는 것이 맞습니다. quota와 free tier 관점까지 함께 보고 싶다면 Gemini API free quota 2026 를 함께 읽는 것이 좋습니다.

왜 Gemini 비용은 예상보다 빨리 올라갈까

기억하고 있던 가격과 실제 청구액 사이의 차이는 보통 세 가지 원인으로 설명됩니다.

첫째는 200K 프롬프트 임계값입니다. 긴 문서, 큰 코드베이스, 많은 RAG 조각, 긴 대화 이력을 넣기 시작하면 이 임계값을 넘기기 쉽습니다. 그러면 Pro 라인의 “기억하고 있던 단가”는 더 이상 적용되지 않습니다. 그래서 겉으로는 Pro가 맞아 보이는 작업도, 비용 측면에서는 Flash 계열에 retrieval 전략을 더 다듬는 편이 낫기도 합니다.

둘째는 무료 체험 착시입니다. AI Studio에서 무료로 시도해 본 경험과 실제 API 운영 비용은 같은 얘기가 아닙니다. 모델마다 무료 티어 동작이 다르고, paid project로 넘어가면 과금 구조도 달라집니다. 이 차이를 무시하면 예산은 쉽게 어긋납니다.

셋째는 가격과 제한의 결합입니다. 운영에서는 비용만 보면 안 됩니다. Google의 rate limits 페이지 는 제한이 API key 단위가 아니라 프로젝트 단위이며, 모델과 tier에 따라 달라진다고 설명합니다. 즉, 실제 운영에서는 “가장 싼 라인”만이 아니라 “필요한 처리량을 안정적으로 주는 라인”도 함께 봐야 합니다. 429가 자주 난다면 몇 센트 차이보다 throughput이 더 중요한 문제가 됩니다.

결국 Gemini 비용을 크게 흔드는 것은 비슷한 표 행 사이의 미세한 차이보다, 모델 라인 선택, 긴 컨텍스트 사용 여부, Batch 활용, 프롬프트와 컨텍스트 설계입니다.

Gemini Developer API, Vertex AI, AI Studio의 가격 차이

이 키워드가 자주 혼란스러운 이유는 검색 결과에서 Gemini Developer API, Vertex AI, AI Studio가 하나의 가격 주제로 섞여서 다뤄지기 때문입니다.

하지만 개발자 입장에서는 서로 다른 가격 면입니다.

  • Gemini Developer API: 이 글의 주제이며, Gemini API를 직접 호출하는 비용 기준입니다.
  • Vertex AI: Google Cloud 안에서 Gemini를 운영하는 엔터프라이즈 경로입니다.
  • AI Studio: 실험과 테스트용 인터페이스이며, 곧바로 운영 가격 모델과 동일시하면 안 됩니다.

많은 넓은 글은 여기에 Gemini 앱 구독, Workspace 부가 기능까지 함께 얹습니다. 그러면 글은 길어지지만 “Gemini API 토큰 가격”이라는 질문에는 오히려 덜 정확하게 답하게 됩니다.

실무적인 규칙은 단순합니다.

  • 직접 API 호출 비용을 계산한다면 Gemini Developer API pricing 을 본다.
  • 실제 운영이 Google Cloud 안에 있다면 Vertex AI pricing 을 본다.
  • AI Studio는 실험용 입구로 보고, 본격 운영 비용의 기준으로 삼지 않는다.

2026년 3월 시점에는 Vertex AI도 주요 단가 구조는 거의 같지만, priority나 Flex / Batch가 더 전면에 보이기 때문에 enterprise 가격과 Developer API 가격을 혼동하기 쉽습니다. 서드파티 글이 어느 pricing surface를 인용하는지 분명히 쓰지 않았다면, 공식 문서로 다시 확인하는 것이 안전합니다.

자주 쓰는 워크로드의 월간 비용 예시

단가를 실제 의사결정에 연결하려면, 전형적인 사용량에 대입해 보는 것이 가장 이해하기 쉽습니다.

사례 1: Gemini 2.5 Flash를 쓰는 소규모 지원 봇

월간 입력 3000만 Token, 출력 1000만 Token이라고 가정하면,

  • input: 30 × 0.30 = 9.00달러
  • output: 10 × 2.50 = 25.00달러
  • 월간 예상 총액: 34.00달러

그래서 Gemini 2.5 Flash는 여전히 강한 기본 선택입니다. 운영 테스트에 충분히 저렴하면서, 너무 낮은 품질 라인으로 내려갈 필요도 없습니다.

사례 2: Gemini 2.5 Flash-Lite를 쓰는 대량 추출 / 라우팅 서비스

월간 입력 2억 Token, 출력 4000만 Token이면,

  • input: 200 × 0.10 = 20.00달러
  • output: 40 × 0.40 = 16.00달러
  • 월간 예상 총액: 36.00달러

이 예시는 output 단가도 중요하다는 점을 잘 보여 줍니다. Flash-Lite는 input뿐 아니라 output도 저렴하기 때문에 대량 작업에서 강합니다.

사례 3: Gemini 3.1 Pro Preview를 쓰는 고난도 코드 / 통합 작업

월간 입력 2000만 Token, 출력 400만 Token, 그리고 모든 프롬프트가 200K 이하라고 가정하면,

  • input: 20 × 2.00 = 40.00달러
  • output: 4 × 12.00 = 48.00달러
  • 월간 예상 총액: 88.00달러

같은 양을 Gemini 2.5 Pro로 돌리면,

  • input: 20 × 1.25 = 25.00달러
  • output: 4 × 10.00 = 40.00달러
  • 월간 예상 총액: 65.00달러

즉, 3.1 Pro의 프리미엄은 실제로 체감되는 수준입니다. 무시할 수 있는 차이가 아닙니다.

사례 4: Batch 모드로 비동기 백필

첫 번째 사례를 Batch로 바꾸면,

  • input: 30 × 0.15 = 4.50달러
  • output: 10 × 1.25 = 12.50달러
  • 월간 예상 총액: 17.00달러

거의 절반입니다. 그래서 공급자 변경이나 복잡한 최적화에 들어가기 전에, 이 작업을 Batch로 돌릴 수 있는지부터 보는 것이 맞습니다.

현재는 free tier와 quota 동작이 더 궁금하다면, 보조 자료로 Gemini API free quota 2026 를 함께 읽는 것이 좋습니다. 다만 이 글의 핵심 결론은 간단합니다.

Gemini API 토큰 가격에서 진짜 답해야 하는 것은 “100만 Token이 얼마인가”만이 아닙니다. 어떤 모델 라인을 선택해야 하고, 어떤 과금 수정 요소가 최종 숫자를 바꾸는지까지 포함해야 실제로 도움이 됩니다.

Nano Banana Pro

4K 이미지80% 할인

Google Gemini 3 Pro Image · AI 이미지 생성

10만+ 개발자 서비스 제공
$0.24/장
$0.05/장
한정 특가·엔터프라이즈 안정성·Alipay/WeChat
Gemini 3
네이티브 모델
직접 접속
20ms 지연
4K 초고화질
2048px
30초 생성
초고속
|@laozhang_cn|$0.05 획득

200+ AI Models API

Jan 2026
GPT-5.2Claude 4.5Gemini 3Grok 4+195
Image
80% OFF
gemini-3-pro-image$0.05

GPT-Image-1.5 · Flux

Video
80% OFF
Veo3 · Sora2$0.15/gen
16% OFF5-Min📊 99.9% SLA👥 100K+