Gemini API 토큰 가격(2026년 3월): 가장 저렴한 모델, 현재 요금, 과금 규칙

AI Free API Team

•2026년 3월 22일•18 min read•API 가격

2026년 3월 기준 Gemini API 토큰 가격의 최저선은 Gemini 2.5 Flash-Lite의 입력 100만 토큰당 0.10달러입니다. Gemini 3 계열 안에서는 Gemini 3.1 Flash-Lite Preview가 가장 저렴하고, 프리미엄 라인은 Gemini 3.1 Pro Preview입니다. 이 글에서는 현재 요금, batch 할인, 그리고 실제 청구액을 바꾸는 과금 규칙을 정리합니다.

2026년 3월 기준 Gemini API의 텍스트 모델 가격은 입력 100만 토큰당 0.10달러에서 2.00달러, 출력 100만 토큰당 0.40달러에서 12.00달러까지 분포합니다. 가장 저렴한 안정형 텍스트 모델은 여전히 Gemini 2.5 Flash-Lite입니다. Gemini 3 계열 안에서 비용을 낮추고 싶다면 현재의 실질적인 저가 라인은 Gemini 3.1 Flash-Lite Preview입니다. 그리고 상위 모델은 Gemini 3.1 Pro Preview인데, 프롬프트가 200K 토큰을 넘는 순간 가격이 한 단계 더 올라간다는 점을 반드시 염두에 둬야 합니다.

이 페이지는 먼저 예산 결정을 빨리 끝내기 위해 읽으면 됩니다. 어떤 모델을 견적의 기준선으로 잡을지, 200K 토큰 임계값이 언제 계산을 바꾸는지, 그리고 어떤 추가 과금 요소가 실제 청구액을 크게 흔드는지를 먼저 정리합니다. 그래서 여기서는 Gemini Developer API 라인만 다루고 Vertex, 앱 구독, Workspace 비용은 섞지 않습니다. 대신 Batch, 캐싱, grounding, 오디오 입력, 장문맥 임계값처럼 실제 비용을 바꾸는 요소만 분리해 설명합니다.

핵심 요약

가장 저렴한 안정형 텍스트 모델: Gemini 2.5 Flash-Lite, 입력 100만 토큰당 0.10달러, 출력 0.40달러.
Gemini 3 계열에서 가장 저렴한 텍스트 모델: Gemini 3.1 Flash-Lite Preview, 입력 0.25달러, 출력 1.50달러.
현재 프리미엄 상위 라인: Gemini 3.1 Pro Preview, 200K 이하에서는 2.00 / 12.00달러, 200K 초과에서는 4.00 / 18.00달러.
많은 운영 환경에서 가장 현실적인 기본값: Gemini 2.5 Flash. Lite보다 비싸지만 Pro보다 훨씬 저렴하고 균형이 좋습니다.
가장 빠른 절감 수단: Batch 모드. 주요 텍스트 모델에서는 보통 표준 가격의 절반 수준입니다.
가장 흔한 오판: input/output 가격만 보고 200K 임계값, 오디오 입력, context caching, cache storage, grounding 비용을 놓치는 것.

2026년 3월 Gemini API 토큰 가격표

2026년 3월 Gemini API 모델을 예산형, 균형형, 프리미엄으로 나눠 보여주는 가격 매트릭스.

공식 Gemini Developer API pricing 페이지가 가장 신뢰할 만한 기준이지만, 지금 실제로 비교해야 하는 모델 라인을 빠르게 읽기에는 다소 불편할 수 있습니다. 그래서 현재 개발자들이 가장 자주 비교하는 텍스트 모델만 모아보면 다음과 같습니다.

모델	표준 input 가격	표준 output 가격	Batch input	Batch output	비고
Gemini 3.1 Pro Preview	200K 이하 100만 토큰당 2.00달러, 초과 시 4.00달러	200K 이하 12.00달러, 초과 시 18.00달러	200K 이하 1.00달러, 초과 시 2.00달러	200K 이하 6.00달러, 초과 시 9.00달러	paid 전용, 현재 상위 텍스트 라인
Gemini 3 Flash Preview	text / image / video는 0.50달러, audio는 1.00달러	3.00달러	text / image / video는 0.25달러, audio는 0.50달러	1.50달러	Gemini 3의 빠른 라인, 무료 티어 존재
Gemini 3.1 Flash-Lite Preview	text / image / video는 0.25달러, audio는 0.50달러	1.50달러	text / image / video는 0.125달러, audio는 0.25달러	0.75달러	Gemini 3 계열의 저가 텍스트 루트
Gemini 2.5 Pro	200K 이하 1.25달러, 초과 시 2.50달러	200K 이하 10.00달러, 초과 시 15.00달러	200K 이하 0.625달러, 초과 시 1.25달러	200K 이하 5.00달러, 초과 시 7.50달러	3.1 Pro보다 저렴한 강한 추론 대안
Gemini 2.5 Flash	text / image / video는 0.30달러, audio는 1.00달러	2.50달러	text / image / video는 0.15달러, audio는 0.50달러	1.25달러	안정형 균형 라인
Gemini 2.5 Flash-Lite	text / image / video는 0.10달러, audio는 0.30달러	0.40달러	text / image / video는 0.05달러, audio는 0.15달러	0.20달러	가장 저렴한 안정형

여기서 가장 먼저 기억해야 할 점은 두 가지입니다.

첫째, 지금의 Google 모델 라인은 “최신일수록 무조건 더 낫고 더 저렴하다”는 구조가 아닙니다. 안정형 최저 비용만 보면 Gemini 2.5 Flash-Lite가 여전히 가장 유리합니다. 반대로 Gemini 3 계열에 남아야 한다면 실제 저가 라인은 Gemini 3.1 Flash-Lite Preview입니다. 많은 비교 글이 이 차이를 지우고 Gemini 3 전체를 하나의 가격대로 묶어버립니다.

둘째, 검색 결과에는 아직도 Gemini 3 Pro Preview를 현역처럼 다루는 글이 남아 있습니다. 하지만 공식 모델 페이지 에 따르면 이 모델은 2026년 3월 9일에 종료되었고, Google은 Gemini 3.1 Pro Preview로 이동하라고 안내합니다. 여전히 옛 모델을 현재형으로 설명하는 페이지는 다른 숫자도 같이 낡았을 가능성이 큽니다.

어떤 Gemini 모델을 예산 기준으로 잡아야 할까

Gemini API의 대표적인 작업 유형을 가장 적절한 저비용, 균형형, 추론형, 프리미엄 모델로 연결하는 의사결정 보드.

여기서 중요한 질문은 “가장 강한 모델이 무엇인가”가 아니라 내 작업 부하에 맞는 모델 라인이 무엇인가입니다. 최신 모델 이름만 보고 선택하면 비용 추정이 흔들리기 쉽습니다.

비용 절감이 최우선이라면 Gemini 2.5 Flash-Lite가 여전히 가장 명확한 답입니다. 분류, 추출, 가벼운 번역, 라우팅, 단순 챗, 대량 텍스트 처리처럼 최고 수준의 추론보다 저렴한 처리 비용과 높은 처리량이 더 중요한 경우에 특히 적합합니다.

보다 무난한 운영 기본값이 필요하다면 Gemini 2.5 Flash가 여전히 가장 실무적인 선택입니다. Flash-Lite보다 비싸지만 Pro만큼 부담스럽지 않고, 내부 코파일럿, FAQ 봇, 문서 질의응답, 가벼운 에이전트 워크플로우 같은 실제 업무 시나리오에서는 충분한 경우가 많습니다. 아직 제품 구조를 검증 중인 팀이라면 이 라인부터 예산을 잡는 편이 안전합니다.

Gemini 3 계열을 유지하고 싶지만 Pro 가격까지는 원하지 않는다면 Gemini 3.1 Flash-Lite Preview가 현재의 저비용 루트입니다. 2.5 Flash-Lite보다 더 저렴한 것은 아니지만, Gemini 3 계열 안에서 저가 진입점 역할을 합니다. 최신 계열을 선호하고 preview 리스크를 감수할 수 있는 조직에는 의미가 있습니다.

실제로 높은 추론 성능이 필요한 경우라면 비교 대상은 Gemini 2.5 Pro와 Gemini 3.1 Pro Preview가 됩니다. 2.5 Pro도 결코 싼 모델은 아니지만, 3.1 Pro Preview는 한 단계 더 비싼 프리미엄 선택입니다. 코드 생성, 긴 문서 통합, 복잡한 agent planning 같은 작업에서 그 차이가 사업 가치로 이어질 때만 3.1 Pro에 프리미엄을 지불할 이유가 생깁니다.

즉, 2026년 3월 기준으로 실무적인 분기는 다음과 같이 정리할 수 있습니다.

최저 비용: Gemini 2.5 Flash-Lite
안정적 균형형 기본값: Gemini 2.5 Flash
Gemini 3 계열의 저가 루트: Gemini 3.1 Flash-Lite Preview
강한 추론을 비교적 낮은 비용으로: Gemini 2.5 Pro
최상위 프리미엄 루트: Gemini 3.1 Pro Preview

AI Studio에서 무료로 테스트해봤다고 해서 그 감각을 그대로 운영 비용에 적용해서는 안 됩니다. Google의 billing FAQ 는 paid API key를 paid project에 연결하는 순간 과금 로직이 달라질 수 있음을 분명히 설명합니다. 체험과 운영은 다른 문제입니다.

실제 Gemini 청구서에는 무엇이 포함될까

기본 input/output 단가 외에 Gemini API 청구액을 바꾸는 주요 요인을 층 구조로 보여주는 그래픽.

많은 Gemini 가격 글은 요금표까지만 보여주지만, 진짜 예산 차이는 그 뒤에서 생깁니다. Google의 billing 페이지 에 따르면 Gemini API는 input token count, output token count, cached token count, cached token storage duration을 기준으로 과금합니다. 즉, 사용자가 보낸 텍스트와 모델이 반환한 텍스트만 비용에 반영되는 것이 아닙니다.

토큰 감각도 중요합니다. 공식 token 가이드 에 따르면 Gemini에서 1 Token은 대략 4자, 100 Token은 영어 60~80단어 정도에 해당합니다. 물론 정확한 회계 공식은 아니지만, 비용 직감을 잡기에는 충분합니다. 짧은 프롬프트 하나는 크게 비싸지 않지만, 긴 시스템 지시, 반복되는 RAG 컨텍스트, 도구 호출 흔적, 긴 대화 이력은 비용을 빠르게 키웁니다.

또 하나 중요한 점은 모든 입력 유형의 단가가 같지 않다는 것입니다. 일부 모델에서는 오디오 입력이 텍스트보다 비쌉니다. Pro 라인에서는 단일 요청의 프롬프트가 200K Token을 넘으면 더 높은 가격대로 이동합니다. 여기에 caching, grounding, 멀티모달 입력까지 더해지면, 머릿속에 외워 둔 기본 단가만으로는 실제 청구액을 설명할 수 없습니다.

그래서 청구서를 크게 바꾸는 요소를 정리하면 다음과 같습니다.

과금 수정 요소	무엇이 달라지는가	왜 중요한가
Pro에서 200K 초과	Gemini 3.1 Pro Preview는 2.00 / 12.00에서 4.00 / 18.00으로, Gemini 2.5 Pro는 1.25 / 10.00에서 2.50 / 15.00으로 상승	긴 컨텍스트 작업이 갑자기 비싸질 수 있음
오디오 입력	Flash 계열은 text보다 audio input 가격이 높음	음성 워크로드가 자주 과소평가됨
Batch	주요 텍스트 모델에서 표준 가격의 절반 수준	비동기 작업에서 가장 직접적인 절감 수단
Context caching	cached token과 저장 시간에 과금	분명 도움이 되지만 무료 메모리는 아님
Grounding	검색이나 지도 쿼리 비용이 추가될 수 있음	청구서가 token-only 구조를 벗어남
400/500 오류	직접 과금은 없지만 quota는 사용	금액은 안 늘어도 운영 손실이 생김

특히 Batch와 Context caching은 강조할 필요가 있습니다.

Batch는 야간 처리, 비동기 평가, 대량 리라이트, 지연 허용 파이프라인처럼 실시간 응답이 필요 없는 작업에서 가장 먼저 확인해야 하는 절감 포인트입니다. 복잡한 프롬프트 최적화나 공급자 변경보다, 이 작업을 Batch로 바꿀 수 있는지 보는 편이 더 빠르게 비용을 줄이는 경우가 많습니다.

Context caching도 오해가 많습니다. 반복되는 문맥 비용을 낮출 수 있는 것은 사실이지만, Google은 cached token과 storage duration에도 비용을 매깁니다. 따라서 caching은 “무료 메모리”가 아니라 “맞게 쓰면 비용을 줄여 주는 최적화 기능”으로 이해하는 것이 맞습니다. quota와 free tier 관점까지 함께 보고 싶다면 Gemini API free quota 2026 를 함께 읽는 것이 좋습니다.

왜 Gemini 비용은 예상보다 빨리 올라갈까

기억하고 있던 가격과 실제 청구액 사이의 차이는 보통 세 가지 원인으로 설명됩니다.

첫째는 200K 프롬프트 임계값입니다. 긴 문서, 큰 코드베이스, 많은 RAG 조각, 긴 대화 이력을 넣기 시작하면 이 임계값을 넘기기 쉽습니다. 그러면 Pro 라인의 “기억하고 있던 단가”는 더 이상 적용되지 않습니다. 그래서 겉으로는 Pro가 맞아 보이는 작업도, 비용 측면에서는 Flash 계열에 retrieval 전략을 더 다듬는 편이 낫기도 합니다.

둘째는 무료 체험 착시입니다. AI Studio에서 무료로 시도해 본 경험과 실제 API 운영 비용은 같은 얘기가 아닙니다. 모델마다 무료 티어 동작이 다르고, paid project로 넘어가면 과금 구조도 달라집니다. 이 차이를 무시하면 예산은 쉽게 어긋납니다.

셋째는 가격과 제한의 결합입니다. 운영에서는 비용만 보면 안 됩니다. Google의 rate limits 페이지 는 제한이 API key 단위가 아니라 프로젝트 단위이며, 모델과 tier에 따라 달라진다고 설명합니다. 즉, 실제 운영에서는 “가장 싼 라인”만이 아니라 “필요한 처리량을 안정적으로 주는 라인”도 함께 봐야 합니다. 429가 자주 난다면 몇 센트 차이보다 throughput이 더 중요한 문제가 됩니다.

결국 Gemini 비용을 크게 흔드는 것은 비슷한 표 행 사이의 미세한 차이보다, 모델 라인 선택, 긴 컨텍스트 사용 여부, Batch 활용, 프롬프트와 컨텍스트 설계입니다.

Gemini Developer API, Vertex AI, AI Studio의 가격 차이

이 키워드가 자주 혼란스러운 이유는 검색 결과에서 Gemini Developer API, Vertex AI, AI Studio가 하나의 가격 주제로 섞여서 다뤄지기 때문입니다.

하지만 개발자 입장에서는 서로 다른 가격 면입니다.

Gemini Developer API: 이 글의 주제이며, Gemini API를 직접 호출하는 비용 기준입니다.
Vertex AI: Google Cloud 안에서 Gemini를 운영하는 엔터프라이즈 경로입니다.
AI Studio: 실험과 테스트용 인터페이스이며, 곧바로 운영 가격 모델과 동일시하면 안 됩니다.

많은 넓은 글은 여기에 Gemini 앱 구독, Workspace 부가 기능까지 함께 얹습니다. 그러면 글은 길어지지만 “Gemini API 토큰 가격”이라는 질문에는 오히려 덜 정확하게 답하게 됩니다.

실무적인 규칙은 단순합니다.

직접 API 호출 비용을 계산한다면 Gemini Developer API pricing 을 본다.
실제 운영이 Google Cloud 안에 있다면 Vertex AI pricing 을 본다.
AI Studio는 실험용 입구로 보고, 본격 운영 비용의 기준으로 삼지 않는다.

2026년 3월 시점에는 Vertex AI도 주요 단가 구조는 거의 같지만, priority나 Flex / Batch가 더 전면에 보이기 때문에 enterprise 가격과 Developer API 가격을 혼동하기 쉽습니다. 서드파티 글이 어느 pricing surface를 인용하는지 분명히 쓰지 않았다면, 공식 문서로 다시 확인하는 것이 안전합니다.

자주 쓰는 워크로드의 월간 비용 예시

단가를 실제 의사결정에 연결하려면, 전형적인 사용량에 대입해 보는 것이 가장 이해하기 쉽습니다.

사례 1: Gemini 2.5 Flash를 쓰는 소규모 지원 봇

월간 입력 3000만 Token, 출력 1000만 Token이라고 가정하면,

input: 30 × 0.30 = 9.00달러
output: 10 × 2.50 = 25.00달러
월간 예상 총액: 34.00달러

그래서 Gemini 2.5 Flash는 여전히 강한 기본 선택입니다. 운영 테스트에 충분히 저렴하면서, 너무 낮은 품질 라인으로 내려갈 필요도 없습니다.

사례 2: Gemini 2.5 Flash-Lite를 쓰는 대량 추출 / 라우팅 서비스

월간 입력 2억 Token, 출력 4000만 Token이면,

input: 200 × 0.10 = 20.00달러
output: 40 × 0.40 = 16.00달러
월간 예상 총액: 36.00달러

이 예시는 output 단가도 중요하다는 점을 잘 보여 줍니다. Flash-Lite는 input뿐 아니라 output도 저렴하기 때문에 대량 작업에서 강합니다.

사례 3: Gemini 3.1 Pro Preview를 쓰는 고난도 코드 / 통합 작업

월간 입력 2000만 Token, 출력 400만 Token, 그리고 모든 프롬프트가 200K 이하라고 가정하면,

input: 20 × 2.00 = 40.00달러
output: 4 × 12.00 = 48.00달러
월간 예상 총액: 88.00달러

같은 양을 Gemini 2.5 Pro로 돌리면,

input: 20 × 1.25 = 25.00달러
output: 4 × 10.00 = 40.00달러
월간 예상 총액: 65.00달러

즉, 3.1 Pro의 프리미엄은 실제로 체감되는 수준입니다. 무시할 수 있는 차이가 아닙니다.

사례 4: Batch 모드로 비동기 백필

첫 번째 사례를 Batch로 바꾸면,

input: 30 × 0.15 = 4.50달러
output: 10 × 1.25 = 12.50달러
월간 예상 총액: 17.00달러

거의 절반입니다. 그래서 공급자 변경이나 복잡한 최적화에 들어가기 전에, 이 작업을 Batch로 돌릴 수 있는지부터 보는 것이 맞습니다.

현재는 free tier와 quota 동작이 더 궁금하다면, 보조 자료로 Gemini API free quota 2026 를 함께 읽는 것이 좋습니다. 다만 이 글의 핵심 결론은 간단합니다.

Gemini API 토큰 가격에서 진짜 답해야 하는 것은 “100만 Token이 얼마인가”만이 아닙니다. 어떤 모델 라인을 선택해야 하고, 어떤 과금 수정 요소가 최종 숫자를 바꾸는지까지 포함해야 실제로 도움이 됩니다.

#Gemini API #토큰 가격 #API 비용 #Google AI #LLM 비용