Gemini 3.1 Flash-Lite と Gemini 2.5 Flash の違いは？今どちらを使うべきか

AI Free API Team

•2026年3月19日•14 min read•AIモデル比較

Gemini 3.1 Flash-Lite はコストと速度で優位ですが、Gemini 2.5 Flash は Stable、無料 grounding、長文脈の一部指標でまだ残る価値があります。全面置換すべきか、分けて使うべきかを実務目線で整理します。

Gemini 3.1 Flash-Lite と Gemini 2.5 Flash の価格・速度・ルーティング方針を比較したカバー画像

2026年3月19日時点で短く答えるなら、コストと速度を優先するなら Gemini 3.1 Flash-Lite、Stable と無料 Search grounding を優先するなら Gemini 2.5 Flash です。 このキーワードの本当の論点は「どちらが紙の上で勝つか」ではなく、「今ある 2.5 Flash の本番ルートをどこまで 3.1 Flash-Lite に置き換えるべきか」です。

混乱しやすい理由は名前にあります。Flash-Lite という名前だけ見ると、多くの開発者は「古いフル Flash より下位の廉価版だろう」と考えます。ところが Google の現行公式資料を並べると話はもっと複雑です。価格ページでは 3.1 Flash-Lite が 2.5 Flash より安く、DeepMind の比較では速度と複数ベンチマークで優位です。それでも同じ公式セットの中で、2.5 Flash は Stable / GA の地位、無料 Search grounding、さらに FACTS と 1M MRCR の優位を残しています。つまりこれは「新しいモデルが古いモデルを完全に置き換える話」ではなく、「どのワークロードをどちらに流すか」の話です。

要点まとめ

実務上の結論だけ先に言えば、翻訳、分類、構造化抽出、ルーティングのような高スループット仕事は Gemini 3.1 Flash-Lite を先に試す価値があります。無料 grounding、Stable の安心感、あるいは 1M 近い長文脈挙動を重視するなら Gemini 2.5 Flash を先に残すべきです。

2026年3月19日時点の公式比較は次のとおりです。

項目	Gemini 3.1 Flash-Lite	Gemini 2.5 Flash	実務での意味
提供ステータス	Preview	Stable / GA	3.1 は新しいが、2.5 の方が本番既定路線として守りやすい
Model ID	`gemini-3.1-flash-lite-preview`	`gemini-2.5-flash`	置換は明示的ルーティングで行うべき
標準入力価格	Free、以後 $0.25 / 1M	Free、以後 $0.30 / 1M	3.1 の方が安い
標準出力価格	Free、以後 $1.50 / 1M	Free、以後 $2.50 / 1M	3.1 は出力コスト差が大きい
Context window	1,048,576 tokens	1,048,576 tokens	文脈長は主な差ではない
最大出力	65,536 tokens	65,536 tokens	出力上限も同じ
無料 grounding	無料 Search grounding なし	Search grounding が 500 RPD まで無料	grounded assistant では 2.5 が有利
速度比較	363 tokens/s	249 tokens/s	3.1 が速い
caveat	GPQA、MMMU-Pro、LiveCodeBench、128k MRCR で優位	FACTS、1M MRCR で優位	3.1 は万能勝利ではない

この表は公式の pricing、Gemini 3.1 Flash-Lite page、Gemini 2.5 Flash page、release notes、DeepMind comparison page をまとめたものです。

実務上の推奨はかなり明快です。

高速・高頻度ワークロードは 3.1 Flash-Lite を先に当てる。
grounded 経路、低リスクの本番既定路線、長文脈重視のタスクは 2.5 Flash を残す。
分流できるなら単一モデルに寄せず、両方を役割分担させる。

なぜこの比較はややこしいのか

この比較がややこしいのは、同じ階層同士の素直な比較ではないからです。本来なら Gemini 3.1 Flash-Lite vs Gemini 2.5 Flash-Lite の方が名前として自然です。しかし実際のチームはマーケティング上の対応関係ではなく、「今使っている 2.5 Flash を新しい 3.1 Flash-Lite で置き換えるべきか」を見ています。

その意味で、ここでの真のベースラインは Gemini 2.5 Flash です。これは Gemini API における成熟した low-latency reasoning モデルで、公式 Gemini 2.5 Flash page でも Stable として扱われています。Gemini 2.5 Flash model card も general availability を明示しています。

一方で Gemini 3.1 Flash-Lite は、まったく別の位置づけで出てきました。公式 release notes によれば、2026年3月3日に Gemini 3 系最初の Flash-Lite として公開されました。専用の model page では translation、transcription、simple document processing、high-volume structured extraction、model routing 向けとして紹介されています。つまり Google 自身が、これをただの廉価版ではなく「安くて速い実務レーン」として押し出しています。

この比較を読むときの心構えは次の3点です。

Gemini 2.5 Flash は古いだけの弱いモデルではない。
Gemini 3.1 Flash-Lite は安い Preview 挑戦者であり、用途によっては主役になる。
問うべきは勝敗ではなく、ルーティング方針である。

2026年3月19日時点の料金、無料枠、Grounding

Gemini 3.1 Flash-Lite の低価格と Gemini 2.5 Flash の無料 Search grounding を対比した価格比較画像

多くの比較記事は「3.1 Flash-Lite の方が安い」という半分だけを言って終わります。しかし本番判断に効くのは残り半分です。

公式 pricing page によると、2026年3月19日時点で:

Gemini 3.1 Flash-Lite Preview: 標準利用は無料、その後は input \$0.25 / 1M、output \$1.50 / 1M
Gemini 2.5 Flash: 標準利用は無料、その後は input \$0.30 / 1M、output \$2.50 / 1M

つまり:

input は約 17% 安い
output は 40% 安い

現実のワークロードでは output の差の方が効きます。要約、分類理由の生成、短いサポート返信、JSON 抽出などでは output 側のコストが膨らみやすいからです。その意味で 3.1 Flash-Lite の優位はかなり実務的です。

Batch でも方向は変わりません。

3.1 Flash-Lite Batch: \$0.125 input / \$0.75 output
2.5 Flash Batch: \$0.15 input / \$1.25 output

ただし価格ページは、2.5 Flash を残す理由も同時に示しています。それが grounding です。

Gemini 2.5 Flash は Search grounding が 500 RPD まで無料
Gemini 3.1 Flash-Lite Preview は free-tier Search grounding がなく、月 5,000 prompts の paid-tier 寄りの扱いになっています

この差は grounded assistant を作るときに非常に大きいです。Google 検索を built-in ツールとして使うアプリなら、2.5 Flash の方が無料検証もしやすく、運用の出だしも軽い。逆に grounding を使わないなら、3.1 Flash-Lite の安い output 価格はかなり魅力的です。

無料枠そのものの現状は日本語版の Gemini API 無料枠 2026 で詳しく触れています。運用系の障害対応は Gemini API error troubleshooting guide に日本語版があります。一方で thinking controls や tier 別 rate-limit の詳細は現時点では英語 fallback の方が充実しており、後半で明示的に英語リンクを使います。

ベンチマーク: 3.1 Flash-Lite が勝つ点と 2.5 Flash がまだ残る理由

3.1 Flash-Lite が速度と多くの品質指標で優位であり、2.5 Flash が FACTS と 1M MRCR で残ることを示す比較画像

この比較で最も価値が高い公式資料は、DeepMind の Gemini 3.1 Flash-Lite page です。ここでは Gemini 3.1 Flash-Lite High と Gemini 2.5 Flash Dynamic が横並びで出ています。

重要な行だけ抜き出すとこうなります。

指標	Gemini 3.1 Flash-Lite	Gemini 2.5 Flash	含意
Output speed	363 tokens/s	249 tokens/s	3.1 Flash-Lite
Humanity's Last Exam	16.0%	11.0%	3.1 Flash-Lite
GPQA Diamond	86.9%	82.8%	3.1 Flash-Lite
MMMU-Pro	76.8%	66.7%	3.1 Flash-Lite
LiveCodeBench	72.0%	62.6%	3.1 Flash-Lite
MRCR v2 at 128k	60.1%	54.3%	3.1 Flash-Lite
FACTS	40.6%	50.4%	Gemini 2.5 Flash
MRCR v2 at 1M	12.3%	21.0%	Gemini 2.5 Flash

この表が示しているのは、単純な「新モデル圧勝」ではありません。

3.1 に切り替えたくなる理由ははっきりしています。

速い
安い
reasoning / coding / multimodal で見栄えのする指標が強い

しかし 2.5 を残す理由も本物です。

FACTS では 2.5 が上
1M context の MRCR でも 2.5 が上

つまり、grounded な応答や truly long-context retrieval を重視するなら、2.5 Flash を最初から切り捨てるのは雑すぎます。

Google 公式の launch post では、2.5 Flash に対して 2.5 倍速い first token、45% 高い output speed が強調されています。これは確かに SERP で目立つ数字ですが、それだけで 2.5 の caveat 行を消してはいけません。

Preview リスク、レート制限、そして Stable の価値

本番判断は benchmark だけでは終わりません。Lifecycle status が重要です。

公式 rate-limits page には見落としやすい点が3つあります。

制限は project 単位 でかかる
preview モデルは制限がより厳しい
specified rate limits are not guaranteed and actual capacity may vary と明記されている

これが Preview の実務的な意味です。使えないという意味ではなく、「変化中のレーンとして扱え」ということです。

一方で 3.1 に有利な材料も同じページにあります。Tier 1 の Batch API 表では:

Gemini 3.1 Flash-Lite Preview: 10,000,000 enqueued batch tokens
Gemini 2.5 Flash: 3,000,000 enqueued batch tokens

大きい非同期処理では、ここは確かに 3.1 の魅力です。ただし capacity 変動の注意書きも同じページにあるので、表1枚を SLA のように扱うべきではありません。

Stable がまだ買ってくれる価値は3つあります。

lifecycle churn が少ない
grounding の無料ストーリーが分かりやすい
障害時に default choice を説明しやすい

thinking controls の違いを細かく見たい場合は、現状では英語版 Gemini API thinking-level guide が fallback になります。tier ごとの limit の詳細も英語版 Gemini API rate-limits-per-tier guide の方が詳しいです。

どのワークロードでどちらを使うべきか

Gemini 3.1 Flash-Lite と Gemini 2.5 Flash の使い分けを示すルーティング判断ツリー

ベンチマーク比較を routing advice に変えると、判断はかなり楽になります。

ワークロード	先に選ぶモデル	理由
大量翻訳	Gemini 3.1 Flash-Lite	公式の想定用途そのもので、速度と価格差が素直に効く
structured extraction / JSON pipeline	Gemini 3.1 Flash-Lite	安い output と低 latency が活きる
routing / classifier layers	Gemini 3.1 Flash-Lite	model page が routing を適用例として挙げている
軽量 coding / UI 生成	Gemini 3.1 Flash-Lite	LiveCodeBench と応答速度の優位がある
Search-grounded factual assistant	Gemini 2.5 Flash	無料 grounding と FACTS の優位が残る
1M 近い長文脈タスク	Gemini 2.5 Flash	MRCR 1M 行ではまだ 2.5 が強い
低リスクの本番既定路線	Gemini 2.5 Flash	Stable / GA の価値が大きい
分流できるシステム	両方	2.5 を grounded/long-context に、3.1 を fast/high-volume に回す

さらに細かい点として、thinking controls の設計が少し違うことも見落としにくい点です。Gemini 2.5 Flash model card では configurable thinking budgets が前面に出ていますが、3.1 Flash-Lite の公式説明では reasoning levels の文脈が目立ちます。推論予算を細かく調整しているシステムなら、この差は無視しにくいです。

後悔しない移行方法

2026年3月時点で一番守りやすい移行方針は、全面切替ではなく staged rollout です。

低リスク・高スループットから移す
translation、extraction、classification、routing など、コスト差と速度差がすぐ利益に変わるところから 3.1 Flash-Lite を入れる。
grounded と long-context は 2.5 Flash を残す
無料 Search grounding に依存している、または 1M context 近い長文脈 retrieval を重要視しているなら、2.5 を default から外さない。
fallback ルートを消さない
3.1 の public table が魅力的でも、社内 prompt と評価で確認するまでは 2.5 ルートを消すべきではない。

一言でまとめると:

速度と token cost が最重要なら 3.1 に先に寄せる
grounding、長文脈、安定性が重要なら 2.5 を残す
分流できるなら両方を使う

FAQ

Gemini 3.1 Flash-Lite は Gemini 2.5 Flash より良いですか。

多くの high-volume reasoning タスクでは良いと言えます。速く、安く、複数の公式 benchmark でも強いからです。ただし Stable、無料 grounding、FACTS、1M context の挙動まで含めるなら、2.5 Flash がより良い場合もあります。

Gemini 3.1 Flash-Lite は本当に安いですか。

Gemini 2.5 Flash と比べれば本当に安いです。公式 pricing page では 3.1 Flash-Lite が \$0.25 input / \$1.50 output、2.5 Flash が \$0.30 input / \$2.50 output と書かれています。

なぜ 2.5 Flash をすぐ全部置き換えない方がいいのですか。

3.1 はまだ Preview で、同じ公式比較の中に FACTS と 1M MRCR では 2.5 Flash が優位という行が残っているからです。grounded や very-long-context の本番では、この差を無視しにくいです。

今いちばん無難な選び方は何ですか。

役割分担です。高速・高頻度のタスクは 3.1 Flash-Lite、grounded・long-context・安定性重視の経路は 2.5 Flash。これが 2026年3月19日時点で最も実務的な答えです。

#Gemini 3.1 Flash-Lite #Gemini 2.5 Flash #Gemini API #モデル比較 #Google AI