AIFreeAPI Logo

Gemini 3.1 Flash-Lite と Gemini 2.5 Flash の違いは?今どちらを使うべきか

A
14 min readAIモデル比較

Gemini 3.1 Flash-Lite はコストと速度で優位ですが、Gemini 2.5 Flash は Stable、無料 grounding、長文脈の一部指標でまだ残る価値があります。全面置換すべきか、分けて使うべきかを実務目線で整理します。

Gemini 3.1 Flash-Lite と Gemini 2.5 Flash の価格・速度・ルーティング方針を比較したカバー画像

2026年3月19日時点で短く答えるなら、コストと速度を優先するなら Gemini 3.1 Flash-Lite、Stable と無料 Search grounding を優先するなら Gemini 2.5 Flash です。 このキーワードの本当の論点は「どちらが紙の上で勝つか」ではなく、「今ある 2.5 Flash の本番ルートをどこまで 3.1 Flash-Lite に置き換えるべきか」です。

混乱しやすい理由は名前にあります。Flash-Lite という名前だけ見ると、多くの開発者は「古いフル Flash より下位の廉価版だろう」と考えます。ところが Google の現行公式資料を並べると話はもっと複雑です。価格ページでは 3.1 Flash-Lite が 2.5 Flash より安く、DeepMind の比較では速度と複数ベンチマークで優位です。それでも同じ公式セットの中で、2.5 Flash は Stable / GA の地位、無料 Search grounding、さらに FACTS と 1M MRCR の優位を残しています。つまりこれは「新しいモデルが古いモデルを完全に置き換える話」ではなく、「どのワークロードをどちらに流すか」の話です。

要点まとめ

実務上の結論だけ先に言えば、翻訳、分類、構造化抽出、ルーティングのような高スループット仕事は Gemini 3.1 Flash-Lite を先に試す価値があります。無料 grounding、Stable の安心感、あるいは 1M 近い長文脈挙動を重視するなら Gemini 2.5 Flash を先に残すべきです。

2026年3月19日時点の公式比較は次のとおりです。

項目Gemini 3.1 Flash-LiteGemini 2.5 Flash実務での意味
提供ステータスPreviewStable / GA3.1 は新しいが、2.5 の方が本番既定路線として守りやすい
Model IDgemini-3.1-flash-lite-previewgemini-2.5-flash置換は明示的ルーティングで行うべき
標準入力価格Free、以後 $0.25 / 1MFree、以後 $0.30 / 1M3.1 の方が安い
標準出力価格Free、以後 $1.50 / 1MFree、以後 $2.50 / 1M3.1 は出力コスト差が大きい
Context window1,048,576 tokens1,048,576 tokens文脈長は主な差ではない
最大出力65,536 tokens65,536 tokens出力上限も同じ
無料 grounding無料 Search grounding なしSearch grounding が 500 RPD まで無料grounded assistant では 2.5 が有利
速度比較363 tokens/s249 tokens/s3.1 が速い
caveatGPQA、MMMU-Pro、LiveCodeBench、128k MRCR で優位FACTS、1M MRCR で優位3.1 は万能勝利ではない

この表は公式の pricingGemini 3.1 Flash-Lite pageGemini 2.5 Flash pagerelease notesDeepMind comparison page をまとめたものです。

実務上の推奨はかなり明快です。

  • 高速・高頻度ワークロードは 3.1 Flash-Lite を先に当てる。
  • grounded 経路、低リスクの本番既定路線、長文脈重視のタスクは 2.5 Flash を残す。
  • 分流できるなら単一モデルに寄せず、両方を役割分担させる。

なぜこの比較はややこしいのか

この比較がややこしいのは、同じ階層同士の素直な比較ではないからです。本来なら Gemini 3.1 Flash-Lite vs Gemini 2.5 Flash-Lite の方が名前として自然です。しかし実際のチームはマーケティング上の対応関係ではなく、「今使っている 2.5 Flash を新しい 3.1 Flash-Lite で置き換えるべきか」を見ています。

その意味で、ここでの真のベースラインは Gemini 2.5 Flash です。これは Gemini API における成熟した low-latency reasoning モデルで、公式 Gemini 2.5 Flash page でも Stable として扱われています。Gemini 2.5 Flash model card も general availability を明示しています。

一方で Gemini 3.1 Flash-Lite は、まったく別の位置づけで出てきました。公式 release notes によれば、2026年3月3日に Gemini 3 系最初の Flash-Lite として公開されました。専用の model page では translation、transcription、simple document processing、high-volume structured extraction、model routing 向けとして紹介されています。つまり Google 自身が、これをただの廉価版ではなく「安くて速い実務レーン」として押し出しています。

この比較を読むときの心構えは次の3点です。

  • Gemini 2.5 Flash は古いだけの弱いモデルではない。
  • Gemini 3.1 Flash-Lite は安い Preview 挑戦者であり、用途によっては主役になる。
  • 問うべきは勝敗ではなく、ルーティング方針である。

2026年3月19日時点の料金、無料枠、Grounding

Gemini 3.1 Flash-Lite の低価格と Gemini 2.5 Flash の無料 Search grounding を対比した価格比較画像
Gemini 3.1 Flash-Lite の低価格と Gemini 2.5 Flash の無料 Search grounding を対比した価格比較画像

多くの比較記事は「3.1 Flash-Lite の方が安い」という半分だけを言って終わります。しかし本番判断に効くのは残り半分です。

公式 pricing page によると、2026年3月19日時点で:

  • Gemini 3.1 Flash-Lite Preview: 標準利用は無料、その後は input \$0.25 / 1M、output \$1.50 / 1M
  • Gemini 2.5 Flash: 標準利用は無料、その後は input \$0.30 / 1M、output \$2.50 / 1M

つまり:

  • input は約 17% 安い
  • output は 40% 安い

現実のワークロードでは output の差の方が効きます。要約、分類理由の生成、短いサポート返信、JSON 抽出などでは output 側のコストが膨らみやすいからです。その意味で 3.1 Flash-Lite の優位はかなり実務的です。

Batch でも方向は変わりません。

  • 3.1 Flash-Lite Batch: \$0.125 input / \$0.75 output
  • 2.5 Flash Batch: \$0.15 input / \$1.25 output

ただし価格ページは、2.5 Flash を残す理由も同時に示しています。それが grounding です。

  • Gemini 2.5 Flash は Search grounding が 500 RPD まで無料
  • Gemini 3.1 Flash-Lite Preview は free-tier Search grounding がなく、月 5,000 prompts の paid-tier 寄りの扱いになっています

この差は grounded assistant を作るときに非常に大きいです。Google 検索を built-in ツールとして使うアプリなら、2.5 Flash の方が無料検証もしやすく、運用の出だしも軽い。逆に grounding を使わないなら、3.1 Flash-Lite の安い output 価格はかなり魅力的です。

無料枠そのものの現状は日本語版の Gemini API 無料枠 2026 で詳しく触れています。運用系の障害対応は Gemini API error troubleshooting guide に日本語版があります。一方で thinking controls や tier 別 rate-limit の詳細は現時点では英語 fallback の方が充実しており、後半で明示的に英語リンクを使います。

ベンチマーク: 3.1 Flash-Lite が勝つ点と 2.5 Flash がまだ残る理由

3.1 Flash-Lite が速度と多くの品質指標で優位であり、2.5 Flash が FACTS と 1M MRCR で残ることを示す比較画像
3.1 Flash-Lite が速度と多くの品質指標で優位であり、2.5 Flash が FACTS と 1M MRCR で残ることを示す比較画像

この比較で最も価値が高い公式資料は、DeepMind の Gemini 3.1 Flash-Lite page です。ここでは Gemini 3.1 Flash-Lite HighGemini 2.5 Flash Dynamic が横並びで出ています。

重要な行だけ抜き出すとこうなります。

指標Gemini 3.1 Flash-LiteGemini 2.5 Flash含意
Output speed363 tokens/s249 tokens/s3.1 Flash-Lite
Humanity's Last Exam16.0%11.0%3.1 Flash-Lite
GPQA Diamond86.9%82.8%3.1 Flash-Lite
MMMU-Pro76.8%66.7%3.1 Flash-Lite
LiveCodeBench72.0%62.6%3.1 Flash-Lite
MRCR v2 at 128k60.1%54.3%3.1 Flash-Lite
FACTS40.6%50.4%Gemini 2.5 Flash
MRCR v2 at 1M12.3%21.0%Gemini 2.5 Flash

この表が示しているのは、単純な「新モデル圧勝」ではありません。

3.1 に切り替えたくなる理由ははっきりしています。

  • 速い
  • 安い
  • reasoning / coding / multimodal で見栄えのする指標が強い

しかし 2.5 を残す理由も本物です。

  • FACTS では 2.5 が上
  • 1M context の MRCR でも 2.5 が上

つまり、grounded な応答や truly long-context retrieval を重視するなら、2.5 Flash を最初から切り捨てるのは雑すぎます。

Google 公式の launch post では、2.5 Flash に対して 2.5 倍速い first token45% 高い output speed が強調されています。これは確かに SERP で目立つ数字ですが、それだけで 2.5 の caveat 行を消してはいけません。

Preview リスク、レート制限、そして Stable の価値

本番判断は benchmark だけでは終わりません。Lifecycle status が重要です。

公式 rate-limits page には見落としやすい点が3つあります。

  • 制限は project 単位 でかかる
  • preview モデルは制限がより厳しい
  • specified rate limits are not guaranteed and actual capacity may vary と明記されている

これが Preview の実務的な意味です。使えないという意味ではなく、「変化中のレーンとして扱え」ということです。

一方で 3.1 に有利な材料も同じページにあります。Tier 1 の Batch API 表では:

  • Gemini 3.1 Flash-Lite Preview: 10,000,000 enqueued batch tokens
  • Gemini 2.5 Flash: 3,000,000 enqueued batch tokens

大きい非同期処理では、ここは確かに 3.1 の魅力です。ただし capacity 変動の注意書きも同じページにあるので、表1枚を SLA のように扱うべきではありません。

Stable がまだ買ってくれる価値は3つあります。

  1. lifecycle churn が少ない
  2. grounding の無料ストーリーが分かりやすい
  3. 障害時に default choice を説明しやすい

thinking controls の違いを細かく見たい場合は、現状では英語版 Gemini API thinking-level guide が fallback になります。tier ごとの limit の詳細も英語版 Gemini API rate-limits-per-tier guide の方が詳しいです。

どのワークロードでどちらを使うべきか

Gemini 3.1 Flash-Lite と Gemini 2.5 Flash の使い分けを示すルーティング判断ツリー
Gemini 3.1 Flash-Lite と Gemini 2.5 Flash の使い分けを示すルーティング判断ツリー

ベンチマーク比較を routing advice に変えると、判断はかなり楽になります。

ワークロード先に選ぶモデル理由
大量翻訳Gemini 3.1 Flash-Lite公式の想定用途そのもので、速度と価格差が素直に効く
structured extraction / JSON pipelineGemini 3.1 Flash-Lite安い output と低 latency が活きる
routing / classifier layersGemini 3.1 Flash-Litemodel page が routing を適用例として挙げている
軽量 coding / UI 生成Gemini 3.1 Flash-LiteLiveCodeBench と応答速度の優位がある
Search-grounded factual assistantGemini 2.5 Flash無料 grounding と FACTS の優位が残る
1M 近い長文脈タスクGemini 2.5 FlashMRCR 1M 行ではまだ 2.5 が強い
低リスクの本番既定路線Gemini 2.5 FlashStable / GA の価値が大きい
分流できるシステム両方2.5 を grounded/long-context に、3.1 を fast/high-volume に回す

さらに細かい点として、thinking controls の設計が少し違うことも見落としにくい点です。Gemini 2.5 Flash model card では configurable thinking budgets が前面に出ていますが、3.1 Flash-Lite の公式説明では reasoning levels の文脈が目立ちます。推論予算を細かく調整しているシステムなら、この差は無視しにくいです。

後悔しない移行方法

2026年3月時点で一番守りやすい移行方針は、全面切替ではなく staged rollout です。

  1. 低リスク・高スループットから移す
    translation、extraction、classification、routing など、コスト差と速度差がすぐ利益に変わるところから 3.1 Flash-Lite を入れる。

  2. grounded と long-context は 2.5 Flash を残す
    無料 Search grounding に依存している、または 1M context 近い長文脈 retrieval を重要視しているなら、2.5 を default から外さない。

  3. fallback ルートを消さない
    3.1 の public table が魅力的でも、社内 prompt と評価で確認するまでは 2.5 ルートを消すべきではない。

一言でまとめると:

  • 速度と token cost が最重要なら 3.1 に先に寄せる
  • grounding、長文脈、安定性が重要なら 2.5 を残す
  • 分流できるなら両方を使う

FAQ

Gemini 3.1 Flash-Lite は Gemini 2.5 Flash より良いですか。

多くの high-volume reasoning タスクでは良いと言えます。速く、安く、複数の公式 benchmark でも強いからです。ただし Stable、無料 grounding、FACTS、1M context の挙動まで含めるなら、2.5 Flash がより良い場合もあります。

Gemini 3.1 Flash-Lite は本当に安いですか。

Gemini 2.5 Flash と比べれば本当に安いです。公式 pricing page では 3.1 Flash-Lite が \$0.25 input / \$1.50 output、2.5 Flash が \$0.30 input / \$2.50 output と書かれています。

なぜ 2.5 Flash をすぐ全部置き換えない方がいいのですか。

3.1 はまだ Preview で、同じ公式比較の中に FACTS と 1M MRCR では 2.5 Flash が優位という行が残っているからです。grounded や very-long-context の本番では、この差を無視しにくいです。

今いちばん無難な選び方は何ですか。

役割分担です。高速・高頻度のタスクは 3.1 Flash-Lite、grounded・long-context・安定性重視の経路は 2.5 Flash。これが 2026年3月19日時点で最も実務的な答えです。

Nano Banana Pro

4K画像80%OFF

Google Gemini 3 Pro Image · AI画像生成

10万+の開発者にサービス提供
$0.24/枚
$0.05/枚
期間限定·企業レベル安定性·Alipay/WeChat
Gemini 3
ネイティブモデル
ダイレクト接続
20ms遅延
4K超高解像度
2048px
30秒生成
超高速
|@laozhang_cn|$0.05獲得

200+ AI Models API

Jan 2026
GPT-5.2Claude 4.5Gemini 3Grok 4+195
Image
80% OFF
gemini-3-pro-image$0.05

GPT-Image-1.5 · Flux

Video
80% OFF
Veo3 · Sora2$0.15/gen
16% OFF5-Min📊 99.9% SLA👥 100K+