


Gemini 3.1 Flash-Lite 是 Gemini 3 系列中速度最快、成本效益最高的模型,专为高吞吐量的开发者工作负载而设计。其定价仅为 每百万输入 Token 0.25 美元 和 每百万输出 Token 1.50 美元,以远低于大型模型的成本提供更出色的性能。相比 2.5 Flash,它的首个响应 Token 生成速度提升 2.5 倍,输出速度提升 45%,同时保持相似或更优的质量。该模型可通过 Google AI Studio 中的 Gemini API 预览使用,企业用户则可通过 Vertex AI 访问。
Gemini 3.1 Flash-Lite 相比 2.5 Flash,首个 Token 生成速度提升 2.5 倍,输出速度提升 45%,非常适合对低延迟要求严苛的高频工作流。其定价在同级别模型中极具竞争力。
该模型在 Arena.ai 排行榜上获得 Elo 评分 1432,在推理和多模态理解方面表现出色,GPQA Diamond 得分 86.9%,MMMU Pro 得分 76.8%——甚至超越了前几代更大的 Gemini 模型。
开发者可以控制模型对任务的“思考”深度,在速度与推理深度之间选择最佳平衡。这种灵活性对于管理高频工作负载同时精确处理复杂输入至关重要。
Gemini 3.1 Flash-Lite 能够处理高吞吐量翻译、内容审核、动态仪表盘生成、模拟创建,以及执行多步骤业务任务的 SaaS 智能体构建等任务。
“它能以大型模型的精度处理复杂输入,同时遵循指令并保持一致性。”
早期测试者的这句评价捕捉到了该模型的独特优势:以极低的成本和延迟,提供远超其体量的推理质量。Latitude、Cartwheel 和 Whering 等公司的早期体验开发者已在使用它大规模解决复杂问题,证明了其在简单和复杂工作负载中的真实价值。
你需要一个快速、经济实惠的 AI 模型来处理成本与延迟至关重要的高吞吐量任务。如果你正在构建实时应用、处理大规模内容审核,或生成动态用户界面和仪表盘,Gemini 3.1 Flash-Lite 在速度、智能和价格之间提供了令人信服的平衡。如果你希望获得可调控的推理能力,又不想为大型模型的额外开销买单,它也是一个绝佳选择。
其他您可能感兴趣的工具
Loading comments…
制作者
async_apple
访问网站
blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
项目信息
产品关键词