Mellum by JetBrains

Mellum 是什么？

Mellum 是由 JetBrains 开发的一系列快速、开源的语言模型，专为延迟和性能至关重要的实际开发工作流程而优化。最新一代引入了混合专家（MoE）架构，可实现超低延迟推理和高吞吐量，速度通常是同类模型的 2 倍。Mellum 能够理解代码、上下文和意图，其能力超越纯代码补全，可同时支持自然语言和编程任务。

适用人群

AI/ML 工程师：需要为生产工作负载和实时应用提供快速、经济高效的推理
开发者：构建编码助手或智能体管道，需要针对专业子任务提供低延迟响应
从实验转向生产的团队：希望获得可预测的成本、本地部署选项，以及对性能和隐私的完全控制

主要特性

混合专家架构

Mellum 采用 MoE 设计，每个请求仅激活少量参数，在保持强大编码质量的同时将推理成本降低一半。该架构将 MoE 能力引入更小的模型类别，无需大型模型的开销即可实现高性能 AI。

超低延迟推理

该模型专为实时工作流而构建，响应时间仅为毫秒级而非秒级。这使得它非常适合智能路由、预处理和后处理等对速度要求苛刻的任务。

灵活的部署选项

Mellum 可进行微调，并部署在本地或云端，让您完全掌控性能、隐私和基础设施。无论您需要私密的本地 AI 使用，还是基于云的扩展，该模型都能适应您的环境。

透明的训练与对齐

Mellum 基于透明数据进行训练，并针对一致性进行对齐，确保在编码和自然语言任务中都能提供可靠输出。该模型从零开始预训练，使用了自然语言和代码数据的混合，重点聚焦编码和数学领域。

突出优势

“我们构建 Mellum 是因为并非所有任务都需要最大或最复杂的模型。”

这一理念驱动着 Mellum 的设计：它不强制每个用例都通过庞大昂贵的模型来处理，而是为高容量、延迟敏感型任务提供快速高效的替代方案。Mellum 擅长为复杂工作流中的子智能体提供动力，实现低延迟的 RAG 管道，并处理模型间的智能路由。通过聚焦性能、延迟和成本，Mellum 填补了玩具模型与昂贵前沿系统之间的空白，使生产级 AI 对各类规模的团队都变得切实可行。

值得关注，如果……

您需要一个快速、开源的语言模型，在强大的编码和语言能力与卓越效率之间取得平衡。如果您正在构建实时 AI 工作流、处理高请求量，或希望通过本地部署完全掌控代码和数据，Mellum 尤其有价值。对于希望在降低推理成本的同时不牺牲质量的团队来说，它也是一个强有力的选择，特别适用于代码补全、智能路由和专业化子智能体处理等任务。

Mellum by JetBrains

Mellum by JetBrains

关于 Mellum by JetBrains

Mellum 是什么？

适用人群

主要特性

混合专家架构

超低延迟推理

灵活的部署选项

透明的训练与对齐

突出优势

值得关注，如果……

相关产品

ZeroGPU

Edgee Turbo Models

PandaProbe Cloud

MCP Bridge by Appfactor

评论