


在智能水平和行为表现上,相较于 Composer 2 有了显著提升,尤其是在长周期自主任务方面。
Composer 2.5 是 Cursor 中 AI 编程助手的一次重大更新。与上一代 Composer 2 相比,它在智能水平和行为表现上实现了显著飞跃,尤其在长周期自主任务方面表现突出。该模型基于与 Composer 2 相同的开源检查点——Moonshot 的 Kimi K2.5——但得益于规模化训练、更复杂的强化学习环境以及新的学习方法,其能力和易用性均得到提升。
Composer 2.5 引入了一种新颖的训练技术,可在生成序列的特定位置提供局部反馈。它不再仅依赖最终奖励信号(在数十万 token 的序列中可能充满噪声),而是将提示直接插入需要改进行为的上下文位置。这使得 Composer 2.5 能够从错误(如糟糕的工具调用或令人困惑的解释)中学习,而无需为整个轨迹承担惩罚。
该模型训练的合成任务数量是 Composer 2 的 25 倍以上。这些任务在训练过程中动态创建和筛选,确保模型随着编程能力的提升不断面临更困难的问题。诸如“功能删除”(代理需在保持测试套件通过的前提下删除代码)等方法,使合成数据更贴近真实代码库的挑战。
除了原始编程基准测试,Composer 2.5 还在对实际使用至关重要的行为维度上进行了优化。模型沟通更清晰,能根据任务合理分配精力,并且在长时间会话中协作体验更佳。
“Composer 2.5 在长时间运行的任务中表现更出色,能更可靠地遵循复杂指令,协作体验也更愉快。”
这种持续智能与行为打磨的结合在 AI 编程助手中实属罕见。许多模型能处理简短明确的任务,而 Composer 2.5 擅长定义真正软件开发特征的扩展性多步骤工作。其目标反馈训练方法使其能从具体错误中学习,而非因整个轨迹受罚,从而在实际应用中既更聪明也更具适应性。
是一名经常处理复杂、长时间编程任务的开发者,希望 AI 助手能保持专注、遵循细微指令,并在整个过程中清晰沟通。如果你发现其他编程助手在多步骤工作中失去连贯性,或无法从局部错误中学习,Composer 2.5 在智能水平和协作质量上都能带来有意义的升级。
其他您可能感兴趣的工具
在使用Claude Code时,有三件事一直困扰着我。每30秒就要切换一次标签页,只为确认它是否还在运行。Claude在我使用其他应用时静默阻塞了12分钟。回来才发现它要么已完成,要么在15分钟前就卡住了。于是我开发了CodeBreak。一个像素风格的角色会在你的屏幕上走动,陪伴CC运行。任务完成时它会庆祝,需要你关注时会慌张,遇到错误时会闹情绪。一次性付费7美元,无需订阅。所有未来更新均免费。目前仅支持CC,未来将通用适配所有AI工具。
什么是 1Code?一款可在 Mac 和 Web 上并行运行 Claude Code 代理的应用。在 Mac 上——本地运行,支持或不使用工作树。在 Web 上——在远程沙盒中运行,提供应用(包括移动端)的实时预览,让你随时随地查看代理状态。并行运行多个 Claude Code 实例显著加快了我们的功能开发速度。
LobeHub 是一款首席智能体运营平台(CAO),可构建、运行并协调您的 AI 智能体团队。只需描述一个目标,它就能自动组建合适的智能体与技能组合,在云端并行执行任务,跨模型分配工作,并仅在需要决策时通过您现有的沟通渠道(Slack/Discord/Telegram/iMessage)反馈结果。减少标签页切换,聚焦实际成果。
AI代理渲染UI时速度慢、成本高且不一致,推理费用也因此激增。Montage解决了这一问题:只需输出一个微小的意图模式,我们便能在服务端编译生产级组件——速度提升10倍,令牌消耗减少50-100倍,且与模型和框架无关。现在,一次M1 API调用即可生成丰富的交互式视觉内容,将其托管为具有持久状态的实时UI,并适配您的品牌风格。别让您的代理每次交互都重新发明UI——让它们搭载Montage启航!
Loading comments…
制作者
blueprint_b
项目信息
产品关键词