我从去年开始使用 cursor,一直到今年 5 月份左右,我都在高强度的使用,但是我从来没有用过 auto 模式,我会认真的研究每一个新发布的模型的 SWE-bench 分数,然后在 cursor 上线的时候第一时间开始使用
后来 cursor 引入了不太透明的计费机制,MAX mode,老实说这让我有点不舒服,并且在高峰时期,热门模型的回复非常缓慢。当时正值 claude code 和 codex 开始逐渐发力,正好我也开始订阅 Anthropic 和 openai 的 pro 计划,因此我转向了 claude code 和 codex
我个人挺喜欢 terminal coding agent,因为他们事实上是承诺了一种 “不需要打开 IDE/直接编辑代码的编程体验”,我可以聚焦于高层次的意图和设计,而不用关心细枝末节的东西,但是随着编程的深入,我发现“不求甚解” 的编程在一开始可能确实很爽快,但是编码的过程会引入大量潜在的问题,从而使得后续的拓展和维护非常困难
正好这周我用光了 codex 和 claude code 的限额,而我始终保留着 cursor 的订阅,因此我久违的打开了 cursor,并在 tab completion 的帮助下开始编码,并且时不时的用 auto mode 解决一些问题
我开始觉得事情有点不对劲,auto mode 的表现比我预想的好太多了,它在这些情况下表现良好:
A:我只是想要关于某端代码的 quick answer。比如:“这个 forward compatible 的配置是否可以安全的移除”,auto mode 能快速精准的给出答案
B:稍微复杂一点的问题。比如我最近正在开发一个比较底层的音频处理流水线,我需要在流水线级别实现一个控制信号,这涉及对非常多的代码逻辑的阅读,以确保引入新的信号不会带来意料之外的副作用,auto mode 表现的很好,它看起来在调用 reasoning model,并准确的沿着 pipe 阅读了相关的代码逻辑,并且提供了非常完整的解决方案和风险预警
C:编码工作。当我定位了问题,有了一个解决方案,并且规划好了 commits,auto mode 能够快速精准的按照我的需求实现代码,并且没有做多余的事情,这一点非常重要,因为我经常在 claude code 中发出 “i didn’t ask you to do that” 这样的感叹,即使我已经很明确的提供了 prompt
我承认一开始我觉得 auto mode 只是一个降低成本的把戏,但是后来我在使用 claude code 和 codex 的时候开始意识到,agentic coding 的用户 token 用量具有极大的方差和不可预测性,因此即使是 claude code MAX plan 这样 200$ 的订阅方案也不得不引入周限流,成本控制对于这类公司来说是一个非常大的挑战
现在,基于我自己的亲身体验,我想为 cursor 团队点赞,auto mode 是一个了不起的产品设计,我对此曾经有误解,但是我越来越意识到在 cost-efficiency-performance 这个不可能的三角中取得平衡是很困难的事情,但是 cursor 团队一直在不断的优化 auto mode 的体验,而这样的体验是 SWE-bench 无法衡量的
更重要的是,我认为这是一个很好的 AI 产品公司商业化模式的探索,我们所看到的情况是 Codex 和 Claude Code 由于 token usage 压力而不同程度的引入了限流措施,最近 reddit 上 claude code 的 sub 也在大量的反馈自己订阅的 plan 所对应的 rate limit 完全不及预期。而 cursor auto model 可能是一条可行的路径,它可以根据任务难度选择合适的模型,跟 GPT-5-Chat 的方向是一致的,长期来看也是更加可持续的
模型发展到现在,各家后训练逐渐成熟,产品的取向也日渐清晰,比如:
- GPT:最强的思考,可观的上下文
- Claude:放弃最强智能(怀念老版本的 Opus),All in Agent(terminal、tool calling、coding)
- GLM:开始尝试在 agent 和 terminal coding 上挑战 claude
- Gemini:超长上下文,Flash 模型速度快成本低
- Qwen:每一项都不差
我自己日常工作里也会搭配这些模型,在不降低效果的情况下获得较低的成本,至少比全部都用 GPT-5 要低很多
我相信没有模型能够在所有的任务上都做到最好,那么这是否意味着 model routing 不但可以缓解成本压力,甚至有可能让路由的结果超过单一的最强模型?结合最近 cursor blog 曝出的 tab completion 通过 online RL 实现了 28% 的采纳率提升,也许 cursor 同样在 auto model 上使用了类似的基于用户反馈的训练机制?如果 cursor 团队真的探索出了一条通过数据反馈提升 model routing 效能的方式,那么我觉得这是非常了不起的
说一个题外话,claude code 在前端时间承认偷偷更新了模型并且导致了不同程度的 “降智” 现象,我原先认为 auto mode 是一种不透明,但现在回过头来看,至少你可以在 cursor 里明确的选择 “我要最好的模型” 还是 “我希望获得一个平衡的体验”,而不是对底层发生的事情一无所知