背景:AI编程中上下文的关键作用
在AI编程领域,模型的“智能”无疑是推动技术进步的关键因素之一,而另一个不可忽视的因素则是上下文长度。以Claude 3.5 Sonnet为例,虽然其提供的最大上下文长度为200k个token,足以处理长篇对话或书籍,但对于包含数十甚至数百个代码文件的项目来说,仍然显得捉襟见肘。此外,模型根据输入和输出的token数量收费,边际成本也不容忽视。
这些限制促使Cursor和Windsurf等AI编程工具采取了多种优化策略,目标如下:
准确提取与任务相关的代码,以节省上下文长度,从而实现多步骤任务优化并提升用户体验。
最大限度地减少阅读“不必要”的代码内容,不仅是为了改进任务优化,也是为了降低成本。
在这些约束和目标下,Cursor和Windsurf采用了不同的优化策略来增强其产品体验。然而,这种“优化”往往涉及权衡,只能产生局部最优解,不可避免地会牺牲用户体验的某些方面。
本文旨在帮助读者理解这些“优化”背后的方法和逻辑。通过掌握这些调整中的权衡,我们可以更好地利用不同产品的优势和劣势,从而在各种场景中找到最佳解决方案。
Cursor 和 Windsurf 的实际使用对比
根据最近的实践经验以及对Cursor 0.43.6和Windsurf 1.0.7的评估,我们得出以下结论:
1. 初学者执行基本任务:Windsurf > Cursor Agent > Cursor Composer(普通模式)
在Agent模式下,Cursor执行基本任务的性能优于其标准Composer模式。这是因为Agent模式会解释任务、扫描代码库、定位文件、读取代码,并逐步执行操作以完成任务。与Cursor Composer模式下的Agent相比,Windsurf的Agent在任务理解和多步骤执行能力上表现更出色。
2. Agent模式的关键限制:文件读取不完整
这一限制在复杂项目和大型代码文件中尤为明显。
- 在Cursor的Agent模式下,默认读取文件的头250行。如果需要更多内容,它偶尔会自动再扩展250行。对于某些明确定义的任务,Cursor会执行搜索,每次搜索最多返回100行代码。
- Windsurf默认每文件读取200行,如有必要,最多重试3次,总共最多读取600行。
3. 单文件操作:Cursor优于Windsurf
在Cursor中,如果你@一个特定文件,它将尝试尽可能完整地读取该文件(测试最多2000行)。而在Windsurf中,@一个文件仅帮助其找到相关文件,但不会提示完整读取该文件。这是两种工具之间逻辑上的一个关键区别。
4. 理解项目结构时:Cursor在单文件关注方面表现更好
如果你熟悉项目结构,并且任务与特定文件相关,那么在Cursor中使用@来关注单个文件会产生更好的结果。相反,使用@codebase并不能保证Cursor会将所有相关代码包含在上下文中。相反,它使用较小的模型来分析和总结每个文件,导致必要的代码覆盖不完整。
测试过程与结果
以上结论基于每天大量使用Cursor和Windsurf(超过500小时)以及有针对性的测试。在测试中,我们使用了一个包含1955行的视频字幕文件。字幕文件包含时间戳和松散耦合的内容,因此很容易确定AI编程工具是否真正读取了文件以及读取了多少内容——没有留下任何“猜测”的空间。
为了确保工具是真正“读取”而不是通过检索增强生成(RAG)进行总结,我们在每500行随机插入不相关的内容,例如:
- “花生最喜欢的运动是网球。”
- “花生最喜欢的篮球队是湖人队。”
- “花生喜欢戴白色圆顶帽。”
- “花生最喜欢的食物是螳螂虾。”
测试轮次总结:
-
第一轮:Cursor Composer(普通模式)
Cursor没有主动定位或读取字幕文件,导致任务失败。 -
第二轮:Cursor Composer(Agent模式)
在Agent模式下,Cursor找到并读取了字幕文件,但只读取了250行。 -
第三轮:Windsurf Cascade(默认Agent模式)
Windsurf找到并读取了字幕文件,尝试读取三次,但只达到了600行。 -
第四轮:Cursor Compose(单文件@模式)
通过显式@文件,Cursor完整读取了所有1955行,第一次返回准确的结果。它还通过了随机的“陷阱”问题,证实它确实读取了内容。 -
第五轮:Cursor Compose(@codebase模式)
Cursor总结了视频的内容,但所有陷阱问题都失败了。这表明在这种模式下,Cursor使用较小的模型执行多次读取,并且只将总结信息返回到上下文中。 -
第六轮:Windsurf Cascade(单文件@模式)
在Windsurf中显式@文件仍然导致只总结了600行,证实它没有完全读取文件。
使用建议与最佳实践
- 保持代码文件少于500行,以确保文件在Cursor Agent两次尝试内可以读取的范围内。
- 在头100行中清楚地记录每个代码文件的功能和实现逻辑,使用注释使Agent更容易索引和理解文件的用途。
- 对于初学者或初始阶段的简单项目,Windsurf更有效。它擅长处理新用户的简单任务和项目。
- 对于文件超过600行的复杂项目,如果你熟悉该项目,了解任务,并且知道哪些代码文件相关,那么使用Cursor并显式@相应的代码文件将产生最佳结果。
- 经常重新启动对话,例如在完成新功能或修复错误后,重新启动交互有助于防止长上下文污染项目。
- 定期在一个专用文件中(如README.md)记录项目的状况和结构,这允许Cursor和Windsurf在重新启动对话时快速了解项目的状况,最大限度地减少引入过多或不必要上下文的风险。