近年来,随着人工智能(AI)技术的迅猛发展,编程工具的使用方式也发生了显著变化。曾几何时,像 Cursor、Windsurf 和 GitHub 的 C opilot 这样的代码编辑工具一直是 AI 驱动软件开发的主流。然而,随着 “自主代理 AI” 的崛起和 “氛围编程” 的流行,AI 系统与软件的互动方式悄然转变。现在,AI 工具正越来越多地直接与系统的命令行接口(终端)进行交互。
终端,这个曾被90年代黑客电影广为传播的黑白屏幕,虽然看起来不如现代的代码编辑器那么炫酷,但其强大的操作能力在程序开发中却不容小觑。AI 不仅能够编写和调试代码,终端工具则是将代码变成可用软件的关键。
这一转变最明显的体现是主要实验室的命令行编码工具的推出,自今年2月以来,Anthropic、DeepMind 和 OpenAI 相继发布了 Claude Code、Gemini CLI 和 CLI Codex 等命令行工具,迅速成为公司最受欢迎的产品之一。
这一变化虽然不易察觉,但它实际上标志着 AI 与计算机之间的互动方式发生了根本性的转变。许多专家认为,这种趋势才刚刚开始。Terminal-Bench 的共同创作者 Mike Merrill 表示,“我们坚信未来95% 的大型语言模型(LLM)与计算机的互动将通过类似终端的接口进行。”
与此同时,传统的代码编辑工具也面临着不小的挑战。AI 代码编辑器 Windsurf 经历了一系列收购,公司的未来变得不确定。而新研究显示,程序员们对传统工具的生产力提升估计过高。比如,METR 的一项研究发现,尽管开发者认为使用 Cursor Pro 能提高20% 至30% 的工作效率,实际观察结果却显示任务的完成速度反而慢了近20%。
在这样的背景下,Warp 等公司迅速崛起,凭借其在 Terminal-Bench 中的高分,成为终端工具的佼佼者。Warp 的创始人 Zach Lloyd 对终端充满信心,他认为终端是处理代码编辑器难以解决问题的理想场所。
新方法的关键在于如何定义其性能基准。传统工具通常关注解决 GitHub 上的代码问题,而终端工具则从更广泛的视角出发,涵盖代码编写、DevOps 任务等各个方面。比如,Terminal-Bench 的一道题目要求 AI 逆向工程一个压缩算法,另一道则要求其从源代码构建 Linux 内核。这需要程序员所需的顽强解决问题的能力。
虽然现在的终端工具尚未完全解锁其潜力,但 Lloyd 相信它们已经能够处理许多开发者的非编码工作,这无疑是个值得期待的前景。