数据分析

微软研究戳破 AI 编程 “神话”：调试软件，它还嫩了点！

2025-04-11 11:49:22 Pea111 阅读：414

当下，AI 领域可谓热火朝天，OpenAI、Anthropic 等一众顶尖实验室研发的模型，正大举进军编程界。谷歌那边，首席执行官桑达尔・皮查伊早在 10 月就透露，公司新代码里，有 25% 都是 AI 的 “杰作”；而 Meta 的掌舵人马克・扎克伯格，也满心盘算着在自家社交媒体帝国里，全面铺开 AI 编码模型，那野心昭然若揭。
可现实却给这些美好的憧憬泼了盆冷水。别看 AI 模型平时 “秀操作” 挺唬人，真到了软件调试的关键时刻，面对那些经验丰富的开发者轻松就能搞定的软件漏洞，它们却常常被 “卡脖子”，显得力不从心。
微软研究院 —— 微软的研发 “智囊团”，最近搞了一项研究，直接把 AI 模型在软件调试上的短板暴露无遗。在一个叫 SWE-bench Lite 的软件开发基准测试里，像 Anthropic 的 Claude 3.7 Sonnet，还有 OpenAI 的 o3-mini 这类模型，面对一系列软件问题，调试尝试纷纷 “翻车”。这结果就像一记重锤，狠狠敲醒了那些对 AI 盲目乐观的人：尽管 OpenAI 等公司把 AI 吹得神乎其神，但在编码这个专业领域，AI 和人类专家相比，还是差了一大截。
为了弄清楚 AI 模型在软件调试上到底啥水平，研究的几位共同作者找来九个不同的模型，把它们当作一个 “基于单一提示的智能体” 的核心部分。这个智能体还配备了 Python 调试器等一堆调试工具，看着挺 “豪华”。接着，研究人员从 SWE-bench Lite 里精挑细选了 300 个软件调试任务，丢给这个 “全副武装” 的智能体去解决。
结果让人挺失望。哪怕给智能体配上最新、最强的模型，它能成功完成一半以上调试任务的情况，也少得可怜。Claude 3.7 Sonnet 算是表现最好的，平均成功率也就 48.4%；OpenAI 的 o1 排第二，成功率 30.2%；o3-mini 更惨，只有 22.1%。
为啥 AI 模型在调试软件时这么不给力呢？一方面，有些模型连现成的调试工具都用不明白，根本搞不清不同工具该在啥时候派上用场。但研究人员觉得，更大的问题出在数据上。他们猜测，现在模型训练用的数据里，能反映 “顺序决策过程”（说白了，就是人类调试软件时的思路和步骤）的数据严重不足。
研究的共同作者在报告里写道：“我们心里清楚，要是对模型进行训练或者微调，肯定能让它们在交互式调试上表现好点。但这可不是嘴上说说就行，得有专门的数据来配合训练，比如说，得有那种能记录智能体和调试器互动过程的数据，这样智能体才能在给出修复漏洞方案前，收集到有用信息。”
其实，AI 模型在代码生成方面有缺陷，也不是啥新鲜事了。之前就有好多研究发现，因为在理解编程逻辑这些关键地方有短板，AI 生成的代码经常藏着安全漏洞，错误也不少。就拿一款挺火的 AI 编码工具 Devin 来说，最近有人对它做了评估，20 个编程测试，它吭哧吭哧半天，也就勉强通过了 3 个。
不过，微软这次的研究，算是把模型在软件调试这块的老问题，掰开了、揉碎了给大家看。虽说这不一定能让那些对 AI 辅助编码工具狂热的投资者冷静下来，但好歹能给开发者和他们的领导提个醒：真要让 AI 在编码工作里 “挑大梁”，可得三思而后行。
有意思的是，现在越来越多科技圈的大佬，都站出来反对 “AI 会抢走程序员饭碗” 这个说法。微软联合创始人比尔・盖茨就直言，编程这行，往后还得靠人；Replit 的首席执行官阿姆贾德・马萨德、Okta 的首席执行官托德・麦金农，还有 IBM 的首席执行官阿尔温德・克里希纳，也都持相同观点。看来，在软件编程这场大戏里，人类程序员的 “主角光环”，一时半会儿还摘不掉。