数据分析

微软研究戳破 AI 编程 “神话”:调试软件,它还嫩了点!

2025-04-11 11:49:22 Pea111 阅读:291
微软研究戳破 AI 编程 “神话”:调试软件,它还嫩了点!

当下,AI 领域可谓热火朝天,OpenAI、Anthropic 等一众顶尖实验室研发的模型,正大举进军编程界。谷歌那边,首席执行官桑达尔・皮查伊早在 10 月就透露,公司新代码里,有 25% 都是 AI 的 “杰作”;而 Meta 的掌舵人马克・扎克伯格,也满心盘算着在自家社交媒体帝国里,全面铺开 AI 编码模型,那野心昭然若揭。
可现实却给这些美好的憧憬泼了盆冷水。别看 AI 模型平时 “秀操作” 挺唬人,真到了软件调试的关键时刻,面对那些经验丰富的开发者轻松就能搞定的软件漏洞,它们却常常被 “卡脖子”,显得力不从心。
微软研究院 —— 微软的研发 “智囊团”,最近搞了一项研究,直接把 AI 模型在软件调试上的短板暴露无遗。在一个叫 SWE-bench Lite 的软件开发基准测试里,像 Anthropic 的 Claude 3.7 Sonnet,还有 OpenAI 的 o3-mini 这类模型,面对一系列软件问题,调试尝试纷纷 “翻车”。这结果就像一记重锤,狠狠敲醒了那些对 AI 盲目乐观的人:尽管 OpenAI 等公司把 AI 吹得神乎其神,但在编码这个专业领域,AI 和人类专家相比,还是差了一大截。
为了弄清楚 AI 模型在软件调试上到底啥水平,研究的几位共同作者找来九个不同的模型,把它们当作一个 “基于单一提示的智能体” 的核心部分。这个智能体还配备了 Python 调试器等一堆调试工具,看着挺 “豪华”。接着,研究人员从 SWE-bench Lite 里精挑细选了 300 个软件调试任务,丢给这个 “全副武装” 的智能体去解决。
结果让人挺失望。哪怕给智能体配上最新、最强的模型,它能成功完成一半以上调试任务的情况,也少得可怜。Claude 3.7 Sonnet 算是表现最好的,平均成功率也就 48.4%;OpenAI 的 o1 排第二,成功率 30.2%;o3-mini 更惨,只有 22.1%
为啥 AI 模型在调试软件时这么不给力呢?一方面,有些模型连现成的调试工具都用不明白,根本搞不清不同工具该在啥时候派上用场。但研究人员觉得,更大的问题出在数据上。他们猜测,现在模型训练用的数据里,能反映 “顺序决策过程”(说白了,就是人类调试软件时的思路和步骤)的数据严重不足。
研究的共同作者在报告里写道:“我们心里清楚,要是对模型进行训练或者微调,肯定能让它们在交互式调试上表现好点。但这可不是嘴上说说就行,得有专门的数据来配合训练,比如说,得有那种能记录智能体和调试器互动过程的数据,这样智能体才能在给出修复漏洞方案前,收集到有用信息。”
其实,AI 模型在代码生成方面有缺陷,也不是啥新鲜事了。之前就有好多研究发现,因为在理解编程逻辑这些关键地方有短板,AI 生成的代码经常藏着安全漏洞,错误也不少。就拿一款挺火的 AI 编码工具 Devin 来说,最近有人对它做了评估,20 个编程测试,它吭哧吭哧半天,也就勉强通过了 3 个。
不过,微软这次的研究,算是把模型在软件调试这块的老问题,掰开了、揉碎了给大家看。虽说这不一定能让那些对 AI 辅助编码工具狂热的投资者冷静下来,但好歹能给开发者和他们的领导提个醒:真要让 AI 在编码工作里 “挑大梁”,可得三思而后行。
有意思的是,现在越来越多科技圈的大佬,都站出来反对 “AI 会抢走程序员饭碗” 这个说法。微软联合创始人比尔・盖茨就直言,编程这行,往后还得靠人;Replit 的首席执行官阿姆贾德・马萨德、Okta 的首席执行官托德・麦金农,还有 IBM 的首席执行官阿尔温德・克里希纳,也都持相同观点。看来,在软件编程这场大戏里,人类程序员的 “主角光环”,一时半会儿还摘不掉。

相关文章

不止达人带货:品牌牵手 MCN 机构,AI 成营销新核心
数据分析

不止达人带货:品牌牵手 MCN 机构,AI 成营销新核心

2026-01-27 10:30:22 阅读:8
AI 购物收费时代来临?4% 佣金背后,商家买单意愿几何
数据分析

AI 购物收费时代来临?4% 佣金背后,商家买单意愿几何

2026-01-26 11:01:41 阅读:14
AI 与社交双轮驱动:2025 年非游戏类 APP 营收首次反超游戏
数据分析

AI 与社交双轮驱动:2025 年非游戏类 APP 营收首次反超游戏

2026-01-23 10:42:33 阅读:42
百度 百度热点
抖音热榜 抖音热榜
新浪微博 新浪微博
今日头条 今日头条
腾讯新闻 腾讯新闻
知乎热搜 知乎热搜
36氪 36氪
雪球网 雪球网

最新帖子

驶入流量新航道:解密2025抖音推流逻辑与系统化运营
产品运营

驶入流量新航道:解密2025抖音推流逻辑与系统化运营

2026-01-27 10:35:54 阅读:11
营销漏斗新革命:AI + 社交搜索,重构用户发现新路径
用户研究

营销漏斗新革命:AI + 社交搜索,重构用户发现新路径

2026-01-27 10:32:27 阅读:10
AI进化的暗线:训练它的“刹车”与“罗盘”
业界动态

AI进化的暗线:训练它的“刹车”与“罗盘”

2026-01-27 10:31:45 阅读:11
不止达人带货:品牌牵手 MCN 机构,AI 成营销新核心
数据分析

不止达人带货:品牌牵手 MCN 机构,AI 成营销新核心

2026-01-27 10:30:22 阅读:8
竞品分析的认知盲区:如何识别那些“看不见”的对手?
产品运营

竞品分析的认知盲区:如何识别那些“看不见”的对手?

2026-01-26 11:07:59 阅读:15
效果与侵扰的博弈:电视、社交广告为何让消费者又爱又恨?
用户研究

效果与侵扰的博弈:电视、社交广告为何让消费者又爱又恨?

2026-01-26 11:03:04 阅读:13