今天凌晨,OpenAI做了一件事,可能会让Mac和Windows之间那条本就模煳的界线,又向微软的方向倾斜了几公分。 新版Codex正式登陆macOS。OpenAI在公告里用了一个几乎不留余地的措辞:“Codex for almost everything.” 翻译过来就是:以前它能帮你写代码,现在它能替你干电脑前的所有活。 这不是夸张。看完演示视频的开发者们,心情大概分两种:Mac用户开始盘算怎么把这玩意儿塞进自己的工作流,Windows用户则在问同一个问题——微软到底在干什么? 第一章:以前它是“写代码的”,现在它是“用电脑的” 要理解这次升级的颠覆性,得先搞清楚一个关键区别。 以前的AI编程工具,本质上是在跟“代码”打交道。你给它需求,它生成代码;你给它报错,它修bug。整个过程像是两个程序员在隔空对话——中间隔着一层API、一套开发环境、一堆需要手动配置的接口。 新版Codex换了一套打法。它不再只跟代码对话,而是直接跟“电脑屏幕”对话。 在OpenAI放出的演示视频里,Codex被要求测试一个井字棋应用并修复所有bug。它做了一件以前的AI做不到的事:像真人一样打开Xcode工程,用鼠标点开应用的各个功能模块,通过观察界面上的反馈来判断哪里出了问题。 它发现bug的方式不是读错误日志,而是“看”——它看到人类玩家走一步,电脑对手会走两步,这不符合游戏规则。于是它判断:这里有bug。 这个过程里,Codex没有调用任何后端API,没有读取任何错误文档,全靠多模态视觉识别和逻辑推理。它“看懂”了屏幕上的UI元素,“理解”了游戏规则,然后“决定”鼠标应该点哪里。 这意味着什么?意味着对于没有开放API的第三方应用,Codex不再是“盲人”了。以前这些应用对AI来说是黑盒——知道它存在,但动不了它。现在Codex能像人一样“用”它们。 第二章:从“你说它做”到“它看它想它改” 如果说“能操作图形界面”已经够让人惊讶,那Codex的另一项能力可能更值得细看:它能自己“看懂”需求背后的上下文。 演示里有一个特别能说明问题的场景。用户让Codex为网页主视觉区生成一张图片,指令里甚至没有任何风格提示。 Codex没有随便生成一张图交差。它先读取了本地项目文件,结合界面信息判断出网页主题是“费城深夜快餐”,然后以此为基础生成了一张“汉堡+薯条+深夜灯光”的图片。更细节的是,它分析了主视觉区的排版需求,判断图片左侧需要留白以免遮挡文案,于是生成的图片视觉重心偏向右侧。 生成完后,Codex自动把图片移入项目文件夹,修改HTML文件中的占位符,调整CSS样式确保适配,最后刷新浏览器展示效果。 这套流程里最值得注意的不是“它能做”,而是“它知道该这么做”。它不是在执行一串预设指令,而是在理解一个模煳需求后,自主拆解出一连串需要完成的步骤,然后逐一执行。 这已经不是“代码生成工具”了。这是一个能看懂网页、理解设计意图、自己动手改代码的同事。 第三章:真正的“赛博助理”——不用你开口,它就知道该盯什么 如果说前两个案例展示的是Codex的执行力,那后两个案例展示的可能是更让人细思极恐的东西:它的主动性。 在另一个演示里,用户一句话都没多说,只是让Codex去检索Slack、Gmail、Google Calendar和Notion四个平台的信息。Codex自己完成了登录、抓取、分析、排序的全过程,把信息分成“急需处理”和“可以暂缓”两类,还额外标注了某条看似日常汇报的信息其实涉及审批事项,需要留意。 用户看完分类后说了句:“持续留意并通知我。”Codex直接建立了一个名为“Teammate - Hourly”的后台任务,自己设定了运行规则:每小时检查一次各平台,只在有实质性新信息时提醒。 注意,这里没有“配置定时任务”“设置触发条件”这些中间步骤。用户说的是人话,Codex把它翻译成了机器能执行的逻辑。 这意味着Codex正在从“被动响应”走向“主动协助”。你不需要在每次需要它的时候重新交代一遍背景,它可以持续运行、持续监控、在合适的时机主动汇报。 第四章:为什么是Mac?这不是偶然 看到这里,Windows用户可能已经开始不爽了——凭什么又是Mac先上? 答案藏在macOS的底层架构里。 Codex能实现“像真人一样操作电脑”,依赖两个核心技术:一是多模态视觉识别(看懂屏幕上的UI元素),二是对系统权限的精细化调用(控制鼠标、键盘、应用间通信)。 macOS在这方面有天然优势。苹果长期构建的辅助功能API(最初为视障用户设计)和底层沙箱控制机制,为AI Agent提供了稳定、安全的运行环境。Codex不需要获取系统底层权限,不需要让渡用户隐私,就能实现对应用的操作。 Windows这边情况复杂得多。权限管理体系混乱,API接口标准不一,不同版本的系统行为差异大。想让一个AI Agent像在Mac上那样稳定运行,工程量远超想象。 还有一个容易被忽略的因素:Apple生态。Codex可以在Mac上执行任务,用户在iPhone或iPad上查看进度、下达新指令。这种跨设备的原生协同,Windows阵营至今没有对等的解决方案。 讽刺的是,微软自己就是OpenAI的最大股东之一,Copilot折腾了一年多,至今还在“聊天助手”的阶段打转。而Codex已经在Mac上跑起来了。 第五章:这意味着什么——三个正在发生的转变 把这次更新放在更大的图景里看,能清晰看到三个正在发生的转变。 转变一:从“工具”到“同事”的身份跃迁 以前的Codex,你把它当插件用。现在的Codex,你可以把它当团队成员用。它会自己探索项目结构、自己判断修改范围、自己执行测试验证。你不需要告诉它“怎么干”,只需要告诉它“干什么”。 转变二:从“代码层面”到“界面层面”的能力跃迁 以前的AI编程工具被困在“有API才能操作”的牢笼里。现在Codex通过图形界面操作,绕过了API的限制。这意味着它能操作的软件范围,从“开放接口的应用”扩展到了“所有能显示在屏幕上的应用”。 转变三:从“被动响应”到“主动协助”的角色跃迁 以前的AI,你问它才答。现在的Codex,你可以给它一个持续性任务,它会自己在后台运行、定时检查、主动汇报。它不再是一个“需要你时刻喂指令”的工具,而是一个“知道自己该干什么”的协作者。 终章:压力全在微软那边了 Codex这次更新的意义,可能远超一次“版本迭代”。 它标志着AI Agent正式从“能聊天”进化到了“能干活”——而且是像真人一样在电脑前干活。它能看屏幕、点鼠标、读界面、改代码、跨平台检索信息、在后台持续运行。 对于Mac用户来说,这是工作效率的一次质变。对于Windows用户来说,这是又一个“为什么我没有”的扎心时刻。 至于微软——OpenAI的最大股东、Copilot的开发者——现在压力全在它那边了。Copilot折腾了这么久,还在“辅助”阶段打转,而Codex已经在Mac上跑出了“替代”的雏形。 这不是一个“谁家功能更强”的问题。这是一个“谁先定义了下一代人机交互方式”的问题。