微软发布Webwright:终端原生Web代理框架
微软研究院AI前沿实验室近日开源了名为Webwright的全新网络智能体框架。与传统浏览器智能体逐帧预测点击坐标的“动作执行”模式不同,Webwright让智能体在终端环境中直接编写并运行Playwright代码,通过bash命令和日志反馈迭代优化脚本。这种“代码驱动”的设计大幅提升了复杂任务的执行能力:在Odysseys长程浏览基准测试中,搭载GPT-5.4的Webwright取得60.1%的成绩,较基础GPT-5.4的33.5%提升79.4%;在Online-Mind2Web上达到86.7%的准确率,创下开源方案最高纪录。整个框架仅约1000行代码,无多智能体编排,体现了极简主义工程哲学。
代码驱动:Webwright如何用终端取代浏览器会话
传统网络智能体每次仅执行一个原子动作(点击、键盘输入、滚动),模型需要实时解析页面截图或DOM文本。随着语言模型代码能力的增强,这种逐动作循环已成为瓶颈。Webwright的突破在于将智能体与浏览器彻底解耦:智能体通过Playwright脚本控制Chromium、Firefox或WebKit浏览器,可随时启动、检查、丢弃浏览器会话,而持久化的工件不再是浏览器状态,而是工作区中的代码、日志和截图。这模仿了开发者编写RPA(机器人流程自动化)脚本的工作流——脚本可重复运行、修改和共享。
系统由三个模块构成:Runner(约150行代码)、Model Endpoint(约550行)和终端Environment(约300行)。运行循环中,Runner将当前上下文发送给大模型,模型返回思考块和Shell命令,命令在环境中执行并返回终端输出、日志、截图或错误追踪,这些观察结果再次进入上下文,循环继续。这种设计使智能体能够自然表达多步操作(如填写表单、选择日期)为紧凑的代码片段,利用循环、函数和抽象能力实现泛化,无需重复预测低层级步骤。
GPT-5.4性能飙升60.1%,成本与效率权衡凸显
Webwright在两项基准测试中表现亮眼。在Online-Mind2Web(300个任务,136个流行网站)上,使用GPT-5.4在100步预算内达到86.67%的总体准确率,超越OpenAI AutoEval类别所有开源方案;Claude Opus 4.7以84.7%紧随其后,但在困难任务上以80.5%优于GPT-5.4的76.6%。研究团队还复现了传统截图坐标基线(GPT-5.4),Webwright在所有难度层级均取得显著提升,凸显代码驱动方案的优越性。
在长程多网站任务Odysseys上(平均指令长度272.3词),Webwright+GPT-5.4以60.1%的成绩,相对此前最佳Opus 4.6的44.5%提升35.1%,较GPT-5.4基础分33.5%提升79.4%(绝对值26.6个百分点)。成本方面,Claude Opus 4.7每任务平均步数更少(21.9步 vs 26.3步),但其定价显著更高(输入每百万token 5美元 vs 2.5美元,输出25美元 vs 15美元),导致每任务平均成本攀升至6.09美元,而GPT-5.4仅为2.37美元。前50步即可达到82%的准确率,后50步额外贡献3至4个百分点。
小模型搭配脚本库可达66.2%,开源生态可复用
研究团队还测试了小型模型Qwen3.5-9B在Online-Mind2Web困难子集上的表现:当任务配备预建的可复用工具脚本后,在超过5个工具的网站上准确率达到66.2%。这表明即使参数规模较小的低成本模型,在搭配工具库后也能胜任复杂网络任务。Webwright框架的脚本输出被封装为可复用的CLI工具,兼容Claude Code、Codex和OpenClaw等环境,进一步降低了开发者的使用门槛。整个项目已在GitHub开源(github.com/microsoft/Webwright),仅需Python 3.10+、Playwright安装的Chromium及API密钥即可快速上手。