Latest

微软发布Webwright：终端原生Web代理框架

Kexin

25 May 2026 — 4 min read

微软研究院AI前沿实验室近日开源了名为Webwright的全新网络智能体框架。与传统浏览器智能体逐帧预测点击坐标的“动作执行”模式不同，Webwright让智能体在终端环境中直接编写并运行Playwright代码，通过bash命令和日志反馈迭代优化脚本。这种“代码驱动”的设计大幅提升了复杂任务的执行能力：在Odysseys长程浏览基准测试中，搭载GPT-5.4的Webwright取得60.1%的成绩，较基础GPT-5.4的33.5%提升79.4%；在Online-Mind2Web上达到86.7%的准确率，创下开源方案最高纪录。整个框架仅约1000行代码，无多智能体编排，体现了极简主义工程哲学。

代码驱动：Webwright如何用终端取代浏览器会话

传统网络智能体每次仅执行一个原子动作（点击、键盘输入、滚动），模型需要实时解析页面截图或DOM文本。随着语言模型代码能力的增强，这种逐动作循环已成为瓶颈。Webwright的突破在于将智能体与浏览器彻底解耦：智能体通过Playwright脚本控制Chromium、Firefox或WebKit浏览器，可随时启动、检查、丢弃浏览器会话，而持久化的工件不再是浏览器状态，而是工作区中的代码、日志和截图。这模仿了开发者编写RPA（机器人流程自动化）脚本的工作流——脚本可重复运行、修改和共享。

系统由三个模块构成：Runner（约150行代码）、Model Endpoint（约550行）和终端Environment（约300行）。运行循环中，Runner将当前上下文发送给大模型，模型返回思考块和Shell命令，命令在环境中执行并返回终端输出、日志、截图或错误追踪，这些观察结果再次进入上下文，循环继续。这种设计使智能体能够自然表达多步操作（如填写表单、选择日期）为紧凑的代码片段，利用循环、函数和抽象能力实现泛化，无需重复预测低层级步骤。

GPT-5.4性能飙升60.1%，成本与效率权衡凸显

Webwright在两项基准测试中表现亮眼。在Online-Mind2Web（300个任务，136个流行网站）上，使用GPT-5.4在100步预算内达到86.67%的总体准确率，超越OpenAI AutoEval类别所有开源方案；Claude Opus 4.7以84.7%紧随其后，但在困难任务上以80.5%优于GPT-5.4的76.6%。研究团队还复现了传统截图坐标基线（GPT-5.4），Webwright在所有难度层级均取得显著提升，凸显代码驱动方案的优越性。

在长程多网站任务Odysseys上（平均指令长度272.3词），Webwright+GPT-5.4以60.1%的成绩，相对此前最佳Opus 4.6的44.5%提升35.1%，较GPT-5.4基础分33.5%提升79.4%（绝对值26.6个百分点）。成本方面，Claude Opus 4.7每任务平均步数更少（21.9步 vs 26.3步），但其定价显著更高（输入每百万token 5美元 vs 2.5美元，输出25美元 vs 15美元），导致每任务平均成本攀升至6.09美元，而GPT-5.4仅为2.37美元。前50步即可达到82%的准确率，后50步额外贡献3至4个百分点。

小模型搭配脚本库可达66.2%，开源生态可复用

研究团队还测试了小型模型Qwen3.5-9B在Online-Mind2Web困难子集上的表现：当任务配备预建的可复用工具脚本后，在超过5个工具的网站上准确率达到66.2%。这表明即使参数规模较小的低成本模型，在搭配工具库后也能胜任复杂网络任务。Webwright框架的脚本输出被封装为可复用的CLI工具，兼容Claude Code、Codex和OpenClaw等环境，进一步降低了开发者的使用门槛。整个项目已在GitHub开源（github.com/microsoft/Webwright），仅需Python 3.10+、Playwright安装的Chromium及API密钥即可快速上手。

阿里免费高考志愿Agent上线

2026年高考落下帷幕，志愿填报这一决定考生命运的关键环节，正在被AI Agent技术彻底重塑。面对1290万考生、近3000所高校与2000多个专业构成的庞大选择迷宫，传统的被动式问答Chatbot已显力不从心。阿里巴巴旗下的千问近日宣布，推出国内首个全周期高考志愿填报Agent，并面向全国考生免费开放。这款产品不仅能够主动规划、持久记忆用户偏好，更通过40万“AI考生”的对抗压测，将志愿规划师的专业经验沉淀进了模型底层。从知识库构筑、对抗强化学习到动态方案生成，千问正试图用AI弥合长期存在的高考信息鸿沟，让每一位考生都能享受公平而专业的选择权。 Agent入场：从“被动应答”到“主动规划”的范式革命千问高考志愿Agent的上线，标志着AI在复杂决策场景中的进化。与聊天机器人不同，Agent具备三大核心能力：持久记忆，能记住用户说过的每一句话；主动规划，如自动生成“志愿日历”提醒关键时间节点；实时工具调用与反思，让回答更加精准。以北京一位660分、理化生选科、目标人工智能专业的考生为例，Agent在接收填写的省份、成绩、专业偏好乃至MBTI性格类型后，自动生成包含院校推荐、专

科大讯飞发布SpaceMind

2026年6月10日，科大讯飞在其英文名iFLYTEK于香港举办的全球发布会上，正式推出智慧空间Agentic架构SpaceMind。这一架构标志着人工智能Agent从虚拟数字世界加速迈入物理空间，赋予楼宇、家居等实体环境以自主思考、真实记忆与自学习能力。SpaceMind通过60GHz毫米波雷达实现5厘米级精准定位，并采用双模型协同架构将设备指令响应速度压缩至700毫秒以内，能够实时感知用户需求与环境变化，主动联动各类设备提供个性化服务。此举不仅巩固了科大讯飞在AI软硬一体战略中的技术护城河，也为智慧空间行业树立了新的交互基准。 60GHz毫米波雷达与双模型协同：重新定义空间感知精度 SpaceMind的核心技术突破在于其感知层与决策层的协同设计。根据发布会披露，该架构搭载60GHz毫米波雷达，能够实现5厘米级的室内定位精度，远超传统蓝牙或Wi-Fi方案的米级误差。在决策层面，双模型协同架构将设备指令的响应速度提升至700毫秒以内，这意味着用户在物理空间中的一举一动——从走进房间到语音指令发出——系统均能在亚秒级内完成感知、理解与设备联动。这种低延迟、高精度的交互能力，使Spa

GitHub和Hugging Face创始人注资AI代理初创Zaro

总部位于伦敦的初创公司Zaro成功完成510万美元融资，由知名风投Cherry Ventures领投，并罕见地获得了代码托管巨头GitHub联合创始人Thomas Dohmke与开源AI平台Hugging Face联合创始人Thomas Wolf的个人背书。这笔投资不仅点燃了AI Agent（智能体）赛道的新热度，更揭示了行业正在从“通用聊天机器人”加速迈向“定制化数字劳动力”的关键拐点。硅谷传奇创始人押注，企业级AI Agent从“演示”到“部署” Zaro的创始团队由Tommy Barav领导，他此前是AI初创公司Lovable（原名GPT Engineer）的增长顾问。该公司提供的核心服务是帮助客户构建定制化的AI Agent，其目标市场直指企业自动化中尚未被完全开发的“灰色地带”。据Zaro透露，其技术栈能够将AI Agent从单纯的对话工具升级为能够独立执行复杂业务流程的“虚拟员工”。本次融资的投资者阵容星光熠熠，GitHub的Dohmke和Hugging Face的Wolf以“天使投资人”身份加入，此外还有Spotify早期高管Petter Carlsson和马士基

代理AI引爆700亿安全市场重塑

全球网络安全市场在2026年第一季度突破70亿美元大关，同比增长14%，这一稳健增长背后隐藏着更深层的结构性变革：Agentic AI（自主人工智能）时代的到来正逼迫企业重新设计安全架构。Dell'Oro Group最新报告揭示，传统硬件安全设备正被抛弃，软件定义、云原生平台成为投资重镇。企业不仅要保护人类员工，还要为数十亿自主决策的“AI数字员工”建立行为护栏，一个全新的安全市场逻辑正在诞生。 70亿美元安全市场爆发：Agentic AI驱动转型 2026年第一季度的网络安全支出创下历史新高，但Dell'Oro Group分析师Mauricio Sanchez指出：“物理防火墙和单一产品并未消失，但Agentic AI时代正在提升软件和云原生安全平台的价值。”这份报告的核心洞察是，企业不再购买“更多相同的东西”，而是大规模从硬件安全向集成化、软件定义的平台迁移。市场增长的核心驱动力来自企业急需为自主非人类行为体（AI代理）建立数字护栏，这直接推动了特定云原生安全领域的爆发式增长。政策平面扩张：SSE增长22%，WAF增长20% 传统“有边界可防御”的安全模型已被抛弃，取