博士八十小时科研 智能体两小时完成
在人工智能领域,一项由前Amp Code工程师Dan McAteer进行的实验引发广泛关注:利用OpenAI Codex的“目标模式”(Goal Mode),一个机械可解释性研究任务在1小时56分钟内完成,而GPT-5.5自身估算博士完成类似任务需约80小时,效率差距达40倍。这一赛博朋克式的对比,不仅刷新了人们对AI科研能力的认知,更揭示了“递归自我改进”的奇点正以前所未有的速度靠近——全行业或许已在不知不觉中迈过了AGI的门槛。
40倍效率背后:Codex /goal 模式让AI从“听指令”变“出策略”
McAteer的实验配置极为精简:使用OpenAI Codex的/goal命令、GPT-5.5高精度模型和快速模式。据OpenAI Codex工程师Philip Corey介绍,/goal是对“Ralph loop”的实现——目标在多轮对话中持续存在,不达成不停止。传统Codex调用需要逐句下指令,而/goal模式只需给出一个目标,AI便能自主拆分子任务、执行、审查、迭代,直至完成或失败。这种从对话式AI到目标驱动AI的工程跃迁,天然适配科研中的假设-实验-验证循环。实验证明,Codex /goal在机械可解释性这类循环任务上具备成熟可用性,它并非替代研究员,而是替代重复性操作环节。若这一能力稳定,AI实验室可借助AI Agent进行训练数据准备、实验设置、消融研究、结果分析等基础工作,这正是OpenAI和Anthropic反复强调的“AI加速自身研究”。
递归自我改进涌现:SWE-bench两年从2%飙至93.9%
Codex实验并非孤例。5月7日,Anthropic联合创始人Jack Clark公开预测:到2028年底,AI实现完全递归自我改进的概率超过60%。Sakana AI与UBC团队造出的Darwin Gödel Machine,能在SWE-bench上通过自我改写源代码从20.0%提升至50.0%,全程无人干预;同一团队的AI Scientist项目更已独立完成研究想法、编写代码、跑实验、撰写论文、同行评审的全流程。硬数据更惊人:博士级科学问答基准GPQA Diamond上,2023年11月GPT-4得分39%,人类专家约65%;到2026年4月,Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%,一线模型已全面碾压人类专家。SWE-bench上,Claude 2在2023年底通过率仅2%,如今高达93.9%,两年半内曲线垂直起飞。递归自我改进进程已然启动,一旦AI以40倍效率修改自身代码,智力增长将脱离线性轨道。
AGI早已交付?四大学者联名揭露行业“煤气灯效应”
面对这一切,学术界抛出更尖锐的质问。今年2月,四位分别来自哲学、机器学习、语言学和认知科学领域的学者联名发表《AGI案例研究:今日LLM已达标》,指出按照2022年之前的定义,AGI早已实现,当前全行业正在对公众实施集体性的“煤气灯效应”——每当模型突破旧标准,人类便即兴加入新门槛(如具身性、自我意识)。这种“移动球门”的心理防御机制,让OpenAI一面筹集400亿美元宣扬“构建AGI”,一面将已交付的技术包装为未来期货。论文揭示,如果AGI已存在,巨头们的叙事逻辑便变得极度荒诞:他们正在把一个“已经卖给你”的东西,伪装成“即将研发出来”的神迹,以换取源源不断的资金与权力。当AI以40倍速取代博士级科研、以数十倍速度改写自身代码,人类面临的不仅是技术变革,更是对“智慧”定义本身的根本颠覆。要么学会与这种新物种共生,要么被远远甩在尘埃中。
Image Keywords: OpenAI Codex minimalist, Anthropic recursive self-improvement abstract, Sakana AI Darwin Gödel Machine neon