谷歌DeepMind连解9道埃尔德什难题
谷歌DeepMind再次刷新AI在纯数学领域的战绩:其最新发布的智能体框架AlphaProof Nexus,一口气解决了9个埃尔德什(Erdős)开放问题——这些难题曾悬置长达56年、30年不等。该框架由Gemini驱动,不仅破解了整数集构造、组合几何等数论与几何交叉难题,还在OEIS整数序列百科中证明了44个开放猜想,并改进了一道上世纪90年代遗留的理论边界。最引人注目的是,单题推理成本仅需几百美元,整套证明代码已开源。这标志着AI在数学定理证明上从“辅助工具”跨向“解题主力”的临界点。
9道“硬骨头”难题:AI给出56年无解构造
AlphaProof Nexus解决的9道难题中,三道最具代表性:首先是Erdős [#12](1970年提出,悬置56年),要求构造一个无限整数集合,满足任意三个不同元素a、b、c中,a不能整除b+c之和,且该集合在自然数中保持一定密度。AI利用中国剩余定理将大问题拆解为独立区块,每个区块用三项等差数列回避集约束,最终拼接成一个完整的无限整数集。其次是Erdős [#125](1996年提出,30年无定论),涉及三进制下仅由0和1组成的整数集与四进制下同类集合的和集的下密度问题。AI通过log₄/log₃为无理数的性质,构造归纳性稀疏化论证,证明该和集在自然数中密度为零。第三是Erdős [#846](1992年提出,34年未解),AI证明了存在一个无限平面点集,其任意有限子集中大部分点不共线,但整体无法被拆分成有限个“无三点共线”的子集——通过完全图映射与Ramsey定理完成证明。
四层Agent架构:最简单Agent A足以胜任
AlphaProof Nexus的核心架构是“大模型生成证明 → Lean编译器逐行校验 → 错误反馈 → 迭代修改”的闭环。DeepMind设计了四个递增的Agent模式:Agent A仅依赖Gemini 3.1 Pro和编译器循环,通过并行启动多个子Agent尝试解题,失败后根据报错反复修改;Agent B在卡顿时调用AlphaProof(专为奥数训练的强化学习工具)进行树搜索;Agent C引入进化算法,让子Agent共享证明草图种群,通过Elo评分系统交叉组合优选;Agent D集成了进化筛选、专项工具和大模型推理,是本次破解难题的主力。但令人意外的是,最简单的Agent A同样解出了全部9道题,只是成本稍高。团队归因于Gemini 3.1 Pro本身的能力和Lean编译器纠错反馈的强大作用——这一结果暗示未来“大模型+专业校验器”的简单循环可能成为主流。
成本与开源:单题几百美元,全套代码上线GitHub
AlphaProof Nexus的单题推理成本仅几百美元,远低于人类数学家耗时数月甚至数年的投入。研究团队已将所有证明代码开源在GitHub上,论文共20位作者,其中包括2016年AlphaGo核心研究员Aja Huang。菲尔兹奖得主陶哲轩曾指出,AI解决埃尔德什问题的实际成功率约1-2%,这次系统挑战353道题解开9道,比例吻合。该成果同时改进了凸优化领域锚定梯度下降法的理论边界,并解决了代数几何中希尔伯特函数对数凹性的15年悬案。未来,随着大模型能力继续升级,数学难题的悬赏可能不再是人类智慧的专属游戏。