皇后区的 mathmo 实现了世界上第一个自主人工智能证明

2026 年 2 月 6 日星期五

鲁比·杰克逊代表校队

保罗·埃尔多斯 (Paul Erdős) 是 20 世纪最多产的数学家之一，在他的整个职业生涯中提出了一千多个数学猜想：埃尔多斯问题。大约 40% 的问题已经解决，但直到上个月，人工智能还没有解决这个问题。令许多数学家惊讶的是，这实际上是世界上最 第一的 针对开放数学问题（研究人员认识到尚未解决的问题）的完全自主的人工智能解决方案。那么解决这个问题的数学家呢？凯文·巴雷托 (Kevin Barreto)，女王数学学院二年级学生。

在看到人工智能初创公司 Harmonic 使用其人工智能系统 Aristotle 获得了部分解决 Erdős 问题后，Kevin 于 2025 年 11 月开始认真解决 Erdős 问题。 “你知道，也许有一些简单的问题是本科生可以解决的，”凯文说他当时想。

到 12 月初，他已经在自己的专业领域——数论中，在不使用人工智能的情况下解决了一个 Erdő 问题，并在另一个问题上获得了部分结果。他的工作很快在一个致力于整理埃尔多问题的论坛上受到关注，并赢得了陶哲轩的祝贺，许多人认为陶哲轩是当今最伟大的数学家——尽管凯文对此“实际上相当漠不关心”。 “当一个人对自己的证明完全有信心时，就不需要祝贺；数学本身就说明了一切。”受到鼓舞，他开始尝试使用人工智能来解决这些问题。

“当一个人对自己的证明完全有信心时，就不需要祝贺”

两人与业余数学家 Liam Price 在线合作，最终确定了一个有前途的候选问题，ChatGPT-5.2 完全无需人工干预即可解决该问题。然后凯文将证明输入亚里士多德，亚里士多德自动将其形式化为精益——一种用于快速验证数学证明逻辑的编程语言。

圣诞节那天凯文兴奋地在推特上发布了结果后，另一位论坛用户很快发现问题实际上已经解决了。两人没有被吓倒，继续他们的工作，并在几周内实现了完全自主的人工智能证明，证明了一个真正未解决的问题，即 Erdő 的问题 #728，尽管使用了与早期工作类似的论点。从那时起，人工智能继续完全解决了更多的 Erdő 问题，并为许多其他问题做出了贡献。对于 Erdős 认为更有趣或更困难的一些问题，他提供了高达 10,000 美元的奖金，但 Kevin 认为这些对于当今的模型来说是遥不可及的。

直接解决问题并不是人工智能帮助数学家的唯一方式。事实证明，大型语言模型（LLM）的“深度研究”模式对于文献综述具有变革性，可以挖掘出可能会被错过的晦涩但相关的结果，并帮助研究人员避免重蹈覆辙。过去一年法学硕士的快速进步让他们在数学和科学方面的潜力日益显现。曾经在基本推理方面遇到困难的系统现在在本科数学甚至竞赛数学方面都具有很强的能力——任何在问题表上落后的 Mathmo 或 Natsci 都会知道。然而，凯文的工作标志着又向前迈出了一步。

“两人没有被吓倒，继续他们的工作，并在几周内实现了完全自主的人工智能证明，证明了一个真正未解决的问题，Erdős 问题#728”

虽然这些模型无疑会继续改进，但凯文认为，需要一种“根本上的新架构”来实现真正的数学超级智能——一种能够解决数学中最深奥的未解决问题的模型，例如千年奖问题。当今的法学硕士接受过现有工作的培训，善于巧妙地结合已知的想法。这可能足以解决 Erdő 的问题，但无法产生最困难问题所需的全新概念；部分原因是这些想法是如此陌生，以至于它们需要全新的数学语言，而法学硕士本质上无法创造、甚至表达这些语言。

凯文的作品引人注目，但同样引人注目的是凯文本人。他可能看起来像一个典型的 Mathmo，但他的研究之路却远非传统。他来自工人阶级移民背景，是家里第一个上大学的人，父母很早就离开了学校。他一直对数学有着明显的热情——十三岁时，他知道自己想成为一名数学家，十七岁时，他痴迷于阅读解析数论的最新研究成果。然而，他没有奥林匹克背景，在学校数学比赛中成绩相对一般，在被三一学院拒绝后，通过夏季游泳池被女王大学录取后才进入剑桥大学。

抵达剑桥后，凯文希望最终能在分析数论领域菲尔兹奖得主詹姆斯·梅纳德 (James Maynard) 的指导下攻读博士学位。但他的第一年因心理健康问题而出轨，他没有通过 Tripos 考试。休学一年后，他被允许重修第一年，这次取得了 2:ii 的成绩。他对这次经历直言不讳：“Tripos 不是我的菜”，他将这一判断归因于拥有非常具体的数学兴趣，并且是一个“不太擅长当场思考想法”的人。

“我认为剑桥的竞争氛围太激烈了”

在剑桥，Tripos 排名反映了数学潜力，这在学生中根深蒂固，这使得人们无法想象排名靠前的人已经有能力进行原创性研究。我承认，我原本希望凯文能够轻松地飞过三架飞机，这样他就有时间来做这样的工作。凯文描述了这种态度如何变得有害，他回忆起一些排名靠前的学生嘲笑排名较低的学生的例子，尽管他们对这个学科充满热情。 “我认为剑桥的竞争氛围过于激烈。（……）我觉得我所说的话会被同行或教员忽视，仅仅是因为我在 Tripos 上的表现不如他们。就像人们会巧妙地拒绝互相帮助，例如在示例表上，只是为了帮助确保自己的排名高于那个人。”

Kevin 并不是第一个证明 Tripos 排名不能完美预测研究能力的人。他以英国第一位菲尔兹奖得主克劳斯·罗斯（Klaus Roth）为例，他以三等学位毕业，但他的导师建议他完全放弃数学。 “Tripos 确实是测试数学能力的好方法，”凯文反思道，“但这是我不具备的一种数学能力。”他与三脚架的斗争也促使他转向人工智能：“我觉得通过尝试制造一台可以做我不能做的事情的机器，我可以为数学做出更大的贡献。”

在间隔年结束后获准返回剑桥后，凯文现在面临着相反的问题：获得批准再抽出一年时间，继续在一家领先的人工智能研究实验室工作。包括 OpenAI 和 DeepMind 在内的公司，以及 Harmonic 等专业数学人工智能初创公司，都直接与他接洽，积极向他求爱，Kevin 表示，这“实际上相当令人难以承受（……）在看到 DeepMind 所取得的革命性成就后，最终能在 DeepMind 工作是我长期以来的梦想。”不过，他很快补充道，xAI 已经不在考虑之列了——他“不会帮助埃隆·马斯克拉特”。

“我觉得通过尝试制造一台可以做我做不到的事情的机器，我可以为数学做出更大的贡献”

对于 STEM 领域的许多人来说，这些实验室是终极工作场所，类似于现代的曼哈顿计划或贝尔实验室。毫不奇怪，这些职位的竞争如此激烈，以至于大多数学生实际上都无法获得这些职位，而且本科生实习基本上是闻所未闻的。不出所料，凯文再次被视为一个特殊的例外。他现在正在考虑是否退学去从事这项工作，尽管他担心最终他“可能会对数学方面的人工智能感到厌倦”，并想回到他最初的攻读博士学位的梦想——这条道路几乎肯定需要完成他的学位。

对于凯文来说，这是变革性的几个月，他的作品现已在《纽约时报》和《新科学家》上发表。就在去年 11 月，他写道，他的梦想是为埃尔多斯问题做出小小的贡献。尽管如此，他仍然非常谦虚。 “我还没有崩溃，”他坚称，并补充说“任何对这些问题感兴趣的人都可以做到这一点。”我还在犹豫是否相信他。

新的 HTML 容器

在与凯文交谈时，我发现自己真正受到了启发——不仅是作为一名越来越厌倦 Tripos 苦差事的物理学家，而且是他为我们在科学和数学领域所描绘的非凡岁月所描绘的图景。

关于

Měilíng Lǐ

我叫李美玲，是 Xawl 的编辑，对塑造我们世界的文化瑰宝的探索充满热情。我毕业于中国文学和艺术史专业，致力于编织引人入胜的故事，激励我们的读者拥抱多样性和创新。我的目标是通过艺术和知识，使每个人都能找到自己的声音，从而跨越文化边界，共同成长。