人工智慧模型解決複雜數學問題,推進自主研究能力
OpenAI 的 GPT-5.2 展現了解決未解的 Erdős(埃爾德什)數學問題的突破能力。自聖誕節以來,有 15 個問題在 AI 的參與下從未解變為已解。

在人工智慧與數學科學的決定性時刻,專注於 AI 研究的新創公司 Axiom 宣佈成功解決了四個先前未解的數學難題。這一突破由其專有的神經符號引擎 AxiomProver 所驅動,標誌著與大型語言模型(Large Language Models,LLMs)典型的統計近似方法的重大背離。相反,它展示了在研究層級進行嚴謹、具創造性且經過形式化驗證(Formally Verified)推理的能力。
這項於 2026 年 2 月 4 日發布的聲明在學術界引起了轟動。被解決的問題中,包括一個在 代數幾何(Algebraic Geometry) 領域中困擾專家五年之久的複雜猜想,以及一項與斯里尼瓦瑟·拉馬努金(Srinivasa Ramanujan)著作相關的新穎證明。這項發展表明,AI 不再僅僅是計算或數據排序的工具,而是已進化為具備真實發現能力的合作者。
這些成就中最受矚目的是關於代數幾何中涉及微分(Differentials)的一個特定障礙——微分是用於測量曲線表面距離的微積分元素。五年前,數學家 陳大衛(Dawei Chen) 與 Quentin Gendron 在嘗試對特定幾何結構進行分類時遇到了理論封鎖。他們的論點取決於數論中一個既無法證明也無法解釋的「奇怪公式」,迫使他們將研究結果以猜想而非定理的形式發表。
這一問題在 2026 年 1 月於華盛頓特區舉行的一次數學會議上的偶然相遇中得到了解決。著名數學家、Axiom 新任高管 小野謙(Ken Ono) 遇到了陳大衛,後者向他諮詢了這個停滯不前的問題。據報導,小野在第二天早上就向陳大衛展示了一份完整的、經過形式化驗證的證明。
「在那之後,一切都自然而然地步入正軌,」陳大衛在將證明發布到 arXiv 預印本庫後的採訪中評論道。「AxiomProver 發現了所有人類都忽略的東西。」
該 AI 識別出了代數幾何問題與最初在 19 世紀研究的一種數值現象之間的微妙聯繫。與可能「幻覺」出聽起來合理但數學上無效的聯繫的標準 LLM 不同,AxiomProver 生成了證明,並同時使用 Lean(一種用於形式數學的專業程式語言)驗證了其正確性。
Axiom 的核心創新在於其架構。雖然像 GPT-4 或 Gemini 這樣的生成式模型擅長根據海量訓練數據預測序列中的下一個標記(Token),但它們通常難以應對高級數學所需的嚴格邏輯一致性。AxiomProver 採用了神經符號(Neuro-symbolic)方法,將神經網絡的直覺模式識別與形式定理證明器的嚴密邏輯支架相結合。
Carina Hong 是 Axiom 的 24 歲聯合創始人,也是該系統的主架構師,她將 AxiomProver 設計為不將數學視為文本,而是視為一個約束條件和邏輯規則的系統。通過與 Lean 集成,該系統確保生成的證明中的每一步在被接受之前都在數學上有效。
這種「生成與驗證」循環允許 AI 探索人類數學家由於認知偏見或必要計算的極度複雜性而可能忽視的新穎解題路徑。在 菲爾猜想(Fel's Conjecture)(被解決的四個問題中的另一個)的案例中,AxiomProver 自主設計了從頭到尾的證明。該問題涉及 連結(Syzygies)——描述多項式之間關係的數學表達式,並意外地涉及了在傳奇印度數學家 斯里尼瓦瑟·拉馬努金 的筆記本中發現的公式。
下表概述了 AxiomProver 在最近的聲明中取得的具體突破,將任務的複雜性與結果進行了對比。
表 1:AxiomProver 取得的主要數學成就(2026 年 2 月)
| 問題/挑戰 | 領域 | AxiomProver 結果 |
|---|---|---|
| 陳-熱德龍猜想 | 代數幾何與 數論(Number Theory) | 識別出 19 世紀的聯繫;完整形式化證明 |
| 菲爾猜想 | 連結(交換代數) | 自主端到端證明;發現拉馬努金聯繫 |
| 2025 年普特南競賽(Putnam 2025 Competition) | 大學數學 | 12/12 滿分(人類中位數得分:0-1) |
| 未指明的拓撲學問題 | 拓撲學 | 生成新穎證明(細節尚待同行評審) |
這一成功的影響遠遠超出了所證明的特定定理。對於更廣泛的 AI 行業來說,Axiom 的成功驗證了對「推理」模型而非純粹「生成式」模型的巨額投資。
該公司在 2025 年普特南競賽(通常被認為是北美最難的大學數學競賽)中的表現,成為這一轉變的基準。雖然之前的模型甚至難以獲得幾分,但據報導 AxiomProver 獲得了 12/12 的滿分。這一壯舉意味著其具備了能很好地推廣到特定訓練數據集之外的解題多樣性。
然而,學術界的反應仍保持謹慎樂觀。雖然證明的速度和準確性不容置疑,但關於「可解釋性」的問題依然存在。在 Lean 中經過形式化驗證的證明雖然保證正確,但並不總是具有傳統意義上的可讀性或「啟發性」。
該領域的知名人士發表了看法。菲爾茲獎得主 陶哲軒(Terence Tao) 長期以來一直倡導將 AI 整合到數學中,他表示這些結果表明 AI 達到重要里程碑的時間早於預期。相反,通用人工智慧(AGI)研究人員如 Ben Goertzel 則認為,雖然這些是「狹義」的超常成就,但邁向通用創造性智慧的跨越仍是 2027-2028 年的挑戰。
Axiom 的突破標誌著 AI 在科學領域角色的一種轉變:從搜尋引擎或代碼助手轉變為主要研究者。這家吸引了 François Charton 和 Hugh Leather 等人才的新創公司,旨在構建一個「自我改進的超智慧推理器」。
對於機構和企業而言,AxiomProver 所展示的技術在以下方面具有潛在應用:
正如 小野謙 所指出的,人類直覺與機器精度之間的合作才剛剛開始。「AI 尚未解決黎曼猜想(Riemann Hypothesis),」小野在引用最著名的未解難題之一時告訴記者。「但它已經找到了困擾專家多年問題的答案。這是一個開始。」
這一發展使 Axiom 處於「數學-AI」領域的前沿,有別於以聊天機器人為中心的競爭對手,並為 21 世紀的運算可能性樹立了新標準。