☰

陶哲軒全網懸賞「最強大腦」！AI+人類顛覆數學難題？凡爾賽網友已下場

新智元報道

編輯：Aeneas 好睏

【新智元導讀】最近，陶哲軒向廣大網友和數學愛好者發起了挑戰：大衆數學愛好者、證明助理、自動化助手和AI聯合起來，是否可以證明擴展幾個數量級的數學問題？

想參加陶哲軒發起的「衆包」數學研究項目嗎？

機會來了！

AI輔助證明數學研究，越來越可行了

他們每個人都對項目的各方面都足夠熟悉，可以驗證彼此的貢獻。

但如果要組織起更大規模的數學研究項目，特別是涉及公衆貢獻的項目，就麻煩多了。

原因在於，很難驗證所有人的貢獻。

2023年底，陶哲軒宣佈：將多項式Freiman-Ruzsa猜想的證明形式化的Lean4項目，在三週後取得了成功（圖爲最新狀態）

要知道，在數學論證某個部分中的單個錯誤，可能就會使整個項目失敗。

而且，以一個典型數學項目的複雜程度來說，期待具有本科數學教育水平的公衆做出有意義的貢獻，也是不現實的。

由此我們也可以知道，把AI工具納入到數學研究項目中，也是極有挑戰性的。

因爲AI會生成看似合理但實際上毫無意義的論證，因此需要額外驗證，才能將AI生成的部分添加到項目中。

好在，證明輔助語言（比如Lean）提供了潛在的方法，能夠克服這些障礙，並且讓專業數學家、廣大公衆和AI工具的合作成爲可能。

這種方法的前提是，項目可以以模塊化的方式分解成更小的部分，這些部分可以在不必理解整個項目的情況下就能完成。

目前的例子主要有將現有數學結果形式化的項目（比如對Marton最近證明的PFR猜想的形式化）。

這些形式化工作，主要是通過衆包方式由人類貢獻者（包括專業數學家和感興趣的公衆）完成的。

同時，還有一些新興的嘗試，試圖引入更多的自動化工具來完成，後者包括傳統的自動定理證明器，以及更現代的基於AI的工具。

探索全新數學問題，成爲可能

並且，陶哲軒還認爲，這種全新範式不僅可以用於形式化現有的數學，還可以用來探索全新的數學！

過去，他曾經和繼任組織過一個在線協作「Polymath」的項目，就是一個很好的例子。

不過，這個項目沒有將證明輔助語言納入工作流，貢獻就必須由人類主持人管理和驗證，這項工作非常耗時，也限制了將這些項目進一步擴大。

現在，陶哲軒希望，添加證明輔助語言能突破這個瓶頸。

而他尤其感興趣的，就是是否可能使用這些現代工具同時探索一類數學問題，而不是一次只關注一兩個問題。

本質上，這種方法是可模塊化的重複任務，如果有適當的平臺來嚴格協調所有貢獻，衆包和自動化工具可能會尤其有用。

如果用以前的方法，這種數學問題類型是無法擴大規模的。除非在多年時間裡，隨着個別論文慢慢地一次探索一個數據點，直到對這類問題獲得合理的直覺。

此外，如果有一個大型問題數據集，可能有助於對各種自動化工具進行性能評估，並且比較不同工作流程的效率。

在今年7月，第五個忙碌海狸數被證實爲是47,176,870。

一些更早的衆包計算項目，比如「互聯網梅森素數大搜索」（Great Internet Mersenne Prime Search， GIMPS），在內在精神上跟這些項目也有些類似，儘管它們使用的是更傳統的工作量證明機制，而不是證明輔助語言。

陶哲軒表示，很想知道是否還有其他現存的衆包項目探索數學空間的例子，以及是否有可用的經驗教訓。

陶哲軒提出新項目

爲此，陶哲軒自己也提出了一個項目，來進一步測試這一範式。

這個項目受到去年MathOverflow問題的啓發。

不久後，陶哲軒在自己的Mathstodon上，對它進行了進一步討論。

這個問題屬於泛代數（universal algebra）領域，涉及對原羣（magma）的簡單等式理論的中等規模探索。

原羣是一個配備了二元運算的集合G。

最初，這個運算o沒有附加任何額外的公理，因此原羣本身是較爲簡單的結構。

當然，通過添加額外的公理，如恆等公理或結合律公理，我們可以得到更熟悉的數學對象，例如羣、半羣或幺半羣。

在這裡，我們感興趣的是（無常數的）等式公理。這些公理涉及由運算o和G中的一個或多個未知變量構建的表達式的相等性。

此類公理的兩個熟悉的例子，是交換律x o y = y o x和結合律(x o y) o z = x o (y o z)。

其中x，y，z是原羣G中的未知變量。

另一方面，（左）恆等公理e o x = x在這裡不被視爲等式公理（equational axiom），因爲它涉及一個常數e ∈ G。這類涉及常數的公理在本研究中不予討論。

接下來，爲了闡明自己發起的研究項目，陶哲軒介紹了十一個關於原羣的等式公理例子。

這些等式公理是僅涉及原羣運算和未知變量的等式——

因此，舉例來說，等式7表示交換律公理，而等式10表示結合律公理。

常數公理等式1是最強的，因爲它限制了原羣G最多隻能有一個元素；與之相反，自反公理等式11是最弱的，所有原羣都滿足這一公理。

接下來，我們就可以探討這些公理之間的推導關係：哪些公理能推出哪些公理？

例如，等式1可以推導出這個列表中的所有其他公理，而這些公理又可以推導出等式11。

等式8作爲特殊情況可以推導出等式9，而等式9又作爲特殊情況可以推導出等式10。

這些公理之間完整的推導關係可以用以下哈斯圖（Hasse diagram）來描述：

這一結果特別回答了數學問答網站MathOverflow上的一個問題：是否存在介於常數公理（等式1）和結合律公理（等式10）之間的等式公理（equational axioms）。

值得注意的是，這裡大多數的蘊含關係都很容易證明。然而，其中存在一個非平凡的蘊含關係。

這個關係是在一個與前述問題密切相關的MathOverflow帖子回答中得到的：

命題1：等式4蘊含等式7

證明：假設G滿足等式4，因此

對所有x,y ∈ G成立。

特別是，當y = x o x時，可以得出(x o x) o (x o x) = (x o x) o x。

再次應用（1），可以得出x o x是冪等的：

現在，在（1）中將x替換爲x o x，然後使用（2），可以得出(x o x) o y = y o (x o x)。

尤其，x o x與y o y是可交換的：

此外，通過兩次應用（1），可以得到(x o x) o (y o y) = (y o y) o x = x o y。

因此，（3）就可以簡化爲x o y = y o x，這就是等式7。

上述論證過程的形式化，可以在Lean中找到。

然而值得注意的是，確定一組等式公理是否決定另一組等式公理的一般問題，是不可判定的。

因此，這裡的情況有點類似於「忙碌海狸」挑戰，即在某個複雜點之後，我們必然會遇到不可判定的問題；但在達到這個閾值之前，我們仍有希望發現有趣的問題和現象。

上面的哈斯圖不僅斷言了列出的等式公理之間的蘊含關係，還斷言了公理之間的非蘊含關係。

例如，如圖所示，交換公理等式7並不蘊含等式4公理(x + x) + y = y + x。

要證明這一點，只需找出一個滿足交換公理等式7但不滿足等式4公理的原羣的例子。

比如，在這種情況下，我們可以選擇自然數集N，其運算爲x o y := x+y。

更一般地，該圖斷言以下非蘊含關係，這些關係（連同已指出的蘊含關係）完整描述了這十一個公理之間蘊含關係的偏序集：

在此，陶哲軒邀請讀者提出反例，來完成其中的部分證明。

最難找到的反例，就是等式9無法推出等式8了。

用Lean可以給出解決方案。

另外，陶哲軒還提供了一個GitHub存儲庫，包含了所有上述包含和反包含關係的Lean證明。

可以看出，僅僅計算11個等式的哈斯圖就已經有些繁瑣了。

而陶哲軒提出的項目，是嘗試將這個哈斯圖擴展幾個數量級，覆蓋更大範圍的等式集。

他提議的集合是ε，即最多使用原羣運算o四次的等式集，直到重新標記和等式的自反性和對稱性公理。

這包括了上述十一個等式，但還有更多。

還有多少呢？

回想一下，卡特蘭數C_n是用二元運算o（應用於n+1個佔位符變量）形成表達式的方法數；而給定m個佔位符變量的字符串，貝爾數B_m是爲這些變量分配名稱的方法數（可以重新標記），其中允許某些佔位符被分配相同的名稱。

因此，忽略對稱性，最多涉及四次運算的等式數量是

左側和右側相同的等式數量是

這些都等同於自反公理（等式11）。

剩下的9118個等式由於等式的對稱性成對出現，所以ε的總大小是

陶哲軒表示，自己還沒有生成這樣恆等式的完整列表，但他猜想，使用Python就可以輕鬆完成。

使用AI工具，應該能生成大部分所需的代碼。

他表示，自己完全不清楚ε的幾何結構會是什麼樣子。

大多數等式會彼此不可比較嗎？它會分爲「強」公理和「弱」公理嗎？

現在，陶哲軒的留言區，已經有了幾十條評論。

感興趣的讀者，陶哲軒也向你發出了邀請。

參考資料：

https://terrytao.wordpress.com/2024/09/25/a-pilot-project-in-universal-algebra-to-explore-new-ways-to-collaborate-and-use-machine-assistance/

陶哲軒全網懸賞「最強大腦」！AI+人類顛覆數學難題？凡爾賽網友已下場

相關資訊