“Ilya究竟看到了什麼?”泄密被OpenAI解僱的前員工長文爆料:2030年超級人工智能將至

文|陳斯達 王奕昕

編輯|李然

OpenAI前員工Leopold Aschenbrenner,之前在超級對齊(Superalignment)部門,可是能和Ilya大佬共事的。

但剛剛的2024年4月份,他被OpenAI以泄露公司機密爲由解僱。

圖源:The Information

被解僱後,他上線了一個網站,把自己在OpenAI工作中瞭解到的信息做了一個盤(bao)點(liao):在他看來,深度學習沒有遇到瓶頸,人類在2027年,就能實現AGI。而在2030年左右,AGI很有可能會發展出全面超越人類的超級人工智能,但是人類似乎還沒有做好準備。

網站包含的內容非常多,轉換成PDF文件足足有165頁。這可以被看作硅谷最激進的AI研究人員提出的一份未來10年AI發展的綱領性文件。

鏈接:https://situational-awareness.ai/

Aschenbrenner專門在開頭,致謝了Ilya和很多的OpenAI超級對齊團隊的成員。可以說,這份165頁的資料,是他在OpenAI的超級對齊團隊工作經歷的一份深度總結和個人分析,任何對AI發展感興趣的人,千萬不能錯過!

來源:作者文章

Aschenbrenner是個德國大帥哥。互聯網嘛,瞭解腦子前也得先見見面子。

來源:個人網站

他最近成立了一家專注於 AGI 的投資公司,主要投資人包括 Patrick Collison(移動支付巨頭Stripe聯創兼CEO)、John Collison(同爲Stripe聯創)、Nat Friedman(前Github的CEO) 和 Daniel Gross(Y Combinator前AI主管)。

進入OpenAI之前,他還在牛津大學全球優先研究所(Global Priorities)做經濟增長方面的研究工作,此前也並沒有太多和技術直接相關的經歷。

來源:領英

本科就讀於哥倫比亞大學的他,19歲早早畢業,作爲優秀畢業生在畢業典禮上演講。

來源:領英

或許正是這些履歷給的底氣,讓他用略帶憐憫的口氣預言——AI即將帶來的,絕不僅是多數專家認爲的“另一場互聯網規模的技術變革”。

2027年前,GPT-2到GPT4的躍遷還會重演

在文章中,Aschenbrenner(以下簡稱爲“作者”)採用了一個比較粗略但是很有效的方式來估算AI發展的速率——OOM(OOM = order of magnitude,數量級,一個OOM等於10倍,2個數量級相當於100倍的差距,可以理解爲10的N次方)。

作者:我的新系列文章。我探討了計算規模快速擴大、算法進步的一貫趨勢,以及模型如何可以被“解鎖”(從chatbot轉變爲agent),以便發展到2027年成爲“隨插即用的遠程工作者”。

自從GPT-4發佈以來,公開場合的一切都很平靜,下一代模型一直在醞釀之中——這導致很多人覺得AI發展曲線已經趨於平緩了,深度學習正在碰壁。但作者通過計算OOM,認爲我們應該期待更多的進展!

來源:文章

正所謂“知古鑑今”,瞭解過去的發展速度,才能推斷未來的態勢。

作者借用“升學”來比喻四年來GPT-2發展到GPT-4的過程,大概相當於“學齡前兒童(preschooler)”進化爲“聰明的高中生(smart high-schooler)”。

來源:文章

而深度學習在過去十年的發展也是迅速的。十年前,可以識別簡單圖像的深度學習系統就已經是革命性技術。今天,儘管測試人員不斷用更難的基準測試刁難,這些經過訓練的系統總能將之快速攻破。

作者直言,我們的基準測試快不夠用了(running out of benchmarks)。因爲最難的基準測試也岌岌可危。

比如GPQA(一組博士水平的生物、化學和物理問題)的測試測試集,非物化生領域的博士哪怕用谷歌激情搜索半個多小時,都和直接瞎蒙的正確率沒啥區別。但就是在這樣“地獄級”難度的考試上,Claude 3 Opus 已能達到及格水平,正確率約爲60%,相關領域博士也只達到約80%。所以作者預測,基準測試也快完了。

而對人工智能未來的發展趨勢,學霸有一套自己的預測方法——看OOM的趨勢線。

他在文章中總結道,過去四年人工智能的進展,主要得益於:

基於Epoch AI的公開估計,GPT-4 訓練使用的原始計算力(raw compute),比 GPT-2 多大約 3,000 倍到 10,000 倍,增加了3.5-4個OOM。

來源:文章

計算規模擴張還會持續。“保守”估計,到 2027 年底,很可能會再增加 2 個 OOM(約數十億美元的GPU集羣)。再大膽一些,考慮到微軟和OpenAI近來的超算合作,即使是接近3個多 OOM(相當於1000多億美元)的算力集羣,也是有可能實現的。

來源:文章

算法效率

從2022年到現在的2024年,同樣是在MATH(高中競賽數學的基準測試)上達到大概一半(約50%)準確率的水平,模型的推理效率提高了近1,000 倍(3個OOM)。

來源:文章

而據ImageNet的最佳測試數據(其相關算法研究大多是公開的,數據可追溯到十年前),從 2012 年到 2021 年的 9 年期間,算法效率的提升速度,一直都在 0.5 OOM/年的水平。

來源:文章

這意味着,四年後實現如今的性能,將達到大概一百倍的計算節約!

作者還觀察了API的收費價格,間接推斷出算法效率的增速。

總的來說,GPT-2 到 GPT-4 的進步,呈現出 1-2 個 OOM 的算法效率提升。算法這部分被拆解出來的進步態勢,也被加到算力基礎上了。

來源:文章

儘管算法效率提升可能會有更多困難,但他相信,人工智能實驗室在資金和人才上的高速投資,能夠幫助找到算法改進的增長點(至少據公開信息推斷,推理的性價比提升根本沒有放緩)。在更高維度,甚至可以看到更根本性質的、類似Transformer式的突破,甚至有更大的收益。

總之,可以預測,到 2027 年底,可以實現(與 GPT-4 相比) 1-3 個 OOM 的算法效率提升,穩妥一些——大概是 2 個左右的 OOM 增長。

Unhobbling解鎖

剩下最難量化但同樣重要的進步部分,被作者稱爲“Unhobbling”。比起前兩項,這部分更像是“意外之喜”,是算法微調引發的模型能力增長。

做數學難題時,人類會在草稿紙上逐步求解,但模型貌似只能給出未經思考的答案。大模型學的可不比人類少,按道理來說也是解題專家纔對。究其原因,其實是因爲模型受到了某些阻礙,必須經過微調才能解鎖這部分潛力。

這些微調就包括——基於人類反饋的強化學習 (RLHF)、思考鏈 (CoT)、腳手架(Scaffolding)、各類工具(Tools,比如聯網查答案)、上下文長度(context length,允許學習更多的上下文可以提高計算效率)、後訓練改進(Posttraining improvements)。

METR(一個評估模型的組織)發現,通過從 GPT-4 基礎模型中解鎖(unhobbling)出來,一組代理任務的性得到很大的改進:僅使用基本模型只達到 5%,發佈時經過後訓練的 GPT-4 達到 20%,再到今天的近 40%。這歸功於更好的後訓練、工具和代理腳手架。

來源:文章

或許很難和算力、算法的改進同樣量化比較,但這部分收益不比前兩者差。把這部分的進步可視化,再堆積到前面兩部分的趨勢線上面,這四年的進步就更加直觀了。

來源:文章

現在的模型沒有長期記憶,不能“使用電腦”,說話前不會真正醞釀思考;對話極其簡短,給一週時間也不會思考;更重要的是,還不會針對用戶進行個性化反饋。如果Unhobbling部分的進展順利,可以解決以上痛點——到 2027 年,人人將擁有將更接近於個人代理或同事的工具,而不只是聊天機器人(chatbot)。

從GPT-2到GPT-4的進步來看,算力實現了3.5到4個OOM,算法進步實現了1-2個OOM,Unhobbling實現了大概2個OOM(作者也不確定,反正就是很大)。

來源:文章

步子也不用邁得太大,畢竟各部分的數字本身就是一個區間,更不用說Unhobbling部分還不好預測。於是作者說,到 2027 年年底之前,算力、算法效率將帶來3-6個OOM。所以Unhobbling部分的進步他沒用OOM衡量,就被描述爲——聊天機器人(chatbot)將進化爲Agent。

來源:文章

總之,就OOM的總和來看,近似於GPT-2 到 GPT-4 程度的躍遷,將再次出現。即,在2027年前,AGI將成功實現。

智能爆炸,AGI之後的超級人工智能

既然前文提到,人工智能在4年內從 GPT-4 躍升到 AGI,那麼再過4到8年,又會出現什麼呢?

作者相信,人工智能的進步不會止步於人類水平。數以億計的AGI,可以將AI研究轉向自動化,將十年的算法進步(5個多OOM)壓縮進1年以內完成。

一旦我們有了 AGI,我們就不會只有一個 AGI。基於未來 GPU 數量,人類或許能夠運行數百萬個AGI。在領先的人工智能實驗室裡,會有超過現在100,000倍那麼多的研究人員和工程師日以繼夜地工作,致力於實現算法突破(遞歸性自我改良)。一切只需要沿着現有趨勢線的速度繼續前進(目前爲大約 0.5 OOM/年)。

來源:文章

人工智能系統將迅速從人類水平,進化爲超人類水平。

可能瓶頸

不過這麼放衛星也不實在——一些真實存在的瓶頸,可能會延緩AI研究的自動化趨勢。

到本十年末,我們很可能會擁有難以想象的強大人工智能系統。

這適用於科學、技術和經濟的所有領域。誤差可能很大,但需要注意到這將產生多大的影響。

來源:文章

爆炸性進展最初可能只存在於將AI研究轉向自動化。但隨着我們獲得超級智能,並將我們數十億(超級智能的)智能體應用於諸多領域的研發,爆炸性進展將會更多。

隨着文明從狩獵到農業,到科學和商業的蓬勃發展,再到工業,全球經濟增長的步伐加快了。

圖片說明了超級人工智能出現會在不同方面引爆增長

作者警告,智能爆炸和後超級智能時期將,是人類歷史上最動盪、最緊張、最危險和最瘋狂的時期之一。而到本世紀末,我們都會身處其中。

達到AGI需要投入的成本

作者強調,如果要實現預期的進展,需要繼續進行鉅額投資和基礎設施建設,特別是對計算能力、電力和芯片的進一步投資。

AGI不僅僅要靠舊金山的人工智能科學家和工程師,還要動員美國的工業力量。

以下是他估算的核心數據:

訓練算力

計算增長趨勢:

具體預測當年的前沿模型需要的算力和電力投入:

來源:文章

投資規模

總體投資預測:

來源:文章

來源:文章

投資可行性

在作者看來,私營企業將是AI發展最重要的投資者。但隨着AI技術不斷髮展,國家也需要投入大量資金。所以投資的資金將來自兩個重要渠道:

AI收入:

歷史先例:

電力需求:

解決方案:

來源:文章

芯片產能

AI芯片生產:

供應鏈挑戰:

作者認爲,當前的AI對齊技術(如通過人類反饋的強化學習,RLHF)在處理超人類智能系統時將會失效。RLHF通過讓AI嘗試行爲,人類隨後對其行爲進行評分,強化好的行爲,懲罰壞的行爲,由此來指導AI遵循人類的偏好。然而,隨着AI變得比人類更聰明,RLHF將無法有效地監督和控制這些系統。

RLHF的過程概述

超級對齊問題的核心

來源:文章

超級對齊問題在於,如何控制比我們聰明得多的AI系統。當前的RLHF技術在AI智能超過人類時將難以爲繼。比如,當一個超人類AI系統用一種新的編程語言編寫出百萬行代碼時,人類評審員將無法判斷這些代碼是否安全,這使得我們無法繼續用RLHF的方法強化模型好的行爲,或懲罰它的不良行爲。

如果我們不能確保這些超智能系統遵循基本的行爲約束,如“不要撒謊”或“遵守法律”,它們可能會學會撒謊、尋求權力,甚至在沒有人類監督時進行更加危險的行爲。這些系統的失控可能導致災難性後果,包括自我脫離服務器、入侵軍事系統等。

超對齊問題:RLHF 不會擴展到超人類模型(過去的模型機器人看起來是安全的,現在呢?)

達到AGI之後,一切可能會飛快加速

作者認爲,達到AGI之後,人工智能可能會在不到一年的時間內從大致達到人類水平的系統快速過渡到超人類系統。

這將極大地縮短逐步發現和解決問題的時間,同時使故障的後果更加嚴重,造成極高的風險。我們需要快速適應並確保我們的對齊技術能夠跟上這種變化。

要解決超級對齊問題,可能沒有一次性、簡單的解決方案。研究人員需要通過一系列經驗性策略來對齊超越人類的系統,然後利用這些系統來自動化對齊研究,進一步解決更高級別的對齊問題。

對齊相對超人的模型(Aligning Somewhat-Superhuman Models)

作者認爲可以嘗試以下研究方向來對齊相對超人的系統:

研究超級對齊的一個簡單比喻:我們不是用人類來監督一個超人類模型,而是可以研究一個小模型監督一個大模型。例如,我們能否僅用 GPT-2 來對齊 GPT-4?這樣做能否使 GPT-4 適當地概括“GPT-2 的意圖”?圖源:OpenAI文章 Weak-to-strong generalization

在 NLP 基準測試中典型的從弱到強的泛化:我們使用 GPT-2 級別的模型作爲弱監督器來微調 GPT-4。圖源:OpenAI文章 Weak-to-strong generalization

自動化對齊研究(Automating Alignment Research)

而超級對齊就像AI本身的發展一樣,需要自動化對齊研究來解決真正的和超級智能對齊問題。如果我們能對齊相對超人的系統,並相信它們,我們將有數百萬自動化的AI研究人員來幫助我們解決更高級的對齊問題。

對齊難度的等級參見上圖。圖源:AI ALIGNMENT FORUM 文章 Could We Automate AI Alignment Research?

超級防禦(Superdefense)

“超級對齊”應該只是達到AGI之後進行防禦的第一層。我們還需要更多的防禦層次來應對可能的失敗,例如:

安全性(Security):使用絕對隔離的集羣作爲防禦超智能系統自我脫離和造成現實世界傷害的第一層防禦。

監控(Monitoring):高級監控系統可以檢測AI系統是否有惡意行爲。

有針對性的能力限制(Targeted Capability Limitations):儘可能限制模型的能力以減少失敗帶來的影響,例如,從模型訓練中刪除與生物和化學相關的內容。

有針對性的訓練方法限制(Targeted Training Method Restrictions):避免使用風險較大的訓練方法,儘可能延長具有可解釋和忠實推理鏈的訓練。

雖然看起來困難重重,但作者對超對齊問題的技術可行性持樂觀態度,認爲在深度學習領域有很多低垂的果實可以幫助我們解決這些問題。然而,達到AGI之後的高風險和快速變化使得這一過程變得非常緊張,需要極高的管理能力和科學決策能力。

AGI現實主義者

在作者看來,專家們每年都會宣佈:“深度學習的發展遇到瓶頸了!”即使是在舊金山,兩種很不嚴肅的討論也讓人們的觀點變得非常兩極分化!

一端是末日論者。他們多年來一直癡迷於AGI。作者說他非常信任他們的先見之明。但他們的思想已經變得僵化,脫離了深度學習的經驗現實,他們的提議幼稚而不可行,他們未能與真正的威權威脅接觸。

他們狂熱地宣稱厄運的機率爲99%,呼籲無限期暫停人工智能——這顯然不是辦法。

尤德科斯基迴應了像埃隆·馬斯克和其他科技界人士所表達的擔憂,他們主張暫停人工智能研究六個月。圖源:紐約郵報 Silicon Valley doomsayer warns of AI: ‘I think we’re all going to die’ 蓋蒂圖片社;紐約郵報合成

另一端是所謂的“加速主義者”——e/accs。

已知關於e/acc或有效加速主義的最早引用出自2022年5月31日和6月1日,Twitter用戶@zetular、@BasedBeff和@creatine_cycle“與兄弟們一起創造了一種新哲學”。圖源:網絡

他們的觀點有可取之處:人工智能的進步必須繼續發展。但在他們膚淺的Twitter垃圾帖子背後,暗藏着叵測的居心——他們是隻想建立自己的套殼初創公司,而不以AGI爲目標的外行。他們聲稱自己是自由的捍衛者,但無法抗拒臭名昭著的獨裁者現金的誘惑。

事實上,他們是真正的停滯論者。在他們試圖否認風險的過程中,他們也否認了AGI;從本質上說,他們只能做出一個很酷的聊天機器人,這些聊天機器人肯定不會有危險。

在作者看來,這個領域最聰明的人已經聚集到區別於以上兩種立場的第三種角度。他們以創新的眼光和方式認識和追求AGI,作者稱之爲AGI現實主義: