兩位科學家關於AI for science的開年演講
2025年1月12日下午,科學公益機構北京市海淀區智識前沿科技促進中心舉行了主題爲“AI for Science,AI for Good”的年度科學盛事。
⾹港⼤學計算與數據科學學院院長、憶⽣科技創始⼈馬毅、亞馬遜雲科技上海人工智能研究院院長張崢分別以探索智能本質之路和大模型時代,教育的新挑戰 —— 從流水線到文藝復興爲主題做了新年科學演講,以下爲觀點摘編:
馬毅:探索智能本質之路
1. 之前我講一句愛因斯坦的話,講的是science,Everything should be made as simple as possible,but not any simlper。所有的事情都應該解釋得儘可能的簡單到不能再簡單。要簡化,把世界的規律用最簡單的方式找到,但是不能再簡單,一再簡單就解釋不了現象。這兩句話在我看來是智能的本質。
2. DNA就是自然界第一個大模型,生命最早就是靠DNA,一代一代的自然變異,物競天擇,適者生存。不斷的修改,試錯,傳承下去,個體沒有什麼智能,羣體有智能,通過自然選擇。這種過程現在有一個很流程的名字,強化學習,不是不能進步,代價很大,一將功成萬骨枯。現在的大模型就是這樣的,我們並不瞭解它的機制,各個團隊在不斷試錯,百模大戰,羣魔亂舞,適者生存,機制都一樣,現象也一樣,不是不能進步,代價很大,你沒有幾億美元不要想做這個事情。
3. 5億年前個體出現大腦神經系統,開始出現了眼睛,個人從外部世界獲取信息,造成了寒武紀生命大爆發。大腦一定程度上取代了DNA的作用,個體具有了智能,所以在生物物種智能叫做基因遺傳和自然選擇進化,個體具有後天學習與適應的智能,這是一個非常大的跳躍,智能機制的跳躍。
4. 後來到了人,動物開始羣居,出現信息交流,開始出現語言、文字,智能機制在提高,不再是個人學習,而且我學習的東西還通過語言和文字交流傳承下去,語言文明取代了DNA另一部分作用。這是羣體智能。
5. 幾千年前另一件事情發生了:數學和科學,人類學會了抽象的能力,很多的知識超越了從經驗數據裡提取的能力,這就是人的智能。在上個世紀40年代,預知未來一定要了解歷史,作學問的一定要把歷史搞清楚,真正的智能這件事情的起源在哪裡,現在一說就是五六年前的AI,這是完全錯誤的,真正對智能感興趣的是40年代,因爲很大一部分科學家希望機器能夠模擬動物或者人的能力,包括對有用信息是如何存儲的,他的學生髮明瞭控制論,如何提升自己的決策,馮諾依曼的《博弈論》,如何通過人腦學習,人工神經網絡第一個數學模型,想知道模擬外部世界感知能力,這個系統是什麼,機理是什麼,當時有一本書維納的《控制論》,他對這幫學生來說,他們認爲智能後面的數學機制是統一的,只要你找到了這些機制,動物和機器是分不開的。
6. 最近這十年,2012年的時間神經網絡在算力和數據的加持下確實了不起,就是深度網絡的實現變得可能,文本、圖像包括科學的發展突飛猛進。主要是對以前意識到這個機制的實現,從技術上變成可能,甚至認爲我們技術取得進步,包括我對以前的同事都說,可能白盒子就夠了,只要它工作對不對,一定意義從工程角度是可以的,但這從科學角度是不能接受的。懂歷史的都知道,只要一件事情很有影響,又是黑盒子就會被人利用,自古以來如此。我們光從這個角度就要搞清楚,到底智能是什麼,到底神經網絡在幹什麼。
7. 如何把智能定義成一個科學問題,它的科學問題到底是什麼,它的數學問題是什麼,它的正確的科學方法該怎麼證明,現在必須上日程,不然很多人就會炒作和恐懼。原子彈、病毒,如果不清楚就變成很大的問題,這是在座科學家的責任,必須搞清楚。我們要真的變成一個科學問題講清楚,智能到底要學什麼,要做什麼,生命爲什麼能存在,它的基本的機制是什麼?然後纔是怎麼去學,爲什麼有神經網絡,怎麼把這件事情做對做好做高效?這是我們一定要回答的一個問題。
8. 每個人,甚至阿貓阿狗都是牛頓,只是它自己不知道,它都對外部世界建立了非常好的精準的物理模型,當一個物體往下落的時候鳥和貓很快可以接到,甚至比人還快,它能利用以前學習到的規律對外部物理世界做精準預測。牛頓定理描述阿貓阿狗學到的東西,只是語言和形式不一樣。
9. 如果數學在一條線上,但東西沒有,你知道怎麼填空,這就是AI做的事。GPT就在完形填空,Tansformer就是在做這件事。還可以做什麼,去噪,我們觀測到有噪聲,規律找到以後可以去噪,圖像不清楚可以去噪,現在你們看到AI生成的聽到的聲音和圖像就是在做這件事,把這件事情做對。還可以做什麼呢,糾錯,我觀察到東西有錯誤,但是跟我的規律不符,一個東西被遮擋了,我們的大腦從來在做這件事,我不用看所有的東西,當家作主我可以完形填空,損毀了可以恢復,甚至遠遠超過人的想象,就在做這件事。
10. 既然是這樣,我們整個統一的數學問題就是要從高維數據裡學到這些數據的定位分佈,然後把它組織好,結構化。大腦就在做這件事情。找到數據之間的相關性,找到規律,現在在高維的空間,一百萬的像素,一千萬的像素空間中一張圖,但是結構就幾維,宇宙是千變萬化的,但是多少維的模型,現在最高維的,有些數學家說9維就夠了,11維就夠了,一直從宇宙大爆炸到現在觀測到所有物理現象,用9維或者11維空間就可以完全描述,很簡單,規律很簡單,現象千變萬化。
11. 怎麼學習,從經驗到原理,神經網絡又在幹什麼呢,比如我們知道學習的時候就要找數據的分佈,把這個熵減掉,找到它的規律,怎麼做呢,這是一個很複雜的函數,目標很複雜,爬山大家會吧,局部的優化會吧,自然界沒那麼聰明,我也不知道怎麼做,但我知道怎麼把現在的變得好一點,一步步逐漸優化,把進來的數據稍微組織一下,使得熵減少一點,一層一層地做,神經網絡每一層都在對數據做整理,讓輸出比輸入好一點點,所以神經網絡的整個角色,它的功能變得一目瞭然,就在做壓縮,在實現這些數學算子,實現這個功能。你馬上可以把這些算子用數學方法推導出來,你知道要優化這個目標函數,求導會吧,求了導以後做梯度下降,梯度下降了以後,你可以發現這個算子就有Tansformer的結構,而且推導出來的算子和結構更加簡潔,最後學到的數學,學到的結構更加有統計意義,幾何意義,就在聚類分類,完全知道神經網絡的目標,你就可以設計它了,每一層要實現什麼目的,一目瞭然,完全可解釋可控,每一個算子,每一個參數在做什麼都可以搞得很清楚。
12. 最初的白盒計算,到現在幾十個億,原來通過經驗設計很多冗餘不清楚的地方都可以做到,現在的Tansformer是二次複雜度,現在優化可以變成線性複雜度的算子,而且不是猜出來的,是算出來的,更加高效,原來不必要的東西全可以不要。
13. 這還只是在學習,從外部的數據學到分佈組織好,但你做的對不對,有沒有丟掉的,數據夠不夠你並不清楚,你的記憶到底完整不完整,怎麼驗證你得到的模型壓縮去噪以後夠了呢,怎麼弄,只有一招,回去用,去預測。所以我們驗證我們的書和記憶是不是完整,一定要回去驗證。今年的諾獎得主就在做這件事,就是想把autoencoding做好,只是當時的方法是受物理的啓發,現在看起來不是很對,但它的問題是對的。怎麼做這件事情呢,我知道在做壓縮,所有的設計全部是白盒,沒有任何猜的,這些算子都是數學答出來的,非常清楚。跟經驗的,這是通過經驗的MIE設計出來的效果一模一樣,甚至更好。
14. 還有一件事情,光encoding就夠了嗎,自然界沒有這個說法,阿貓阿狗有這個記憶嗎,沒有,我們所有的學習都在大腦,我們控制不了外部世界。但自然界沒有機會。當一個山羊看到老虎朝它衝過來的,等一等,我測一下你的距離和速度,我還不太會,這種早就被淘汰了,你的學習全部是自主學習。爲什麼現在有些人說要訓練模型呢,很簡單,這些人想賣數據給你,想賣芯片給你對吧。因爲這種訓練代價很大,而我們的小螞蟻,小動物都能高效的自主學習,不需要太多的數據,因爲機制不一樣。
15. 你從小大腦每天都在學習,但是你前面學過的東西不會忘,閉環的系統是不會忘的,而且這樣的系統在生物裡就是有這樣的特徵,就是這樣組織它的記憶,在猴子大腦裡研究,組織的非常好,這是正交的空間,而且是稀疏表達,通過閉環、反饋、自控制在學習,這些機制在自然界裡都可以看到。
16. 我建議現在年輕人好好讀讀歷史,認真去看,不要上來就覺得人工智能在幹什麼,他們當時在講,達特茅斯這些年輕人避開維納和馮諾依曼,這些人想出頭,想做動物感知和預測不一樣的智能,人在做什麼,50年代圖靈提出圖靈測試,他們想人如何解決抽象解決問題的能力,而且能夠證明,這纔是人的智能。當我們對過去十年的智能發展做的事情跟40年代機器智能、動物智能,50年代人的智能相比的話,你會發現哪個和哪個更近,過去十年人工智能還差得遠。
17. 過去十年科學往往是兩個方法,一個叫歸納法,一個叫演繹法,這兩者都有它的道理,相輔相成。過去十幾年我們在技術上面突飛猛進,主要靠歸納法,但是我希望今後的十年,如果智能變成科學的問題,science的問題,數學的問題,應該要有很好的數學理論框架,這也是我們計算機泰斗講的,迴歸理論基石,探尋智能本質。過去那麼多的訓練,現在就是呼喚英雄的時代,大道至簡,找到智能後面的機理原理和它的思想,多一點思想,少一點技術。
張崢大模型時代,教育的新挑戰 —— 從流水線到文藝復興
1. 技術的發展要放在人類長河裡中看,有一個人在網上總結,假如說把過去25萬年看成一本書,每一頁書是250年,你會發現這本書上絕大部分的地方都是空白,農耕社會都是在後面的時候才發生,這很自然。但這樣的書給你一個錯覺,好像人類在前面就在躺平或發呆,什麼都沒做。我覺得一個可以說的例子,就是《人類簡史》,裡面講了一個很重要的觀點,人類的進步或者退步是因爲被小麥馴化。因爲是簡史,就給你一個印象,就是這個發生非常突然。其實在農耕社會,農耕成爲生活的方式花了大概一千年的時間,人類花了很長時間就是在農耕上做試驗,並沒有立刻放棄狩獵採集活動,而是嘗試了很多不同的生活方式,最後才變成農耕生活,小麥成爲主要的能量來源。換句話講,我們不能說小麥馴化人類是錯誤的觀點,但是假設回顧到那時候的歷史,我們的祖先在那個時候做了自己的選擇和優化。
2. 我們把自己看作一個智能體,把大模型也看作一個智能體,我們做一個比較。這是大家都熟悉的教育系統,它是一個流水線,從小學、到中學然後開始大學生涯,後面做一些高等教育。走過獨木橋再走綱絲,然後成爲各種各樣的專門人才,科學家、工程師、醫生、律師、管理者等等之類的,作家等等,這是現在教育的流水線。教育的流水線的特點是它高度模塊化,高度的標準化,什麼原因?因爲我們要把它做成一個高效率的流水線,AI時代可以對裡面某些地方有調整,有的人可以學的快,有的人學的慢一點。但是人就是這麼長的。有研究說每一代人的IQ比前一代都好一點,抽象思維,城市生活帶來的結果是每一代抽象思維能力更高一些,並不是我們更聰明。每個個體逃避部分過這個,一開始還是混沌的,還是要學習,這個流水線生產出來的產品是什麼?我們認爲在某一領域的單一的專精專家是成功的標誌,可以發一些論文,非常厲害,可能對周邊臨近的領域也有了解,這是我們現在人才流水線打造出來比較成功的產品。
3. 還有一種流水線,聽上去非常沒道理,就是背誦,先背,背完之後你跟我做,然後再把你修理成一個好的某種智能體,聽上去有沒有道理,但恰恰這是大語言模型走過的路。它的第一個任務,預訓練就是不停背下一個單詞,問題在於它的量非常之大,GPT3當初訓練樣本是150萬本書左右,以我自己爲標杆,在一個好的年度我最多能夠讀20本書,但現在我估計一年5本書讀完就了不起了。估算一下,一生可以讀1000本書,GPT3在3個月裡讀完150萬本書。
4. 這本質上是訓練的一個程序,這個訓練做的就是打印下一個字符,並不是一個隨機的字符,而是符合這個文本里統計規律的,給了前面的X個字符,我知道X+1的字符最可能是什麼,這是第一步。第二步,它跟我做,這步非常精妙,它想要做的事情是我有一些事例,比如我有一個文章讓你把總結做出來,這是其中一個任務,大概有十幾個這樣的任務,比如總結,問答,頭腦風暴,做信息的抽取之類的。爲什麼做這件事情,因爲我們人類的工作,我們每個人每天要做的工作裡了不起就是那些類型,但大語言模型一個大家沒想到的地方,它一旦學習N個類型的能力,它可以把它們組合起來,比如說有人給我發一個郵件,有一個會議你要去演講,我會把那個事情先總結一下,然後用一種巧妙的方式拒絕或者答應,你會把這裡幾個能力組合在一起,這是大語言模型的第二步。第三步,比較簡單,就是胡蘿蔔+大棒子,把這個大模型揍成一個比較乖巧的人類,所謂用強化學習的方法做一些價值對齊。這個很有意思,要有幫助,還要真實的,無害的,這是它的學習方式。
5. 我們先討論一下數據本身的性質,左邊這個是正態分佈,只要是好多的要素迭代起來的結果,最後都是正態分佈,我肯定是三個方差之外的身高,今天早上我坐飛機過來的時候,發現前面有一個龐然大物,姚明,這麼高,這是正態分佈。還有一個分佈,當個體和個體之間進行糾纏、擾動、抱團取暖,必然造成一個後果就是長尾分佈,它不像正態分佈這麼簡單,。但長尾分佈背後有好幾個不同的原因,第一個是我有優先連接,假如說我的朋友多,你的朋友少,同樣我的發言被聽到和點讚的更多,這是很自然的。還有累計效應,一個很有錢,就很可能更有錢,他可以投資,通過反饋增加他的財富,這些長尾定律代表了宇宙裡質量隕石的大小是符合長尾定律的。城市也是,社會網絡裡的熱搜也是的,它一定會傾向於一個長尾分佈,但不代表它是穩定的,今天的熱搜內容和明天的內容一定不一樣,但是一定會有熱搜這個情況,哪一天世界上沒有熱搜的新聞了,這是很奇怪的。
6. 我們世界上所有的現象是符合長尾分佈的,那麼大語言的語料反映這個現實世界必然也是長尾定律,換句話,有很多非常簡單的故事,但是有些非常非常複雜的故事,雖然是在同一個品類下,比如衝突,人和人之間的衝突天天發生,但是國與國之間的衝突幾十年一次,它要發生的原因非常複雜。
7. 這就代表着大語言模型用多少數據多少算力可以把模型訓練的多好,因爲數據本身的複雜度就是這樣的,它的性能必然是這樣的,不是一個時間的結果,而是從信息論裡可以推出來的結果。也帶來一個什麼後果,一旦把所有找到的數據都能滾過一遍,必然就會放緩,長尾的一個重要的標誌是說,我要再進步一點點,數據要翻倍,坊間聽說過GPTo5出不來,撞牆了,本質是這個原因。
8. 爲什麼大模型那麼強大,因爲它是規模超級大的,多層次的,模式補全,爲什麼說多層次,能把原來打碎的數據都可以切到裡面,模式就是詞尾的接龍,把程序寫完,這是最基本的。然後把任務完成,然後用思維鏈的方式把這個拆解,最後就是目標驅動的程序。它的層次在不同層次裡隨意切換,並且重複。我們人是不是也是在做這件事,在日常工作裡基本上做到這樣非常好,大部分的任務裡都比人類出色。你作爲一個專家與初學者最關鍵的不同,就是你的思維深度在哪裡,大一大二隻能編程,後來變成軟件架構師。
9. 假如說把現在的大語言模型早500年送給人類會發生什麼事情,不需要數學,也不需要物理,什麼都可以解釋,什麼都可以做了,今天反而會沒有大模型,這是一個非常有意思的悖論。
10. AI教育現在到底是什麼,第一個就是挑戰現在教育的極限,不要不讓學生用AI,放開了讓他們用,因爲對任何目標來說,我們要用上AI,使得我們的目的,使得我們任何學習目標能夠兩倍到十倍提升。假如說用了AI以後,現在的任務變得簡單,那就做更難的挑戰,比如說你這學期的大作業要比之前難一倍,或者用一半的時間把東西學完,因爲我們要準備好學生將來進入職場的時候這就是他們的條件,他們必須跟有AI的場景裡一起工作,假如說不讓他們用的話,這就是浪費時間,但是我們讓他們用,必須要有新的挑戰,這是第一點。
11. 第二點,要學會像文藝復興時期的科學家思考。因爲現在走過獨木橋再走綱絲成爲人才都是非常狹隘、非常專業的人才。把自己變成一個廣譜的人才。在沒有DNA和攝像頭的前提下怎麼抓壞蛋,這是幾百年前困擾蘇格蘭警察的問題,有個法國警察想了一個方法,人體上胳膊多長、臉怎麼樣,十幾個特點分發給警局抓壞蛋,這就是最簡單的特徵工程。之後達爾文的表弟,他把抓壞蛋的藝術提高了一倍,那時候數據相關性理論是他建立的。之後就成立了第一個統計系的系,我說機器學習裡最基本的概念你知道怎麼來的呢,它爲什麼會被髮明,是誰,什麼時候,沒有人知道。我挑戰一下馬老師,馬老師也不見得知道,開玩笑。我們很容易變成一個非常狹隘的專家,但你只要有一點點好奇心,你可以對變成很廣闊的上下文有很好的理解。
12. 我們應該把AI變成一個好的老師,沒有怎麼辦,我們要提高自己的學習能力,換言之,我們在沒有AI的情況下,比前AI的時代能力要強。假如說今天大家開車,沒有GPS就不知道怎麼開車了,所以GPS是一個非常糟糕的技術,我們要超過它,用了AI以後你要變得更聰明,有了AI以後你可以飛起來,沒有AI也不能躺平,三個目標是相輔相成,你要挑戰極限,變成一個廣譜的人,有機會打破獨木橋和鋼絲的狹隘陷阱。
13. 最後推薦一本書《THE ACE OF WONDER》,有人問過氣球有什麼用,這是富蘭克林關於氣球有什麼用裡的一句話,還有天文望遠鏡、化學。這本書最後講了一羣詩人,其中有一個人寫了特別有名一本書《科學怪人》,這些人對技術進步的感覺非常像,一方面興奮,一方面恐懼,這是18世紀後發生事情。某種意義上確實是在重複自己。