☰

張鈸院士：從大語言模型到通用人工智能丨觀點聚焦

如何從大語言模型走向通用人工智能，這條路線可能帶來哪些影響？

日前，中國科學院院士、清華大學人工智能研究院院長、清華大學計算機系教授張鈸在“智譜AI”2024年度技術開放日上，帶來了《從大語言模型到通用人工智能》的主題分享。

張鈸

計算機應用專家，中國科學院院士，清華大學教授，清華大學人工智能研究院名譽院長，長期從事人工智能、人工神經網絡和遺傳算法等理論研究，以及這些理論在模式識別、機器人和智能控制等領域的應用研究。

怎麼來理解現在爆火的生成式的模型？

張鈸院士表示，必須從生成式大模型具有的四個特徵來分析它，這四個特徵是“三大一缺點”。

就是強大的生成能力，強大的遷移或者推廣能力以及強大的交互能力，最後一個大缺點，幻覺。

具體來說：

1.強大的生成能力：指的是語言模型能夠在開放領域生成多樣化、連貫且類似人類的文本。這種能力超出了人們的預期，被認爲是模型達到一定規模後出現的“涌現”現象。

2.強大的遷移能力：模型能夠在給定少量樣本的情況下，將知識遷移到不同領域，完成新的任務。這種能力同樣在模型規模達到一定程度後纔會出現。

3.強大的交互能力：模型能夠與人類進行自然語言對話，這在過去是難以實現的。這種對話不受領域限制，使得人機交互更加流暢。

4.幻覺：這是模型的一個主要缺點，指的是模型可能會生成看似合理但實際上並不真實或有意義的輸出。

張鈸院士解釋了大語言模型如何通過三個關鍵技術實現這些能力：

巨大的人工神經網絡：使用深度和寬度都非常大的網絡結構，如GPT-3和GPT-4 Turbo，這些網絡能夠處理大量的文本數據。

巨大的訓練文本：使用大量的人類知識文本進行訓練，這些文本數據量達到了數十TB。

Next token prediction：通過自監督學習的方法，模型能夠預測下一個詞，從而生成連貫的文本。

通過這些技術，模型構建了一個連續的語義向量空間，使得輸入的文本序列能夠轉換爲向量，並在該空間中進行處理，最終生成輸出文本。

當然，想要實現高質量的文本生成和人機對話，離不開預訓練、推理和對齊。

這是向通用人工智能邁出的第一步，取得了兩個重大突破:

能夠生成人類水平的文本，"說人話"。

實現了人機自然語言流暢對話。在ChatGPT中，我們可以用純自然語言與機器對話，這在過去是難以實現的，而且這種對話不受領域限制。

這兩個突破將推動人工智能技術獲得進一步發展。

邁向通用人工智能第二步工作，就是在GPT-4的基礎上構造一個智能體，使其能夠與數字世界交互。

爲此必須實現兩點：一是使其具有多模態處理能力，把感知能力加入進來。通過多模態生成，可以完成感知能力的補充，完成閉環。

二是增加其交互能力。過去第一步走的時候，主要用了語言模型跟人類交互的能力，而大模型還可以與環境尤其是數字環境進行交互。通過這兩點的組合，可以實現第二步目標。也就是說機器可以與外部工具和環境結合，發揮問題求解能力。

它不僅可以回答問題，還可以幫助解決問題，解釋和執行復雜指令，制定計劃來達成預定目標。與數字環境結合後，它可以通過反饋學習，判斷自己的行動正確或錯誤。

第三步發展非常重要，目前GPT-4最多隻能與數字世界交互，通用人工智能最終必須使其能與物理世界交互。這就缺少了一個關鍵環節——機器人。要與世界溝通和採取行動，就需要機器人。因此，“具身智能”（Embodied AI）的提出很關鍵，它可以構建一個完整的智能體，既有感知能力，又有像人類一樣的思考和行動能力。這將形成一個完整的智能體。

如果實現了這一步，就可能構建出一個擁有感知、思考和行動能力的通用人工智能體，實現從專用走向通用的突破。

這個大模型發展下去，對我們產業，對我們職業會產生什麼影響？

張鈸院士認爲，大語言模型的發展必將對產業和職業產生深遠影響。

一方面，它將提升效率和質量，對多數行業起到互補作用；另一方面，也會替代部分工作。但大語言模型本身存在的缺陷決定了它不可能完全取代人類。總體來看，大語言模型與人類還是互補的關係。而人工智能這樣發展下去，最主要的一定會推動經濟的發展。

爲把握機遇，張鈸院士呼籲要緊密結合科研、技術創新和產業發展，開發通用的人工智能軟硬件，推動產業進步。儘管道路艱難，但大語言模型已經爲通用人工智能開闢出一條道路，其影響還會持續顯現。

以下爲張鈸院士演講內容

（內容有調整）

大家好，這個會議主要圍繞大模型，我想所有的聽衆呢，都是衝着大模型來的，因此我今天就講大模型的內容。

講三個問題。

一個我們如何從這個大語言模型走向通用人工智能，這條路應該怎麼走，我們會走到什麼地方？

第二個，這個大模型發展下去，對我們產業，對我們職業會產生什麼影響？

最後，講一點有關人工智能產業的一點思考。

大家知道，我們人工神經網絡是1947年開始的，當時主要作爲鑑別器（分類）使用，也想把它作爲生成器來生成，結果遇到很大的困難。

這個問題到2014年幹出來以後，纔得到一定的解決，特別是2017年Transformer轉換器提出來以後，就像打開這個閘門，生成式的人工智能迅猛地發展。

我們爲什麼要搞生成式的人工智能，大家常常引用Richard Feynman 說的一句話，“如果我們不能創造它，我們就不可能理解它。” （What I cannot create，I do not understanding.）

所以我們通過生成式的人工智能，就是要打開理解這個世界的大門。

我們怎麼來理解生成式的模型？我們必須從生成式大模型具有的四個特徵來分析它，這四個特徵是“三大一缺點”。“三大”什麼大呢？

就是強大的生成能力，強大的遷移或者推廣能力以及強大的交互能力，最後一個大缺點，幻覺。我想從這個三點出發，我們才能夠真正地認識大模型。

所謂的強大的生成能力，我們現在先說語言模型，就是強大的語言生成能力。這個強大主要體現在它能夠在開領域生成多樣性連貫的類似人類的文本。也就是說，它能夠在開放的範圍內，流暢地產生出多樣化且邏輯自洽的語言表達。

這一點是大大出乎大家意料之外的，大模型沒有達到一定的程度，不可能出現這個現象，我們目前還把這個現象說成是涌現。

第二個是遷移能力，就是隻要給它少量樣本，它就能將知識遷移到不同的領域，這也大大出乎了人們的意料。爲什麼只給它幾個樣本，它就能完成新的任務呢？這種能力也只有在模型達到一定規模後纔會出現。

我們想一想，利用這兩種能力發展出來的ChatGPT，它是通過預訓練、推理和對齊這三個步驟實現的。那麼它是如何做到這一點的呢?

主要是三個原因。

第一個原因，我們用了一個巨大的人工神經網絡來完成這個任務。這個巨大的神經網絡，我們把它叫做轉換器。這個巨大大到什麼程度呢？

四個檔。一個非常之深，深度達到了96層。第二個非常之寬，GPT-3 寬度達到了2048個tokens。現在GPT-4 Turbo，達到128000個tokens。換句話講，300多頁的文本可以同時輸入，這是它的寬度。

GPT3.5 的規模達到了1750億個參數，它的硬件需要285000個CPU，1萬個GPU來完成，這是我們利用的一個技術，巨大的神經網絡。

第二個技術就是巨大的訓練文本，我這裡特別講的用Text不用數據，美國人最早用的是用巨大的數據，現在美國人也改口了，把它說成是巨大的文本數據，Text Data。

請大家注意，我這裡講的text肯定不是指這個數據，因爲text大量描述的是人類的知識，那麼用得多少呢？這個大家知道了，現在已經達到了45TB，Google已經達到50TB是吧。

第三個使用的是Next token prediction，自監督學習。

靠這三項技術，我們做到了剛纔講的三大能力。怎麼做到的？

實際上，它構造了一個連續向量的語義空間，這個連續向量的語義空間怎麼構造呢？就是用了LLM加上AI alignment來構造，這樣就使得我們用一串的10串的輸入，變成token，最後變成向量，在連續向量空間進行處理，又輸出了一大堆詞串。

正是藉助這三項技術，我們實現了前面提到的三大語言生成能力。

具體來說，是通過LLM（大語言模型）結合AI alignment構造了一個連續的語義向量空間。這樣就使得我們用1串，10串的輸入變成token，最後變成向量，在連續向量空間進行處理，又輸出了一大堆詞串。

如果大家瞭解LLM（大語言模型），就會知道它通過預訓練生成了K和V，這是它的記憶單元。然後在推理階段，我們將問題Q輸入模型，Q與K、V進行計算，輸出對下一個詞的預測。這就是LLM的整個工作流程。這種過程完全改變了我們處理語言的方式，使機器能夠像人類一樣進行思考。

當然，還需要最後一步對齊技術。經過對齊後，可以大幅降低錯誤率。因爲LLM本身只能生成類人語言，不能保證正確性。只有通過對齊，才能確保生成內容的正確性。

這是我們邁出的第一步，取得了兩個重大突破:

能夠生成人類水平的文本，"說人話"。

實現了人機自然語言流暢對話。在ChatGPT中，我們可以用純自然語言與機器對話，這在過去是難以實現的，而且這種對話不受領域限制。

以前我們一點也做不到這兩點，現在不僅可以在開放領域做到，而且對話不受專業領域限制。這兩個突破非常重大，將推動人工智能技術獲得進一步發展。

舉一個簡單的例子，讓ChatGPT以一個小學生的身份寫一篇關於會飛的房子的文章。

我們可以看到，它表現出了很強的想象力，能想象房子長出翅膀來，飛到雲端，降落在各種地方，看到的也都是童話世界，麪包長在樹上等等。這完全是人類水準的文本生成。這一點實際上表明，人工智能向着通用人工智能邁進了一步。

以前的人工智能都受限於三個“特定”：特定領域、特定算法、完成特定任務。人工智能只能在限定的領域內工作，受限於特定算法，並完成特定的預設任務。這三個特定都使其受限於某一應用領域。

而生成式模型完全改變了這種模式。我們使用通用的轉換器（Transformer）模型，在開放領域內生成各種任務，完成多種任務，不受領域限制。這表明人工智能正在向第三代人工智能發展，也證明了行爲主義道路是可行的。

我們目前正在進行的第二步工作，就是在GPT-4的基礎上構造一個智能體，使其能夠與數字世界交互。

爲此我們必須實現兩點，一件事就是要使得它能夠接受多模態，就是要把感知這部分加進去，這就是我們現在說的這個多模態生成。通過多模態的生成，我們可以解決了感知的問題，才能夠把這個環給閉起來。

我們知道，美國研發的CLIP模型實現了圖像和文本的對比學習。大語言模型解決了文本的語義處理，如果把圖像和文本關聯起來，機器也能處理圖像內容。CLIP已經展示了非常好的效果，無論是在圖像分割還是識別上，都實現了重大突破。

過去機器只能對圖像進行分類，停留在感覺層面，而很難實現真正的感知。有了大語言模型把圖像和文本關聯後，這一問題得到很好的解決，機器現在可以真正識別物體。

然後我們還要增加交互能力。我們過去第一步走的時候，我們主要用了語言模型跟人類交互的能力，而大模型還可以與環境尤其是數字環境進行交互。通過這兩點的組合，我們可以實現第二步目標。也就是說機器可以與外部工具和環境結合，發揮問題求解能力。

它不僅可以回答問題，還可以幫助解決問題，解釋和執行復雜指令，制定計劃來達成預定目標。與數字環境結合後，它可以通過反饋學習，判斷自己的行動正確或錯誤。這是ChatGPT等第一代模型無法做到的。我們期望GPT-4可以達到這個目標，類似ReAct和CogVLM也在朝這個方向發展，不僅可以推理，還可以採取行動。

這裡舉出了例子，說明僅具備推理能力或僅具備行動能力都無法完全解決問題，必須推理和行動能力的結合。

比如對於較複雜的推理問題，GPT-4可以很好地處理。我讓GPT-4計算一個腦筋急轉彎的題目：我有10只碗，爲開派對向張家借5只、向李家借5只，派對後我把碗還給他們，那麼我手裡還剩多少碗？GPT-4起初誤解爲0只，後來“仔細想了想”，推理出我還剩10只自己的碗。這類複雜推理只有GPT-4能完成。針對複雜問題求解如雞兔同籠題，它也能很好解決。

第三步發展非常重要，目前GPT-4最多隻能與數字世界交互，我們最終必須使其能與物理世界交互。這就缺少了一個關鍵環節——機器人。要與世界溝通和採取行動，就需要機器人。因此，“具身智能”（Embodied AI）的提出很關鍵，它可以構建一個完整的智能體，既有感知能力，又有像人類一樣的思考和行動能力。這將形成一個完整的智能體。如果實現這一步，其結果將是難以想象的。因此，現在就必須把機器人技術配合上來。

那麼大家看到了美國人就做人形機器人，我覺得不一定要做人形，因爲很多地方使用的，就是手就可以了，或者腳就可以了。不一定把硬件搞得非常複雜，所以我的主張就是說，你有一定的硬件作爲它的基礎，我們進行研究，我們要研究什麼問題？研究強化學習，這是今後人工智能的方向，而且這個強化學習如果再進步，我們過去所有的機器，做的都是外部驅動的，我們如果能夠走到內部驅動，那就是能夠非常接近人類智能。

接下來是人工智能發展下去，會產生什麼影響？

這個我引用這個高盛的全球投資的一張圖，這張圖告訴我們說，人工智能這樣發展下去，最主要的一定會推動經濟的發展。

高盛的分析顯示，人工智能每年可帶來1.3%的全球經濟增長，發達國家可能達到1.5%，中國大約0.9%。這些數字可能不夠準確，但人工智能促進經濟發展的趨勢是確定的。因此，中國要發展經濟，就必須推動人工智能技術發展。

第二句話，看它究竟對我們產業，各個行業產生什麼影響？

有人擔心人工智能會代替人類工作，其實這份報告分析了各行各業，得出結論是人工智能對多數行業有利。左側深色表示不易被自動化替代的體力勞動；相反，右側淺色表示可被部分替代的腦力勞動，但比例不會超過1/3。大部分工作將是人機互補，提高工作質量和效率。

爲什麼大模型難以完全替代人類？是因爲當前人工智能模型存在天花板。

就是說大模型所有的工作都是外部提示的，不是它主動做的，而且它是在外部提示下，用概率的預測的辦法來完成它。人類完全不是這樣，所有工作基本上是在內部驅動下，內部意圖的驅動下，在意圖的控制下，或者意識的控制下來完成的，這就表現了大模型的三個天花板。

第一，質量不可控。大模型的質量無法人爲控制，輸出質量不穩定。

第二，生成結果存在正確錯誤，因而不可信。

第三，不魯棒。輸出很依賴輸入提示詞，相同內容不同提示詞會產生不同解，給出不同回答。

綜上所述，當前大模型存在的三大問題(不可控、不可信、不魯棒)是根本性的缺陷，隨着模型規模的增加也難以解決。

前幾天我看了圖靈獎得主 Joseph Sifakis 在清華做的報告，他也是這個觀點一樣的，他就畫出來這個智能化三個層次，他認爲目前來講，機器大多數作爲輔助，那麼第二步走向自動化，自動化的意思是什麼，把部分的監控任務交給機器。

最終它叫做自主化，把所有的控制、監控都交給機器，這個他覺得很難，最主要的原因就剛纔我們講到不可信，機器不可信，所以總體來講我們應該看到今後的最主要的內容，就是我們把機器作爲我們最好的助手，當然相當一部分工作會被它代替，但是這個要分領域的，不是所有領域都是這樣。

這個總結一下，實際上就是我們當初提出來的發展三代人工智能的思想。

第三代人工智能的最主要思想是三個，一個我們必須要建立人工智能的可解釋與魯棒（穩健）的AI理論與方法。

因爲到現在爲止這個理論還沒有建立起來，這就是人工智能所以緩慢和曲折的原因。爲什麼理論建立不起來？就受到三個特定的限制。因爲過去你只能在特定領域，利用特定模型去解決特定的任務，根本你就在特定情況下做的事，怎麼可能建立一個通用理論呢？大模型的出現給我們建立這個理論提供了可能性，因爲你不走向通用，你不可能建立通用理論，所以現在這個有可能了。

那這種情況下，我們纔有可能得到安全、可控、可信、可靠和可擴展的人工智能技術。換句話講如果這個理論沒有建立起來，我們人工智能的技術永遠是難以相信。

三是推動AI的創新應用與產業化，這個我們特別強調知識的作用，這個就必須充分發揮這四個要素，這個四個要素肯定都要發揮知識、數據、算法、算力，但是我們最主張的，就必須重視知識作用，所以我們把知識放在第一位。

人工智能發展可以分爲三個階段。第一代人工智能試圖通過建立語義符號系統來模擬人類思考，包括推理、決策、診斷、設計、規劃和創作等能力。這體現了符號主義和行爲主義的主張，即構建一個語言和符號的理想空間，在這個空間內模擬人類思考。但是這種模型存在一個重大缺陷，即“符號接地”（the symbol grounding problem）問題，無法與物理世界聯繫，系統都是人爲定義的，與外部環境脫節。

第二代人工智能試圖通過構建特徵向量的連續空間來實現感知，可以利用大量數據進行訓練。但是其最大問題是與認知層面脫節，僅能對物體進行區分，無法真正理解和認知。

爲克服第一代和第二代人工智能的侷限，我們在第三代人工智能中提出構建“準語義向量連續空間”，也就是大語言模型構建的空間。這打通了三種空間，纔可能建立一個真正的智能體，實現思考、感知和行動的統一。大語言模型的出現使這一目標看起來可能實現。但是，仍有很多問題有待解決，需要大量工作。

總之，大語言模型爲實現真正的人工通用智能提供了可能性，但距離最終目標還有一定差距。

最後，我就談兩點思考。

首先，儘管人工智能目前正處於穩步發展階段，甚至可以說是快速發展，它對各行各業產生了巨大影響。然而，我們也面臨着許多不確定性，因爲人工智能的發展往往是不可預測和不可控的。例如，我們目前對某些現象的解釋仍然停留在“涌現”這一概念上，這實際上意味着我們尚未完全理解其背後的機制。

我認爲中小型企業不應僅侷限於科研，而應將科學研究、技術創新與產業發展緊密結合。智譜AI在這方面做得相當出色，它不僅重視研究工作，還通過組織此類討論會，展示了對科學研究的重視。這種產學研結合的模式，特別是在中國，有助於產業的健康發展。

此外，我認爲現在是抓住機遇，發展人工智能產業的關鍵時期。過去，人工智能產業受到特定領域和任務的限制，難以實現大規模發展。但現在，我們有機會開發通用的硬件和軟件。

總結起來來講，通向通用人工智能道路還是很艱難的。但是不管怎麼說，大語言模型爲人工智能的發展打開一條通向通用人工智能寬廣的道路。

來源：工信頭條

B. P商業夥伴是一家致力於爲企業生態建設提供生態綜合服務的平臺。主要爲客戶提供生態戰略諮詢與調研、生態拓展與營銷、生態合作伙伴大會系列服務，旗下擁有B.P商業夥伴生態全媒體矩陣、數字生態商學院、數字生態研究院等系列平臺。

添加13021068260，加入B.P·ICT企業傢俱樂部，與國內外名企200+董事長、總裁、總經理、CEO、創始人討論戰略發展；加入B.P生態營銷俱樂部與700+Marketing精英互動交流市場營銷，加入B.P生態管理者俱樂部200+生態管理精英對接合作，加入B.P商業夥伴和媒體朋友們與150+央媒、新聞資訊媒體、行業媒體、知名自媒體聯合發聲。B.P生態社羣矩陣60+，覆蓋2萬人，定期分享課程及乾貨學習資料。掃碼備註：公司職務姓名，發名片，審覈後，邀請加入。

張鈸院士：從大語言模型到通用人工智能丨觀點聚焦

相關資訊