騰訊傑出科學家劉威:軟件的未來是生成式

文|《中國企業家》記者 閆俊文

編輯|姚贇

圖片來源|中企圖庫

7月27日,由《中國企業家》雜誌社主辦的2024(第二十四屆)中國企業未來之星年會在上海舉行。在“前沿微課”環節,騰訊傑出科學家、騰訊混元大模型技術負責人之一劉威作主題分享。演講中,劉威介紹了騰訊混元大模型的進展以及應用情況。

精彩觀點如下:

1.我將AI的發展週期劃分爲四個階段:第一階段是符號主義;第二階段是連接主義,標誌性事件是2012年Hinton發明的8層卷積神經網絡;第三階段,引用一位AI科普作家的說法,稱爲現實主義,即深度強化學習,標誌性事件是2016年DeepMind發明的AlphaGo;目前AI進入了第四階段,即生成主義,標誌性事件是2022年末OpenAI發明的ChatGPT。

2.關於大模型的技術路線一直存在爭議,即模型尺寸是否需要不斷增大。然而,當有更好的模型訓練算法技術時,模型是否會變得越來越小——我們的技術正是幫助用戶定製化蒸餾和微調模型。

3.僅僅依靠人類的對齊手段,大模型的智能水平很難超過人類。對齊指的是與人類對齊,與人類的價值觀和世界觀對齊。數學和物理都是人類通過幾千年的自然觀察提煉總結而成的,而AI無法自主創造這些知識,因此AI必須向人類學習這些知識。

以下爲劉威的演講實錄(有刪改):

我們從人工智能的寒冬一路走到現在,經歷了多個時期。我在學習人工智能時,認爲當時的技術處於“舊石器時代”。後來,我們歷經了新石器時代、青銅器時代、鐵器時代和蒸汽時代,如今AI技術正處於“電力時代”。從舊石器時代到電力時代,AI僅用了20多年就完成了革命性的迭代。

我將AI的發展週期劃分爲四個階段:第一階段是符號主義;第二階段是連接主義,其標誌性事件是2012年Hinton發明的8層卷積神經網絡;第三階段是引用一位AI科普作家的話稱爲現實主義,即深度強化學習,標誌性事件是2016年DeepMind發明的AlphaGo;目前AI已經進入第四階段,即生成主義,其標誌性事件是2022年末OpenAI發明的ChatGPT。

2023年1月,無論是國內公司還是國外公司,都在集中力量,自主研發對標ChatGPT的生成式AI大模型。如果說2023年是生成式AI爆發的元年,那麼2024年顯然是多模態生成式AI爆發的元年。

騰訊混元模型體系覆蓋了從底層到上層的各個層級,包括單專家模型和混合專家模型(MoE),在最上層是廣泛的應用。國內絕大多數模型是單專家的,騰訊則同時在單專家和MoE模型上都做了很多探索。

在2023年9月,我們推出了小程序版本,現在可以在微信小程序中搜索到“騰訊元寶”。當時的模型參數達到了千億級別,訓練數據包括了萬億的文本token。到2023年底,我們已經實現了萬億參數的MoE模型。目前,我們僅在文本token方面的積累就相當於全國所有圖書館的總和。我常和朋友們說,token是取之不盡的資源,可以將1秒鐘的語音當作一個token,也可以將10秒鐘的語音當作一個token,甚至可以將一個像素當作一個token。不同尺度下的多模態token使我們的token數量不斷增加,模型參數理論上也會越來越大。

我們的核心技術覆蓋了底層、中層和高層,騰訊已經擁有了十萬卡集羣。英偉達四年前收購的以色列公司Mellanox支持萬卡集羣。中間層的訓練框架包括開源的DeepSpeed和PyTorch,和騰訊自研的Angel。現在我們不僅支持稀疏的MoE模型計算,也支持稠密模型計算。我們有多種模型版本,如Lite版本和Pro版本,收費非常便宜,Lite版本完全免費。

關於我們的全棧技術,首先,萬卡集羣顯然不能只將最高端的GPU放在一起。就像我喜歡看的武俠小說中的“天罡北斗七星陣”,若干低端的GPU合力能匹配一塊高端GPU的算力,我們也實現了4D並行GPU計算。關於大模型的技術路線一直存在爭議,即模型尺寸是否需要不斷增大。然而,當有更好的模型訓練算法技術時,模型是否會變得越來越小——我們的技術正是幫助用戶定製化蒸餾和微調模型。

對於生成式大模型,如果不懂AI或技術的人,可能會認爲大模型只是聊天機器人,似乎沒有更大的用處。就在這個月,OpenAI重新定義了生成式AI的五個層次,其中L1是聊天機器人,GPT-3.5已經足夠用了,現在國內外有很多模型超過了GPT-3.5。第二個層次是優秀的推理能力。然而,幻覺和推理是兩個矛盾的概念,生成式AI必然會有幻覺。

我們經常提一個問題:樹上有十隻鳥,開槍打死了一隻鷹,還剩幾隻鳥?大模型可能會回答還有九隻。無論是推理還是邏輯陷阱,我們認爲應該用新技術來解決。總結業內和騰訊的原創技術,有兩套方法:

首先是通過數據增強提升推理穩定性的方法,其次是通過模型增強提升推理精準度的方法。我們有一個假設或推測,僅依靠人類的對齊手段AI很難超過人類。對齊指的是與人類對齊,與人類的價值觀和世界觀對齊。數學和物理是人類通過幾千年對自然界的觀察提煉總結出來的,而AI無法自主創造這些知識,所以需要向人類學習。同樣,我們有社會性(society),包括人類的行爲規則和組織規則,AI對此一無所知。

最近,OpenAI提出,他們不僅要實現AGI(通用人工智能),還要實現ASI(超級人工智能),因此AI必須通過自我學習進行對齊和升級。如果一個AI無法推理,人類怎麼能幫助它推理?人類可以寫一個很長的提示詞(Prompt),告訴它如何推理,但幾年後,ChatBot可能就不再有用了。因此,AI的推理能力必須從被動推理變爲主動推理。

如何實現主動推理?我們提出了三個方案:

第一個方案是人類構造一些語料讓AI學習。對於每一個邏輯推理類問題,除了思考(think)還要進行驗證(verify),且逐步驗證(step by step),即think step by step,然後verify step by step,通過數據增強的方式使AI的推理過程更加穩定,從而提升自主推理能力。

方案二和方案三是OpenAI最近在兩篇論文中提出的。方案二是批評機制,創建一個批評模型對目標模型的回答進行打分評估,即自我批評式的學習;在對目標模型訓練指令微調時,批評模型會在訓練過程中告知模型訓練的效果,從而優化訓練質量。方案三運用了自博弈學習的思想,這是OpenAI提出的一種全新訓練框架——Prover-Verifier Games(簡稱“PVG”)。業內已經在嘗試這三個方案,希望通過這些方法提升AI的推理能力,實現AI主動推理,而不再是被動的模仿式推理。

2024年,學界工業界在探討什麼是世界模型?我認爲世界模型至少應具備兩種特質:強大的推理能力與模擬能力。大語言模型如GPT,在Scaling Law的指導下,壓縮海量的世界知識,漸漸會成爲一個world reasoner(世界推理器)。擴散模型如文生圖、文生視頻模型,也在Scaling Law的指導下,對不同概率分佈的數據集進行形狀變換,最終會形成一個world simulator(世界模擬器)。我認爲世界模型的最佳形態是結合world reasoner和world simulator,這將開創一個新的AI時代。

今年5月,騰訊率先在國內開源了基於DiT框架的文生圖模型。隨後,騰訊開源了一套控件工具體系,既提供基礎模型,又提供直接使用的模型微調工具,且所有語料均經過篩選,符合中文特性。該模型對中國的本土風格非常瞭解,能夠很好地生成多主體內容,如人與人、人與寵物的互動,更重要的是支持多輪對話生成作圖。

我們已經實現了文生視頻、文+圖生視頻及多種視頻生成應用,這些應用已經用於騰訊雲和騰訊廣告的服務中。比如風格化視頻、運動筆刷、人物視頻生成、畫布擴展等,還能將橫屏視頻轉換爲豎屏視頻。目前,騰訊有700多個產品和業務接入了騰訊混元大模型。

有人問騰訊爲何如此擁抱生成式AI?我認爲軟件的未來就是生成式AI。微信的輸入法、“搜一搜”功能已經是生成式的。騰訊文檔、騰訊會議也都接入了騰訊混元大模型,騰訊會議小助手在會前、會中、會後都有生成式AI功能。幾個月前,我們發佈了騰訊的“廣告妙思”平臺,提供一站式的AIGC能力,可以一鍵生成圖文廣告、視頻廣告,涵蓋多種風格、多項尺寸,適配多個行業(如遊戲、電商、本地生活等)。

在生成式AI時代,我想對大家說:未來可期,萬物可生。