黃學東:大模型時代需要注重「三個臭皮匠」的聯合能力丨GAIR 2023

人們通常會高估技術的短期影響,但是低估技術對社會發展的長遠貢獻。

作者丨郭 思

編輯丨陳彩嫺

編者按:2023 年 8月14日,第七屆GAIR全球人工智能與機器人大會在新加坡烏節大酒店正式開幕。論壇由GAIR研究院、雷峰網、世界科技出版社、科特勒諮詢集團聯合主辦。

大會共開設10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學、教育,SaaS、web3、跨境電商等領域的變革創新。此次大會是在大模型技術爆炸時代,首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。

在第一天的“GPT時代的傑出貢獻者”專場上,Zoom CTO黃學東以“無限的人類聯繫與生產力的前沿”爲題發表了大會報告。黃學東是美國國家工程院、美國藝術與科學院院士,IEEE/ACM Fellow。他指出,移動電話、互聯網與 Facebook 分別用了 16 年、7 年與 4 年半才達到 1 個億的用戶量,但 ChatGPT 只用了 3 個月,由此可見其革命性。

如今,全球的大模型呈現「百模大戰」的局面,這無疑反映了科技圈對 AI 的敏銳與激情。但在黃學東看來,AI 在工業界的落地應用應考慮「集成式 AI」的實踐與可能。古語有云,「三個臭皮匠頂個諸葛亮」。黃學東表示,這一思想在 AI 商業化落地中也有其用武之地。這也是黃學東離開其工作 30 年的老東家微軟、轉而加入 Zoom深耕人工智能應用的機會。

現在大模型發展存在百花齊放的局面,即參與者往往過分高估自家成果,而沒有面向外界進行合理的整合。例如,此前,很多公司內部的各項 AI 模型如語音、計算機視覺、翻譯等功能都十分強大,但沒有像 OpenAI 一樣整合出一套統一的基礎模型ChatGPT。作爲一家應用型產品企業,Zoom 注重 AI 模型的集成與融通,用新一代聯邦學習融合了 OpenAI、Anthropic、Meta 等等多家模型的功能接口,由此完成比原有模型更好更強大的用戶落地服務。

在與潘毅院士的對話中,潘毅院士問及「未來人工智能將泛化出怎樣的能力,是否可以擁有像人類軍事家一樣的指揮能力」,黃學東院士則認爲,人們常常高估技術的短期效力,而低估其長期影響——瓦特在發明蒸汽機,麥克斯韋建立電磁理論時,都沒有想到會對未來產生如此大的效應,今天大模型的發展也是如此,我們暫時只能看到短期影響,而大模型對於人類的影響可能會深遠,而在那時候,一切皆有可能。

“以大模型爲中心,多模態聯合發展的技術趨勢在未來兩年將會成爲現實,GPT的出現並非一個偶然事件,而是一個歷史必然。在當下,我們都應該注重三個臭皮匠的聯合融合能力,這樣才能贏過更多的諸葛亮爲人工智能應用落地做貢獻。”黃學東院士答道。

以下爲黃學東院士的現場演講以及與潘毅院士的對話內容,雷峰網作了不改變原意的編輯及整理

1

黃學東演講部分

接下來我跟大家分享一下我在微軟 30 多年的一些工作經驗和教訓。

首先給大家展示一張很有意思的圖片,這張圖(如下圖)描述了過去千年來,人類社會的進步基本上是以技術來驅動。其中一個重要的里程碑就是印刷術的發明,因爲在中世紀時期,教會掌控一切。德國古登堡發明金屬活字印刷機,推動《聖經》的大規模印刷,人們對於《聖經》的理解不需要通過教會來解釋。與此同時馬丁路德發明了新教,這兩件事基本上讓歐洲從中世紀進入了現代文明。所以印刷術的發明極大地推動了人類生產力的解放。

此後,蘇格蘭人瓦特發明了蒸汽機,有了蒸汽動力以後,人們不再需要靠人工或者馬伕來進行交通運輸,解放了人類生產力,全球的 GDP 有了一個小小的進步。1873年,另外一個蘇格蘭人麥克斯韋(Maxwell)建立電磁理論,再次推動了工業革命。後來,蘇格蘭人貝爾發明了電話,通訊行業有一個新的革命。而在今天,一個來自蘇格蘭愛丁堡大學的畢業生 Geoffrey Hinton推動了人工智能的再次進步。所以在人類革命的過程中,除開德國人發明了金屬活字印刷機,從電磁理論、蒸汽機到人工智能,還有電報和電話的發明,蘇格蘭人對世界革命作出了非常巨大的貢獻。(當然還包括亞當斯密——另一個奠定了經濟學的全球基礎的蘇格蘭人)。我有幸在蘇格蘭求學過一段時間,博士學位在蘇格蘭完成,這段分享也回敬我個人在蘇格蘭所受的教育。

微軟看到 GPT 4. 0 ,表現非常驚豔,就決定了做 Bing Chat。去年 11 月份,OpenAI 將 Chat GPT 放出來,實際上它是基於比較弱的GPT 3. 5系統。我在微軟工作期間是Azure AI 的CTO,在過去五年做了很多事情,大力推動了人工智能的工業化落地,包括在業界實現第一個媲美人類的對話的語音識別系統,後來又做了可以媲美人類的機器翻譯系統,還有推出達到人類水平的計算機視覺系統,這些都是一步步往前走的。不過值得一提的是,這些都是用一個具體的模型來解決某一個具體問題。如果要讓這個模型去做別的事兒,馬上就不行了。而GPT的成功之處就在於,它在某一個領域可以做得很好,換一個領域也可以做同樣的事情,所以儘管微軟自己的人工智能取得了不錯的成就,並且都已產業化變成了API,讓大家可以訪問,但還是沒有到達 ChatGPT 出來就一炮打紅的效果。

GPT 一個模型可以幹所有的事情,不僅僅如此,它只花了3個月就達到了1億的月活用戶,而互聯網用了7 年,移動電話花了 16 年。GPT4.0 更牛。中國人很喜歡考試,隋朝就推出了科舉考試,有幾千年的考試文化基因,爲了驗證GPT 4. 0 的表現,我們可以讓GPT去考試看一看。

這個圖是美國律師證的考試,最右邊那個表格後面有個平均成績 68 分,這代表着一個人類考生在這個考試中能考68 平均分。法律考試其實很難,需要運用到知識推理以及各種常識來評判法律上的諸多問題。

GPT 4.0參加這個考試,大大超過了平均人類考生的水平,達到75.7的高分,不僅如此,GPT 4.0也可以參加醫學考試,它能超過人類的水平。按照這個標準,如果 GPT 4.0參加高考,可能會把清華北大的學生都淘汰,這是一個人工智能發展史上的歷史性的時刻。

下面這張表總結了整個 GPT4.0 產生過程的四個階段,第一個階段叫做 Pretraining,用到了現如今基本上能用到的所有數據。Pretraining的時候,大模型通過數據基本上看到了全互聯的知識和信息。爲什麼人類做題做不過GPT?因爲GPT記性好,而人的記性是有限的。然後再到算法層面,大語言模型這一點其實非常簡單,IBM 70 年代就做了這大語言模型,但是他做的時候比較簡單粗暴,只用了一個所謂的n-gram,就是讓機器看過去 n 個字,猜下一個字是什麼東西。他爲什麼要做這件事情?因爲語音識別歧義性很高。這個方法可以幫助提高語音識別的性能。所以今天的人工智能其實要歸功於 IBM 的語音識別成果。

後來IBM 研究人員這些人把語音識別的技術拿去做機器翻譯,把那些傳統規則的方法基本上打得落花流水,一炮打紅,再一次證明統計方法就是牛。所謂今天的大語音模型不過就是把機器翻譯的技術用到預測未來應該講什麼話。這個解釋很簡單,人一聽就明白,也就是將大家提出的問題用機器的翻譯方法轉變爲想得到的答案(history to future)。

預訓練大模型需要非常大的數據來進行訓練。如今因爲有整個網絡的數據,所以模型的「大」根本不是問題。越大發現效率越高。當然錢和時間也燒得嚴重。這個做完以後,還需要一些更高質量的數據來微調語言模型,再進一步跟人類的價值對齊。比如模型產生了不同的結果,一個機器翻譯系統翻譯出 10 個不同的結果人們需要來對比一下哪個結果最好,最符合人們的預期需求。

通過這些步驟,我們就得到了GPT一個非常驚豔的結果,一個模型可以基本搞定你想做的任何事情,這是個很了不起的工程成就和研究突破。過去沒有人覺得可以用一個很大的基礎模型來做那麼多事情。OpenAI 超越了微軟自己的人工智能。在大模型出來之前,微軟基本上是語音方面有一個產品,視覺方面有一個,機器翻譯有一個,這些東西從單獨的性價比來說都比Open AI做要好,但是微軟內部沒有搞出一個統一的模型能搞定所有東西,這也是GPT革命性突破之處。

現如今,GPT 4.0 還沒有第二個可以替代的方案,但是就像人一樣,人一驕傲就喜歡吹牛或者幻想。GPT 4.0 也有幻想的問題。比如我問「What is Azure Cognitive Services Z-code and holistic representation towards integrative Al?」(什麼是Azure認知服務 Z-code?)他回答沒有,一本正經胡說八道。

所以我們現在還不敢完全相信GPT。歷史上很多類似的故事,有些人一旦做得很成功,變成神了,就沒人敢挑戰,這時候問題就會出現,GPT4.0 變成衆人眼中的神,也出現幻象問題了。我今天所說的言論,大家也應該挑戰我。但估計我講的基本上都對,到現在爲止潘主席還沒有把我趕下臺(笑)。

接下來。我再簡單介紹一下微軟人工智能的歷史。1995年,微軟視窗95在工業界是一個高光時刻,那時候很多小年輕還沒出生,當時我們推出了 Speech API,是 Windows 95 的一部分,然後 2015 年,微軟與時俱進推出了雲服務API,當時項目名字叫牛津計劃 (Oxford Project)。從微軟95的 SAPI 到Azure AI 的人工智能認知服務API,整整花了 20 年。我十分有幸,在微軟不僅僅組織了微軟視窗95 SAPI的推出,也組織了微軟雲Azure AI的推出。從 2015 年推出來到如今我離開微軟,整個微軟認知服務部門已經進入商業盈利狀態。所以各位如果想要找一個投資者說給你投錢,他說人工智能不一定會賺錢,你可以用微軟的例子反駁,當然微軟也做了 30 年纔開始賺錢(笑)。

接下來這張圖總結了從 2018 年到 2023 年期間一些基礎模型的狀態,大家可以看到模型訓練數據越大,參數越大性能往往也會越好。

在2019年左右,大家對GPT 1. 0 並不感冒。GPT 1.0 到 2.0,模型變大了很多,性能也提升非常多。但是還是沒多少人看得起GPT 2.0。此後從 GPT 2. 0 到 3. 5,模型繼續變大,GPT 3.5 確實可以做很多事情,但要真正跟其他的 AI 來PK,單獨性能基本上 PK不過。比如翻譯性能差不多,但是微軟在線服務比GPT便宜 10 倍。後面的 GPT 4.0,參數規模越來越大,越來越貴,性能越來越好。所以未來兩年以內的技術趨勢肯定是以大模型爲中心,多模態聯合工作。

下面這個視頻我給大家簡單介紹一下微軟AI現在可以達到的效果,畫面角落有一個數字人,神態和講話都和我一模一樣,這是用微軟現有的 API 做出來的。這個視頻是一段從網上抓下來的視頻,某一個遊客的越野車開到非洲的森林裡面,碰到了河馬,今天自動駕駛汽車開到那肯定全遭殃,因爲沒有一個通用的計算機視覺模型。

所有這一切全是人工智能自動生成,現在的AI已經可以做到,將任何一段視頻放進來,機器可以將視頻裡面發生的事情總結下來,並用數字人的聲音完全描述剛剛發生的事情。

現在我剛剛離開微軟,在Zoom上了將近一個半月班,大家問我爲什麼要離開微軟去Zoom?我覺得 Zoom 是這個世界上最好的能連接人們的視頻通訊公司。我來新加坡之前,福布斯雜誌對世界上所有的視頻會議應用解決方案從 1 到 5分進行了評比, Zoom得分 4. 9 分。相比之下,其它的軟件拿了3點多分,從這可以看出 Zoom 今天的江湖地位。Zoom是一個應用公司。Zoom的AI提出的就是「三個臭皮匠」理論,來自中國古語「三個臭皮匠,頂個諸葛亮」。

其實不僅僅我這樣想,波音公司在生產 787 的時候也採用了同樣的方法,一個龐大的波音787 也是通過各個國家的零部件拼湊而來。今天Zoom整合了 GPT 4、Anthropic、Google和Meta等大語言模型。我們就要把這些衆多的「臭皮匠」拿過來,整合起來變成 Zoom 的 AI 模型,解決我們的實際問題。這是我們正在做的工作。未來大家很快能看到一個不僅僅是4. 9 分的Zoom,有可能是一個超越 5. 0分的Zoom,謝謝大家。

2

潘毅對話黃學東

潘毅:很高興跟老同學做對話。這個我們首先來聊一下黃院士最近的工作。黃院士,您剛剛所說把三個臭皮匠湊成一個諸葛亮,那麼你認爲這個理論未來是否是一個重要的發展趨勢?

黃學東:爲什麼美國聯邦政府還算比較有效率?它最大的好處是有一個糾錯機型。我們不能把所有的雞蛋放在一個籃子裡面,放在一個籃子裡很危險,在今天,儘管你想雞蛋放到一個籃子也放不下,因爲GPT 4. 0 雖然現在是業界最強大的語言模型,但實際上它去做一個真正落地,它還是缺了一條腿。

在這樣一個情況下,大模型公司百模大戰的現象當然令人高興,但我們其實也不需要百模,我們只需要把四五個大語言模型拿過來聯邦整合,每一個人有自己的一個應用場景,把臭皮匠捏起來,這樣的效果和成本肯定最好。

Federated learning這是一個老的學術概念,但是Federated AI 2. 0,這是 Zoom 正在推的新概念。據我所知,現在業界基本上還沒有人能把 Anthropic 、llama 2 和 GPT 4. 0 揉合在一起,這樣結合的模型能比GPT價格便宜,性能比所有模型都要好,因爲他們都是臭皮匠,合在一起肯定超過諸葛亮。這也是我爲什麼要離開微軟來到 Zoom 的主要原因。Zoom做AI,不是爲了寫詩,也不是要去寫代碼,Zoom有具體的應用場景。(順帶提一句微軟的 Codex Git Hub 做的非常好。在座的程序員要小心,再過幾年GPT 5 出來的時候,程序會寫得更好。)

潘毅:微軟很強大,二十幾萬人,但是在中國和新加坡,還有很多很小的企業,他們沒有足夠的資金和GPU 。這些小公司怎麼做到既考慮到自己的利益又能跟 GPT 配合起來?這方面,你有什麼建議?

黃學東:所有的公司和學校都可以借鑑三個「臭皮匠」理論,因爲小公司有很多模型,其中最好的還是能把這個大模型通過「臭皮匠」模式整合起來,再利用自己的數據,做成一個「諸葛亮」,就像zoom一樣。我們要知道GPT的出現不是偶然現象,而是歷史的必然,我們要好好把握這個機會。

潘毅:現在人工智能這麼普及, ChatGPT 這麼廣泛,怎麼解決數據的隱私問題?

黃學東:這個問題問的太好了,這也是 Zoom 最近碰到一個事情 。Zoom 現在已經宣佈,不會從任何會議(包括音頻、視頻和對話 等形式)裡面拿取數據去訓練人工智能模型。用戶在使用Zoom 的時候,可以絕對放心,所有的數據是安全的。Zoom 在做兩件事情,保護數據隱私,加快聯邦人工智能2.0落地,這是公司最重要的戰略決策。

潘毅:假如把人類頂尖軍事家的思想都放到 AI 裡面去,今後 AI 能不能超越人類的指揮的能力?

黃學東:我們很難預測AI 發展速度有多快,人們通常會高估短期內技術能做什麼事情,但是低估了技術發展 10 年、 20 年後對社會的貢獻。借用我演講的第一張圖來回答,以 1000 年的視野來看,社會的進步曲線呈指數級上升趨勢,在德國古登堡發明金屬活字印刷機的時,社會發展還比較緩慢,而在蒸汽機發明之時,人類文明有了一個很大的提高。但在今天,人工智能是一個絕對的加速器,其所帶來的社會進步會超越了大部分人的想象。瓦特絕對沒有想象蒸汽機發明對社會進步的貢獻。麥克斯威爾也絕對沒有想象電磁理論可以推動社會如此大的進步,包括這個貝爾發明的電話對社會的溝通也起到了他想象不到的巨大作用。

人工智能現在只是一個非常非常早期的階段,人工智能加上基因工程技術加持之下,我們每個人都可以變成更好的自我,不僅活得長、活得幸福、活得快樂,而且可以心想事成,整個社會也會有光明的前景。

潘毅:接下來,我想提一個私人的問題,最近我在元宇宙方面首次提出來把生命帶入元宇宙,也就是把神經的鏈接數字化,真正體現人的永生。因爲現在數字細胞已經產生了,那麼你對於怎麼體現這個數字人「神」態的問題以及對於元宇宙的發展有什麼想法?

黃學東:我覺得其實現在 AI 已經可以跟大家開玩笑,也會在特定情形下表現得害羞。所以我覺得情感計算這件事情,在我們可預見的 10 年之內肯定會發生。

更多內容,點擊下方關注: