對話智源總工程師林詠華:基礎大模型的二次學習能力遠比“榜單”重要 | REAL大會
10月26日,界面新聞主辦的REAL科技大會在京舉行,北京智源人工智能研究院副院長兼總工程師林詠華爲REAL科技大會做了20分鐘開場演講,演講主題是《打造大模型技術的“Linux”,爲AI未來十年發展打下堅實根基》,在百模大戰進入第二幕之際,這位智源研究院的副院長兼總工程師、IBM中國研究院成立以來的首位女性院長詳細探討了目前做基礎模型的機構需要不斷打磨的關鍵問題。
多年的研究界經歷讓林詠華非常看重大模型的人才儲備,她在主題演講之後,與界面新聞等四家媒體進行了交流,她對在場媒體專門提到,現在做大模型的人才可以分爲三類,一類是使用大模型的人才,不接觸大模型的訓練,集中在prompt提示詞工程師領域,佔比較多,在落地應用過程中被廣泛需要;第二類是能做微調訓練的人才,技能上容易上手,業界對其有一定需求,“因爲如果不進行微調,即使是GPT-4都會在一些非重要問題的回答上表現不佳”;第三類是圍繞基礎模型訓練相關的人才,目前數量最少,需求最高,這類人才又可以細分爲:貫穿訓練始終的數據分析的人才;與小模型時期技能點趨同的算法人才;能搭建並行系統的人才,後者涉及到工程和並行優化的能力;以及評測方面具備重要經驗的人才。
林詠華強調,她不認爲培養上述第三類人才是一件十分困難的事情,智源研究院就有一部分AI領域的同事在一兩年中從對大模型零基礎成長爲了一個大模型訓練專家,“高的不是技術門檻,而是訓練基礎大模型的機會太少了”,林詠華坦言,在大模型競爭開始趨於收斂的情形下,國內只剩下包括智源在內的幾家大模型團隊有機會去訓練基礎模型。而從零開始訓練一個出色的基礎模型,比基於已有的基礎模型去進行持續訓練,難度要大很多,“80%以上的訓練難度集中在最開始的1/3過程,”林詠華直言。
以下爲界面新聞專訪林詠華的內容:
界面新聞:智源研究院是中國大模型的黃埔軍校,目前也在大模型評測領域起着至關重要的作用,但在當前的生成式AI浪潮下,你們希望智源本身研發的悟道·天鷹Aquila語言大模型系列,在百模大戰中扮演一個什麼樣的角色,無論是學術端還是商業端?
林詠華:我希望Aquila語言大模型起到一個語言大模型或多模態大模型的基座作用。對於那些沒有能力從頭構建大模型的任何企業,都可以在智源的開源平臺上拿到他們想要的東西,然後去做下游應用。所以我們希望通過開源提供這種技術和資源,包括基礎模型、對話模型,也包括各種各樣的工具。
我們要堅定地扮演一種基礎技術的資源提供方角色,以視覺模型爲例,我今天提到的EVA和EVA-CLIP,現在全球很多大模型團隊做多模態研究的時候也用我們智源這個模型,這是很好的事情。雖然智源也繼續基於EVA打造自己的的多模態模型,但我們更高興看到,一些更基礎性的模型被更多大模型團隊去用,甚至有一天他們能打造出比我們更好的多模態模型。
界面新聞:現在業界一直在說,年底之前大語言模型會進入決賽圈,最終初創加上大廠也只有不到8家能夠勝出,多模態大模型那邊則爲時尚早,你是否同意這個說法,這是因爲大語言模型的技術路線已經趨近於統一,而多模態那邊技術路線百花齊放所致麼?
林詠華:我覺得首先,多模態大模型這邊肯定是百花齊放,現在談多模態誰能勝出肯定還早,但大家更多的疑問集中於大語言模型年底是否就要決賽,我覺得還不是。
是這樣子,第一,從語言模型本身對於產業落地所要求的能力和質量來看,目前各家還有比較明顯的差距。
打個比方,爲什麼今天落地產業的例子大多都是AI助手,做Copilot,而不做Pilot(Pilot的一個具體例子是自動化的AI agent),原因是大模型的輸出達不到工業界的嚴格質量要求,例如能100%高質量自動生成這一階段所要的一個描述或代碼,如果達到就纔將對整個商業落地、工業發揮巨大的作用。
今年上半年,業界說語言大模型可以重構很多商業軟件,但今年下半年這種聲音沒那麼強烈了,爲什麼?如果要真的重構商業軟件,那就需要用AIGC產生的這些內容、代碼、或指令調用擁有接近100%的準確度,但今天還遠做不到,所以都是做Copilot,做助手,至少可以由人類進行監督和調整。
我覺得對於產業落地來說,Copilot只是很小的場景,更大的場景在後面,我相信語言模型後面還有重要的技術迭代。
第二,雖然當前大模型相關企業已有分層跡象,但誰能真正笑到最後或什麼是最後,仍是未必。以手機爲例,10年前那波手機巨頭,因爲智能手機的興起,現在是不是換了一撥麼,因此目前大模型競爭到最後還很難說,我覺得它應該是一個持續的競爭領域,關鍵就看誰能看準技術趨勢、緊跟技術迭代、構建技術和商業壁壘。
界面新聞:紅杉資本在最近的文章《生成式人工智能第二幕》中反思了幾個他們預測錯誤的問題,其中很重要的一條是,他們預測最好的生成式AI公司可以通過數據飛輪獲得持續的競爭優勢,但實際上數據的壁壘並不穩固。他們現在發現,壁壘是在客戶而不是數據之中。8月31日起國內多家大模型產品直接向公衆提供服務,他們實際上也發佈的是一種AI助手產品,是一種相對簡陋的Copilot,那麼這種開放會幫助這幾家在大模型迭代上獲取什麼優勢?
林詠華:我想這些模型企業也會收集用戶的提示詞Prompt,去看他們在哪些問題上面回答地好,哪些上面回答地不好,某種程度上這會幫助他們迭代做出更好的模型。
不過到了現在,大家發現收集用戶的使用方式,已經進入收斂期。或者說,僅僅依賴用戶的使用來產生數據飛輪,已經遠遠不夠模型迭代所需要的數據量了。
所以這種單獨依靠服務開放來提升模型質量的方法,在目前的收效不如此之前預期的大。現在包括智源在內的一些大模型團隊,反而從數據的合成方面去嘗試更多。通過設計各種數據合成的方法,來加速模型迭代。智源這次發佈的Aquila2語言大模型就是一個很好的例子,我們在其中使用了一系列數據合成的方法。
界面新聞:如果說識別率提升、精度突破、榜單排行是早期AI界的主旋律,那現在生成式AI界各家公司自說自話也一陣子了,你比較認同的幾組新旋律是什麼,換言之,現在外界應該以怎樣的維度去衡量這些大模型到底做得好與不好?
林詠華:上段AI時期也就是小模型時代,去定義衡量模型好壞的關鍵詞還算容易,現在給大模型定義哪幾個關鍵字會更難。因爲我們還預測不了大模型在能力範疇裡到底能做、不能做什麼;更直白來說,我們很難預測大語言模型的能力上限。
如果一定要找一些業界Key word,推理能力、泛化能力算是關注比較多的。但推理本身也是很廣義的範疇,邏輯推理、常識推理等各有不同,細分情況也很複雜。對於大模型的泛化,大家確實關注,但泛化能力很難用有限的Benchmark(大模型基準測試)去衡量,或者說對“泛化能力”的評測,必須不斷外延和變化。
但我覺得對基礎大模型而言,還是要回到“基礎”二字。
作爲基礎模型,是否有很強的“二次學習”能力,遠比目前大模型在榜單上的評分重要的多。用戶使用基礎模型,更多是會使用領域數據去進行持續訓練,從而產生一個下游的領域基礎模型如代碼模型;或使用應用指令數據對基礎模型進行指令微調訓練,從而產生一個下游的應用模型如對話模型。通過智源的訓練實踐,我們清晰看到,不同綜合能力的基礎模型,對訓練同一批數據的下游模型,出來的效果差異很大。所以我個人認爲,能產生更優質的下游模型,纔是基礎大模型最重要的特質和核心能力。