諸神之戰!一文盤點中國“大模型”玩家們
文/一橙
開年以來,全球AI大模型行業,鮮花着錦,比肩繼踵。微軟、Google、Meta、百度等科技巨頭你追我趕,掀開了大模型“軍備競賽”時代的序幕。新的挑戰者入局,大模型概念不斷走高,衆多AI企業紛紛宣告進軍,擁抱新一輪生產力革命。
在國內,做類ChatGPT產品,建中國版OpenAI,這個無與倫比的“性感故事”,引燃了互聯網大廠和科技大佬的創業熱情,AI 2.0的“諸神之戰”已經打響。
今年2月,原美團聯合創始人王慧文的一則“AI英雄榜”,高調入局“劍指”大模型。之後,前搜狗CEO王小川、前京東AI掌門人周伯文、被譽爲“AI框架領域第一華人”的阿里技術副總裁賈揚清、出門問問創始人李志飛等一衆大佬爭先加入ChatGPT掀起的創業熱隊伍。
還有衆多背景華麗的創業團隊涌現,其中清華大學處於身負衆望的頭一梯隊。比如,清華唐傑教授的智譜AI,黃民烈教授的聆心智能,清華大學NLP實驗室的孫茂松、劉知遠團隊,深言科技豈凡超,以及循環智能楊植麟等等,都被頭部VC賦予了顛覆行業的希望,創業的列車再次提速。
互聯網大廠也不甘心錯過下一個時代。百度已經率先推出“文心一言”,華爲的“盤古”大模型,騰訊的“混元”AI大模型,已經蓄勢待發。還有阿里達摩院被曝要推出的類ChatGPT產品,字節跳動被爆正在佈局大模型,科大訊飛也被傳出類ChatGPT技術將在今年5月落地公司AI學習機產品中的消息.......
生產力範式轉移,算力時代悄然開啓,一場AIGC帶來的奇幻革命正在進行。諸神之戰!決戰“中國版ChatGPT”,誰會是最後的贏家?
一、創業派
王小川團隊
據公開信息,2022年6月,王小川設立了人工智能技術公司——北京百方衆智信息技術合夥企業,自己佔股80%。另據媒體向王小川本人求證是否迴歸創業做AI大模型的消息,王小川承認自己在“快速籌備中”。
《態℃ 》欄目從接近王小川的消息源獲知,王小川近期正在與產業界和學術界的一些重要人士進行密集溝通,目前項目還沒有公開,據說已經搞定了一億美金的啓動資金,被稱作“親友輪”。
王小川於1996年獲得國際奧林匹克信息學競賽金牌,進入清華大學。進入搜狐後,在2004年主導推出搜狗搜索,並在27歲那年成爲彼時中國互聯網界最年輕的高管。2015年開始,王小川開始講AI的故事,以“自然交互+知識計算”爲核心,推出AI翻譯機等產品。
搜狗在2017年11月登陸美國紐約證券交易所,上市四年多時間,營收最高峰停在2019年,營收11.7億美元,淨利潤1.05億。此後不斷下滑,2020年營收降至8.37億美元,虧損1.09億美元,2021前兩個季度,營收同比基本下降超過44%。
2021年10月初,搜狗完成私有化,並從紐交所退市。2021年9月4日,搜狗宣佈與騰訊完成合並。合併完成後,搜狗將成爲騰訊控股間接全資子公司。2021年10月15日,王小川發佈郵件告別搜狗,卸任CEO職務,功成身退。
既有技術主義理想,又懂得商業的智慧,王小川無疑是殺向大模型賽道的一匹黑馬。
光年之外
前美團聯合創始人、高級副總裁王慧文宣佈殺入AI大模型賽道,曾一度引發科技互聯網行業的熱議。
2月13日,王慧文在社交媒體上發出AI英雄榜,宣佈打造中國OpenAI,成立北京光年之外科技有限公司(以下簡稱“光年之外”),出資5千萬美元,估值2億美元,自有資金佔股25%。王慧文進一步表示,下輪融資已有頂級VC認購2.3億美元。
3月27日晚,王慧文創立的公司光年之外被傳將以換股形式收購北京一流科技,在現有團隊基礎之上,打造中國版的ChatGPT。公開信息顯示,一流科技成立於2017年1月,自稱是世界上唯一一家以“創業團隊”身份研發通用深度學習框架的團隊。其產品OneFlow的競爭對手包括百度的PaddlePaddle、谷歌的TensorFlow和Facebook的PyTorch。
之前還有消息稱,美團創始人兼董事長王興個人將參與王慧文AI創業公司A輪融資,並出任董事。王興曾在朋友圈中表示,“AI大模型讓我既興奮於即將創造出來的巨大生產力,又憂慮它未來對整個世界的衝擊。老王和我在創業路上同行近二十年,既然他決心擁抱這次大浪潮,那我必須支持。”
王慧文和王興曾聯合創辦校內網(後更名人人網),此後又一起創辦了美團。2020年12月,王慧文宣佈從美團退休時,王興曾在公開信中表示:“老王和我是有共同志趣的同學和室友,是攜手創業的搭檔和並肩戰鬥的戰友,更是可以思想碰撞、靈魂對話的一生摯友。”
兩年後,在AI大模型賽道,兩人再次走到一起,共同奔赴新的戰場。
Project AI 2.0
同樣高調入場的還有AI大牛李開復,3月19日下午,其在朋友圈宣佈成立Project AI 2.0公司。同一天,新公司在其創新工場官網正式上線。
據瞭解,Project AI 2.0不僅僅要做中文版ChatGPT。李開復認爲,AI 2.0不僅僅是個高能聊天工具,也不僅僅是圖文創作的AIGC生成,Co-pilot和如今看到的應用都還只是AI 2.0能力的開端。
他還透露,Project AI 2.0的資金、算力陸續到位,新公司期權由新團隊絕對主導,首批廣招大模型、多模態、NLP(自然語言處理)、AI算法工程與研究、分佈式計算/Infrastructure等方向大的頂級人才推薦自薦。
瀾舟科技
今年3月14日,語言大模型玩家瀾舟科技,剛剛完成了Pre-A+輪融資。本輪融資由北京中關村科學城公司領投,斯道資本和創新工場跟投。這也是瀾舟科技一年內收穫的第2輪融資,累計總額已經數億元。
和融資消息一同公佈的還有瀾舟科技推出的語言生成模型——孟子MChat可控大模型。據介紹,它有類ChatGPT的能力,加上原來瀾舟科技孟子大模型N個項目功能引擎,最終呈現出來的MChat,既有對話能力,又具備翻譯、生成、信息搜索等能力。
瀾舟科技創始人周明是聞名世界的NLP專家,也是當今NLP領域成就最高的華人之一,他不僅是中國第一個中英翻譯系統的研製者,還在2019年成爲AI語言領域最高級頂會ACL(國際計算語言協會)主席。
公開資料顯示,周明先後就讀於重慶大學、哈爾濱工業大學和清華大學,並在清華大學擔任過副教授。創業前,周明長期在微軟亞洲研究院擔任NLP組的負責人、微軟亞研副院長。周明在NLP領域發表的文章數量居世界前列,2012年至2020年期間,周明在NLP領域頂會發表的論文數量居全球第一。
MiniMax
MiniMax在2021年11月成立,是一家頗爲神秘的人工智能公司,成立至今,對外發聲次數屈指可數。根據明勢資本官方消息,2022年上半年,明勢資本領投了MiniMax的天使輪融資。
但事實上,MiniMax是國內名列前茅的多模態AI大模型創業公司,形成了文本到視覺(text to visual)、文本到語音(text to audio)、文本到文本(text to text)三大模態的基礎模型架構,可能也是國內第一家同時擁有3個模態大模型能力的創業公司。
MiniMax首款C端產品Glow,和ChatGPT百科全書一樣的回答不同,Glow的定位在AI虛擬聊天社交軟件,主打聊天、陪伴等情感功能,目前用戶數已經破百萬。在to B方向,MiniMax計劃在今年對外開放API。
有媒體曾披露,MiniMax聯合創始人爲前商湯科技副總裁、通用智能技術負責人閆俊傑,也曾擔任商湯研究院副院長,搭建了商湯的人臉識別和智慧城市相關的技術體系。在深度學習和計算機視覺領域,閆俊傑發表頂級會議和期刊論文100餘篇, Google Scholar引用超過10000次。
目前,MiniMax團隊人數已過百,公司核心技術研發成員均來自全球知名高校和全球頂尖科技公司,擁有世界頂尖自然語言處理,語音,計算機視覺,計算機圖形學等工業界和學術界經驗,擁有多項全球領先的人工智能領域研究成果,具有上百個全球發明專利,1/3的團隊成員擁有世界頂尖技術實驗室的博士學位。
銜遠科技
2月26日晚,前京東AI掌舵人周伯文發佈一則AI英雄帖,招募合夥人一起打造中國版ChatGPT。這是繼前王慧文、王小川之後又一位下場的業界大牛。
周伯文長期致力於語音、自然語言處理、多模態內容理解與生成、知識表徵與推理、人機對話、可信賴 AI等研究領域及其在產業化、數智化的應用。他提出的自注意力融合多頭機制的自然語言表徵機理後來成爲 Transformer 架構的核心思想之一,他還曾與圖靈獎得主 Yoshua Bengio在NLP方向合作一篇論文,至今被引用2000多次,其論文總引用次數也高達近15000。
周伯文自2021年底從京東離職後,轉去學術界,擔任清華大學惠妍講席教授、電子系長聘教授 、清華大學電子系協同交互智能研究中心主任。同時,他還是銜遠科技的創始人、首席科學家。
在英雄帖中,周伯文也表達了銜遠科技參與 ChatGPT 這一波所走的差異化路線——中國的 OpenAI 需要探索一條新的道路:垂直整合從自有基礎大模型到應用、用戶全場景閉環,實現生成式人工智能技術與商業價值 " 雙落地 "。
今年3月1日,銜遠科技宣佈已經完成數億元天使輪融資,本輪融資由啓明創投領投,經緯創投跟投。
二、學院派
智譜AI
智譜AI由清華大學計算機系唐傑教授創立,團隊核心成員曾參與清華大學與智源研究院合作項目「悟道」的研發工作,具有豐富的大模型經驗。
2022年8月,清華大學知識工程實驗室與智譜AI合作研發的超大規模預訓練語言模型GLM-130B正式上線,在多個公開評測集上性能超過GPT-3。
去年9月,智譜AI宣佈獲得數億元人民幣B輪融資,由君聯資本和啓明創投聯合領投,本輪融資將被用於繼續投入到打造高性能千億級普惠大模型。
唐傑,清華大學計算機系教授,剛剛入選2023 AAAI Fellow,也是ACM/IEEE Fellow。研究方向包括人工智能、數據挖掘、社交網絡、機器學習和知識圖譜等,曾獲ACM SIGKDD Test-of-Time Award(十年最佳論文)。
就在GPT4發佈的同一天,唐教授在微博宣佈:基於千億參數大模型的對話機器人ChatGLM,現在開啓邀請制內測。據介紹,這是一個初具問答和對話功能的千億中英語言模型。
聆心智能
另一支赫赫有名的清華系NLP隊伍,是交互式人工智能(CoAI)課題組教授朱小燕和其學生黃民烈團隊,他們先後提出過SentiLARE、StoryGPT等預訓練模型。
黃明烈副教授於2021年創立聆心智能,專注心理諮詢賽道,致力於打造“超擬人底層大模型”。2022年團隊上線“AI烏托邦”對話機器人,支持自定義AI人設進行聊天交互。團隊核心成員均來自於清華大學、卡內基梅隆大學、谷歌等國內外頂尖高校及公司,具有豐富的商業化經驗。
作爲國內具備訓練超大規模語言模型能力的團隊之一,聆心智能將自己定位爲"中國的 Character AI",旨在提供情感陪伴的文本生成服務,公司目前已完成Pre-A輪融資。
黃明烈本人是自然語言生成領域的資深專家,清華大學計算機科學與技術系長聘副教授,國家傑出青年科學基金獲得者,智能技術與系統實驗室副主任。研究興趣主要集中在人工智能、深度學習、強化學習,自然語言處理如自動問答、對話系統、情感與情緒智能等。已超過100篇 CCF A/B 類論文發表在 ACL、IJCAI、AAAI、EMNLP、KDD、ACM TOIS、TASLP、TKDE 等國際頂級或主流會議及期刊上。
清華大學NLP實驗室的孫茂松、劉知遠團隊
從 NLP 的學科方向上看,清華系孫茂松、劉知遠團隊算其中一股中堅力量,來自清華自然語言處理與社會人文計算實驗室(THUNLP)。THUNLP成立於上世紀70年代的實驗室,牽頭人是國內NLP研究領域的泰斗黃昌寧。
清華大學自然語言處理與社會人文計算實驗室(THUNLP),是國內最早開展 NLP 研究、且極具影響力的科研單位。實驗室於20世紀70年代末成立之初,由中國 NLP 開山人物黃昌寧帶領,ACL Fellow 孫茂松是他的學生,劉知遠則是孫茂松的學生。
在語言大模型方面,孫茂松、劉知遠團隊從2018年跟進預訓練範式,2019年初發布了 ERNIE 語言模型(與同時期百度版 ERNIE 同名),之後研發了 CPM 模型,是智源研究院「悟道·文源」的前身。
2021年底,該團隊發佈了機器中文語言能力評測基準“智源指數”(CUGE),以評測和推動中文NLP的發展。一個是AI寫詩模型“九歌”,訓練過程中學習了80萬首中國古詩;另一個是語言表徵模型ERNIE(和百度文心大模型同名),可與當時任務最優的BERT媲美。
深言科技
孫茂松、劉知遠及其門下畢業的學生,在 NLP 和大模型領域已孵化了多個公司。其中就包括豈凡超於2022年成立的深言科技,致力於以自研中文大模型構建工業級中文信息處理引擎。
2019年,清華大學自然語言處理實驗室(THUNLP)研製出一款名爲WantWords的反向詞典,能夠根據語義描述查找詞語,可用於寫作輔助等多個場景;2021年11月,這款應用突然在微博爆紅,多次擠爆了服務器;2022年5月,基於語義的名言名句檢索系統WantQuotes上線,截至去年8月,WantWords和WantQuotes已有超200萬用戶。
這支團隊就是深言科技的前身,目前當初研發這款應用的幾位同學目前已畢業,並和他們的導師孫茂松教授一同創辦了創業公司深言科技(DeepLang AI),公司成立之初即獲得一線VC千萬元級投資。
深言科技的CEO豈凡超在人工智能和自然語言處理領域的國際刊物發表論文近30篇,申請專利十餘項。目前,深言科技團隊的核心成員主要由清華大學的博士、碩士組成,並由孫茂松教授領銜擔任首席科學家。
循環智能
在這次激烈的大模型“軍備競賽”中,不乏履歷光鮮的90後創業者出現,首屈一指的就是循環智能聯合創始人楊植麟。
楊植麟本科就讀於清華大學計算機系,師從IEEE Fellow唐傑,2015年以年級第一名的優異成績畢業;隨後,赴自然語言處理(NLP)研究全球排名第一的卡內基梅隆大學語言技術研究所(LTI)攻讀博士,師從蘋果AI研究負責人Ruslan Salakhutdinov和谷歌首席科學家William Cohen,4年即拿下博士學位。
博士期間,他與圖靈獎得主Yoshua Bengio合作發佈「火鍋問答」數據集HotpotQA,又以一作身份發表的 XLNet 與 Transformer-XL在NLP領域產生重要影響,成爲 NeurIPS 2019與 ACL 2019的最高引論文之一,谷歌學術引用次數直接破萬……
這位90後創業者不僅學術履歷優秀,在產業界的表現也可圈可點。2016年,楊植麟創立循環智能,公司主要業務是運用NLP、語音、多模態、大模型等人工智能技術打造“銷售科技”方案。與此同時,智譜AI和清華研究團隊的多個AI項目由他主導,例如華爲的“盤古”大模型也是楊植麟團隊和華爲雲聯合推出的。
目前,循環智能已進行到B輪融資,並連續三年實現了超200%的營收增長。
復旦邱錫鵬教授團隊
2月20日,復旦大學自然語言處理實驗室的邱錫鵬教授團隊攜上海人工智能實驗室發佈“國內第一個對話式大型語言模型MOSS”,它是一種類似於 ChatGPT 的對話聊天機器人或語言模型,可以執行各種功能,例如給出答案、生成對話、編寫代碼等。邱錫鵬教授介紹,對話式大型語言模型MOSS大概有200億參數。
據介紹,未來,MOSS的優化將會圍繞三方面展開:團隊會準備更高質量的中文數據;會開放接口,讓MOSS與人類進行對話,收集更多的對話數據;同時,團隊還會進一步加大投入,擴大其參數規模。
邱錫鵬教授爲自然語言處理領域的資深學者,曾主導開發NLP工具FudanNLP,團隊主要研究方向爲自然語言處理和深度學習。目前,邱錫鵬與他的MOSS團隊——8位年輕的復旦學生,正緊鑼密鼓地開展內測和迭代工作。
三、大廠派
百度
3月16日,百度啓動基於百度新一代大語言模型的生成式AI 產品“文心一言”的邀請測試,使用場景主要包含文學創作、商業文案創作、數理推算、中文理解和多模態生成。
目前來看,“文心一言”的基礎能力還算紮實,具備文學創作能力,可以進行總結、分析、內容、檢索,延伸至檢索增強。只是,從當前的測試狀態來看,不乏“翻車現場”,達到的效果並不算是完美。
百度一直堅持壓強式、馬拉松式的研發投入。百度高額的研發投入主要集中在AI領域,自2012年成立AI部門開始百度在十年裡累計投入到AI方面的研發費用超過了1000億元,是全球大廠中極少數具有能支撐訓練大語言模型的公司。
從算力、算法到數據,從高端芯片崑崙芯,到飛槳深度學習框架,百度在各個層面都早有關鍵自研技術,給百度文心一言提供了一定的研發投入壁壘。
華爲
2021年4月,盤古大模型正式對外發布。其中盤古 NLP 大模型是業界首個千億參數的中文預訓練大模型,在 CLUE 打榜中實現了業界領先。爲了訓練 NLP 大模型,團隊在訓練過程中使用了40TB 的文本數據,包含了大量的通用知識與行業經驗。
3月27日有消息傳出,華爲盤古大模型4月將發佈,將對標CHATGPT,同樣達到千億級參數量,是全球最大的中文語言AI訓練大模型,由華爲與鵬城實驗室聯合開發,鵬城雲腦二期提供算力底座。
華爲這方面的核心人物,是國際歐亞科學院院士、IEEE Fellow、華爲雲人工智能領域首席科學家田奇。加入華爲之前,田奇已經是業界知名的 AI 領域學者。他是美國伊利諾伊大學香檳分校博士、IEEE Fellow,也是原德州大學聖安東尼奧分校計算機系正教授。在高校任教17年之後,帶着學術界的前沿思考和科研成果,田奇與團隊來到了產業一線。
騰訊
AI大模型方面,騰訊表示正大力投入人工智能與雲基礎設施建設,騰訊混元AI大模型覆蓋NLP(自然語言處理)、CV(計算機視覺)、多模態等基礎模型和衆多行業與領域模型,還推出了萬億中文NLP預訓練模型。
2022年4月,騰訊首次對外披露HunYuan大模型研發進展—HunYuan集CV、NLP、多模態理解能力於一體,先後在MSR-VTT、MSVD等五大權威數據集榜單中登頂。
2022年5月,“混元”在國際公認的CLUE三個榜單同時登頂,一舉打破三項紀錄。去年年底,騰訊HunYuan進一步推出國內首個低成本、可落地的NLP萬億大模型,並再次登頂自然語言理解任務榜單CLUE。
據悉,HunYuan是業界首個可在工業界海量業務場景直接落地應用的萬億NLP大模型,最快用256張卡,1天內就能訓練完成,成本直接降至原來的1/8。
阿里達摩院
AI大模型方面,據阿里研究院公佈的信息顯示,達摩院在2020年初啓動中文多模態預訓練模型M6項目,同年6月推出3億參數的基礎模型;2021年1月模型參數規模到達百億;2021年5月,具有萬億參數規模的模型正式投入使用;2020年10月,M6的參數規模擴展到10萬億,成爲當時全球最大的AI預訓練模型。
M6於2021年3月首次發佈,後來通過480塊GPU更迭至萬億參數,併成功在10天內訓練出10萬億模型,其參數規模與GPT-3相當,但能耗僅爲其1%。
阿里雲曾表示,M6已在超40個場景中應用,日調用量上億。在阿里雲內部,M6大模型的應用包括但不限於在犀牛智造爲品牌設計的服飾已在淘寶上線、爲天貓虛擬主播創作劇本,以及增進淘寶、支付寶等平臺的搜索及內容認知精度等,尤其擅長設計、寫作、問答,在電商、製造業、文學藝術、科學研究等前景中落地。
M6的負責人爲楊紅霞,據公開資料,楊紅霞2007年本科畢業於南開大學,獲統計學學士學位。其後她去往美國杜克大學統計科學系攻讀博士學位,師從 David Dunson 教授。博士畢業後,先入職 IBM 全球研發中心任 Watson 研究員,之後入職雅虎公司擔任首席數據科學家。楊紅霞在人工智能領域國際會議、頂級期刊有上百篇頂級論文。
不過,3月22日有消息傳出,阿里巴巴的語言生成大模型M6的原帶頭人楊紅霞已加入字節跳動AI Lab,擔任語言生成大模型的研發領導。
字節跳動
據媒體消息,字節跳動方面正在大模型方面佈局、在語言與圖像模態方面發力。字節跳動相關技術負責人表示,技術中臺在這些領域的探索仍處於初期,尚未成熟。
報道稱,語言大模型團隊由字節搜索部門領導,目前規模在十數人左右;圖片大模型團隊由產品研發與工程架構部下屬的智能創作團隊牽頭。
知情人士表示,字節跳動語言大模型團隊在今年組建,探索方向主要爲與搜索、廣告等下游業務的結合,語言大模型團隊的預期是在今年年中推出大模型。
科大訊飛
科大訊飛於2022年12月份啓動生成式預訓練大模型“1+N”任務攻關,其中“1”是通用認知智能大模型算法研發及高效訓練底座平臺,“N”是應用於教育、醫療、人機交互、辦公、翻譯、工業等多個行業領域的專用大模型版本。
公開資料披露,科大訊飛類ChatGPT技術將在今年5月落地公司AI學習機產品中。
科大訊飛在教育、醫療、司法等不同行業多年的規模化應用積累了超過50TB的行業語料和每天超10億人次用戶交互數據,爲訓練實現達到人類專家水平的行業認知大模型提供了海量行業文本語料和用戶反饋數據,也爲基於大模型的創新應用研發和試點推廣提供了場景保障。
結語:
1769年,英國人瓦特改良的蒸汽機掀開了熱力時代的序幕。今天,伴隨AI 算量需求急劇增加,倒逼傳統計算架構加速革新,算力時代已經悄然開啓。
未來,AI大模型技術的影響力,有可能接近印刷術,蒸汽機,電力,芯片,互聯網,其所帶來的巨大顛覆性,可能引領人類社會整個技術發展產生躍遷,結果是會導致人類經濟產生非線性的躍遷。
誘人的前景下,也是指數級上升的入場難度。
首先,高算力就代表着高成本,意味着AI 2.0時代創業的絕對高門檻,沒有雄厚的資金支撐根本無法承擔AI訓練的費用,這也預示着進場船票非常難得,非大廠和明星創業者團隊,幾乎沒有跑完全程的希望。
同時,AI 2.0創業對技術有了更嚴苛的要求。有投資人向《態℃》欄目透露,市面上但凡能做底層的模型,不管是去做語言大模型的,還是去做強化學習的,只要以技術見長,以工程化產品化的思維做底層模型的公司,真正有技術水平的創業公司,國內尚不超過十家。
最後,AI大模型頂級的技術人才是更爲稀缺的資源。大佬們下場,打的第一場仗就是搶人,畢竟國內真正主導開發深度學習框架、人工智能框架的頂尖技術大牛少之又少,優秀人才可謂可遇不可求。
這場諸神之戰,最終誰將脫穎而出引領下一個時代?對於中國科技公司,距離終點仍有漫長的道路要摸索、攀登。