仰望星空:當一個手機品牌投身大模型
2018年6月,憑藉AlphaGo一鳴驚人的DeepMind低調地發表了一篇論文,描述如何訓練人工智能玩遊戲。
論文發表半年後,DeepMind就攜AlphaGo的繼任者AlphaStar實操了一把,在《星際爭霸2》遊戲中以5:0的比分乾淨利落的送走了人類玩家、德國人達里奧·溫施(Dario Wünsch)。
和下圍棋不同,在《星際爭霸2》這類即時戰略遊戲中,玩家必須時刻針對幾十上百種情形迅速作出判斷,沒有圍棋比賽裡的思考時間,這對AI算法的設計者來說是個巨大的挑戰。
AlphaStar的神經網絡伴隨遊戲運轉
DeepMind訓練AlphaStar的同時,一家中國公司也在嘗試讓AI學會打王者榮耀。
2017年,vivo在內部組建了一個AI研究團隊。和大多數被AlphaGo驚醒的科技公司一樣,vivo當時對AI的定位是“必須要做”。但作爲一個手機品牌,用AI做什麼,怎麼做,並沒有先例可以參考。這也是訓練AI打王者榮耀的背景。
在AlphaStar這個項目裡,DeepMind和遊戲開發商動視暴雪聯合創建了一個PySC2接口,可以讓算法與遊戲核心交互,獲取所有的遊戲信息。但vivo很難拿到對應的接口,所以他們用了另一種方法——借鑑計算機視覺的方式,讓算法反覆觀看攻略視頻,識別遊戲裡各種各樣的物體。
之後,這個研究團隊開發了一個由算法驅動的遊戲AI,小範圍參與了王者榮耀的排位賽。
這是vivo投身人工智能技術浪潮的起點。隨後,有了Jovi智能語音助手在vivo手機上的落地,但直到幾天前的vivo開發者大會,vivo這6年來的AI成果才迎來一次集中的爆發展示。
除了OriginOS 4和新的智能輔助應用“藍心小V”,vivo自研的通用大模型矩陣“藍心大模型”也首次亮相,其中包括十億、百億、千億三個不同參數量級的5款自研大模型,全面覆蓋核心應用場景,並在SuperCLUE、C-Eval、CMMLU三個榜單中位列的全球中文榜單榜首。
11月1日,vivo公佈自研通用大模型矩陣“藍心大模型”
在這背後是一個超過一千人的AI團隊,70多篇頂級期刊論文以及數百項發明專利。對於vivo來說,這些沉澱和積累的意義並不在大模型本身,而是vivo以一個手機品牌的身份,第一次站在了AI這新一輪的工業革命浪潮的潮頭。
大模型只是一個起點,vivo以此開始學會如何仰望星空。
先招1000個人
人工智能迄今爲止最重要的里程碑事件出現在2012年,多倫多大學的辛頓團隊在10月的計算機視覺會議上介紹了神經網絡AlexNet,這個算法在ImageNet圖像識別比賽中以驚人的84%識別準確率奪得冠軍,人工智能迅速從學術圈向產業界擴散。
AlexNet的論文是計算機科學史上最有影響力的論文之一,目前被引次數已經超過12萬,前無古人,後可能也鮮有來者。不過,當時只有少數公司公司開始投資深度學習,並加入了之後的人才爭奪戰。
AlexNet論文
絕大部分科技公司開始不計回報的押注人工智能,始於2016年AlphaGo大殺四方。相比論文裡的數學公式和神經網絡結構,AlphaGo橫掃圍棋冠軍帶來的衝擊力顯然更爲直觀。這也是爲什麼vivo創始人、CEO沈煒說,vivo真正參與到人工智能浪潮是在“第二個階段”。
2016年後,vivo的高管團隊走訪了國內外各大高校,意識到學術界在人工智能上的探索已經遠遠超越了產業界的想象,一些科研機構已經沉澱了近十年時間。用周圍的話說[2]:我們重新認識了這個行業。
周圍在vivo工作了14年
周圍是vivo的副總裁、OS產品副總裁、AI全球研究院院長,他在2017年受命帶隊vivo的人工智能研發團隊。沈煒對研發團隊的要求是,人工智能是所有技術創新的最底層的技術,在未來很長一段時間,vivo都應該“過飽和”的投入。
2016年,“英國選手”AlphaGo戰勝了李世石
具體到vivo的人工智能研究院,公司層面的要求是先招滿1000個人,但實際上這並不容易。
在2012年之前,對於人工智能的技術路線尚無定論,深度學習只有一個非常小的學術圈,大部分高校甚至沒有計算機視覺相關的專業。隨着深度學習產業化逐漸落地,人才的供給才慢慢解決。
另一個問題是,對於一個手機品牌來說,“應用人工智能技術”和“把人工智能視爲核心戰略”是截然不同的兩回事。
如果只是將AI應用於手機,那麼幾乎所有手機品牌都在做這件事。vivo的V系列影像芯片,就設計了專門的AI處理單元,爲後期處理算法提供算力。指紋識別和人臉識別等功能性模塊,也需要AI算法的介入。
但在“戰略”這個語境下,vivo需要思考的是AI之於整個終端業務的融合,以及如何搭建一個與之匹配的人才、研發、組織管理體系。一個功能性模塊可能只需要軟件團隊幾個月的開發週期,但“戰略”則意味着幾十上百億投資的流向。
在戰略方向明確後,vivo緊接着在2018年成立了一個知識圖譜團隊,圖譜團隊主要負責數據的建設和管理,以保證數據的規模和質量,從而爲公司的業務發展提供可靠的數據支持。
按照周圍的說法,數據是AI的基石,在沒有明確應用方向的前提下,那就先給高樓打好地基,修成什麼樣再說。
同一時期,vivo在內部開發測試了很多類似的項目,用來探索AI應用在手機產品上落地的可行性,比如針對聽障人羣優化通話質量;通過AI修復老照片;代表作則是2018年初隨vivo X21推出的智能助手Jovi。
“花了三個月時間,非常緊繃的狀態。”Jovi讓vivo人工智能一部的總經理肖方旭印象特別深刻,那時團隊剛開始組建。Jovi的上線,也給了vivo內部巨大的信心,以至於他們提出了一個雄心勃勃的計劃:打造一款真正的“AI手機”。
一款真正的“AI手機”
2018年的vivo X21,主要賣點在於全面屏和屏幕指紋解鎖。但在vivo內部,最讓人振奮的是隨X21搭載的智能助手Jovi。
Jovi的第一個版本里,它可以幫用戶提醒機票酒店等行程安排或根據路況提前安排上下班的路線。從技術上來講,如果用戶越多的使用Jovi,Jovi也就越能夠理解用戶的日常生活習慣,從而變得更智能。
基於這一點,vivo提出了一個非常大膽的規劃:Jovi會成爲真正的智能助手,扮演手機和App之間的一個重要角色。
Jovi在2018年第一次亮相
這個思路其實與後來AGI(通用人工智能)的構想相當類似,但在當時,它有些過於超前。
一方面,直到現在,手機的硬件系統都難以提供與這個設想相匹配的算力,所以目前大多數的AIGC應用都運行在雲端。
更關鍵的問題在軟件。簡單來說,神經網絡最核心的能力在於“識別”,這也是爲什麼2012年後產業化起步最快的場景,都與計算機視覺掛鉤,比如語音識別、自動駕駛、高速公路抓拍等等。但真正的智能助手需要具備的能力是“理解”,這在當時尚顯科幻。
在Transformer出現之前、包括出現後的一段時間裡,主流學術界將AGI研究者等同於研究長生不老的民科。2016年,時任谷歌首席AI研究員曾參觀過OpenAI,他詢問OpenAI的目標是什麼,沒想到難倒了創始人阿爾特曼,“我們現在的目標,就是......做點好事。”
2016年,Sam Altman訪談馬斯克,後者是OpenAI的投資人
因而,Jovi並沒有如vivo料想的那般越學越像人,由於無法結合語境理解上下文關係,Jovi的天花板被天然鎖死。後來,周圍把這段經歷概括爲“我們滿懷激情,然後碰壁了”。
因此在2020年初,vivo迅速調整了策略,將原本試圖整合起來的AI功能性模塊打散,分散在操作系統的各個功能裡。
比如基於深度學習設計的文檔掃描、證件掃描、文字提取等一些列解決方案,並將他們集成在相機、相冊等系統功能裡。vivo當時還做了手機行業首個具備手語識別能力的虛擬人,算法可以識別1200個手語詞彙,準確率在80%以上,差不多是漢語四級的理解水平。
2022年11月,vivo在開發者大會上公開了一系列應用成果,並開放了各類接口,讓第三方開發者也可以開發各種各樣功能性模塊。此時,vivo對AI的戰略規劃也正如開發者大會的Slogan那樣:1001個便利。
也就是說在五年時間裡,vivo對AI的戰略經歷了一次重大轉向:在意識到Jovi在工程上難以達到理想中的狀態後,vivo不再追求打造“AI手機”,而是將重心放在如何利用AI最大程度優化系統和軟件的體驗。
在這個過程中,周圍得到的啓發是“做什麼”比“怎麼做”更重要:“保證贏面的核心不是戰鬥的本身,而是認知和規劃。要很好的回答爲什麼和做什麼,第二個階段纔是怎麼做。”
此時,離ChatGPT橫空出世,只剩下不到一個月時間了。
Transformer改變了什麼
大部分人第一次直觀感受AI的震撼是2016年AlphaGo與李世石的對弈,但實際上,推動今天大模型混戰的里程碑是一篇名叫《Attention Is All You Need》的論文。
2017年,8位谷歌的計算機科學家在這篇論文中,向全世界公開了Transformer算法。這篇論文目前是人工智能歷史上被引數量第三高的論文,Transformer的出現則扣動了此輪人工智能熱潮的扳機。
當下的一切大模型,包括驅動ChatGPT的GPT系列,都是站在了Transformer的肩膀上。
目前,8位論文作者都離開了谷歌
在這之前,“教機器讀書”是個公認的學術難題。不同於圖像識別,人類在閱讀文字時,不僅會關注當前看到的詞句,更會結合上下文來理解。比如“Transformer”一詞其實可翻譯成“變形金剛”,但在論文的語境下,任何人類讀者都不會這麼理解。然而,當時的神經網絡做不到這一點。
神經網絡的輸入都彼此獨立,並不具備理解一大段文字、甚至整篇文章的能力,所以纔會出現把“開水間”翻譯成“open water room”這種問題。
相比後來跳槽去了OpenAI的Ilya Sutskever設計的循環神經網絡(RNN),Transformer進一步加強了上下文的能力,同時用位置編碼的方式現了並行計算——這一改變大大提升了的訓練效率,從而讓算法可以處理規模巨大的數據,直接將AI推向了大模型時代。
隨着學術圈的探索和驗證,Transformer迅速橫掃一切牛鬼蛇神,發展成了自然語言處理的唯一解。
對vivo來說,Transformer的出現,讓他們和理想中智能助手與“AI手機”的距離一下拉近了。
在“1001個便利”行進的同時,vivo對Transformer的研究和大模型的開發也在謹慎的起步,用周圍的話說就是“觀察和跟隨”,甚至是“持懷疑的態度在跟進”。
一方面,vivo曾給予了深度學習過高的期待,以至於他們在AI戰略上出現過短暫的搖擺。同時,大模型與智能涌現的定位更貼近一種技術底盤,也還沒有展示出有說服力的應用。
2019年,在AI上反覆碰壁的微軟遇到人才濟濟的OpenAI,在投資談判中,比爾·蓋茨其實很直白地對其發展路線表達了悲觀,認爲Transformer這類大語言模型在過去幾年都沒什麼進展,沒人知道它會有什麼價值。這與ChatGPT問世後將其類比PC誕生的比爾·蓋茨儼然兩幅面孔。
當然,微軟還是爽快的掏出了10億美元,陰差陽錯的收穫了目前人工智能競賽中最大的戰利品。
vivo當時對大模型的看法與之類似,更何況與富可敵國的微軟相比,vivo只是一家賣硬件爲主的科技公司。
要知道微軟塞給OpenAI的10億美元裡,大部分都最終落入了微軟雲服務部門或英偉達的腰包。vivo曾在官方社區分享過一篇有關AI的文章,下面有用戶問:vivo買了多少塊英偉達的顯卡?
以驅動ChatGPT的的GPT-3模型爲例,有機構做過測算,訓練一個GPT-3需要至少1024張A100顯卡持續運轉足足一個月。而A100顯卡最便宜的版本也要8769美元。也就是說,什麼還沒算,先給英偉達交了900萬美元入場費。
“觀察”、“懷疑”、“探索”——這就是vivo的大模型起步時的關鍵詞。
直到2022年12月,OpenAI沿着Transformer路線開發出了一個名爲ChatGPT的應用。2個月後,ChatGPT的全球月活突破了1億。這個時候,周圍意識到可以“All In”了:
“All In的意思就是,在戰略上唯一的、完全的選擇了它。”
爲什麼是五個
手機是全球高科技成果的結晶,但手機或消費電子公司的成色其實更加偏向製造業。
比起在實驗室裡研究高精尖的技術,消費電子公司的日常更多是與供應鏈公司討論工藝和生產流程,反覆權衡成本和庫存繼而確定零部件的採購方案,和全球各地的駐場工程師溝通項目進度,以及斥巨資購買新的生產設備、然後送到並不屬於自己的工廠。
這也是蘋果的核心能力:蘋果每年向代工廠派去的駐廠人員達百人以上,涵蓋物料、研發、採購、生產管理、售後等所有和產品相關的部門,以確保出品時效性。這些駐廠專家在工廠裡都擔任核心職位,直接把控了生產節奏。以此組成的複雜系統創造了一個21世紀的日不落帝國。
作爲同行,蘋果是vivo內部反覆研究的對象,iPod則是一個樣本。vivo的內部研究文檔裡有這樣段句話:
喬布斯設計了一種新的iPod與iTunes軟硬件一體的模式,讓消費者能低價享受正版音樂,同時可以自己製作音樂專輯。iPod的新意義是,它已經不僅僅是一臺數字音樂播放器。
iPod上市之前,美國風行的數字音樂播放器是Rio,而iPod迅速後來居上。iPod並沒有獨一無二的尖端科技,但蘋果利用龐大的供應鏈網絡,創造了獨一無二的用戶體驗。
Rio MP3
這也是爲什麼ChatGPT出現後,vivo對生成式AI的態度迅速從謹慎觀察變成了堅定投入:相比新技術的開發,手機廠商更注重如何將新技術應用於終端產品,並帶來更好的用戶體驗和附加值。ChatGPT像AlphaGo一樣,直觀的展現出了大模型的應用前景。
類似的思考也決定了vivo作爲手機品牌在大模型開發商的差異化路線。11月1日,vivo在2023開發者大會上正式推出了自研通用AI大模型矩陣:藍心大模型BlueLM。這個矩陣包含十億、百億、千億三個參數量級、共5款大模型:
·十億級:70億藍心大模型與10億藍心大模型;
·百億級:700億藍心大模型;
·千億級:1300億和1750億大模型。
爲什麼要做五個大模型,周圍有一個很容易理解的解釋:“如果只用運行在雲端的千億級大模型,雖然性能足夠,但由於網絡連接延遲,用戶問個天氣要兩秒鐘才能回答,這個體驗就太差了。”
雲端的成本也是個大問題,按照vivo在國內的3億用戶計算,如果每天用10次,一天的運算成本就輕鬆超過3000萬元。
如果完全將大模型放在手機上運行,由於能耗和性能的限制,能夠支撐的應用又非常有限。因而,相比其他應用領域,手機是大模型最難落地的場景之一。
另一個考慮則是隱私,如果大模型能夠完全在終端上運轉,那麼信息就不會不上傳到雲端。而云端大模型意味着,個人信息肯定會通過網絡上傳。
vivo還公佈了自研的藍河操作系統
因此,vivo的思路是讓端側大模型承擔一些相對簡單的應用,比如會議的總結文檔;千億級的大模型可以承擔需要邏輯推理能力才能實現的應用。SuperCLUE近日發佈的中文大模型10月榜單裡,vivo自研大模型以70.74的總分位列總排行榜第四,在國內大模型中排行首位。
和大模型一起發佈的是OriginOS 4,搭載了全局智能輔助系統藍心小 V,支持語音、文字、拖拽三種交互模式。和當初的Jovi相比,vivo離自己預想中的“AI手機”已經非常接近了。
仰望星空
2017年vivo押注AI還有另一個大背景,中國手機市場錄得多年來的第一次下滑,沈煒帶着公司一羣高管去西藏走了一圈,“在兩三千米不缺氧,落後還可以追趕。現在到了五六千米,一旦哪裡不舒服或缺氧,犯個小錯誤代價就很大。”
一邊是趨於飽和的市場,一邊是孕育中的技術浪潮,隨之形成了一家科技公司必須要面對的焦慮。這種敘事的經典結構並非鼓足幹勁孤注一擲,而是充滿着迷茫、懷疑和搖擺不定。
2012年,如日中天的Facebook制定了一個雄心勃勃的計劃:開發一部Facebook品牌的手機,擁有自研芯片和操作系統。
時值iPhone 4銷量即將破億,Facebook的移動化轉型卻難言順利,全公司懂iOS開發的程序員只有5個。這讓扎克伯格如坐鍼氈,他認爲Facebook想要在數字世界佔據主導地位,就必須掌控自己的移動操作系統,繼而主導自己的移動設備。
當時,Facebook手機的操作系統軟件由內部完成,芯片設計交給了英特爾,富士康已經做出了工程樣機,非常超前的搭載了曲面屏。然而,項目最終被廢止。這個項目在當時被嚴格保密,幾乎沒有任何媒體報道,就連公司內部有傳言時,扎克伯格也會予以否認。
直到《Facebook:The Inside Story》這本書上市,這段經歷才公之於衆。
在面對人工智能的技術浪潮時,vivo的步調與當時的Facebook有很多相似之處。從2017年組建第一個人工智能研究團隊算起,長達6年的探索不乏崎嶇和挫折,也有包括商業化也應用落地在內諸多待解的問題,但相比昂貴的投資,置身事內的勇氣更加珍貴。
事實上,面對前沿技術的發展,絕大部分的公司的腳步都是在懷疑中探索,在迷茫中深入,先坐上牌桌,再考慮之後的問題。
這不是一個迴腸蕩氣的故事,卻是一家公司仰望星空的身影。
參考資料
[1] DeepMind最強星際爭霸AI—— AlphaStar的復現,新智元
[2] Jovi,第二個自己,人物
[3] OpenAI背後的領袖Ilya Sutskever:一個計算機視覺、機器翻譯、遊戲和機器人的變革者,機器之心
[4] 深度學習算法發展:從多樣到統一,國金證券
作者:李墨天
編輯:陳彬
視覺設計:疏睿
責任編輯:李墨天
研究支持:張澤一