AI重塑手機,vivo的“非顛覆式”創新答卷

在vivo開發者大會(VDC)開幕的幾個月前,vivo的研發團隊在深圳福田的辦公室測試了一項新功能:讓手機內置的AI智能體像人一樣訂餐廳。

和大部分AI應用不同,研發團隊設計了一個大膽的構想:用戶通過文本或語音下達指令,AI可以像真實用戶一樣,自己打開App,搜索並選擇對應的餐廳,自行撥打餐廳電話訂位。整個流程在用戶看來,就像有一隻看不見的手在操作手機。

一旦這個設想可以實現,理論上人在手機上能完成的操作,都可以交給AI完成。

vivo的思路是從訂位和點外賣這兩項相對基礎且高頻的場景開始。在點咖啡這個功能中,AI像人一樣熟練的進入了商家小程序,按照指令選擇了對應的杯型,甚至識別並關閉了促銷廣告。

這次技術探索,在今年10月10號召開的vivo開發者大會上首次亮相。

和去年一樣,兩屆開發者大會的主題都是“同心同行”,但內涵卻有所差異。去年vivo發佈了自研的藍心大模型與藍河操作系統,第一次將AI兵工廠中的軍火集中批量展示。一年之後,vivo打算直觀的向開發者與消費者解釋,複雜的參數和代碼帶來了什麼改變。

這是vivo嘗試用AI重構用戶體驗的365天,也是他們重新理解AI的365天。

重建規則

和許多被AlphaGo驚醒的公司一樣,vivo對AI的大規模投入始於2017年。

周圍是這項戰略最主要的執行者,他在vivo工作了15年。2017年,周圍受命帶隊vivo的人工智能研發團隊,在這個團隊組建前,他和其他高管走訪了國內外各大高校,意識到學術界在人工智能上的探索,正在孕育產業化的想象空間。

ChatGPT出現後,vivo對生成式AI的投資更加堅決。相比新技術的開發,手機廠商更注重如何將新技術應用於終端產品,並帶來更好的用戶體驗和附加值。ChatGPT像AlphaGo一樣,直觀的展現出了大模型的應用前景。

vivo的副總裁、OS產品副總裁、AI全球研究院院長周圍

和研究機構不同,vivo是一家消費電子公司,周圍則是硬件公司中軟件團隊的負責人。因此,他需要思考的不是單獨的應用或研發項目,而是AI在公司戰略中的定位,以及具體的執行策略。

在“過飽和投入”的原則下,vivo以大模型爲中心,開始迅速補齊自身在底層技術環節的短板,代表性成果是去年VDC上一口氣發佈的三個參數量級,一共五款大模型。

2023年,vivo公佈自研通用大模型矩陣“藍心大模型”

然而,伴隨自研大模型在各種榜單上頻頻刷臉,模型參數無止境的擴張,坐擁數十篇頂級期刊論文和數百項發明專利研發團隊,卻一度陷入迷茫。

同樣的尷尬也發生在產業界,經歷瞭如火如荼的百模大戰,社會輿論對生成式AI的熱情似乎迅速冷卻。而身爲AI落地最核心的終端載體,AI手機的革命性也許久停留在精心剪輯和渲染的演示視頻。

2023年的VDC結束後,vivo的AI團隊曾做了長時間的用戶調研,希望搞清楚用戶需要什麼樣的AI功能,但答案不外乎兩類:一種是用戶自己也說不清楚;另一種是過於超前,放在五十年後都屬於科幻電影的素材。

作爲團隊負責人,周圍帶隊技術攻堅的履歷無可指摘,但面對難以量化極度朦朧的用戶需求,他也需要反覆思考。

一個關鍵問題是,除了少數經典的釘子戶機型,市場上大部分手機,實際上都是貨真價實的“AI手機”。

最典型的例子是蘋果在2019年推出Deep Fusion:用戶按下快門鍵拍照時,iPhone其實在短時間內連拍了9張照片,算法會在不到1秒的時間裡,將這些照片“像素對像素”的精確疊合,最終合成一張最優質照片。

從2017年的A11處理器集成NPU(Neural network Processing Unit)模塊開始,AI就迅速介入了手機中大大小小的功能服務,從翻譯、修圖到相冊檢索與推薦算法,只要不是太老的手機,基本都擁有從軟件到硬件完整的AI功能。

A11處理器中首次出現了NPU

在這個背景下,如果要讓AI脫離對原有功能本身的強化,而是塑造全新的改變,需要的是研發、組織和管理體系的重整。

2022年之前,vivo的研發思路是以功能性模塊爲基本單元,將分散在操作系統的各個功能分門別類進行開發。比如開發文檔掃描、證件掃描、文字提取等功能,然後集成在相機、相冊等系統功能裡。第三方開發者也可以通過接口,開發各種功能性模塊。

而當大模型以一種通用技術底層的形態出現,周圍意識到類似“項目制”的研發策略已經難以爲繼,團隊需要的是一個與大模型適配的“規則”,並在規則的框架下完成各種技術實現。

按照周圍的說法,在沒有明確應用方向的前提下,那就先給高樓打好地基,修成什麼樣再說。

如果說以藍心大模型爲代表的一系列底層技術是高樓的地基,那麼去年VDC結束的時候,他就應該認真思考,高樓應該修成什麼樣了。

理解直覺,重構交互

開發者大會上,周圍展示了OriginOS 5新的交互方式:用戶長按屏幕會喚醒AI助手,在屏幕上圈選任意的內容,AI就會開始識別選定內容。用戶將圈定內容拖動,AI會根據目標應用提供下一步服務。

OriginOS 5中,AI接入拖拽交互

按壓、圈選、拖放是智能機時代用戶早已習慣的交互邏輯,設備會根據預先設定好的交互邏輯完成對應的操作。但多模態大模型可以通過訓練理解用戶各種動作背後的意圖,周圍的目標是基於大模型的能力,構建一種新的交互規則。

vivo的企業文化中,有一條是虛心學習其他公司的長處,蘋果之類的優秀公司,一直是其內部反覆研究的對象。

iPhone並不是第一個採用觸摸屏的手機,但它與功能機的差別在於,後者只是將物理按鍵的交互邏輯原封不動的轉移到了觸摸屏上。而蘋果基於觸摸這個交互方式,重新定義了一套交互邏輯。

舉例來說,帶有觸摸屏的功能機在執行返回操作時,只是在屏幕上添加了一個可以觸摸的返回按鈕,但iPhone設計了滑動返回的交互邏輯。配合其他的零部件,開發者基於全新的交互邏輯,創造了水果忍者和憤怒的小鳥。

周圍把基於新技術構建的交互邏輯稱爲“規則”,他提煉出的關鍵詞是“直覺”。

vivo在多年前組建了一個算法團隊,試圖通過算法讓用戶拍出來的照片更美。但“美”這個字難倒了整座辦公樓的算法工程師——什麼是美?

把飄渺的詞彙變成可以感知的產品是消費電子公司的核心工作,vivo內部“影像認知部”的成立很大程度來源於此,這個部門專門負責定義影像的“美”,接着由算法或硬件部門把這種審美技術實現,成爲消費者可以使用的功能。

在AI團隊的搭建過程中,vivo遇到了類似的問題——作爲負責人,周圍需要把複雜的用戶需求和設計藍圖高度抽象,同時要確保抽象的概念能準確指引團隊的研發流程。

除了AI,周圍還負責Origin OS的開發和迭代,過去幾年,他對系統研發的提出的一個詞語是“流暢”,這個詞又可以衍生出刷新率、圖層等一系列技術指標,指引團隊的開發。

過去一年裡,周圍想了很多詞來概括自己腦海中關於AI那個不太清晰的概念,比如自然、優雅等等,但他認爲最貼切的是“直覺”,即“這件事應該是這樣的”——手指收攏圖像會縮小,手指張開頁面會放大。

依照這個原則,vivo的開發團隊想到了一個方向:AI可以像人一樣操作手機,像人一樣打開App,選擇菜單和功能,而不是通過各種各樣的後臺接口。

讓AI幫用戶買咖啡,是研發團隊在這個方向指引下一次大膽的探索。周圍稱之爲“手機智能體”,相比原有功能的強化,手機智能體的核心是基於用戶的習慣和意圖,可以主動進行識別與操作。

在開發者大會的演講中,周圍把手機智能體和自動駕駛類比,兩者的確存在相同之處。

特斯拉對純視覺技術路線的執着固然有成本的考量,但依照馬斯克頻繁唸叨的第一性原理,既然人類駕駛員依靠視覺就能判斷距離,那麼只要有足夠大的訓練量,算法也可以依靠攝像頭作出判斷,不需要雷達的輔助。

這種相似性反映也啓發了vivo的思路:利用AI創造新的交互方式,但這種交互沒有破壞用戶原有的、早已習慣的交互邏輯。

2019年,周圍曾提出了一個大膽的設想:讓AI成爲真正的智能助手,扮演手機和App之間的一個重要角色。這個思路與後來AGI的構想相當類似,只是在當時過於超前。

但今天,vivo離他們的目標已經非常接近了。

挖足夠深的地基

去年7月,《紐約時報》曾探訪谷歌實驗室, 完整記錄了基於RT-2模型的機器人智能閃現的瞬間:

桌子上放着恐龍、鯨魚、獅子三個塑料玩具,工程師讓單臂機器人“撿起滅絕的動物”,機器人拿起了恐龍。這裡的難點不是機器人的抓取動作,而是它能識別三種動物,還能理解什麼是“滅絕的動物”。

基於RT-2模型的Google機器人

周圍將AI帶給手機最大的改變概括爲“系統記憶能力”,即AI不僅能執行用戶的指令,還可以理解用戶的行爲。在今年開發者大會現場,他舉了一個與谷歌機器人類似的例子:

用戶可以對AI助手說,找出去年我和小貝在北京環球影城的照片,祝他生日快樂。

核心問題在於,AI需要理解“北京”和“環球影城”的含義,並在相冊中準確的識別,而不是檢索手機中文件名包含“北京”和“環球影城”兩個關鍵詞的文件。同樣,AI還要理解“小貝”是誰,把照片和通訊錄裡的號碼對應起來。

OriginOS 5中,由AI完成的圖像記憶

這些設想伴隨多模態大模型的出現已經不是問題,但對一家手機公司來說,把論文和代碼變成可以使用的功能遠沒有那麼簡單。

首當其衝的是隱私問題——模型會讀取用戶的隱私數據,意味着關鍵數據和算法無法在雲端處理,繼而對手機性能提出了挑戰,也是vivo“藍科技”矩陣中多個技術方案誕生的契機。

2021年,vivo與聯發科達成戰略級技術合作,對vivo自研影像芯片V1和聯發科當時的旗艦移動處理器天璣9000測試聯調,目的在於提高兩者的兼容性,最大程度釋放兩者性能。

隨後,雙方的合作成爲了“藍科技”板塊之一“藍晶芯片技術棧”,研發重心也轉向了以更強的算力和更低的功耗,並在軟件層面提高對算力的利用效率,保證大模型在終端的正常運作。

與之對應,vivo通過藍河操作系統,讓大模型融入系統的底層設計中,實現從應用到工具鏈的全方位突破。

今年的開發者大會,vivo公佈藍河操作系統2

今年的開發者大會上,vivo發佈了新的30億參數藍心端側大模型3B,思路依然是基於30億參數這個端側大模型“黃金尺寸”,在確保隱私安全的前提下,保證終端的用戶體驗。

暫時拋開“藍晶”、“藍心”、“藍河”這些傳播用途的修飾,vivo呈現出的是以一種系統性的軟硬件研發能力,來指引各個技術條線的研發。

何爲系統性的軟硬件結合?即通過軟硬件的協同能力,提高產品真實的體驗而非單純的參數。

2020年之前,手機品牌的技術投資趨勢,大多體現爲藉助零部件更新增加產品賣點。大多數品牌的研發策略都開始向體系化的創新轉變。

舉例來說,當相機像素堆到5000萬甚至1億以上,對於拍照體驗的改善會快速遞減。此時,產品開發思路將注意力轉向算法,通過降低快門延遲、加快成像速度等提高拍照性能。邊際遞減同樣出現在快充場景,品牌們不約而同掏出曾經的120W快充,反而藉助軟件的運行策略的優化來降低功耗。

在開發者大會上亮相的OriginOS 5、藍河操作系統2和升級後的藍心大模型,也是這一轉變的體現。

vivo的“藍科技”矩陣

一座5層的建築,需要一場誓師大會和工程師們大幹三個月,但一幢百層的高樓,起決定作用的是地基的深度。

2024年的開發者大會上,vivo展示了這座大廈第一層的模樣。

尾聲

開發者大會開始前,周圍曾提醒同事,團隊對“手機智能體”的定位不是顛覆或革命,而是一種“探索”。

產業界喜歡把技術創新的長期主義形容爲馬拉松,其實不完全準確。因爲馬拉松有規劃完整的路線和清晰明確的終點,但創新往往既無線路可尋,也沒有明確的目標以供參考。

長期主義是vivo管理層很多決策的出發點,他們同時創造了一個非常vivo特色,也更貼切的詞彙:埋頭種因。

在無法預知終點的長跑中,大部分可量化的目標都沒有意義。而大多數看似橫空出世的創新,往往都是在反覆的探索中,一點點描摹出來的。

全文完,感謝您的耐心閱讀。

作者:李墨天

編輯:張澤一

視覺設計:疏睿

責任編輯:李墨天