蘋果發力對話式AI 預算擴至每日數百萬美元
9月7日消息,據外媒援引知情人士透露,蘋果始終在增加構建人工智能所需計算的預算,並且已經擴大到每天數百萬美元。該公司的一個目標是開發一些功能,允許iPhone用戶使用簡單的語音命令來自動執行涉及多個步驟的任務。舉例來說,這項技術可以讓用戶命令Siri語音助手用他們最近拍攝的五張照片創建GIF動圖,並將其發送給朋友。如今,iPhone用戶必須手動完成這個過程。
據瞭解該團隊的人士稱,早在四年前,蘋果的人工智能主管約翰·詹南德里亞(John Giannandrea)就被授權組建團隊,開發被稱爲大語言模型(LLM)的對話式人工智能(或稱生成式人工智能)。當時,這項技術尚未成爲軟件行業的焦點。在OpenAI於去年推出聊天機器人ChatGPT之後,人們才發現蘋果有先見之明。聊天機器人ChatGPT推動了大語言模型的繁榮。
幾位蘋果員工表示,儘管詹南德里亞多次表達了對由人工智能語言模型驅動的聊天機器人潛在用途的懷疑,但蘋果並不是完全沒有爲語言模型的繁榮做好準備。這要歸功於詹南德里亞,他幫助對蘋果的軟件研究文化做出了改變。
這些變化現在正獲得回報,因爲大語言模型的出現可能會改變人們創造一切東西的方式,從計算機程序到幻燈片演示再到書籍,都是如此。這項技術還有望自動化涉及文本的繁瑣、重複性的任務,從摘要到處理企業IT票據或客戶服務查詢等。
這個名爲“基礎模型”(Foundational Models)的對話式人工智能團隊,由幾位曾在谷歌工作多年的工程師組成,詹南德里亞在加入蘋果之前是他們的主管。該團隊由龐若明(Ruoming Pang,音譯)領導,他於2021年加入蘋果,此前在谷歌工作了15年,包括詹南德里亞負責領導的人工智能研究部門。
蘋果組建多個LLM團隊
知情人士表示,“基礎模型”團隊的規模仍然很小,大約有16人,但用於培訓蘋果最先進模型的預算已經增加到每天數百萬美元。相比之下,開發ChatGPT的初創企業OpenAI首席執行官薩姆·奧特曼(Sam Altman)曾表示,該公司在幾個月的時間裡,花費了超過1億美元來培訓GPT-4,這是該公司爲聊天機器人提供支持的最先進軟件。
蘋果的“基礎模型”團隊扮演着與谷歌和Meta等公司人工智能團隊類似的角色。在這些公司,研究人員需要構建人工智能模型,然後其他團隊將這些模型應用到公司的各種產品中。
不過,蘋果似乎至少還有另外兩個相對較新的團隊,正在開發語言或圖像模型。蘋果最近的一份人工智能研究報告和LinkedIn上的員工簡介顯示,該公司存在一個“視覺智能”(Visual Intelligence)團隊,致力於開發能夠生成“圖像、視頻或3D場景”的軟件。
另一個團隊正在進行涉及多模式人工智能的長期研究,這種模型可以識別和生成圖像、視頻或文本。這個多模式團隊的領導者之一是喬恩·什倫斯(Jon Shlens),他曾在2021年底開始在蘋果工作,之前在谷歌從事人工智能工作。什倫斯於今年早些時候加入了谷歌的人工智能團隊(現在被稱爲Google DeepMind)。谷歌即將推出的Gemini模型具有多模式功能。
蘋果“基礎模型”團隊已經開發出幾個先進的模型,並正在內部測試。一位直接瞭解蘋果聊天機器人開發情況的人士說,一款基於大語言模型的蘋果聊天機器人最終可能會與使用蘋果AppleCare客戶互動。AppleCare是該公司提供保修和技術支持的售後服務。
Siri升級
另外,Siri團隊也計劃整合大語言模型,讓蘋果的智能語音助手用戶以目前無法實現的方式自動完成某些複雜的任務,比如前面提到的用簡單指令創建和發送GIF的例子。這項新功能與蘋果的快捷方式應用Shortcuts有關,該應用允許用戶使用不同的應用手動編程一系列操作,預計將於明年與新版iPhone操作系統一起發佈。一位知情人士說,谷歌也一直在努力將其大語言模型與語音助手整合,以便能夠理解和處理更復雜的任務。
據這位知情人士透露,蘋果“基礎模型”團隊中的成員認爲,其最先進的大語言模型AJAX GPT的功能超過了OpenAI的GPT 3.5,後者是支持ChatGPT最初版本的大語言模型。自那以後,OpenAI推出了一系列功能明顯更強大的模型。
關於蘋果如何在其產品中融入大語言模型,目前仍不清楚細節。據多位離職的蘋果機器學習工程師說,該公司領導層更喜歡在設備上運行軟件,這提高了隱私和性能,而不是在雲服務器上運行。
但這可能很難實現。例如,據一位直接瞭解該模型的人士透露,AJAX GPT已經接受了2000多億個參數的培訓。參數反映了機器學習模型的大小和複雜性,參數數量越多,表示模型越複雜,需要更多的存儲空間和計算能力。一個擁有2000多億個參數的大語言模型,可能不適合在iPhone上運行。
縮小大語言模型的規模已經有先例可循。例如,谷歌的PaLM 2有四種尺寸,其中一種可以在設備上使用,另一種則可以離線使用。
蘋果發言人拒絕就此置評。
谷歌的影響力
詹南德里亞被同事們稱爲J.G.,他最初加入蘋果是爲了幫助改進Siri,併爲蘋果的軟件注入更多的機器學習功能。儘管他曾多次向同事們表示,對由大語言模型驅動的聊天機器人的潛在用途持懷疑態度,但一位知情人士表示,在過去一年裡,在看到一些內部演示後,他開始承認這項技術有能力完成指定任務。
蘋果“基礎模型”團隊的組建源於詹南德里亞的決定,他希望讓蘋果更像他的前僱主,讓員工在進行各種研究和發表論文方面有更大的靈活性。此前,對這些做法的限制損害了蘋果招聘人才的能力,儘管該公司成功地在其產品中使用了早期的人工智能技術。
2018年加入蘋果後,詹南德雷亞幫助從谷歌招聘了關鍵工程師和研究人員。他還支持更多地使用谷歌的雲服務,包括安裝了谷歌開發的人工智能芯片(即張量處理單元)的服務器,用來訓練蘋果的機器學習模型,進而幫助改進Siri和提高其他產品功能。
據瞭解龐若明的人說,他在神經網絡方面發表的研究成果吸引了大批追隨者。神經網絡是機器學習的一個子集,涉及訓練軟件識別數據中的模式和關係,類似於人類大腦的工作方式。龐若明某些比較著名的研究涉及神經網絡如何與手機處理器協同工作,以及如何使用並行計算來訓練神經網絡,並行計算是將較大的問題分解成多個處理器可以同時計算的較小任務的過程。
開源運動
龐若明對蘋果的影響可以從AXLearn中看出來,這是他的團隊在過去1年中開發用於培訓AJAX GPT的內部軟件。AXLearn是一個機器學習框架,可以快速訓練機器學習模型。AXLearn的部分構成基於龐若明的研究,並針對谷歌張量處理單元進行了優化。
AXLearn是JAX的一個分支,JAX是谷歌研究人員開發的開源框架。如果將蘋果的AJAX GPT比作一棟房子,那AXLearn就是藍圖,而JAX就是用來繪製藍圖的筆和紙。蘋果用來培訓大語言模型的數據主要源自建築行業,目前尚未公開。
今年7月份,蘋果“基礎模型”團隊悄悄地將AXLearn的代碼上傳到代碼存儲庫GitHub,公衆可以使用它來培訓自己的大語言模型,而不必從頭開始構建所有內容。蘋果公開發布AXLearn代碼的原因尚不清楚,但公司這樣做通常是希望其他工程師能對模型進行改進。在詹南德雷亞到來之前,對於向來行事隱秘的蘋果來說,開放可用於商業用途的源代碼的決定顯得不同尋常。
團隊領導
荷蘭計算機科學家阿瑟·範·霍夫(Arthur Van Hoff)最初領導的團隊,後來成爲蘋果“基礎模型”團隊的骨幹。據熟悉霍夫的人說,他是上世紀90年代開發Java的太陽微系統公司團隊的早期成員,後來成爲了知名的企業家。霍夫於2019年加入蘋果,最初致力於開發新版Siri,內部代號爲黑鳥(Blackbird),但蘋果最終放棄了這個版本。
然後,霍夫的團隊開始專注於構建大語言模型,他們的目標是將其用於黑鳥的基本版本。該團隊最初只有幾名員工,其中最著名的是兩名專門從事自然語言處理的英國研究人員湯姆·岡特(Tom Gunter)和托馬斯·尼克森(Thomas Nickson)。這兩位研究人員都在牛津大學獲得了高等學位,並於2016年加入蘋果從事Siri的研究。
據知情人士透露,2021年,龐若明加入蘋果,幫助培訓尖端的大語言模型。與其他蘋果研究人員不同,他獲得了留在紐約的特殊請求,並被授權在那裡爲公司的機器學習團隊建立一個新的前哨基地。幾個月後,蘋果聘請了谷歌前人工智能高管達芙妮·樑(Daphne Luong)來監督霍夫的團隊,並聘請谷歌研究員薩米·本吉奧(Samy Bengio)領導一個專注於長期機器學習研究的平行團隊。
龐若明如今接管了“基礎模型”團隊,而霍夫則在今年早些時候開始無限期休假。據知情人士透露,龐若明團隊的幾名成員目前常駐紐約。
谷歌雲交易
龐若明被招聘之際,蘋果內部越來越意識到大語言模型在機器學習領域正變得越來越重要。據知情人士透露,OpenAI的GPT-3於2020年6月發佈,這促使蘋果機器學習團隊要求獲得更多資金來訓練他們自己的模型。
據兩名直接瞭解此事的人士透露,爲了節省成本,蘋果的管理人員歷來鼓勵機器學習工程師使用谷歌的雲計算服務,而不是亞馬遜的類似服務,因爲谷歌的成本更低。
據一位熟悉相關討論的離職蘋果高管透露,谷歌高管過去曾對蘋果表示,雲服務定價較低,在一定程度上是對兩家公司之間廣泛商業合作的認可。根據協議,谷歌搜索是蘋果Safari瀏覽器的默認搜索提供商。多年來,蘋果始終是全球最大的雲服務器租賃商,並已成爲谷歌雲的最大客戶之一,儘管它仍然是亞馬遜的重要客戶。
一名知情人士表示,蘋果還積極從谷歌和Meta的人工智能團隊中招募人才。自從AXLearn代碼於7月上傳到GitHub上以來,已有18人對其進行了改進,其中至少有12人在過去兩年內加入了蘋果的機器學習團隊。這些人中,有7人曾在谷歌或Meta工作過。(小小)