人工智能強大突破,即將震撼改變全球
從能吃塑料的新細菌和新的癌症療法,到自主輔助機器人和自動駕駛汽車,作爲 ChatGPT 引擎嶄露頭角的生成式人工智能技術,會以讓聊天機器人看起來只是分散注意力的方式改變我們的生活。
雖然我們通常將當前的人工智能繁榮與能夠寫作、交談、編碼和製作圖片的計算機劃等號,但這些表達形式中的大多數都是建立在一種稱爲“轉換器”的基礎技術之上,它的應用範圍廣泛得多。
谷歌研究人員在 2017 年的一篇論文中首次提出,轉換器是一種人工智能算法,它使計算機能夠理解任何數據堆的底層結構——無論是文字、駕駛數據還是蛋白質中的氨基酸——從而能夠生成類似的自身輸出。
兩年前,轉換器爲 OpenAI 推出 ChatGPT 鋪平道路,現在從 Waymo 及其機器人出租車,再到一家名爲 EvolutionaryScale 的生物初創公司,一系列公司都在研究如何以新的方式使用這一創新,這家公司的人工智能系統正在設計新的蛋白質分子。
這一突破的應用十分廣泛,以至於自谷歌的該項研究發表的七年來,它在其他科學論文中被引用了超過 14 萬次。
毫不誇張來講,正是這一系列算法讓英偉達如今成爲世界上最有價值的公司,數據中心在美國和世界各地如雨後春筍般涌現,推高了電力消耗和費率,而且人工智能公司的首席執行官們經常(也許是錯誤地)斷言人類水平的人工智能即將到來。
人類一直堅信宇宙充滿了潛在的秩序,即便他們對這種秩序的來源是否神聖存在爭議。
就拿語言來說,大多數人工智能系統一次只能處理一個單詞,且只能依照讀取的順序對其進行評估,這就限制了它們理解這些單詞含義的能力。
撰寫 2017 年那篇具有開創性的論文的谷歌研究人員專注於語言翻譯的過程。
例如,在句子“我過河後到達了銀行”中,一個基於 Transformer 的人工智能,如果知道句子是以“河”而非“路”結尾,就能把“銀行”翻譯爲一片土地,而非存錢的地方。
換句話說,非營利組織艾倫人工智能研究所的人工智能研究科學家蒂姆·德特默斯(Tim Dettmers)說,Transformer 是通過弄清楚系統所接收的每一條信息與它接收的其他每一條信息的關係來進行工作的。
這種級別的上下文理解,讓基於 Transformer 的人工智能系統不僅能夠識別模式,還能夠預測接下來可能合理出現的內容,進而生成自己的新信息。
“從某種意義上說,這些模型正在發現數據的潛在結構,”進化規模公司(EvolutionaryScale)的首席科學家亞歷山大·裡夫斯(Alexander Rives)說,他在爲 Meta 平臺(Facebook 的母公司)從事人工智能工作後,於去年與人共同創立了這家公司。
進化規模公司正在依據其所能獲取的每一種蛋白質的已公佈序列以及我們對這些蛋白質的所有了解來訓練其人工智能。利用這些數據,在沒有人類工程師協助的情況下,他的人工智能能夠確定給定的分子構建塊序列之間的關係,以及它所創造的蛋白質在世界上的功能。
與該主題相關的早期研究更側重於蛋白質的結構而非其功能,這也是谷歌人工智能首席執行官德米斯·哈薩比斯(Demis Hassabis)獲得 2024 年諾貝爾化學獎的原因。他和他的團隊開發的被稱爲 AlphaFold 的系統,也是基於“轉換器”的。
進化規模公司已經創造了一個概念驗證分子。這是一種蛋白質,其功能類似於能讓水母發光的那種蛋白質,但其人工智能所發明的序列與自然界尚未發明的任何東西都截然不同。
該公司的最終目標是讓各類公司——從生產新藥的製藥商到研究新酶的合成化學公司——能夠研發出如果沒有他們的技術就不可能獲得的物質。
卡羅爾·豪斯曼(Karol Hausman)的目標是創建一個通用的人工智能,能夠爲任何機器人提供動力。“我們想建立一個模型,可以控制任何機器人完成任何任務,包括當今存在的所有機器人,以及甚至尚未開發的機器人,”他說。
豪斯曼在舊金山創立的初創公司“物理智能”成立未滿一年,他本人曾就職於谷歌旗下的人工智能部門 DeepMind。
他的公司以一個與您在訪問 ChatGPT 時所使用的相同的大型語言模型的變體爲起點。
這些最新的語言模型還能夠整合並處理圖像。
在最近的一次演示中,一對由“物理智能”驅動的機械臂完成了一項任務,信不信由你,這可是整個機器人領域最難的任務之一——疊衣服。
衣服可以呈現出各種各樣的形狀,處理它們需要令人驚歎的靈活性和敏捷性,所以機器人專家無法編寫確切的動作序列來告訴機器人如何移動四肢以取放和疊衣服。
“物理智能”的系統能夠從烘乾機中取出衣服並整齊疊好,所使用的是一個能夠自行學習如何完成此任務的系統,除了爲其提供大量供其消化的數據外,無需人類進行其他輸入。
10 月,麻省理工學院的研究人員宣稱,他們正在追尋一種類似的基於轉換器的策略,以創建能夠從各種來源獲取大量數據,進而在廣泛的環境中靈活運作的機器人“大腦”。
在一個實例中,他們製作了幾部有關常規機械臂將狗糧放入碗中的影片,然後利用這些視頻來訓練一個單獨的由人工智能驅動的機器人去做同樣的事。
如同在機器人技術領域一樣,研究自動駕駛汽車的研究人員和公司正在探究如何運用基於轉換器的“視覺語言模型”,這些模型不但能夠接收和連接語言,還能夠接收和連接圖像。
總部位於加利福尼亞的 Nuro、總部位於倫敦的 Wayve 以及谷歌母公司旗下的 Waymo 等公司都在使用這些模型。
這與自動駕駛領域的前變壓器方法有所不同,前變壓器方法使用人工編寫的指令和較舊類型的人工智能的混合來處理傳感器數據,以識別道路上的物體。新的基於變壓器的模型本質上是一條捷徑,爲自動駕駛系統提供了此前很難賦予的關於世界的一般性知識。
例如,Waymo 的研究人員在最近的一篇論文中展示瞭如何利用谷歌自家的商業人工智能(名爲 Gemini),讓他們的自動駕駛系統能夠識別並避讓未曾訓練過的物體,例如過馬路的狗。
Dettmer 表示,儘管這些系統或許很強大,然而它們依舊存在侷限性和不可預測性,這意味着它們無法將人們的工作完全自動化。
例如,EvolutionaryScale 核心的人工智能能夠爲人類在實驗室中的嘗試提出新的分子,不過人類仍需對其進行合成和測試。
基於變壓器的模型遠遠不夠可靠,無法完全接管駕駛工作。
另一個限制是,它們的智能程度僅取決於它們所接受訓練的數據。像 OpenAI 這類的大型語言模型開始遭遇世界上可用的有用書面文字數量的限制——即便在充滿文本的互聯網環境下也是如此。對於以這種方式學習的機器人或自動駕駛汽車而言,它們需要大量有關其在現實世界中嘗試操作時所發生情況的數據——這是當前各公司競相獲取此類數據的原因之一。
這些限制在 Physical Intelligence 的機器人中很明顯。他們的系統已經自學了摺疊衣物,但是在其能夠來到你家併爲你接管這項任務之前,它必須以一種針對你家的特定方式重新學習這個過程。這將需要大量工程師的時間以及訓練模型的資金。
“我想確保設定好預期,”首席執行官豪斯曼說。“儘管我們爲自己的成就感到驕傲,但我們仍處於起步階段。”