OpenAI用26分鐘再次震撼世界!新模型GPT-4o語音水平接近人類,科幻正在成真

出品 | 搜狐科技

作者 | 樑昌均

運營編輯 | 王一晴

北京時間5月14日凌晨,OpenAI再迎重磅更新,雖然不是AI搜索,也不是GPT-5,而是發佈了新旗艦模型GPT-4o,但也足以讓業內震撼。

在此次OpenAI 僅有26分鐘的春季發佈會中,OpenAI首席技術官穆裡·穆拉提(Muri Murati)宣佈推出名爲GPT-4o的新旗艦生成式AI模型,其集文本音頻視覺於一身,能力全新升級。

此前不少爆料提到,OpenAI將推出AI搜索,與谷歌搜索競爭,從而增強ChatGPT的功能並開拓新市場,並稱這款產品將在谷歌本週的開發者大會前推出。

不過,OpenAI CEO山姆·奧特曼對此否認,其表示,“不是 GPT-5,也不是搜索引擎,但我們一直在努力開發一些我們認爲人們會喜歡的新東西!對我來說就像魔法一樣。”

GPT-4o顯然就是奧特曼所說的“像魔法一樣”的新東西。GPT-4o中的o就是Omni,其是拉丁語詞根,意思是全面、全能,奧特曼稱其“最好的模型”,並免費開放。

發佈新旗艦模型 GPT-4o

語音能力接近人類

穆裡・穆拉蒂在發佈會上提到,GPT-4o 提供與GPT-4同等水平的智能,但進一步改進了GPT-4在文本、視覺以及音頻方面的能力。

“GPT-4o是邁向更自然的人機交互的一步——它支持文本、音頻和圖像的任意組合作爲輸入,並生成文本、音頻和圖像的任意組合輸出。”OpenA在官網上介紹稱。

根據傳統基準測試,GPT-4o在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺功能上達到新的水平。如在文本方面,GPT-4o在多項測試上超過 GPT-4 Turbo或與其持平,並超過谷歌、Anthropic和Meta目前最強模型。

在音頻語音識別和翻譯方面,GPT-4o相比OpenAI自己開發的語音模式Whisper-v3均顯著提高,尤其是在語音翻譯方面樹立了新的最先進水平。同時,在視覺理解評估中,GPT-4o也全面超過GPT-4,以及谷歌和Anthropic的最先進模式。

OpenAI 此前的旗艦模型GPT-4,可以處理由圖像和文本混合的信息,並能完成從圖像中提取文字或描述圖像內容等任務,GPT-4o則在此基礎上進一步增強了語音處理能力。

據穆裡・穆拉蒂介紹,GPT-4o的運行速度將大大提升,最大亮點在於其語音交互模式採用了新技術,從而使得人們可以用麥克風與 ChatGPT 交談。

OpenAI 介紹到,在GPT-4o之前,使用語音模式與ChatGPT對話,平均延遲爲2.8秒(GPT-3.5)和5.4秒(GPT-4)。其中的語音模式由三個獨立模型組成:一個簡單模型將音頻轉錄爲文本,GPT-3.5或GPT-4接收文本並輸出文本,第三個簡單模型將該文本轉換回音頻。

但這個過程會導致GPT-4丟失大量信息——它無法直接觀察音調、多個說話者或背景噪音,也無法生成笑聲、音樂或表達情感。爲此GPT-4o在跨文本、視覺和音頻方面端到端地訓練了一個新模型,意味着所有輸入和輸出都由同一神經網絡處理,從而提高了相應速度和推理能力。

“GPT-4o可以在短至232毫秒的時間內響應音頻輸入,平均爲320毫秒,這與人類在對話中的響應時間相似。”OpenAI 稱,與現有模型相比,GPT-4o在視覺和音頻理解方面尤其出色,不僅可以將語音轉換爲文本,還具備先進的音頻理解能力,理解和標記音頻,如能感受到呼吸和情感,並可以控制其聲音,比如發出興奮、舒緩或者機器人的聲音。

“OpenAI 一直致力於讓用戶通過語音與 ChatGPT 進行交流,彷彿與真人對話一般,但之前的版本由於延遲問題,嚴重影響了對話的沉浸感。GPT-4o 則採用了全新的技術,讓聊天機器人對話的響應速度大幅提升。”穆裡・穆拉蒂表示。

此外,在文字、圖片和語音之外,GPT-4o 還支持打AI視頻電話,其可以看到你所有的表情和情緒變化,還可讓它來解答各種問題,比如在線解數學題,甚至還可以一起逗狗。

根據發佈會上OpenAI使用 GPT-4o進行語音對話的演示,在提問結束後,GPT-4o幾乎可以即時迴應,並通過文本轉語音功能進行朗讀,且對話比較自然逼真。

它還可以根據要求調整說話語氣或聲音,誇張戲劇、冰冷機械都不在話下,比如在它看到寫着“我愛ChatGPT”的紙條時,會跟小女生一樣害羞地尖叫起來。發佈會還展示了GPT-4o唱歌和數學方面的能力,可以指導求解簡單的方程。

此外,OpenAI 還發布了桌面版ChatGPT和新的用戶界面。“我們認識到這些模型正變得越來越複雜,但我們希望用戶與人工智能模型的交互體驗能夠更加自然、輕鬆,讓用戶可以將注意力完全集中在與模型的協作上,而無需在意界面本身。”穆裡・穆拉蒂表示。

奧特曼稱GPT-4o是最好模型

免費開放使用

此次發佈會中,奧特曼並未現身。不過,他在推特發文稱“GPT-4o是我們有史以來最好的模型”,並提到了科幻電影《Her》。

這部十年前的電影,講述了作家西奧多愛上電腦操作系統裡女聲的故事,這個名爲“薩曼莎”的姑娘有着性感嗓音,並且風趣幽默、善解人意。GPT-4o在語音視頻上的交互能力,讓科幻正在加速走向現實,還有網友稱《流浪地球中》的MOSS誕生了。

同時,奧特曼還專門發了一篇博客,稱GPT-4o提供新的語音和視頻模式,是其用過的最好的計算機界面。“感覺就像電影裡的人工智能一樣,我仍然有點驚訝它是真的。事實證明,達到人類水平的響應時間和表達能力是一個巨大的變化。”

他認爲,最初的ChatGPT顯示了語言界面的可能性,而這個新事物給人的感覺有本質上的不同,它快速、智能、有趣、自然且有幫助。

“對我來說,與計算機交談從來都不是很自然的事情,現在確實如此。但當我們有添加個性化、訪問你的信息、代表你採取行動的能力等時,我確實可以看到一個令人興奮的未來,我們能夠使用計算機做比以往更多的事情。”奧特曼表示。

值得一提的是,不同於此前OpenAI在推出模型新版本都會對特定付費用戶開放,這次則決定GPT-4o向用戶免費開放。

從今天開始,GPT-4o的文本和圖像功能會在ChatGPT中推出,免費提供GPT-4o,並向Plus 用戶提供高達5倍的速率限制,還將在未來幾周內在ChatGPT Plus 中推出新版本的語音模式GPT-4o alpha。

此外,開發人員也已經可以在API 中訪問GPT-4o。與GPT-4 Turbo 相比,GPT-4o速度提高2倍,價格降低一半,速率限制提高5倍,並計劃未來幾周內在API中向部分合作夥伴推出對GPT-4o新音頻和視頻功能的支持。

OpenAI研究員William Fedus表示,“GPT-4o是我們最先進的新前沿模型,也是世界上最好的模型,而且可以在 ChatGPT中免費使用,這對於前沿模型來說是前所未有的。”

奧特曼則在博客中強調稱,在創立OpenAI 時,最初構想是要創造人工智能並利用它造福世界,而OpenAI使命的一個關鍵是將非常強大的AI工具免費(或以優惠的價格)提供給人們。

“我們是一家企業,會有很多收費的東西,這將幫助我們向數十億人提供免費、出色的人工智能服務。”但奧特曼表示,“我非常自豪我們在ChatGPT中免費提供了世界上最好的模型,沒有廣告或類似的東西。”

不過,OpenAI表示,GPT-4o是其第一個結合多模式的模型,是突破深度學習界限的最新成果,在朝着實用性的方向發展,但仍然只是淺嘗輒止地探索該模型的功能。

同時,GPT-4o雖然通過過濾數據、模型細化、創建新的安全系統、與外部專家溝通等,爲語音輸出提供技術和交互上的安全防護,但還是會帶來新的安全風險,且仍存在一些侷限性,如有時會答非所問或給出錯誤信息等。

OpenAI表示,在接下來的幾周和幾個月裡,將致力於推進技術基礎設施、培訓可用性以及發佈其它模式所需的安全性,並希望得到反饋繼續改進模型。