☰

OpenAI用26分鐘再次震撼世界！新模型GPT-4o語音水平接近人類，科幻正在成真

出品 | 搜狐科技

作者 | 樑昌均

運營編輯 | 王一晴

北京時間5月14日凌晨，OpenAI再迎重磅更新，雖然不是AI搜索，也不是GPT-5，而是發佈了新旗艦模型GPT-4o，但也足以讓業內震撼。

在此次OpenAI 僅有26分鐘的春季發佈會中，OpenAI首席技術官穆裡·穆拉提（Muri Murati）宣佈推出名爲GPT-4o的新旗艦生成式AI模型，其集文本音頻視覺於一身，能力全新升級。

此前不少爆料提到，OpenAI將推出AI搜索，與谷歌搜索競爭，從而增強ChatGPT的功能並開拓新市場，並稱這款產品將在谷歌本週的開發者大會前推出。

不過，OpenAI CEO山姆·奧特曼對此否認，其表示，“不是 GPT-5，也不是搜索引擎，但我們一直在努力開發一些我們認爲人們會喜歡的新東西！對我來說就像魔法一樣。”

GPT-4o顯然就是奧特曼所說的“像魔法一樣”的新東西。GPT-4o中的o就是Omni，其是拉丁語詞根，意思是全面、全能，奧特曼稱其“最好的模型”，並免費開放。

發佈新旗艦模型 GPT-4o

語音能力接近人類

穆裡・穆拉蒂在發佈會上提到，GPT-4o 提供與GPT-4同等水平的智能，但進一步改進了GPT-4在文本、視覺以及音頻方面的能力。

“GPT-4o是邁向更自然的人機交互的一步——它支持文本、音頻和圖像的任意組合作爲輸入，並生成文本、音頻和圖像的任意組合輸出。”OpenA在官網上介紹稱。

根據傳統基準測試，GPT-4o在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能，同時在多語言、音頻和視覺功能上達到新的水平。如在文本方面，GPT-4o在多項測試上超過 GPT-4 Turbo或與其持平，並超過谷歌、Anthropic和Meta目前最強模型。

在音頻語音識別和翻譯方面，GPT-4o相比OpenAI自己開發的語音模式Whisper-v3均顯著提高，尤其是在語音翻譯方面樹立了新的最先進水平。同時，在視覺理解評估中，GPT-4o也全面超過GPT-4，以及谷歌和Anthropic的最先進模式。

OpenAI 此前的旗艦模型GPT-4，可以處理由圖像和文本混合的信息，並能完成從圖像中提取文字或描述圖像內容等任務，GPT-4o則在此基礎上進一步增強了語音處理能力。

據穆裡・穆拉蒂介紹，GPT-4o的運行速度將大大提升，最大亮點在於其語音交互模式採用了新技術，從而使得人們可以用麥克風與 ChatGPT 交談。

OpenAI 介紹到，在GPT-4o之前，使用語音模式與ChatGPT對話，平均延遲爲2.8秒（GPT-3.5）和5.4秒（GPT-4）。其中的語音模式由三個獨立模型組成：一個簡單模型將音頻轉錄爲文本，GPT-3.5或GPT-4接收文本並輸出文本，第三個簡單模型將該文本轉換回音頻。

但這個過程會導致GPT-4丟失大量信息——它無法直接觀察音調、多個說話者或背景噪音，也無法生成笑聲、音樂或表達情感。爲此GPT-4o在跨文本、視覺和音頻方面端到端地訓練了一個新模型，意味着所有輸入和輸出都由同一神經網絡處理，從而提高了相應速度和推理能力。

“GPT-4o可以在短至232毫秒的時間內響應音頻輸入，平均爲320毫秒，這與人類在對話中的響應時間相似。”OpenAI 稱，與現有模型相比，GPT-4o在視覺和音頻理解方面尤其出色，不僅可以將語音轉換爲文本，還具備先進的音頻理解能力，理解和標記音頻，如能感受到呼吸和情感，並可以控制其聲音，比如發出興奮、舒緩或者機器人的聲音。

“OpenAI 一直致力於讓用戶通過語音與 ChatGPT 進行交流，彷彿與真人對話一般，但之前的版本由於延遲問題，嚴重影響了對話的沉浸感。GPT-4o 則採用了全新的技術，讓聊天機器人對話的響應速度大幅提升。”穆裡・穆拉蒂表示。

此外，在文字、圖片和語音之外，GPT-4o 還支持打AI視頻電話，其可以看到你所有的表情和情緒變化，還可讓它來解答各種問題，比如在線解數學題，甚至還可以一起逗狗。

根據發佈會上OpenAI使用 GPT-4o進行語音對話的演示，在提問結束後，GPT-4o幾乎可以即時迴應，並通過文本轉語音功能進行朗讀，且對話比較自然逼真。

它還可以根據要求調整說話語氣或聲音，誇張戲劇、冰冷機械都不在話下，比如在它看到寫着“我愛ChatGPT”的紙條時，會跟小女生一樣害羞地尖叫起來。發佈會還展示了GPT-4o唱歌和數學方面的能力，可以指導求解簡單的方程。

此外，OpenAI 還發布了桌面版ChatGPT和新的用戶界面。“我們認識到這些模型正變得越來越複雜，但我們希望用戶與人工智能模型的交互體驗能夠更加自然、輕鬆，讓用戶可以將注意力完全集中在與模型的協作上，而無需在意界面本身。”穆裡・穆拉蒂表示。

奧特曼稱GPT-4o是最好模型

免費開放使用

此次發佈會中，奧特曼並未現身。不過，他在推特發文稱“GPT-4o是我們有史以來最好的模型”，並提到了科幻電影《Her》。

這部十年前的電影，講述了作家西奧多愛上電腦操作系統裡女聲的故事，這個名爲“薩曼莎”的姑娘有着性感嗓音，並且風趣幽默、善解人意。GPT-4o在語音視頻上的交互能力，讓科幻正在加速走向現實，還有網友稱《流浪地球中》的MOSS誕生了。

同時，奧特曼還專門發了一篇博客，稱GPT-4o提供新的語音和視頻模式，是其用過的最好的計算機界面。“感覺就像電影裡的人工智能一樣，我仍然有點驚訝它是真的。事實證明，達到人類水平的響應時間和表達能力是一個巨大的變化。”

他認爲，最初的ChatGPT顯示了語言界面的可能性，而這個新事物給人的感覺有本質上的不同，它快速、智能、有趣、自然且有幫助。

“對我來說，與計算機交談從來都不是很自然的事情，現在確實如此。但當我們有添加個性化、訪問你的信息、代表你採取行動的能力等時，我確實可以看到一個令人興奮的未來，我們能夠使用計算機做比以往更多的事情。”奧特曼表示。

值得一提的是，不同於此前OpenAI在推出模型新版本都會對特定付費用戶開放，這次則決定GPT-4o向用戶免費開放。

從今天開始，GPT-4o的文本和圖像功能會在ChatGPT中推出，免費提供GPT-4o，並向Plus 用戶提供高達5倍的速率限制，還將在未來幾周內在ChatGPT Plus 中推出新版本的語音模式GPT-4o alpha。

此外，開發人員也已經可以在API 中訪問GPT-4o。與GPT-4 Turbo 相比，GPT-4o速度提高2倍，價格降低一半，速率限制提高5倍，並計劃未來幾周內在API中向部分合作夥伴推出對GPT-4o新音頻和視頻功能的支持。

OpenAI研究員William Fedus表示，“GPT-4o是我們最先進的新前沿模型，也是世界上最好的模型，而且可以在 ChatGPT中免費使用，這對於前沿模型來說是前所未有的。”

奧特曼則在博客中強調稱，在創立OpenAI 時，最初構想是要創造人工智能並利用它造福世界，而OpenAI使命的一個關鍵是將非常強大的AI工具免費（或以優惠的價格）提供給人們。

“我們是一家企業，會有很多收費的東西，這將幫助我們向數十億人提供免費、出色的人工智能服務。”但奧特曼表示，“我非常自豪我們在ChatGPT中免費提供了世界上最好的模型，沒有廣告或類似的東西。”

不過，OpenAI表示，GPT-4o是其第一個結合多模式的模型，是突破深度學習界限的最新成果，在朝着實用性的方向發展，但仍然只是淺嘗輒止地探索該模型的功能。

同時，GPT-4o雖然通過過濾數據、模型細化、創建新的安全系統、與外部專家溝通等，爲語音輸出提供技術和交互上的安全防護，但還是會帶來新的安全風險，且仍存在一些侷限性，如有時會答非所問或給出錯誤信息等。

OpenAI表示，在接下來的幾周和幾個月裡，將致力於推進技術基礎設施、培訓可用性以及發佈其它模式所需的安全性，並希望得到反饋繼續改進模型。

OpenAI用26分鐘再次震撼世界！新模型GPT-4o語音水平接近人類，科幻正在成真

相關資訊