☰

OpenAI推全新AI模組GPT-4o都免費！反應跟人一樣快喊這句話火速進行語音、文字、圖文互動

在先前預告後，OpenAI正式揭曉其全新GPT-4o人工智慧模型，並且推出桌機版APP及新版操作介面，另外也讓使用者能透過「Hey,ChatGPT」進行語音、影像識別等互動。

OpenAI說明，GPT-4o中的「o」源自「Omnimodel」 (全能模型)的首個字母，意味將能對應各類應用互動，同時學習資料源自先前超過1億人透過ChatGPT學習、創作或協作互動經驗，一樣支援影像識別，甚至也能透過記憶方式學習使用者曾經提過事項，藉此用於未來互動，此外也加入聲音辨識，以及圖表內容分析、製作能力，目前總計對應50種語言，約可覆蓋多達97%的全球網路使用人口。

而GPT-4o將免費開放使用，並且可透過API資源存取，讓更多開發者能借此人工智慧模型打造更多應用服務，在英語文字與程式編碼處理速度幾乎等同GPT-4 Turbo效能表現，同時在非英語文字上的執行效能表現會更高，藉此讓使用成本降低50%，並且支援文字、音訊、圖像等任意組合輸入，進而可對應文字、音訊、圖像等任意組合輸出，更可在最短232毫秒、平均320毫秒時間內針對音訊輸入內容做出迴應，幾乎與一般人在自然對話中的迴應時間相近。

在進一步解說中，OpenAI表示在GPT-4o推出前的語音對話模式平均延遲，在GPT-3.5約爲2.8秒，在GPT-4則約爲5.4秒，主要是透過三個獨立模型運作構成，其中包含將音訊轉爲文字，由GPT-3.5或GPT-4分析文字、做出迴應，再將回應文字轉爲語音念出，而此次推出的GPT-4o則是透過單一模型即可完成音訊轉文字、文字分析與文字轉音訊三個流程，因此能以相比GPT-4 Turbo約2倍快速度完成運作。

由於花費更短時間完成過往需要三個模型才能完成的工作流程，因此代表GPT-4o將能進一步分析使用者所發出語調、表情，進而判斷背後所代表情感，例如判斷使用者當下情緒是否開心，或是悲傷難過等。

此次示範內容中，OpenAI表示GPT-4o可以直接讓雙方各以英語、義大利語進行對談溝通，或是協助使用者透過圖像識別方式解決數學算式問題，另外也能判斷使用者臉部表情對應情緒爲何。

另外，OpenAI同樣強調GPT-4o的使用安全性，標榜建立全新安全系統確保互動使用過程不會出現問題，並且強調在訓練過程採用自動化及人爲評估，更結合社會心理學、偏見與公平，以及錯誤訊息等領域專家進行合作測試，避免GPT-4o出現不可預期的風險問題。

OpenAI表示，此次公佈的GPT-4o將在接下來幾個星期內、幾個月內陸續公佈相關技術基礎建設、訓練後的可用性，以及其他模式運作所需安全性，其中包含透過GPT-4o輸出音訊內容僅能選擇預設聲音，避免有心人士以模仿他人聲音進行不法事宜。

目前GPT-4o的文字與圖像處理能力將從即日起用於ChatGPT服務，並且免費開放所有人使用，而ChatGPT Plus訂閱用戶則可使用超過5倍的訊息量，至於語音互動功能則會向ChatGPT Plus開放使用，但初期僅先以alpha版測試內容提供。

蘋果可能是合作伙伴？

在此之前，蘋果已經傳出與OpenAI攜手合作，預計讓iOS 18中的Siri數位助理服務有全新互動體驗，或許將進一步結合GPT-4o人工智慧模型，藉此創造全新互動體驗。不過，具體公佈內容還是要以蘋果公佈爲準。

《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》

OpenAI推全新AI模組GPT-4o都免費！反應跟人一樣快 喊這句話火速進行語音、文字、圖文互動

相關資訊

OpenAI推全新AI模組GPT-4o都免費！反應跟人一樣快喊這句話火速進行語音、文字、圖文互動