☰

GPT-4 Turbo重回王座，ChatGPT免費升級！數學暴漲10%/上下文全面碾壓

新智元報道

編輯：桃子好睏

【新智元導讀】ChatGPT也能用上最強的GPT-4 Turbo了！今天，新版GPT-4 Turbo再次重奪大模型排行榜王座，超越了Claude 3 Opus。而且，新模型在處理64k長上下時，性能直接達到了舊版在26k時的性能。

今天起，最新版的GPT-4 Turbo，正式向ChatGPT Plus用戶開放了！

有了GPT-4 Turbo加持後，ChatGPT寫作、數學、邏輯推理和編碼的能力得到提升。

小編小試，果然ChatGPT最新數據已經更新到了4月。

根據基準測試結果，GPT-4 Turbo在數學能力比上一代有了明顯改進。

這也就不難理解，新版的GPT-4 Turbo今天再次登頂大模型排行榜。

就連奧特曼本人表示，「GPT-4現在更加智能，使用起來也更舒適」。

另外，據OpenAI介紹，GPT-4 Turbo在回覆時，變得更直接、減少囉嗦內容，更加口語化。

一起看看，GPT-4 Turbo在基準測試中能力如何？

數學性能提升近10%

在官方公開GitHub上，OpenAI放出了gpt-4-turbo-2024-04-09最新的評估結果。

主要在以下七大基準上，對模型完成了評估：

MMLU（測量大規模多任務語言理解）

MATH（使用MATH數據集測量數學問題解決能力）

GPQA（研究生級別的谷歌防護問答基準）

DROP（需要對段落進行離散推理的閱讀理解基準）

MGSM（多語言小學數學基準）：語言模型作爲多語言思維鏈推理者

HumanEval（評估在代碼上訓練的大型語言模型）

MMMU（用於專家通用人工智能的大規模多學科多模態理解和推理基準）

在這個GitHub庫中，OpenAI主要使用零樣本、CoT設置，並採用簡單的指令，如「解決以下多項選擇題」。

這種提示方式更能真實反映模型在實際使用中的表現。

具體結果如下所示：

最新的gpt-4-turbo比以往的GPT-4系列，在性能上有着明顯的提升。

尤其數學方面，能力實現了近10%的躍階。

而在整體的比較中，新模型也基本上實現了對Claude 3 Opus和Gemini Pro 1.5的全面超越。

大海撈針比初代GPT-4提升4.3倍

同樣的，在大海撈針測試中，最新的gpt-4-turbo也是全方位地超越了此前的1106-preview。

衆所周知，上下文越長，對模型的挑戰就越大。

而gpt-4-turbo可以在處理長達64k Token的內容時，性能直接媲美預覽版在26k Token時的表現。

如果我們回顧一下GPT-4剛發佈時的情況，也就是大約一年之前。

最新的gpt-4-turbo在32k的配置下，性能比初代GPT-4提高了約4.3倍。

順便一提，那個時候，模型能處理的上下文最高只到32k。

GPT-4 Turbo重回王座

前段時間，Anthropic手裡的最強大模型Claude 3 Opus，可以說是霸榜各大榜單。

不過，就在今天，OpenAI憑藉着全新的gpt-4-turbo，又把它從「榜一」的位置上拉了下來。

根據「LLM排位賽」最新的結果，GPT-4-Turbo再次超越Claude 3，奪得第一。

LMSYS Org從多個領域收集了超過8000張人類投票，發現GPT-4-Turbo在編程與推理方面的表現，超越了其他模型。

爲了深入瞭解，研究人員在Arena引入了「類別」功能。

通過這一新功能，可以對編程、長查詢處理和多語言能力等不同領域進行了更詳盡的比較。

研究人員還對編程領域中包含代碼片段的所有對話進行了標記。在這一方面，GPT-4-Turbo展現出更強的性能。

類似的，Naman Jain也發現，新版GPT-4-Turbo在LiveCodeBench（包含編程競賽題）上的表現，提高了驚人的4.5分。

這類問題對目前的LLM來說挑戰很大，而OpenAI此次的更新，明顯是大幅提升了模型推理能力。

在長查詢領域（Token數量超過500），Claude-3 Opus表現最佳。

令人有些意想不到的是，Command R/R+在這一領域中也有着非常高的得分。

有趣的是，如果只涉及英語提示，排名會與整體略有不同。

在這一類別中，三種GPT-4-Turbo依然處於領先地位。

而這種變化的產生，是因爲隨着用戶基數的擴大，語言使用從英語轉向包括中文在內的多種語言。

而在應對不同的語言時，模型的表現也有所差異。

例如，在中文環境中，Claude-3 Opus排名第一。

以下是模型評分的置信區間 (CIs) ：

以及整體的勝率熱圖：

參考資料：

https://twitter.com/OpenAI/status/1778574613813006610

https://twitter.com/lmsysorg/status/1778555678174663100

GPT-4 Turbo重回王座，ChatGPT免費升級！數學暴漲10%/上下文全面碾壓

相關資訊