阿里巴巴Qwen2.5-Max正式發佈 超越GPT-4o和DeepSeek-V3

據通義官微,1月29日,Qwen2.5-Max正式發佈。Qwen2.5-Max在知識(測試大學水平知識的MMLU-Pro)、編程(LiveCodeBench)、全面評估綜合能力的(LiveBench)以及人類偏好對齊(Arena-Hard)等主流權威基準測試上,展現出全球領先的模型性能。通義團隊分別對Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能進行了評估測試。指令模型是所有人可直接對話體驗到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

本文源自:金融界AI電報