Alibaba 發佈 Qwen 2.5-Max AI 模型,稱性能超越 DeepSeek-V3
阿里巴巴集團旗下的雲計算部門阿里雲在農曆新年之際發佈了其最新突破性的人工智能大語言模型:Qwen 2.5-Max,聲稱其性能超越了當今最強大的 AI 模型。
在過去兩週內,這是繼 DeepSeek 的 R1 推理模型之後中國發布的第二個重要大語言模型。中國 AI 研究初創公司 DeepSeek 此前聲稱,R1 模型能夠與美國公司開發的最強大模型相媲美,且訓練成本僅爲後者的一小部分,這一說法引起了廣泛關注。
阿里雲在博客文章中表示:"我們開發的 Qwen 2.5-Max 是一個大規模混合專家 LLM 模型,該模型已經在超過 20 萬億個 token 上進行了預訓練,並通過精選的監督微調和基於人類反饋的強化學習方法進行了後續訓練。"
混合專家模型 (MoE) 是一種大語言模型架構,它使用多個專門模型協同工作,根據特定的專業領域更高效地處理複雜任務。這就像一個 AI 模型團隊,每個模型都在特定知識子類別中表現出色,它們共同合作,結合各自的訓練來回答問題和完成任務。
據阿里巴巴稱,使用這種技術的新 Qwen 模型在關鍵基準測試中超越了 DeepSeek-V3(該初創公司在去年 12 月底發佈的最新非推理模型),包括 ArenaHard、LiveBench 和 MMLU-Pro。公司還聲稱其性能超過了 Anthropic 的 Claude 3.5 Sonnet、OpenAI 的 GPT-4 和 Meta 的 Llama 3.1-401B。
該架構還使公司能夠以更小的資源消耗構建模型,僅需要 20 萬億個 token 進行訓練。這使得模型部署時能夠使用更少的資源,並以更高的效率運行。
阿里雲表示:"數據和模型規模的擴展不僅展示了模型智能的進步,也反映了我們在開創性研究方面的堅定承諾。我們致力於通過創新應用規模化強化學習來增強大語言模型的思維和推理能力。"
與其他開源的 Qwen 模型不同,Qwen 2.5-Max 目前仍是閉源的。阿里巴巴通過阿里雲提供了與 OpenAI API 兼容的應用程序接口,方便開發者集成。用戶還可以通過類似 ChatGPT 的聊天機器人界面 Qwen Chat 訪問該模型。
阿里巴巴最近在去年 8 月還發布了新的視覺語言模型 Qwen2-VL。該模型具有先進的視頻理解能力,可以處理長達 20 分鐘的高質量視頻並回答相關內容的問題。