阿里通義千問推出開源Qwen2.5-1M模型,長上下文處理能力顯著提升
阿里通義千問今日宣佈推出開源的Qwen2.5-1M模型及其對應的推理框架支持。此次發佈的兩個新開源模型——Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,首次將Qwen模型的上下文長度擴展至1M,顯著提升了長上下文任務的處理能力。
爲幫助開發者更高效地部署Qwen2.5-1M系列模型,Qwen團隊開源了基於vLLM的推理框架,並集成了稀疏注意力方法,使得處理1M標記輸入時的速度提升了3倍到7倍。在長上下文任務中,Qwen2.5-1M系列模型表現出色,特別是在處理超過64K長度的任務時,顯著優於之前的128K版本。
此外,Qwen2.5-14B-Instruct-1M模型在多個數據集上穩定超越GPT-4o-mini,爲長上下文任務提供了開源模型的選擇。在短文本任務上,Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M的表現與其128K版本相當,確保了基本能力不受影響。
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。