☰

阿里通義千問推出開源Qwen2.5-1M模型，長上下文處理能力顯著提升

阿里通義千問今日宣佈推出開源的Qwen2.5-1M模型及其對應的推理框架支持。此次發佈的兩個新開源模型——Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M，首次將Qwen模型的上下文長度擴展至1M，顯著提升了長上下文任務的處理能力。

爲幫助開發者更高效地部署Qwen2.5-1M系列模型，Qwen團隊開源了基於vLLM的推理框架，並集成了稀疏注意力方法，使得處理1M標記輸入時的速度提升了3倍到7倍。在長上下文任務中，Qwen2.5-1M系列模型表現出色，特別是在處理超過64K長度的任務時，顯著優於之前的128K版本。

此外，Qwen2.5-14B-Instruct-1M模型在多個數據集上穩定超越GPT-4o-mini，爲長上下文任務提供了開源模型的選擇。在短文本任務上，Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M的表現與其128K版本相當，確保了基本能力不受影響。

免責聲明：本文內容由開放的智能模型自動生成，僅供參考。

相關資訊