阿里雲通義開源視覺理解模型Qwen2.5-VL

北京商報訊(記者 魏蔚)1月28日,阿里雲宣佈,通義千問開源全新的視覺模型Qwen2.5-VL,推出3B、7B和72B三個尺寸版本。其中,旗艦版Qwen2.5-VL-72B在13項權威評測中奪得視覺理解冠軍,全面超越GPT-4o與Claude3.5。新的Qwen2.5-VL能夠更準確地解析圖像內容,突破性地支持超1小時的視頻理解,無需微調就可變身爲一個能操控手機和電腦的AI視覺智能體(Visual Agents),實現給指定朋友送祝福、電腦修圖、手機訂票等多步驟複雜操作。