☰

阿里推開源AI模型用影片解讀情緒

大陸科技巨頭阿里巴巴旗下「通義千問」實驗室，近日發佈一款新的AI模型，據稱能夠透過影片識別人類情緒。圖爲阿里巴巴上海研發中心。（中新社）

人工智慧（AI）浪潮席捲全球，大陸AI產品「深度求索」（DeepSeek）更是激起新一波開發熱度。大陸科技巨頭阿里巴巴不落人後，旗下「通義千問」實驗室於近日發佈一款新的AI模型，據稱能夠透過影片識別人類情緒，意在超越美國OpenAI的最新模型。

綜合外媒和大陸《科創板日報》報導，通義千問實驗室11日公佈開源R1-Omni模型，形容這是業界首個將具有可驗證獎勵的強化學習（RLVR）應用於全能多模態大語言模型，這也正是DeepSeek模型R1的訓練模式。

開發團隊稱，研究人員利用RLVR對開源Omni模型HumanOmni-0.5B進行優化，在推理能力、情感識別準確性和泛化能力3個關鍵方面顯著提高性能。據稱，R1-Omni能更清楚地理解視覺和聽覺資訊如何促進情緒識別，明確展示哪些模態資訊對特定情緒的判斷起到關鍵作用。

在兩場演示影片中，R1-Omni能推測影片中人物的情緒狀態，並描述其服飾和周圍環境。這爲所謂的電腦視覺增加新的理解層次。

讓AI解讀並回應人類情緒，早已成爲科技行業的一個重要目標。目前能夠識別人類心理狀態和健康狀況的技術已被廣泛應用，如客戶服務聊天機器人，或用於特斯拉等電動汽車以識別司機是否疲勞駕駛。

而在DeepSeek-R1亮相震撼全球科技圈後，阿里巴巴也加快在AI領域爭取領先地位的步伐，其對標DeepSeek的模型「通義千問」成爲美國科技公司蘋果在中國大陸市場的AI合作伙伴，爲大陸iPhone用戶提供AI服務。

目前阿里似乎還打算與OpenAI一爭高下。今年早些時候，OpenAI推出GPT-4.5模型，據稱能更好地識別和響應用戶書面提問中的微妙線索，但該模型價格不菲，最初僅向月費200美元（約合新臺幣6583元）的付費用戶開放。阿里巴巴則不收取任何費用，開放所有人使用R1-Omni模型。

阿里推開源AI模型 用影片解讀情緒