阿里推開源AI模型 用影片解讀情緒
大陸科技巨頭阿里巴巴旗下「通義千問」實驗室,近日發佈一款新的AI模型,據稱能夠透過影片識別人類情緒。圖爲阿里巴巴上海研發中心。(中新社)
人工智慧(AI)浪潮席捲全球,大陸AI產品「深度求索」(DeepSeek)更是激起新一波開發熱度。大陸科技巨頭阿里巴巴不落人後,旗下「通義千問」實驗室於近日發佈一款新的AI模型,據稱能夠透過影片識別人類情緒,意在超越美國OpenAI的最新模型。
綜合外媒和大陸《科創板日報》報導,通義千問實驗室11日公佈開源R1-Omni模型,形容這是業界首個將具有可驗證獎勵的強化學習(RLVR)應用於全能多模態大語言模型,這也正是DeepSeek模型R1的訓練模式。
開發團隊稱,研究人員利用RLVR對開源Omni模型HumanOmni-0.5B進行優化,在推理能力、情感識別準確性和泛化能力3個關鍵方面顯著提高性能。據稱,R1-Omni能更清楚地理解視覺和聽覺資訊如何促進情緒識別,明確展示哪些模態資訊對特定情緒的判斷起到關鍵作用。
在兩場演示影片中,R1-Omni能推測影片中人物的情緒狀態,並描述其服飾和周圍環境。這爲所謂的電腦視覺增加新的理解層次。
讓AI解讀並回應人類情緒,早已成爲科技行業的一個重要目標。目前能夠識別人類心理狀態和健康狀況的技術已被廣泛應用,如客戶服務聊天機器人,或用於特斯拉等電動汽車以識別司機是否疲勞駕駛。
而在DeepSeek-R1亮相震撼全球科技圈後,阿里巴巴也加快在AI領域爭取領先地位的步伐,其對標DeepSeek的模型「通義千問」成爲美國科技公司蘋果在中國大陸市場的AI合作伙伴,爲大陸iPhone用戶提供AI服務。
目前阿里似乎還打算與OpenAI一爭高下。今年早些時候,OpenAI推出GPT-4.5模型,據稱能更好地識別和響應用戶書面提問中的微妙線索,但該模型價格不菲,最初僅向月費200美元(約合新臺幣6583元)的付費用戶開放。阿里巴巴則不收取任何費用,開放所有人使用R1-Omni模型。