國泰君安:豆包實時語音大模型上線 AI軟硬件場景落地受益

智通財經APP獲悉,國泰君安發佈研報稱,豆包實時語音大模型上線,該模型一舉實現理解情緒、聯網、控制語氣語調、隨時打斷等效果。增加了情感的語音交互將顯著有利於AI的軟硬件應用,能夠降低使用門檻、改進效率、提升體驗,對於AI軟硬件場景落地都將是顯著幫助。

事件:1月20日,豆包實時語音大模型正式推出,並在豆包APP全量開放。

國泰君安主要觀點如下:

該模型可理解輸入語言情緒、實時聯網,在輸出時具備強大聲音控制能力,且高度近似人類、有超低延遲、可隨時打斷

其真人級語音對話能力具體表現在以下方面:1)擬人化的情感承接,能夠理解用戶的內容及情緒,並用恰當的語氣做出迴應;2)強大的聲音控制和豐富的情感演繹能力,能夠遵循豐富的複雜指令,配合不同的音色、情緒及狀態輸出,可以講故事、講方言和口音、甚至唱歌;3)智商與表現力之間的平衡,該模型的表現力高度接近真人,包括類人的語氣詞、停頓思考等,模型也有實時聯網功能,使其能夠根據問題,動態獲取最新信息,對時效問題給到精準、及時的迴應;4)絲滑的交互體驗和超低延遲,實現在更低系統時延情況下的生成準確性、自然度,並且具有敏銳的語音打斷與用戶對話判停能力。

豆包實時語音大模型的整體滿意度較GPT-4o有明顯優勢,特別是在語音語氣自然度和情緒飽滿度方面遠高於後者

豆包團隊圍繞擬人度、有用性、情商、通話穩定性、對話流暢度等多個維度選取數十名外部測試者進行考評,豆包實時語音大模型整體滿意度(以5分爲滿分)得分爲4.36,GPT-4o爲3.18,超過半數的測試者對豆包模型表現打出滿分,且豆包模型在情緒理解和情感表達方面優勢明顯,尤其在“一聽就是AI與否”的評測中被認爲AI的概率極低。

增加了情感的語音交互將顯著有利於AI的軟硬件應用,能夠降低使用門檻、改進效率、提升體驗,包括如下應用場景:

1)情感陪伴與智慧教育應用,推薦愷英網絡(002517.SZ),受益標的盛天網絡(300494.SZ)、南方傳媒(601900.SH)、世紀天鴻(300654.SZ)、崑崙萬維(300418.SZ);

2)AI陪伴硬件如AI玩具、AI寵物,可幫助硬件生產商與IP方擴大需求,推薦上海電影(601595.SH),受益標的湯姆貓(300459.SZ);

3)AI眼鏡、AI耳機、AI音箱等生活效率產品將受益於交互方式的改進,受益標的小米集團-W(01810)。

風險提示:AI應用落地進度不及預期,商業化進展不及預期,相關公司主營業務業績壓力。