☰

國泰君安：豆包實時語音大模型上線 AI軟硬件場景落地受益

智通財經APP獲悉，國泰君安發佈研報稱，豆包實時語音大模型上線，該模型一舉實現理解情緒、聯網、控制語氣語調、隨時打斷等效果。增加了情感的語音交互將顯著有利於AI的軟硬件應用，能夠降低使用門檻、改進效率、提升體驗，對於AI軟硬件場景落地都將是顯著幫助。

事件：1月20日，豆包實時語音大模型正式推出，並在豆包APP全量開放。

國泰君安主要觀點如下：

該模型可理解輸入語言情緒、實時聯網，在輸出時具備強大聲音控制能力，且高度近似人類、有超低延遲、可隨時打斷

其真人級語音對話能力具體表現在以下方面：1)擬人化的情感承接，能夠理解用戶的內容及情緒，並用恰當的語氣做出迴應；2)強大的聲音控制和豐富的情感演繹能力，能夠遵循豐富的複雜指令，配合不同的音色、情緒及狀態輸出，可以講故事、講方言和口音、甚至唱歌；3)智商與表現力之間的平衡，該模型的表現力高度接近真人，包括類人的語氣詞、停頓思考等，模型也有實時聯網功能，使其能夠根據問題，動態獲取最新信息，對時效問題給到精準、及時的迴應；4)絲滑的交互體驗和超低延遲，實現在更低系統時延情況下的生成準確性、自然度，並且具有敏銳的語音打斷與用戶對話判停能力。

豆包實時語音大模型的整體滿意度較GPT-4o有明顯優勢，特別是在語音語氣自然度和情緒飽滿度方面遠高於後者

豆包團隊圍繞擬人度、有用性、情商、通話穩定性、對話流暢度等多個維度選取數十名外部測試者進行考評，豆包實時語音大模型整體滿意度(以5分爲滿分)得分爲4.36，GPT-4o爲3.18，超過半數的測試者對豆包模型表現打出滿分，且豆包模型在情緒理解和情感表達方面優勢明顯，尤其在“一聽就是AI與否”的評測中被認爲AI的概率極低。

增加了情感的語音交互將顯著有利於AI的軟硬件應用，能夠降低使用門檻、改進效率、提升體驗，包括如下應用場景：

1）情感陪伴與智慧教育應用，推薦愷英網絡(002517.SZ)，受益標的盛天網絡(300494.SZ)、南方傳媒(601900.SH)、世紀天鴻(300654.SZ)、崑崙萬維(300418.SZ)；

2）AI陪伴硬件如AI玩具、AI寵物，可幫助硬件生產商與IP方擴大需求，推薦上海電影(601595.SH)，受益標的湯姆貓(300459.SZ)；

3）AI眼鏡、AI耳機、AI音箱等生活效率產品將受益於交互方式的改進，受益標的小米集團-W(01810)。

風險提示：AI應用落地進度不及預期，商業化進展不及預期，相關公司主營業務業績壓力。

國泰君安：豆包實時語音大模型上線 AI軟硬件場景落地受益

相關資訊