百度網訊申請基於大語言模型的音頻生成專利,提升目標音頻準確性

金融界2025年1月24日消息,國家知識產權局信息顯示,北京百度網訊科技有限公司申請一項名爲“基於大語言模型的音頻生成方法裝置”的專利,公開號CN 119339706 A,申請日期爲2024年8月。

專利摘要顯示,本公開提供一種基於大語言模型的音頻生成方法,涉及大語言模型、自然語言處理、深度學習、音頻生成等人工智能技術領域。基於大語言模型的音頻生成方法包括:獲取待處理文本;使用大語言模型解析所述待處理文本,得到對應所述待處理文本的角色信息與情感信息;根據所述角色信息與所述情感信息,得到目標參考文本與目標參考音頻;根據所述待處理文本、所述目標參考文本與所述目標參考音頻,生成對應所述待處理文本的目標音頻。本公開能夠提升所得到的角色信息與情感信息的準確性,使得所生成的目標音頻與待處理文本所對應的角色以及該角色的情感更加匹配,從而提升目標音頻的準確性、增強目標音頻的真實性。

天眼查資料顯示,北京百度網訊科技有限公司,成立於2001年,位於北京市,是一家以從事互聯網和相關服務爲主的企業。企業註冊資本1342128萬人民幣,實繳資本1342128萬人民幣。通過天眼查大數據分析,北京百度網訊科技有限公司共對外投資了74家企業,參與招投標項目2822次,知識產權方面有商標信息974條,專利信息5000條,此外企業還擁有行政許可47個。

本文源自:金融界

作者:情報員