成都開心音符申請音頻和視頻生成專利,生成的目標視頻和音頻同步性高
金融界2025年1月20日消息,國家知識產權局信息顯示,成都開心音符科技有限公司申請一項名爲“音頻和視頻生成方法、電子設備和計算機可讀存儲介質”的專利,公開號CN 119316678 A,申請日期爲2024年12月。
專利摘要顯示,本申請提供一種音頻和視頻生成方法、電子設備和計算機可讀存儲介質,該方法包括:獲取目標文本,其中,目標文本包括目標文本特徵;將目標文本輸入預先訓練完成的音視頻生成擴散模型,獲得音視頻生成擴散模型輸出的目標視頻特徵以及目標音頻特徵;對目標視頻特徵以及目標音頻特徵分別進行解碼,獲得目標文本對應的目標視頻以及目標音頻,由於音視頻生成擴散模型在生成目標音頻特徵的擴散變換過程中將視頻特徵作爲擴散考慮條件,音視頻生成擴散模型在生成目標視頻特徵的時空擴散變換過程中將音頻特徵作爲擴散考慮條件,因此,生成的目標音頻特徵與視頻特徵實現關聯,使得本方案生成的目標視頻和音頻同步性高,進而使得音畫同步性和質量更高。
天眼查資料顯示,成都開心音符科技有限公司,成立於2019年,位於成都市,是一家以從事軟件和信息技術服務業爲主的企業。企業註冊資本100萬人民幣,實繳資本100萬人民幣。通過天眼查大數據分析,成都開心音符科技有限公司知識產權方面有商標信息14條,專利信息12條,此外企業還擁有行政許可5個。
本文源自:金融界
作者:情報員