電梯裡也能實現清晰語音通話 騰訊針對弱網環境主導制定新一代語音編碼標準

每經記者:王帆 每經編輯:文多

6月26日,《每日經濟新聞》記者獲悉,新一代實時語音編碼行業標準AVS3P10即將正式發佈。這是一項基於AI神經網絡等技術的全新行業標準,解決的是弱網環境下的語音通信質量問題。該標準由騰訊提議啓動、推進和維護,經AVS(數字音視頻編解碼技術標準工作組)多家成員單位共同貢獻。

過往的音頻傳輸場景中,在有限的帶寬條件下,想要將聲音高質量傳遞到接收方,關鍵在於壓縮原始數據、去除冗餘信息的語音編碼技術。然而,基於EVS、OPUS等現有主流音頻編解碼標準,當碼率降低到10kbps以下時,語音質量下降明顯,影響用戶體驗。這也造成了在電梯、地庫、隧道等弱網環境下實時語音通話不暢的難題。

而本次制定的新標準AVS3P10,解決上述痛點的技術路徑是:首先通過建立語音信號處理和深度神經網絡,捕捉音頻的核心特徵,實現大幅度壓縮、降低傳輸的數據量;再借助深度學習網絡,重建語音信號,恢復出高質量的聲音。在保持高清音質的同時,大幅降低了音頻傳輸的帶寬需求,讓用戶在各種場景下都能享受到既清晰又省流量的音頻體驗。

《每日經濟新聞》記者注意到,AI技術此前在實時語音傳輸領域已有語音增強、回聲消除、降噪、變聲、語音識別與合成等研究和應用。例如,字節跳動火山引擎流媒體音頻團隊曾發佈包括語音增強、基於AI編解碼、回聲消除、無監督自適應語音增強等方面的相關研究成果;阿里巴巴釘釘蜂鳴鳥音頻實驗室提出了一種基於頻—時調製譜的改進型窄帶濾波網絡(STSubNet)和“一模型,多任務”方案,聯合消除實時語音通信中常見的三種干擾音(回聲,噪音和混響)。

而騰訊上述標準和技術的發佈,意味着AI在實時語音傳輸新增了一個應用場景和技術路徑。

值得一提的是,這一標準以騰訊首款神經網絡語音編解碼器Penguins爲原型,該技術在2021年起逐步落地到騰訊會議車載模式、弱網模式、QQ語音通話等多個產品場景中。那麼,爲何騰訊會選擇推動一項自研技術成爲行業標準,並把關鍵核心技術開放出來?

在6月26日的媒體羣訪中,騰訊雲副總裁、騰訊會議天籟實驗室主任商世東迴應記者稱:“這一標準的制定和技術的開放,能推動整個實時語音通信行業爲用戶提供更好的技術和產品。”商世東認爲,騰訊不怕開放技術,因爲技術在具體產品裡面怎麼使用,以及怎麼做到效果和體驗最好,取決於很多技術開發細節,這不是拿到開放的源代碼就能輕易做到的。“對於同行來說,他們看到這個技術的領先性後,最快在市場上推出產品的方法就是和騰訊一起合作,實現一加一大於二的效果。”他表示。

騰訊標準化高級工程師張亞軍認爲:“標準化是行業達成共識的形式和方法,也能解決產品設備互聯互通的問題。制定標準的過程需要產業鏈上的各個廠商都加入討論,比如芯片廠商、終端廠商、互聯網APP廠商。並不是說某一家企業技術足夠厲害,它就可以吃得下整個‘蛋糕’。標準化可以讓大家一起做大‘蛋糕’,一起來推動我們行業的發展。”他還表示,另一方面,雖然標準是開放的,但標準裡的技術方案是有相應的專利和IP保護的,因此開放對於騰訊來說並沒有太大顧慮。