全球首度引入AI!騰訊AVS3P10引領語音通信變革

通信世界網消息(CWW)在信息時代的浪潮中,實時語音通信的質量和效率始終是人們追求的重要目標。騰訊主導的新一代實時語音編碼標準AVS3P10的誕生,爲這一領域帶來了突破性的進展,開啓了語音通信的全新篇章。

編碼器有多重要?騰訊爲何要自研AVS3P10標準?AVS3P10標準的出現將爲行業帶來哪些影響?近日,通信世界全媒體記者採訪到了AVS工作組的幾位專家,詳細介紹了AVS3P10的技術創新與產業價值。

AVS3P10的誕生之路

30多年前,國際電聯ITU對理想中的遠距離通訊的定義:哪怕兩個人在地球的兩端,隔着這麼遠,希望能夠彼此聽見對方的內容,且延遲能夠在40毫秒以內。然而,直到現在也沒有很好地解決這個問題,一個重要原因就是編碼器。

對此,騰訊會議天籟實驗室專家研究員、AVS3-P10標準Editor肖瑋表示,語音通信中的關鍵技術之一是語音壓縮,而傳統編碼器在低碼率下難以保證高質量的語音傳輸,這成爲了行業面臨的挑戰。爲了在保證用戶優質體驗的前提下,實現低碼率下的高質量語音編碼,同時解決低算力和魯棒性的問題,騰訊開啓了新的編碼器研發之旅。

AVS3P10標準並非一蹴而就,而是騰訊多年來持續研發和探索的結晶。早在多年前,騰訊就已經開始了相關的內部研發工作,並在多個應用場景中進行了實踐和優化。

“最初,騰訊與AI Lab合作建立了基線,並不斷進行優化。”肖瑋激動地介紹,經過努力,即使在低至5.9K的碼率下,也能實現四點幾分的高質量語音效果。這一成果爲將技術推向產品線奠定了基礎。

過去幾年,這一方案已在騰訊會議、QQ的語音通話場景應用,展現出了出色的穩定性和音質表現。無論是在複雜的網絡環境中,還是在高速移動的交通工具上,都能讓用戶獲得清晰、流暢的音頻通信體驗。

然而,騰訊並未滿足於此,爲了推動行業的共同發展,決定將這一技術標準化。從2023年3月的提議,到經歷多輪會議的審議、測試和驗證,AVS3P10標準逐漸完善,並於2024年6月完成標準化工作,即將正式發佈。這一過程中,騰訊展現出了強大的技術實力和高效的推進能力,被AVS工作組評價爲做到了標準制定速度最快,標準交付質量最高,測試得到充分好評。

5G乃至未來更強的通信技術發展,帶來了更豐富的帶寬資源,但在現實情況中總是會有弱網情況的出現,通過高效的編解碼技術可以爲這些技術帶來更可靠有效的基礎支持、抗性提升,針對不同網絡條件下保障實時通信的穩定性。

創新引入AI,弱網也能開會、語音

在日常的視頻會議、網絡通話和遊戲連麥等場景中,複雜的聲學環境、設備性能和網絡信號等因素常常影響用戶體驗。AVS3P10標準致力於在同等帶寬資源下提供更好的聲音質量,在保持音質的同時降低帶寬消耗。

騰訊雲副總裁、騰訊會議天籟實驗室主任商世東介紹,作爲全球首個系統性引入人工智能並實現真正意義上的低碼率下高質量語音編碼標準,AVS3P10的表現達到國際一流水準。僅需現有主流標準1/3的編碼碼率,就能實現同等清晰的音質。

AVS3P10標準之所以能夠實現如此出色的性能,其核心在於將AI與傳統技術深度融合,它將經典信號處理與最新的深度學習技術緊密結合,打破了傳統香農定律的性能極限。

具體而言,通過語音信號建模,AVS3P10能夠提取最核心的特徵參數並進行編碼。在發送端,利用深度學習網絡預測語音中的本徵信息,經過壓縮傳輸後,在接收端通過深度學習網絡生成最終的波形。與傳統信號處理方法相比,AVS3P10系統性地引入人工智能技術,只需提取更少的本徵信息就能恢復高質量語音。

這種“碼率”和“算力”的置換關係,使得在保證高質量的前提下,AVS3P10能夠以更低的碼率實現高效的語音編碼。在同等網絡條件下,其發生網絡擁塞的概率更低,在網絡不佳時表現出強大的競爭力,如降低卡頓率,提升通話的流暢度和清晰度,適應更多複雜的場景。

在實際測試中,AVS3P10標準表現出色。肖瑋介紹,無論是在單聲道還是立體聲編碼場景,都能達到4.0以上的MOS分,實現了6kbps下的高質量通話,媲美行業現有主流標準OPUS在20kbps的質量。其自帶的丟包隱藏能力在網絡不佳時優勢明顯,能夠有效提升通話的流暢度和清晰度。

優勢顯著,AVS3P10引領行業創新

“AVS3P10實時語音編碼,作爲新一代的語音編解碼技術標準,是對AVS系列標準的重要補充。該標準是當前業界的最高水平,體現了騰訊在語音處理、人工智能技術創新和用戶體驗方面的實力,將爲用戶帶來更好的體驗”,AVS工作組指出。

相對傳統標準,AVS3P10的不同之處和優勢主要體現在以下幾個方面:

抓住“重點”:傳統音頻編碼技術只會按照物理規則提取音頻的所有特徵參數,再進行數據壓縮,需要佔用近20kbps才能保證高水平音頻質量。Penguins引入了深度神經網絡,提前進行海量學習(語音建模)。在編碼時能“抓住重點”(音頻最核心特徵參數),並根據重要性智能分配碼率。如此一來,既保證了音頻傳輸質量,又降低了網絡帶寬需求。

提前“對齊”:音頻傳輸需要先編碼(壓縮)再解碼(解壓),如果只在編碼時進行重點區分和碼率分配,解碼後的聲音依然會失真。Penguins的深度學習網絡同時在編解碼兩端進行聯合訓練,並就“重點內容”提前“對齊”。在解碼時,AI也能做到心中有數,從而預測並重建音頻信號的細微結構,並還原爲最接近原始音頻的波形。

懂得“變通”:Penguins並非純靠自學(數據驅動),而是懂得藉助前輩(傳統編碼器)的成功經驗(領域知識)來提高學習效率。在選擇深度神經網絡時,Penguins也懂得“變通”,模型不是越大越好,知道“小個子”才更適合自己。當大數據、大算力不再是“剛需”,便極大擺脫了對手機性能的依賴,即便在中低端手機上也能順暢運行。

AVS3P10標準的制定爲我國在音視頻編碼標準領域增添了重要的成果。AVS作爲國內多媒體領域的重要標準化組織,其發展對於打破國際專利的制約、推動我國音視頻產業的自主發展具有重要意義。騰訊主導的AVS3P10作爲AVS標準的第三代,進一步推動了我國在該領域的發展。

對於用戶而言,意味着在各種網絡環境下,包括2G弱網環境,都能享受到清晰流暢的語音通話。無論是在電梯、地庫、隧道等信號薄弱的地方,還是在高速移動的交通工具上,線上會議和語音通話不再受到卡頓和模糊音質的困擾,極大地提升了用戶體驗。

對於行業來說,AVS3P10標準爲語音通信技術樹立了新的標杆,推動了行業的技術進步。作爲全球首個系統性引入人工智能的低碼率高質量語音編碼標準,它爲其他企業和研究機構提供了新的思路和方向,促進了整個行業的創新發展。

對於騰訊自身,AVS3P10標準的成功研發和標準化進一步提升了其在語音處理和人工智能領域的技術地位和影響力。

總之,騰訊新一代實時語音編碼標準AVS3P10的誕生是語音通信領域的一個重要里程碑,它將以其卓越的技術性能和廣泛的應用價值,爲人們的生活和工作帶來更加便捷、高效、清晰的語音通信體驗,引領行業走向更加美好的未來。