元宇宙推出支持36種語言的"智慧"即時語音翻譯模型

Meta 開發出一款機器學習模型,其研究人員稱該模型可以在近乎實時的情況下在約 36 種語言之間進行語音到語音的翻譯。

這個名爲 SEAMLESSM4T 的基礎模型讓人聯想到《銀河系漫遊指南》中的巴別魚,它通過利用互聯網音頻片段,巧妙地避開了繁瑣的數據標註過程,在 450 萬小時的人類語音記錄上進行訓練。

Facebook 母公司的研究團隊今天在《自然》雜誌上發表論文稱,這個相對開放的模型可以作爲其他應用程序的基礎,支持"在各種場景下實現多語言即時交流"。

愛沙尼亞塔林理工大學語音處理教授 Tanel Alumae 在隨附文章中表示,該模型在包含 450 萬小時多語言口語音頻的海量數據集上進行預訓練,以幫助建立數據模式,"這使得模型可以在無需大量定製訓練數據的情況下,更容易針對特定任務進行微調"。

研究團隊還使用了一種新的自動化技術來避免標註大量訓練數據。

Alumae 解釋說:"SEAMLESS 團隊最巧妙的策略之一是從互聯網上'挖掘'跨語言對齊的訓練數據對 — 比如一種語言的音頻片段與另一種語言的字幕相匹配。從一些已知可靠的數據開始,作者訓練模型識別兩個內容片段(如視頻片段和相應字幕)在含義上是否真正匹配。"

這種技術幫助 Meta 的無縫通信團隊收集了約 443,000 小時帶有匹配文本的音頻,並對齊了約 30,000 小時的語音對,然後用於進一步訓練模型。Alumae 讚揚了 Meta 對模型的開放程度 - 這與可用於創建其他應用程序的 Llama 系列大語言模型類似。"對於缺乏從頭構建這些模型所需大量計算資源的研究人員來說,這種開放程度是巨大的優勢。"

然而,也有人批評 LLaMA-3 的"明顯非開放使用限制"。

據稱,Meta 的新模型還可以將語音翻譯成多達 100 種語言的文本。Alumae 指出,雖然這個數字令人印象深刻,但與世界上約 7,000 種語言相比還相差甚遠。

他說:"該工具在人類相對容易處理的許多情況下仍然存在困難 — 例如在嘈雜環境中的對話或口音很重的人之間的對話。不過,作者利用真實世界數據的方法將爲開發能夠媲美科幻作品的語音技術開闢一條有前途的道路。"

康奈爾大學信息科學系的 Allison Koenecke 在第二篇隨附文章中指出,雖然這一突破可能代表着比人工更高效和更具成本效益的轉錄和翻譯方法,但"必須要理解這些技術失效的方式 — 對某些羣體的影響尤其不成比例"。

她說:"未來的工作必須確保語音技術研究人員能夠改善性能差異,並讓用戶充分了解這些模型相關的潛在利益和危害。"在論文中,Meta 描述瞭如何衡量語言的"毒性"和性別偏見。

研究人員還表示,自然語音"包含一系列韻律 — 節奏、重音、語調或聲調 — 和情感成分,這些都值得進一步研究。"

他們補充說:"要創建感覺自然和有機的語音到語音翻譯系統,應該將更多研究投入到保留表現力的輸出生成中。此外,要完全實現巴別魚的願景,需要在低延遲語音翻譯研究方面進行更深入的投入。開發能夠流式處理的系統(即在輸入句子呈現時進行增量翻譯)可能會增加這些系統在各種機構環境中的採用率。我們希望 SEAMLESSM4T 能爲這兩個研究領域開闢新的可能性。"