☰

推動生成式AI更好應用於聲音類文藝創作

聲音類產品作爲文藝創作的重要表現形式，與生成式AI（人工智能）的結合爲文藝創作帶來了全新的可能性。通過生成式AI技術，聲音類產品在音樂創作、語音合成有聲讀物、虛擬主播、影像音效製作等方面不斷變革創新，爲文藝創作提供了全新的創作手段和表達方式。生成式AI技術在文藝創作中的應用爲聲音類產品發展提供了新的機遇，但面臨的風險與挑戰也需積極應對和解決。

生成式AI產品應用領域廣泛

AI音樂創作“風生水起”。生成式AI技術已經在音樂領域得到廣泛應用，主要體現在分類識別（音樂檢索、樂譜識別、音頻識別）、生成（AI作曲、虛擬歌手）及傳播（MIDI音響、教育）這三個方面。AI在音樂創作的不同階段都發揮了較大作用。在創作初期，創作者運用AIGC汲取音樂素材以及創作靈感，同時對作品的音樂風格進行分析和預測，並進行音樂素材的智能檢索和組織。在創作中期，AIGC技術爲創作者的作品產出提供支撐，更好地輔助音樂創作，將音樂作品意圖具像化。在創作後期，AIGC爲雛形作品的後期製作提供強大的音頻處理工具，從而使作品的後期製作更加準確、高效。尤其是某些AI編曲技術的出現，爲音樂創作者帶來更多靈感的同時，也使創作過程更加高效。

AI虛擬主播走近大衆。虛擬主播通過運用AI語音合成技術、自然語言處理技術、深度學習技術以及計算機視覺技術走進大衆視野。語音合成技術通過先進的語音合成算法，模仿人類的聲音，從而使虛擬主播能夠流暢、自然地表達交流。計算機視覺技術在虛擬主播的形象呈現方面發揮着關鍵作用。通過3D建模和渲染技術，可以創建出高度逼真的虛擬人物。同時，通過面部捕捉和動作捕捉技術使虛擬主播能夠實時模擬真人的表情和動作。情感計算技術可以分析觀衆的語言和行爲，判斷觀衆的情感狀態，據此及時調整虛擬主播的迴應方式及語氣，進而賦予了虛擬主播在交互狀態下的情感變化。

AI配音應用廣泛。AI配音技術通過對大量語音數據進行學習，能夠模擬出不同人物、不同情緒的語音特點，爲AI配音產品提供豐富的角色表現和情感表達。隨着AI技術的發展，神經網絡、深度學習等技術出現，“TTS+AI”（從文本到語音+人工智能）的組合使得電子合成語音自然性和準確性不斷提高。針對情感起伏、聲線多元、人聲適配度等多樣化需求，目前已有AI語音產品供應商提供“情感TTS”定製服務，通過調整語音語調、語速、停連、音高甚至模擬人類在不同心情下的語氣變化，使電子合成語音能夠更貼切地適應不同的語境和場景，賦予其更爲豐富的“情感”表達。AI配音技術應用場景較爲廣泛，對衆多行業發展都有促進意義。在電影、電視劇、動畫等影視作品中，AI配音技術被用於生成角色的語音。通過模擬不同音色和語言，AI配音技術可以使角色聲音更加自然、真實，提高觀衆的觀看體驗。該技術在有聲讀物和電子書領域也應用甚廣，爲用戶提供更加自然、流暢的語音播報服務。AI配音也被應用在遊戲領域，可以生成自然且更符合角色設定的聲音，增強了遊戲消費者的體驗。

生成式AI產品優勢明顯

創作成本相對較低。隨着人工智能技術的發展，AI技術開始嘗試應用於智能聲音設計，即自動根據影視內容及情感要求生成相應音效，這一應用大大降低了製作成本。一方面，節省了聲音類產品製作的時間和人力資源。相較於傳統產品，AI技術的應用可以快速生成出所需聲音，並實現自動化操作，減少了創作過程所需的人力和時間。另一方面，傳統聲音類產品製作容易受到多種因素影響，例如創作者的狀態、環境噪音、設備操作等，導致創作週期較長，而生成式AI技術應用到聲音類產品創作中可以最大限度降低外界因素影響，實現成本最優化。

素材處理精準高效。AI技術通過大量的數據學習，可以對音頻素材進行識別、分類、整理，自動識別音頻中如人聲、音樂、音效等不同元素，並進行快速分類和整理，與人工相比大大提高了素材處理的質量，降低了數據處理的錯誤率。AI技術還可以對音頻素材進行智能剪輯和拼接。此外，在音頻處理過程中需要經過降噪、增減混響等特殊處理，人工處理可能存在個體偏差，而AI技術能最大限度降低錯誤出現的概率。

生成內容多元新穎。隨着社會發展，人們對聲音類產品的需求更加多元化、個性化。針對此現狀，生成式AI可以幫助創作者在廣告配音、音樂製作、虛擬角色聲音等多領域的創作中打破固有思維限制，提供新穎的創作思路。不僅如此，AI能夠通過分析用戶的喜好、習慣和交互數據，瞭解用戶對聲音產品如音色、語氣、語調等方面的具體需求，爲創作者個性化創作提供實際支撐。

生成式AI產品發展存在的風險與挑戰

權益問題存在爭議。聲音類產品涉及數據侵權風險、版權主體的權益以及個人隱私和人格權等問題。AIGC創作模型大多是由龐大的樣本訓練而成的，對模型選取的素材進行反向溯源難以實現，而採用的素材可能未經作者授權。不僅如此，生成式AI的使用者可以在生成的產品上進行二度創作，新產品版權的歸屬問題也難以確認。AI在生成部分聲音類產品時，如使用到未經公開發布的普通人的聲音，這類聲音屬於個人隱私信息，在公開發布時可能存在暴露隱私的風險，這將對個人隱私權和人格權造成侵犯。在當前發展階段，AIGC從組合型內容創造轉向探索型甚至變革型內容創造，其創作過程中的權益收益以及可能導致的侵權責任如何劃分，目前也處於爭論之中。

藝術規範問題存在爭議。聲音類AI產品涉及音樂、播音主持等藝術類學科，這些學科在其專業領域也有一定的專業規範和藝術化處理方式，而聲音類AI產品在是否符合專業的藝術規範方面存在爭議。以播音主持專業爲例，在不同語境下朗讀時，同一句話所表達的語氣、情感、停連、重音都是不同的，說話時停連、重音的位置變化也會影響意思表達。但目前，生成式AI在配音時不能根據文本內容識別具體的語境，同一聲音在不同語境下朗讀方式區別不大。在情感處理方面，AI與真人相比表達較爲生硬，沒有情感起伏。因此，在實際應用中，聲音類AIGC產品在藝術規範方面的問題也值得深思。

生成式AI產品對創作者的啓示

創作者應不斷提升自身能力。生成式AI技術可以實現一鍵生成，一些簡單重複的工作不再需要人工完成，這就使一些創作者面臨失業風險。當然，聲音類AI產品存在的固有問題也使優秀創作者的地位不可撼動。例如，AI虛擬主播能夠通過“克隆”方式模仿規範的普通話和特定音色，但究其根本也只能模仿聲音的外在形式。實際上，優秀的主播需要在不同情境下采用不同的播報方式，通過語氣、語調、停連等的變化來表達不同的情感狀態。這就要求創作者們不斷提高自身技術水平，提高專業能力，綜合學習多領域知識，豐富自己的閱歷，擴大自己的優勢，從容面對AI產品發展對創作者產生的衝擊。

創作者應合理利用AI技術。AIGC技術發展到現階段，其在爲創作者提供創作靈感、降低創作成本、提高作品產出效率、提升作品質量等方面具有一定的優勢。因此，創作者要主動了解和學習AIGC技術，不能一味地肯定或者抵制，而是要將自身需要與AI技術相結合，掌握在AI技術運用當中的主動權，使其成爲輔助作品創作的得力助手，實現自身與AI技術雙向融合發展。同時，因AIGC的使用規範問題還存在爭議，創作者要提高自身法律意識，及時瞭解AIGC相關法律法規，使AI技術能夠在合理規範的情況下輔助自身創作，提高作品質量，產出更優秀的聲音類產品。

隨着AIGC技術的發展，其在聲音類產品方面的應用已經佔據了一定的位置。其不僅能模擬出接近人類的聲音，直接生成聲音產品，而且可以輔助創作者進行創作，爲創作者提供全新的工具和獨特的表達方式。但同時，生成式AI技術在聲音類文藝創作應用中仍面臨諸多挑戰，我們要在抓住機遇的同時正視存在的問題，並在實踐中努力加以改進，讓生成式AI技術得到更好更廣泛的應用。

（作者單位：蘇州大學傳媒學院）

來源：經濟參考報

推動生成式AI更好應用於聲音類文藝創作

相關資訊