一張照片就能生成超擬人數字人 訊飛智作展示AI黑科技

就在昨天,科大訊飛首發超擬人數字人,在1024開發者節發佈會上,其真實程度讓人驚呼,外面的世界已經發展成這樣了嗎?筆者從未想過用一張照片,竟然直接上傳就能生成專屬數字人形象。

作爲首發「超擬人數字人」,這次功能已經在科大訊飛旗下的訊飛智作產品上開通了內測通道。只要通過內測二維碼,即可申請構建超自然的專屬數字人形象。

要知道,過去的數字人定製,一直面臨着三大挑戰:費用高;定製週期長;交互存在延遲。

而這一次,只要在訊飛智作上傳一張照片,你的專屬數字人便躍然眼前。

那麼問題來了,這次訊飛智作內測開放的「超擬人數字人」到底有什麼突出亮點?

直觀感受是:我們即將迎來人人擁有數字人的時代。

便捷個性定製,打造專屬形象

僅需上傳一張照片,就能瞬間擁有自己個性化虛擬形象的體驗,這是筆者此前從未想過的。這或許是數字人從B端走向C端的關鍵技術創新。

當下數字人隨處可見,雖然形象及使用場景逐漸多元,但公版形象在個性化上仍存在不足。

定製一個個性化的數字人往往需要長時間的數據採集流程,而且在錄製過程中對於定製者的表情變化和動作表達有較高的要求。

而在此次訊飛智作開通的超擬人數字人的內測通道里,咔嚓拍攝一張照片,大模型就能自動生成驅動口脣、表情、動作,並充分匹配上傳文本。

以往的數字人定製數據採集需要專門的製作團隊製作數月,在這之後,還需要專業的技術人員專門進行調優。而訊飛智作內測通道里,由一張照片就能生成的超擬人數字人極大縮短了數字人定製的週期,讓普通人擁有專屬的數字形象成爲可能。

訊飛智作小程序內測頁面

面部情感豐富,表達更靈動

此前,筆者總是感覺數字人表情很生硬。面對問題,數字人似乎在對着我們讀課文。但這次在訊飛智作上測試的超擬人數字人,表情變化及情緒反饋讓人眼前一亮。

無論問她什麼,超擬人數字人都做到變化自如,基於問題變化,情緒及表情反饋彷彿如真人一般。在1024開發者節發佈會現場,超擬人數字人還可以現場賣萌。當聽說自己剛剛的表現被幾百萬人看到,她會立刻呈現吃驚表情。

超擬人數字人1024訊飛開發者節現場賣萌

爲了搞清這次超擬人數字人爲什麼如此通人性,筆者查閱很多資料後發現,主要是因爲它採用的是大語言模型(LLM)的多模態交互技術,貫穿文本、語音和數字人,這種情感貫穿的多模態交互不僅是口脣同步,更能感知情緒波動,讓表達更靈動。

實時可交互,響應時間快

不知道大家有沒有發現,之前我們和很多數字人交流溝通的時候能把人氣個半死。有時候它聽不到你的聲音,有時候又答非所問。如果你在它說話的時候突然打斷它,它甚至會已讀亂回。

但這次在訊飛智作內測的超擬人數字人,交互的快速響應着實讓人眼前一亮。即使隨時打斷、插話,超擬人數字人依舊能做到秒回,這個快速反應能力,感覺勝過好多真人。

在1024訊飛開發者節發佈會現場,訊飛研究院院長劉聰嘗試讓超擬人數字人針對鏡頭識別的化妝品給一些意見,超擬人數字人立刻識別眼霜的品牌、功效,甚至在劉聰院士選擇買大瓶裝的時候還能立刻提出“那可不是眼霜哦,那是人蔘面霜,用來滋潤面部皮膚的”。

超擬人數字人1024訊飛開發者節現場片段

此次訊飛超擬人數字人採用了動作表徵抽取技術,將視頻維度進行了有效壓縮。正是這種技術的加持與創新,才讓此次在內測體驗時感覺和一個朋友在一個空間沉浸交流。

而這次在訊飛智作上進行內測體驗一張照片生成超擬人數字人時,筆者還順帶體驗了訊飛智作整體產品。除了定製自己的數字人形象,還有一句話復刻聲音、AI配音、AIGC內容生產等諸多功能,可以高效解決很多需要音視頻的場景需求,期待之後會有更多的技術創新。