愛詩科技創始人王長虎: 生成更長AI視頻是接下來要做的事情

《科創板日報》6月15日訊(記者 李明明)“目前,AI視頻生成產品能用的也就是3—5秒,生成更長視頻,意味着誤差隨之會更大,但也是接下來要做的事情,”愛詩科技創始人王長虎2024北京智源大會上表示。**

作爲通用人工智能的重要一環,AI視頻生成領域從去年開始取得突破性進展,誕生了多個爆款應用。但當前仍存在許多限制,如只能生成短時間的視頻,且質量參差不齊。

2024年6月14日-15日,AI行業盛會“2024北京智源大會”在中關村展示中心舉行。在大會上,王長虎回顧了AI視頻生成的歷史發展,生成領域最新技術的應用進展、未來發展的趨勢以及面臨的挑戰。

他表示,AI視頻生成的發展經歷了三個階段,早期的視頻生成是檢索完成的,視頻裡面每一個素材都是原有的,比如通過數據庫和智能的方式等找到合適的素材,現在依然可以刷到類似的視頻。

第二是部分生成,需要輸入一個視頻,通過AI技術做局部部分的生成,這項技術廣泛應用在各種部分生成需求的特效之中,包括美顏特效、動漫風的生成等。

第三是當前熱點,即輸入一張圖片憑空生成視頻,今年這方面的進展是飛速的。從2014年開始,視頻生成技術發展了十個年頭,隨着GAN技術的出現,這種生成技術才真正的使用起來。從2023年開始,很多視頻生成的技術和產品逐漸出現,比如今年Sora的橫空出世。

關於Sora,在王長虎看來,其最重要的貢獻是驗證了AI視頻生成的規模定律,即模型越大,可用的優質數量數據越多,產生的效果越好。而當優質數量數據增加至4—32倍的時候,生成的質量會非常好。

當前,文生視頻領域競爭加劇。對於未來AI視頻生成的突破問題,王長虎認爲,首先需要對運動和世界進行更好的建模,提升AI生成視頻的成功率。

其次,目前,AI視頻生成產品能用的也就是3—5秒,生成更長視頻,意味着誤差隨之會更大,但生成更長的視頻是接下來要做的事情。

第三是重點攻堅,現在AI視頻生成往往是單鏡頭的,但當真正使用時,則是需要將多個鏡頭組合在一起的。因此,如何表達鏡頭語言並把其合理地放在模型裡,也是未來AI視頻生成要解決的問題。