AI“文生視頻”如何改變未來

Sora生成的視頻截屏

Sora生成的視頻截屏

Sora生成的視頻截屏

本報記者 樊 巍 劉 揚 劉彩玉

繼去年發佈的聊天機器人ChatGPT引領新一輪人工智能(AI)浪潮之後,美國人工智能公司OpenAI於16日又發佈了全新的生成式人工智能模型Sora,它能夠通過文本指令創建最長達60秒的視頻,其逼真的視覺效果讓它在一夜之間“刷屏”,全球諸多媒體都對其冠以“顛覆性”的美名,甚至有網友感嘆“視頻行業全都要被洗牌了”。相關專家17日接受《環球時報》記者採訪時表示,短期來看,Sora確實會對影視等行業帶來顯著影響,但我們也不應神化其作用,長期來看,需要用心製作的作品,依舊很難僅用“芯”完成。

“人類願賭服輸”

目前OpenAI還沒有發佈Sora的公開使用版本,但已經發布的40多個演示視頻中包含有細節拉滿的場景、複雜的攝像機運鏡以及多個充滿情感的角色。OpenAI宣稱,Sora可以理解物體在物理世界中如何存在,並準確地解釋道具並生成引人注目的角色來表達充滿活力的情感。例如它可以根據文字描述“在東京街頭,一名時髦女士穿梭在充滿溫暖霓虹燈光和動感城市標誌的街道上”,生成一段包含有多鏡頭的高清晰視頻,包括從大街景切入對女士臉部表情的特寫,以及潮溼的街道地面反射霓虹燈的光影效果。這些視頻的真實度令人爲之驚歎,就連特斯拉CEO馬斯克也在社交媒體上對此表示“人類願賭服輸”。

美國有線電視新聞網(CNN)稱,儘管“多模態大模型”屢見不鮮,但Sora的製作長度和準確性使其與衆不同,它可能會對數字娛樂產業產生重大影響。

北京郵電大學人機交互與認知工程實驗室主任劉偉接受《環球時報》記者採訪時表示,Sora在短期內可能會對短視頻製作、影視行業以及視覺交互界面應用產生較爲顯著的影響;從長期來看,這項技術會爲自動駕駛、數字仿真、場景模擬等領域帶來改變。他表示,“我們不應神化Sora的作用,這項技術還很難取代傳統的影視行業製作流程,人類用‘心’拍出影視的作品,還很難僅用‘芯’來完成。”

中國影協科幻電影工作委員會執行秘書長馬賀亮接受《環球時報》記者採訪時表示,Sora的確讓影視圈“震驚”,但“主要是因爲AI的發展速度遠遠超過了原來的預期”。他認爲,短期內與概念設計、視頻預覽相關的崗位會在一定程度上受到Sora的影響,但它所能呈現的效果其實還達不到院線電影的級別,而且電影在創作上有主觀立場、視角和表達,觀看時有情感交流和情感投射,遠不是簡單生成一段視頻就能代替,因此AI作爲技術輔助手段的確已經在改變電影製作方式與流程,能優化提升電影創作,但要說它能“顛覆整個電影行業”,還爲時過早。

OpenAI也坦承,Sora還存在一些短板,例如模型在準確模擬複雜場景的物理特性方面可能會遇到一些困難,也可能無法周到地展現具有因果關係的事例。例如演示視頻中就出現了“有人咬了一口餅乾,但餅乾上並未出現咬痕”的明顯漏洞。

“眼見爲實”或成過去

中國人工智能專家吳甘沙17日接受《環球時報》記者採訪時表示,“Sora的影響往小了說,是文生視頻技術突破了一個數量級(時長比此前最好的水平提升了15-20倍),可以直接應用於短視頻、廣告行業等,對自動駕駛的場景和數據生成等都有正面影響;往大了說,它提供了理解、重建和模擬這個世界的可能性。如果大語言模型LLM像是一個小孩關在圖書館裡讀遍人間萬卷,Sora就是一個胸有丘壑的青年來到真實人間、行萬里路,用現實和反饋來印證知識,並且能夠用視頻(模擬真實)的方式輸出知識和內容。一圖勝千言,圖和視頻的信息傳遞損耗遠低於文字,從這個意義上來看,它未來衝擊的不僅僅是視頻、電影行業,也會影響書籍、知識、教育等一切信息輸出的行業”。

新智元創始人楊靜17日接受《環球時報》記者採訪時表示,Sora是對OpenAI算法應用領域的升維拓展,ChatGPT一年前已在自然語言交互領域取得重大突破,Sora則在AI視頻領域一舉登上行業巔峰。如果說ChatGPT模擬了人類的思維能力,Sora則是對整個物理世界的模擬。結合這些技術,如果未來虛擬世界與現實世界無縫融合,那麼人類的整個社會生活都會顛覆,包括智慧城市、軍事、影視遊戲、電商社交等多個領域。

但楊靜也提醒說,AI生成的假視頻存在泛濫風險,可能被用於詐騙犯罪。在Sora將AI生成視頻能力提升到近乎逼真的程度時,大家也要認識到“眼見爲實”可能已成過去。CNN稱,OpenAI已關注安全性問題。該公司表示,未來將在Sora輸出的視頻中應用內容追溯技術,以鑑別是否爲AI深度僞造視頻。

劉偉認爲,如今AI技術在應用層面出現的一些亂象也凸顯這項技術是一把“雙刃劍”。隨着以大語言模型爲代表的AI技術快速發展,會對傳統的倫理、法律以及生產方式等等方面都產生強大的衝擊,如果我們不加以監管,其一旦“氾濫成災”,必然會侵犯許多人的權益。但如果我們過早或者過嚴地加以監管,這必然又會限制這項技術的發展。“我認爲監管之難主要體現在如何平衡‘管’與‘放’之間的關係,特別是在全球各國人工智能飛速發展的時期。”劉偉表示,在實際操作的層面,我們既要對明顯會侵害大部分人權益的行爲堅決加以限制,與此同時也應有“特區制”,允許有試錯的空間。

中美在AI領域差距拉大了?

Sora的出現也引發了國內許多業界人士的擔憂,“中美AI領域差距進一步拉大”成爲Sora問世後的伴生話題。360集團創始人周鴻禕認爲,“OpenAI訓練的Sora應該會閱讀大量視頻。一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一幅圖”,因此Sora的出現可能意味着通用人工智能“真的就不遠了”,“不是10年20年的問題,可能一兩年很快就可以實現”。他表示,儘管國內大模型發展水平表面看已經接近GPT3.5,但實際上跟4.0比還有一年半的差距。從現在來看,OpenAI手上除了GPT5之外,可能還有一些“秘密武器”沒有亮出來。“中國和美國的AI差距可能不但沒有縮小,反而在加大。”

楊靜認爲,Sora的震撼給我們三個提醒。第一是在算法方面,OpenAI在攻破語言和視覺兩個堡壘後,即將向通用人工智能發起最後挑戰;一旦實現超級人工智能,加上生成式的AI世界,人類整體的權重都將降維;第二是在算力方面,OpenAI公佈籌資7萬億美元建立芯片帝國的計劃,這筆鉅款相當於美國GDP的1/4,或許將確立壟斷全球算法與算力的AI霸主地位;第三是在數據方面,微軟此前爲OpenAI提供了5000億視頻用於Sora訓練,未來還將有更多海量數據涌入,又有更多視頻生成。

吳甘沙表示,目前AI領域的競爭格局是OpenAI公司“一騎絕塵”。無論是谷歌的Gemini、創業公司Runway和Pika,還是中國的頂尖公司,都要奮起急追,不然差距會越來越大。他認爲,中國要在AI領域追趕,首先是依靠人才,確保與世界頂尖水平的交流,鼓勵人才高密度聚集。“美國大模型相關的大公司加創業公司可能就是一二十家,而中國有幾百家,人才太分散”。其次是不能太短視,要允許失敗,給予足夠的發展時間。第三是不要過度監管,寬進嚴出,讓不完全成熟的技術通過不斷反饋得以提升。同時算力也是AI發展的稀缺資源,更不應該太分散了。

劉偉曾多次參加中美之間的人工智能技術官方和學界層面對話,他告訴《環球時報》記者,在這些對話活動中有一個深刻感觸就是“中美學者對於兩國人工智能技術發展的認識趨同”。大家普遍認爲,美國在AI技術的軟件和硬件上更具領先優勢,而且這個優勢還有進一步擴大的趨勢;但在技術應用和數據收集方面,美國學者坦言中國更具優勢,而在AI領域,“大數據正好是輔助決策模型的重要組成部分”。

此外,在人機協同和人機融合領域,中美技術能力旗鼓相當。“這也是美國三番五次與中國開展人工智能技術對話的原因之一,雙方實力相當,纔有對話的意願,美國方面也很擔心我們在人機協同上實現重大突破,從而佔據領先地位。”▲