MiniMax,也許做出了最接近 Sora 的文生視頻產品
雖然晚到,但效果驚豔。
作者 | 幸芙編輯| 鄭玄
又一個國內的重要玩家,殺入「文生視頻」這個今年最火的大模型風口。
幾天前,MiniMax 發佈了全新的視頻模型 abab-video-1。用戶可登錄其產品「海螺 AI」的網頁版,體驗文生視頻的功能。
儘管是一個晚入局者——繼年初 OpenAI 發佈 Sora 後,國內的科技公司紛紛跟進。包括大廠,比如快手的「可靈」、字節的「即夢」等;包括垂直的創業公司,比如生數科技、愛詩科技、智象未來等;也包括模型公司,比如智譜幾個月前就嵌入了文生視頻功能。但 MiniMax 很有信心,「這可能是目前國內最好的視頻大模型。」創始人閆俊傑說。
極客公園一手體驗了 MiniMax 的文生視頻功能,在給定的一系列隨機提示詞下,MiniMax 的生成效果令人眼前一亮。而在海外社交平臺 X 上,也有越來越多用戶用其生成出驚豔的視頻、並進行了分享。而在 MiniMax 自己釋放出的樣片裡,可以看到這些視頻已經逼近真實的商拍、乃至電影質感。
這正是 MiniMax 更晚推出該功能的原因,爲了在技術上形成數倍、而不只是百分點的提升。作爲一家技術導向型的公司,MiniMax 相信技術決定產品體驗,這也是它們不着急的原因。
如果說 Sora 到目前還沒有開放使用的機會,那目前 MiniMax 該功能已經完全對用戶開放。當很多國內已經公司針對這項功能收費,MiniMax 仍在免費階段。也就是說,用戶可以免費、且一手體驗這款最接近 Sora 的產品。
在年初與極客公園的一次交流中,MiniMax 創始人閆俊傑表示,Sora 對大模型公司來說是一道「選答題」。因其存在着 PGC、UGC 等不同用法,AI 公司不一定要跟上。不過似乎現在他認爲,這是一道「必答題」——還是出於提高用戶滲透率的考慮。
在年初的訪問中,他提到隨着大模型每次拓展模態,用戶滲透率就會提升,因爲文字只是人類信息交互中的極小一部分,聲音、圖片、視頻等模態也同等重要。MiniMax 的願景是讓 AI 爲普通人所用,提高用戶滲透率是他最看重的事情。在這道「必答題」上,MiniMax 看起來交出了一份不錯的答卷。
01
在不同的 prompt 評測中,
MiniMax文生視頻功能都保持領先
打開 MiniMax 文生視頻產品的官網,會發現它出奇的簡單。如果說其他產品都給用戶提供了許多選項,比如視頻時長、視頻比例、模式選擇、運鏡方式、情感氛圍等。但 MiniMax 的產品非常簡單:輸入一段文字(prompt),直接生成視頻。
筆者直接嘗試了一段 prompt:「兩位都市白領手裡拿着星巴克咖啡,走在日光沐浴下的街道,她們本來表情平靜地聊着天,突然一起笑了起來。」在這段 prompt 裡,我既要求了人物的細節動作,比如手拿咖啡;也要求了場景的表現力,比如日光沐浴的街道;還有人物的表情,比如平靜和微笑。這都是目前文生視頻產品的技術難點。
僅就這段 prompt 的表現來看,MiniMax 的文生視頻功能幾乎完勝:兩位人物無論是微笑的表情、還是拿咖啡的手部動作,都非常自然、沒有變形,它還原了日光沐浴的場景,同時也還原了「星巴克」標識。
但再看其他產品:某熱門產品生成的咖啡杯是變形的、人物的表情也是變形的;某產品雖生成很自然,但漏掉了「星巴克」標識;另外某產品也是人物完全變形、咖啡杯完全變形;某產品人物稍微變形,漏掉了「星巴克」標識;某產品生成的視頻毫無穩定性,也沒有清晰度可言。
在筆者的指令下,左邊爲 MiniMax 的文生視頻效果;右邊爲其他國內熱門文生視頻產品的效果 | 圖片來源:極客公園
此外,筆者又嘗試了其他不同的 prompt,包括神情愉悅地打字的女孩等,最終 MiniMax 的文生視頻功能都表現更爲出色。如果說文生視頻最重要的是對現實世界的模擬,那麼可以看到,它對於真實世界的模擬會更好,同時也能輸出更逼近真實的視頻效果。
在 X 社交平臺上,不少海外用戶使用完 MiniMax 的文生視頻產品後也評價很高。比如用戶 @ryan_morrison 提到,「它的手部動作是我見過的最自然的。」用戶 @hortega_andre 提到,「它的手部動作和麪部表情是我見過的最自然的。」
專門探索用 AI 製作電影的用戶 @Machine Mythos,則用 MiniMax 文生視頻製作了一則名爲《地獄之地》的微影片。該視頻時長 2 分 20 秒,講述了一個男子開車行駛的過程中,發現曾經人流交織的街道,現在已經被殭屍佔據。「我的上一部電影是我迄今爲止最現實的電影,我沒想到它會這麼快就被超越。」Mythos 這麼評價道。
@Machine Mythos 製作的《地獄之地》微電影 | 圖片來源:X
筆者注意到,它上一部電影發佈於一個月前,是用國外領先的視頻模型 Runway 的 Gen3 版本生成。但就影片真實效果而言,MiniMax 更勝一籌。
「我們內部評測,包括跑一些分,應該比國外 Runway 有更好的效果。」閆俊傑說。
02
三大核心技術指標:
文本響應好、壓縮率高、風格多樣
在表層的用戶體驗之下,MiniMax 將其文生視頻的優勢總結爲:一、壓縮率高;二、文本響應好;三、風格多樣;四、可以生成原生高分辨率、高幀率視頻,也就是接近電影大片質感。
關於文本響應好,它指的是產品的指令遵循更好。比如筆者在 prompt 中強調了星巴克,幾乎只有 MiniMax 的視頻模型把這個標識體現出來了。MiniMax 稱,這主要得益於其模型在文本上的不斷積累。
關於壓縮率高,它指的是對高動態、變化多的信息有較好的表現力。比如 @JingXiangZ 給的指示是:「廣角鏡頭中,一個長着猴頭的肌肉男,赤裸上身,騎着電動滑板車穿過城市街道,然後飛上天空。」在最終的效果裡,猴頭、肌肉男、赤裸上身、以及迅速穿梭於城市的街景變化都得到了展現。
MiniMax 文生視頻功能對高動態、變化多的信息有高表現力
關於風格多樣,指的是無論電影大片場景、動畫,無論是中式風格還是科幻、美漫等,它都可以駕馭。比如 AI 藝術家 @vladimircherner 生成的視頻裡,既有卡通動畫、也有真實走秀、還有寫實電影、甚至科幻電影等。
用戶 @vladimircherner 用 MiniMax 生成的視頻 | 圖片來源:X
最重要的一點是能生成原生高分辨率、高幀率視頻,這意味着視頻能接近電影大片質感。目前,MiniMax 已經釋放出一些通過 prompt 做出來的電影、廣告片,效果令人驚豔。
比如有一段是星際大戰的預告片、有一段是宣傳沙發像雲朵一樣柔軟的廣告片、有一段是高速俯拍街道的電影片段、有一段是雪崩救援的記錄片、還有一段是名爲《魔法硬幣》的科幻片——它講述了一個小男孩通過一枚寫着 MiniMax 的硬幣,在不同時空進行穿梭的過程。無論是加勒比海盜的船上、還是多元宇宙、還是萬里長城、還是北極熊身上、又或者是森林的豹子身上,所有的場景都非常逼真。
看完這些視頻,一個很直接的感受是,已經不太能看得出它們是 AI 做出來的。 這意味着在視頻生成效果上,MiniMax 取得了關鍵性的突破。
03
極致的技術,
纔有極致的用戶交互
閆俊傑介紹,MiniMax 之所以在文生視頻賽道更晚入場,原因是公司希望在技術上形成絕對優勢。在他看來,不管是視頻、文本、聲音,核心不是在算法上提升 5%、10%,而是要看能不能提升幾倍。「如果能提升幾倍就一定要做出來,如果只提升 5% 就不太值得做。這是我們做研發的思路。」他說。
在他看來,在文生視頻這件事上,技術能提升幾倍的核心關鍵是,提高壓縮率的問題。訓練視頻生成能力時,模型需要先把視頻變成 token,但這個 token 會非常長,導致複雜度很高。因此,MiniMax 團隊在算法上主要解決的是,怎麼把壓縮率變得更高、把 token 的複雜度降低。這花了他們很多的精力,因此比同行晚了近一兩個月。
團隊發現,當算法變得更強的時候,產品的效果確實好了很多。在文生視頻這件事情上,再次印證了閆俊傑所說的,技術決定產品。
MiniMax 的文生視頻功能 | 圖片來源:MiniMax
對於 MiniMax 而言,對技術重要性的認識是不斷提升的。當技術水平提高時,用戶的活躍度會增加;當技術出現失誤,用戶活躍度在降低。「當技術做不好的時候,所有東西都是問題。當技術做好了,所有問題都被掩蓋了。」閆俊傑說。這兩年時間,他已經意識到技術是科技公司最核心的要素。
他認爲,創業公司相較於大廠而言最重要的優勢只有兩點:一是技術的提升,二是與用戶的交互,而這兩者互爲表裡,所謂「產模一體」,技術服務產品,產品也會反哺技術。
MiniMax在全球擁有多元化的用戶分佈。據MiniMax介紹,其每日與全球用戶進行超30億次交互,處理超3萬億token、生成2000萬張圖片和7萬小時語音,大模型日處理交互量居國內 AI 公司首位。
MiniMax 模型及產品 | 圖片來源:MiniMax
目前 MiniMax 公佈的文生視頻功能只是第一版,接下來它在產品功能上還會有更多的更新。比如現在只提供了文生視頻功能,接下來還會有圖生視頻、文+圖生成視頻、可編輯的可控性等等。而等新的東西出來,以及到達更滿意的狀態之後,MiniMax 可能會考慮一些商業化動作。
作爲國內幾乎最早成立的大模型公司之一,MiniMax 從成立起就確定了要將 AI 普及普通人的目標。爲此,這家公司沿着文本、音頻、音樂、視頻等不同模態拓展,用技術突破帶來更好的用戶體驗。而如今,它推出驚豔的文生視頻功能,也意味着它在這條路上又踏上了一個新的臺階。
*頭圖來源:MiniMax
本文爲極客公園原創文章,轉載請聯繫極客君微信 geekparkGO
極客一問
你用過 MiniMax 的文生視頻產品嗎?
體驗如何?
馬斯克 2001 年採訪:我對互聯網已經厭倦了,想做一些不同領域的事。
點贊關注極客公園視頻號,