研究人員提出AI評估框架,能衡量視頻生成模型在具身智能中的表現
具身智能任務是當前 AI 領域的重要研究方向之一,涉及機器人、自動駕駛等需要與真實世界交互的技術。
視頻生成模型的快速發展使得它們在這些任務中發揮着關鍵作用,但傳統評估手段更多側重於生成視頻的視覺質量,而忽略了視頻在實際應用場景中的可操作性和物理一致性,尤其是在複雜環境重點中的表現。
爲了找到更好的評估方法,來自香港中文大學(深圳)、上海人工智能實驗室、北京航空航天大學和香港大學的研究人員提出了一種全新的評估框架,用以考察視頻生成模型在具身智能任務中的表現。
日前,相關論文發表於預印本平臺arXiv上。
圖丨相關論文(來源:arXiv)
在論文中,研究團隊提出了一個名爲 WorldSimBench 的全新評估框架,用以衡量視頻生成模型的實際應用能力。
現有的視頻生成模型可以生成高度真實的視覺內容,但這些內容能否被用於指導機器人等智能體完成具身任務,這方面的評估還較爲欠缺。
研究人員意識到,僅僅依靠視覺效果來衡量模型性能是不夠的,生成的視頻如果不能反映現實世界的物理規律,將很難應用於複雜的現實世界任務中。
因此,他們設計了顯性感知評估(Explicit Perceptual Evaluation)和隱性操作評估(Implicit Manipulative Evaluation)這兩個維度,旨在從不同角度考察視頻生成模型的性能。
顯性感知評估主要依賴於人類反饋,評估視頻的視覺質量和物理一致性。
通過引入 HF-Embodied 數據集(一個用於研究和開發多模態人工智能系統的數據集),研究人員設計了一種偏好評估器,該評估器基於大量視頻-文本對數據,通過人類打分的方式,衡量視頻在視覺表現上的優劣。
隱性操作評估則關注視頻生成模型在具身智能任務中的實際應用,即生成的視頻是否能夠驅動智能體完成任務。
例如,在自動駕駛場景中,生成的視頻是否能夠反映真實的道路情況,幫助車輛做出正確的決策。
這種雙重評估框架使得視頻生成模型的評價更加全面,能夠更加準確地衡量其在具身任務中的潛在應用價值。
在該論文中,研究人員將現有的視頻生成模型劃分爲四個階段(S0-S3),依次代表不同程度的具身智能能力:
(來源:arXiv)
其中 S3 階段被定義爲“世界模擬器”(World Simulators),即能夠生成完全符合物理規則,並且可用於指導具身任務的高級視頻生成模型。
值得注意的是,世界模擬器這一概念早在 2018 年就被提出,反映了研究人員希望將視頻生成模型從單純的視覺生成擴展到具有真實物理環境交互能力的目標,從而爲未來的具身智能發展奠定基礎。
爲了驗證 WorldSimBench 評估框架的有效性,他們在多個具身智能任務場景中對多種視頻生成模型進行了評估。
分別在 MineRL、CARLA 和 CALVIN 三個仿真環境中測試了模型的表現,對應了開放式具身環境、自動駕駛 和機器人操控三種重要的智能任務。
MineRL 是一款基於“我的世界”(Minecraft)的模擬環境,主要用於測試視頻生成模型在複雜、開放式環境中的表現。
智能體的任務是在虛擬環境中完成諸如採集物品、導航等任務。評估框架負責判斷生成視頻能否有效引導智能體執行這些操作。
CARLA 是一個用於自動駕駛研究的仿真平臺,評估視頻生成模型在交通場景中的表現。
研究人員通過模擬複雜的城市路況、行人交通等情景,考察模型生成的視頻能否幫助自動駕駛系統做出正確決策。評估指標包括路線完成度、碰撞率、違規行爲等。
CALVIN 則是一個用於機器人操作的仿真環境,評估視頻生成模型能否幫助機器人完成精確的物理操作任務,如抓取物體、搬運等。
該環境的操作複雜度較高,需要生成的視頻能夠準確反映物體的位置、運動軌跡和速度變化,其評估指標包括成功率和軌跡生成質量等。
在顯性感知評估中,研究人員使用了 HF-Embodied 數據集,並訓練了一個基於人類偏好反饋(Human Preference Evaluator)的評估器,通過人類反饋對生成視頻進行了打分。
圖 | 顯性感知評估概述(來源:arXiv)
在顯性感知評估中:
在隱性操作評估中,研究人員通過將生成的視頻轉換爲控制信號,並觀察其在各種閉環具體任務中的表現來隱性評估模擬器的能力。
圖 | 隱性操作評估概述(來源:arXiv)
在隱性操作評估中:
實驗結果表明,該評估器在判斷視頻的視覺質量和物理一致性方面,表現大多優於傳統的大型語言模型(如 GPT-4o)。
圖 | 人類偏好評估器與 GPT-4o 的整體性能比較(來源:arXiv)
這些數據顯示,使用基於兩種評估方法的 WorldSimBench 框架,研究人員能夠更精確地捕捉到模型在視覺生成中的細微差異,並且能夠更好地反映人類對視頻生成的實際期望。
儘管 WorldSimBench 框架在視頻生成模型評估方面取得了進展,但其依然面臨一些挑戰。
比如,HF-Embodied 數據集是依賴於大規模人工標註數據,而且現有的評估場景集中在虛擬仿真環境中,如何擴展到更多真實世界的場景仍需要繼續探索。
最後,基於整體的顯性感知評估和隱性操作評估結果,該課題組得出結論:當前的視頻生成模型仍然無法有效捕捉許多物理規則。
作者在論文最後強調,“這表明在它們成爲真正的世界模擬器之前,還需要進行很多改進。”
參考資料:
https://arxiv.org/pdf/2410.18072v1
運營/排版:何晨龍