剛剛,微軟多模態Agent,硬核開源...
來源: Paper Agent
微軟在AI Agent上又有了新動作了,開源了Magma:多模態AI Agent的基礎模型
數字世界和物理世界: Magma 是第一個多模式 AI Agent的基礎模型,旨在處理虛擬和現實環境中的複雜交互!
多功能功能: Magma作爲單一模型不僅具有通用的圖像和視頻理解能力,而且還能生成目標驅動的視覺計劃和動作,使其能夠靈活地完成不同的代理任務!
最先進的性能: Magma 在各種多模式任務上實現了最先進的性能,包括 UI 導航、機器人操作以及通用圖像和視頻理解,特別是空間理解和推理!
可擴展的預訓練策略: Magma 除了現有的代理數據之外,還被設計爲從野外未標記的視頻中進行可擴展地學習,從而具有很強的泛化能力,適合現實世界的應用!
Magma 是多模態 AI Agent的基礎模型。作爲多模態Agent模型的基石,它應該具備強大的能力來感知多模態基礎世界並精確地採取目標驅動的行動。
語言和時空智能: Magma應該具有強大的語言和時空智能,以理解圖像和視頻,根據觀察採取行動,並進一步將外部目標轉化爲行動計劃和執行。
數字和物理世界: Magma 不應侷限於數字世界(例如,網絡導航)或物理世界(例如,機器人操縱),而是能夠跨兩個世界工作,就像人類一樣。
考慮到這一點,微軟開發了一種新的預訓練數據,其主要由野外未標記的視頻加上現有的帶註釋的Agent數據組成,以及一個新的預訓練框架,它將所有三種模態(文本、圖像和動作)的訓練統一起來,以訓練一個名爲 Magma 的多模態 AI Agent的新基礎模型。
大規模異構訓練數據:在野外整理了大量數據,包括現有的多模態理解數據、UI 導航數據、機器人操作數據以及野外未標記的視頻。還提出了一種新的數據收集管道來收集野外未標記的視頻,這種管道可擴展且經濟高效。爲了從原始視頻和機器人軌跡中獲得有用的動作監督,精心去除了視頻中的攝像機運動,然後將運動轉換爲“動作”監督以供我們的模型訓練。這些爲模型提供了獨特的信號,以學習跨模態連接和長期動作預測和規劃。
通用預訓練目標:文本和動作本質上是不同的,因此會造成巨大的差距,而視覺標記是連續的。提出了一個通用的預訓練框架,將這三種模態的訓練統一起來,並表明這對於模型學習跨模態連接至關重要。更具體地說,提出了 Set-of-Mark 和 Trace-of-Mark 作爲模型預訓練的輔助任務,作爲不同輸出模態之間的橋樑。通過這種方式,在文本和動作模態之間以及圖像和動作模態之間建立了良好的一致性。