沒有它不能操作的界面!OMNIPARSER賦能GPT-4V變身無所不能的UI操控高手!

近年來,大型視覺語言模型的成功表明,它們有望推動在用戶界面上操作的智能代理系統的發展。然而,微軟研究團隊認爲,像GPT-4V這樣的多模態模型在跨操作系統和應用程序中作爲通用代理的潛力仍被低估。這主要是因爲缺乏一種強大的屏幕解析技術。這項技術應該能做到以下兩點:1. 準確識別界面中可交互的圖標,2. 理解截圖中各元素的語義,並正確地將意圖的操作與屏幕上的相應區域關聯起來。(鏈接在文章底部)

爲了解決這些問題,微軟團隊推出了OMNIPARSER。這是一種將用戶界面截圖解析爲結構化元素的完整方法,能大幅增強GPT-4V生成與界面區域準確對應的操作的能力。OMNIPARSER包含兩個經過微調的模型:一個是圖標檢測模型,用於識別可互動的區域,另一個是功能描述模型,用於分析這些區域的功能。OMNIPARSER能作爲一個通用、易用的工具,能夠解析PC和移動平臺上的各種屏幕,無需依賴額外的HTML或Android視圖層次等信息。

01 技術原理

複雜任務通常可以拆分爲多個操作步驟,每一步都需要模型(如GPT-4V)具備以下兩種能力:1)理解當前步驟中的UI界面內容,包括整體界面信息和帶有編號ID的圖標功能;2)預測在當前屏幕上要進行的下一步操作,以幫助完成整個任務。OMNIPARSER發現,與其在一次調用中完成這兩個目標,不如在屏幕解析階段先提取一些信息(如界面語義),這樣可以減輕GPT-4V的負擔,使其在解析界面時可以集中更多精力於操作預測。

相比直接讓GPT-4V預測操作位置的座標,OMNIPARSER採用了一種標記集(Set-of-Marks)的方法,將可交互圖標的邊界框覆蓋在截圖上,並讓GPT-4V生成相應的邊界框ID以執行操作。而不同於以往使用瀏覽器DOM樹提供的按鈕位置或AITW數據集中標記好的邊界框,OMNIPARSER通過微調檢測模型來自動提取可交互圖標/按鈕。

除了可交互區域檢測,OMNIPARSER還加入了一個OCR模塊以提取文字的邊界框。隨後合併OCR模塊和圖標檢測模塊生成的邊界框,並去除高重疊度的區域(重疊度超過90%的邊框將被移除)。

僅輸入包含邊界框和ID標記的UI截圖,往往會對GPT-4V產生誤導。OMNIPARSER認爲原因在於GPT-4V難以同時完成識別圖標語義和預測特定操作的複合任務,其他研究也有類似的發現。

爲了解決這一問題,OMNIPARSER將每個圖標的功能性語義融入到提示中。對於每個檢測到的圖標,OMNIPARSER使用微調模型生成其功能描述;對於文字框,OMNIPARSER使用OCR識別到的文本和對應標籤。

02 數據集構建

OMNIPARSER構建了一個可交互圖標檢測數據集,包含6.7萬張帶有可交互圖標邊界框標註的獨特截圖,這些標註信息來自每個網頁的DOM樹。

OMNIPARSER 首先從ClueWeb數據集中抽取了10萬個流行的公開網頁鏈接樣本,並從每個網頁的DOM樹中收集可交互區域的邊界框。 此外, OMNIPARSER 還收集了7000對圖標和描述,用於微調圖標描述模型。

歡迎交流~,帶你學習AI,瞭解AI