OpenAI代理工具可能將發佈:可以控制電腦並代表用戶執行操作

鞭牛士報道,1月21日消息,據外電報道,OpenAI 可能即將發佈一款可以控制你的電腦並代表你執行操作的 AI 工具。

蒂博爾·布拉霍 (Tibor Blaho) 是一位以準確泄露即將推出的 AI 產品而聞名的軟件工程師,他聲稱發現了 OpenAI 傳聞已久的Operator工具的證據。

彭博社等出版物此前曾報道過 Operator,據說它是一個代理系統,能夠自主處理編寫代碼和預訂旅行等任務。

據The Information 報道,OpenAI 計劃於 1 月發佈 Operator。Blaho 本週末披露的代碼進一步證實了這一報道的可信度。

Blaho 表示, OpenAI 的macOS ChatGPT客戶端已獲得目前隱藏的選項,用於定義切換操作符和強制退出操作符的快捷方式。

Blaho 表示,OpenAI 已在其網站上添加了對操作符的引用 — — 儘管這些引用尚未公開。

Blaho 表示,OpenAI 的網站還包含尚未公開的表格,比較了 Operator 與其他使用計算機的 AI 系統的性能。這些表格很可能只是佔位符。但如果這些數字準確,則表明 Operator 並非 100% 可靠,具體取決於任務。

在 OSWorld(一個試圖模擬真實計算機環境的基準測試)上,「OpenAI 計算機使用代理 (CUA)」——可能是爲 Operator 提供支持的 AI 模型——得分爲 38.1%,高於 Anthropic 的計算機控制模型,但遠低於人類的 72.4%。

OpenAI CUA 在 WebVoyager 上的表現超過了人類,WebVoyager 評估了 AI 導航和與網站交互的能力。但根據泄露的基準測試,該模型在另一個基於網絡的基準測試 WebArena 上得分低於人類水平。

如果泄露的消息屬實,Operator 還難以完成人類可以輕鬆完成的任務。在一項要求 Operator 與雲提供商簽約並啓動虛擬機的測試中,Operator 的成功率只有 60%。

在要求 Operator 創建比特幣錢包的測試中,Operator 的成功率只有 10%。

OpenAI 即將進入人工智能代理領域,而此前提到的 Anthropic、谷歌等競爭對手也正在爭奪這一新興領域。人工智能代理可能存在風險和投機性,但科技巨頭們已經將其吹捧爲人工智能領域的下一個大熱門。

據分析公司 Markets and Markets 稱,到 2030 年,人工智能代理市場價值可能達到 471 億美元。

當今的功能還很原始。但一些專家擔心,如果技術迅速進步,他們的安全就會受到威脅。

其中一張泄露的圖表顯示,Operator 在選定的安全評估中表現良好,包括試圖讓系統執行非法活動和搜索敏感個人數據的測試。

據報道,安全測試是 Operator 開發週期較長的原因之一。在最近的 X帖子中,OpenAI 聯合創始人 Wojciech Zaremba 批評 Anthropic 發佈了一個他聲稱缺乏安全緩解措施的代理。

Zaremba 寫道:我只能想象如果 OpenAI 發佈類似版本會引起什麼負面反應。

值得注意的是,OpenAI 受到了包括前員工在內的人工智能研究人員的批評,據稱他們爲了快速將其技術產品化而忽視了安全工作。