☰

OpenAI代理工具可能將發佈：可以控制電腦並代表用戶執行操作

鞭牛士報道，1月21日消息，據外電報道，OpenAI 可能即將發佈一款可以控制你的電腦並代表你執行操作的 AI 工具。

蒂博爾·布拉霍 (Tibor Blaho) 是一位以準確泄露即將推出的 AI 產品而聞名的軟件工程師，他聲稱發現了 OpenAI 傳聞已久的Operator工具的證據。

彭博社等出版物此前曾報道過 Operator，據說它是一個代理系統，能夠自主處理編寫代碼和預訂旅行等任務。

據The Information 報道，OpenAI 計劃於 1 月發佈 Operator。Blaho 本週末披露的代碼進一步證實了這一報道的可信度。

Blaho 表示， OpenAI 的macOS ChatGPT客戶端已獲得目前隱藏的選項，用於定義切換操作符和強制退出操作符的快捷方式。

Blaho 表示，OpenAI 已在其網站上添加了對操作符的引用 — — 儘管這些引用尚未公開。

Blaho 表示，OpenAI 的網站還包含尚未公開的表格，比較了 Operator 與其他使用計算機的 AI 系統的性能。這些表格很可能只是佔位符。但如果這些數字準確，則表明 Operator 並非 100% 可靠，具體取決於任務。

在 OSWorld（一個試圖模擬真實計算機環境的基準測試）上，「OpenAI 計算機使用代理 (CUA)」——可能是爲 Operator 提供支持的 AI 模型——得分爲 38.1%，高於 Anthropic 的計算機控制模型，但遠低於人類的 72.4%。

OpenAI CUA 在 WebVoyager 上的表現超過了人類，WebVoyager 評估了 AI 導航和與網站交互的能力。但根據泄露的基準測試，該模型在另一個基於網絡的基準測試 WebArena 上得分低於人類水平。

如果泄露的消息屬實，Operator 還難以完成人類可以輕鬆完成的任務。在一項要求 Operator 與雲提供商簽約並啓動虛擬機的測試中，Operator 的成功率只有 60%。

在要求 Operator 創建比特幣錢包的測試中，Operator 的成功率只有 10%。

OpenAI 即將進入人工智能代理領域，而此前提到的 Anthropic、谷歌等競爭對手也正在爭奪這一新興領域。人工智能代理可能存在風險和投機性，但科技巨頭們已經將其吹捧爲人工智能領域的下一個大熱門。

據分析公司 Markets and Markets 稱，到 2030 年，人工智能代理市場價值可能達到 471 億美元。

當今的功能還很原始。但一些專家擔心，如果技術迅速進步，他們的安全就會受到威脅。

其中一張泄露的圖表顯示，Operator 在選定的安全評估中表現良好，包括試圖讓系統執行非法活動和搜索敏感個人數據的測試。

據報道，安全測試是 Operator 開發週期較長的原因之一。在最近的 X帖子中，OpenAI 聯合創始人 Wojciech Zaremba 批評 Anthropic 發佈了一個他聲稱缺乏安全緩解措施的代理。

Zaremba 寫道：我只能想象如果 OpenAI 發佈類似版本會引起什麼負面反應。

值得注意的是，OpenAI 受到了包括前員工在內的人工智能研究人員的批評，據稱他們爲了快速將其技術產品化而忽視了安全工作。

相關資訊