Galileo 發佈新平臺用於評估 AI 代理系統

Galileo Technologies Inc.(一家專門開發 AI 模型觀察和評估工具的公司)今天推出了 Agentic Evaluations 平臺,該平臺旨在評估由大語言模型驅動的 AI 代理系統的性能。

該公司表示,他們正在解決代理系統帶來的額外複雜性問題。這些軟件機器人具備決策能力,能夠在幾乎不需要人工監督的情況下,跨多個步驟進行規劃、推理和執行任務,並能適應不斷變化的環境和場景。

由於代理系統的行爲具有情境依賴性,開發人員往往難以理解故障發生的時間和原因。但這並未影響人們對這項技術在提升工作流程效率方面的興趣。Gartner Inc. 預測,到 2028 年,33% 的企業軟件應用將包含代理式 AI,而 2024 年這一比例還不到 1%。

代理系統以新的方式挑戰着現有的開發和測試技術。首先,它們可以針對用戶請求選擇多個動作序列,這使其行爲難以預測。複雜的代理工作流程難以建模,需要更復雜的評估方法。代理系統可能會使用多個大語言模型,這使得性能和成本更難確定。隨着工作流程的規模和複雜性增加,錯誤風險也會增大。

Galileo 表示,其 Agentic Evaluations 爲系統級和逐步評估提供了完整的生命週期框架。它讓開發人員可以查看整個多步驟代理過程,從輸入到完成的全過程,通過追蹤和簡單的可視化展示,幫助開發人員快速定位效率低下和錯誤之處。該平臺使用一套專有的"LLM-as-a-Judge"指標(一種使用大語言模型來檢查和評判任務的評估技術),專門服務於構建代理系統的開發人員。

評估指標包括對大語言模型規劃器是否選擇了正確的工具和參數的評估、對單個工具錯誤的評估、反映最終目標進展的追蹤,以及最終行動與代理系統原始指令的一致性。根據公司博客文章顯示,這些指標的準確率在 93% 到 97% 之間。

平臺使用專有的、基於研究的指標在多個層面測量性能。開發人員可以選擇參與規劃的大語言模型,並評估單個任務中的錯誤。

跨會話和時間段的成本、延遲和錯誤的聚合跟蹤有助於成本和延遲測量。警報和儀表板有助於識別系統性問題,以實現持續改進,例如工具調用失敗或行動與指令之間的不一致。該平臺支持流行的開源 AI 框架 LangGraph 和 CrewAI。

Agentic Evaluations 現已向所有 Galileo 用戶開放。該公司已籌集 6800 萬美元資金,包括去年十月的 4500 萬美元融資輪。