英偉達推出NeMo Guardrails AI安全套件,防範大模型“越獄”

英偉達近日宣佈推出名爲“NIM”的AI護欄服務,現已以NeMo Guardrails套件的形式提供。該服務旨在爲大語言模型(LLM)添加一系列護欄規則,防止用戶通過提示詞“越獄”大模型,從而避免生成不符合預期的內容。

NeMo Guardrails基於英偉達的Aegis內容安全數據集訓練而成,該數據集包含3.5萬個標註樣本,並已在Hugging Face上公開。這套AI護欄服務不僅體積小、效率高,還能在多種場合中流暢運行。企業可以直接將其嵌入AI模型開發中,提升醫療、汽車、製造業等領域AI部署的安全性。

此外,英偉達還發布了Garak漏洞掃描工具,用於檢測模型安全性,防止輸出幻覺內容或泄露企業內部機密信息。這一系列舉措將有效改善AI應用的安全性和可靠性。

免責聲明:本文內容由開放的智能模型自動生成,僅供參考,不構成任何專業建議或決策依據。用戶應自行覈實信息的準確性和可靠性,本站對用戶因使用或依賴本文內容而產生的任何風險或損失不承擔任何責任。如有疑問或發現內容有誤,請聯繫本站進行處理。