OpenAI訓練新模型給ChatGPT找茬

當地時間6月27日,OpenAI 宣佈基於 GPT-4 訓練了一個名爲#CriticGPT# 的模型,用於查找 ChatGPT 聊天機器人輸出內容中的錯誤。它可以撰寫評論,強調 ChatGPT 生成答案中不準確的地方。

據介紹,CriticGPT 旨在協助人類 AI 訓練員完成工作 —— 使用一種名爲“從人類反饋中強化學習(Reinforcement Learning from Human Feedback,RLHF)”的技術來訓練、改進 GPT-4 的回答。然而隨着 ChatGPT 的準確性日益提升,錯誤越來越隱蔽,導致 AI 訓練員的工作越來越“難做”。