OpenAI遭遇高質量訓練數據難題 已採集超百萬小時視頻訓練GPT-4

【太平洋科技資訊】根所外媒報道,OpenAI等AI公司在獲取高質量訓練數據方面遇到了難題,其中OpenAI由於急需大量的訓練數據,並開發了Whisper音頻轉錄模型來應對這一挑戰。爲了訓練其最先進的大型語言模型GPT-4,OpenAI轉錄了超過100萬小時的YouTube視頻。

目前不少AI公司在獲取高質量訓練數據方面遭遇了難題。根據相關報道稱,OpenAI在2021年耗盡了有用的數據供應,並在耗盡其他資源後討論了轉錄YouTube視頻、播客和有聲讀物的可行性。此外,OpenAI還使用了來自GitHub的計算機代碼、國際象棋走棋數據庫等。儘管OpenAI知道這種做法在法律上存在問題,但公司認爲這是合理使用。OpenAI在一封電子郵件中告訴The Verge,該公司爲每個模型策劃了“獨特”的數據集,以“幫助他們瞭解世界”並保持其全球研究競爭力。並稱公司使用“衆多來源,包括公開數據和非公開數據的合作伙伴”,並且正在考慮生成自己的合成數據。

打開APP,閱讀體驗更佳