☰

馬斯克：AI訓練數據去年就已耗盡，合成數據是唯一補充方法

人工智能訓練數據耗盡了怎麼辦？

近日，馬斯克在社交平臺X上的一場直播對話中表示，人工智能訓練數據已經耗盡：

馬斯克的觀點與前OpenAI首席科學家Ilya Sutskever不謀而合。去年12月，Sutskever在機器學習會議NeurIPS上表示，AI行業已經達到了他所謂的“數據峰值”，訓練數據的缺乏將迫使AI模型的開發方式發生轉變。

不過，面對數據耗盡的困境，馬斯克提出了一個可能的解決方案：

事實上，包括微軟、Meta、OpenAI、Anthropic等在內的科技巨頭已經開始使用合成數據來訓練AI模型了。據信息技術研究和顧問公司Gartner估計，2024年用於AI訓練和分析項目的數據中，有60%是合成的。

微軟最近開源的Phi-4模型就是使用合成數據和真實世界數據共同訓練的。谷歌的Gemma模型、Anthropic的Claude 3.5 Sonnet系統以及Meta最新的Llama系列模型也都採用了類似的方法。

分析師表示，使用合成數據進行訓練還能夠節約成本。AI初創公司Writer聲稱，其幾乎完全使用合成數據源開發的Palmyra X 004模型僅花費了70萬美元，而相比之下，OpenAI同等規模模型的開發成本估計爲460萬美元。

不過需要注意的是，使用合成數據也存在一些潛在風險。一些研究表明，合成數據可能導致模型崩潰，即模型的輸出變得不夠“創新”，反而更加偏頗，最終嚴重影響模型的功能。由於合成數據是由模型生成的，如果用於訓練這些模型的數據本身存在偏見和侷限性，那麼它們的輸出也會受到同樣的影響。

相關資訊