霍夫曼:Reddit是訓練AI模型的金礦

霍夫曼 小檔案

美國知名網路論壇媒體Reddit提供平臺,讓用戶能討論包括股票等各式種樣話題。其共同創辦人兼執行長霍夫曼(Steve Huffman)近年爲強化其平臺的內容政策,重新設計網站讓大家更容易使用,並致力讓其平臺溶入AI世界。

重新設計網站令Reddit每天吸引數以千萬計活躍用戶使用,在人工智慧(AI)技術崛起之下,讓Reddit平臺上各種交流的內容,成爲訓練AI大型語言模型(LLM)提供寶貴的巨量資料。霍夫曼形容Reddit是訓練AI模型的「金礦」。

由於Reddit討論的議題愈來愈豐富,讓用戶數量也不斷增加而形成正向循環。許多人直接使用Reddit來尋找所需要資訊,或透過谷歌的搜尋來連結Reddit上相關內容。

霍夫曼表示今年來在美國地區,Reddit成爲谷歌上第六大搜尋關鍵字,讓使用Reddit的目的,在某方面介於閱讀新聞和地圖之間,使大家上谷歌網頁目的是爲了更快找到他們在Reddit上所需要的內容。

霍夫曼指出,Reddit擁有大量討論各種議題的社羣,和讓用戶之間能彼此對話的平臺,在成立近廿年來不斷讓大家討論任何事或迴應各種問題。不管男女老幼都能在Reddit平臺上找到自己感興趣的話題。這是網路世界少數能聚集龐大網友的平臺。

近期由AI生成的內容在網路世界蔚爲風潮,但當中許多都是低品質而膚淺的內容。

對於會否擔心這類AI內容會涌入Reddit平臺而削減用戶的興趣,霍夫曼認爲AI的源頭是來自大家真實的智慧,這些智慧纔是Reddit吸引大家的地方。

他認爲目前網路上資訊品質低落,是因爲愈來愈多內容是由AI生成。這反而更突出Reddit平臺上由人手完成的內容,大家想要了解的是別人意見,而不是由機器產生的內容。

霍夫曼認爲Reddit平臺,擁有全球能用來訓練AI的最佳資料。其中一個因素是跟其他社交媒體相較,Reddit的開放特質就顯得獨一無二。在這個平臺上,大家不用註冊帳號,不用付費就能觀看平臺上的內容。

由於Reddit平臺是公開,因此平臺上的資訊能成爲搜尋引擎的索引,讓Reddit上的社羣和網友都能受惠,並有助訓練大型AI模型。

在此情況下,要以Reddit平臺資料來訓練AI模型,霍夫曼認爲必須做出一些決定,來弄清楚Reddit在這個AI訓練的生態系統裡的地位。

Reddit幾個月前已制定出其公開內容政策,以配合平臺上的個人隱私權政策。

目前Reddit跟谷歌與OpenAI有合作關係,並完成一個免費和完全由Reddit自主的網路檔案庫,讓其平臺內容供大家搜尋。

雖然霍夫曼表示,在開放和互相連接的情況下,才能讓網路更有價值,但也必須確保Reddit在免費的網路世界裡,不只是無償地把自家價值贈送給那些科技巨頭。

他表示Reddit會保護其網路檔案庫,並致力做好這一點來跟合作伙伴建立關係,這會是值得信賴的關係,同時又能遵守自家的原則。