字節跳動新抓取機器人比OpenAI機器人快25倍,面臨美國監管審查

鞭牛士報道,10月4日消息,據外電報道,TikTok 的母公司字節跳動正在加大訓練生成式 AI 模型的力度,推出了一款新的網頁抓取工具。

據報道,這款名爲 Bytespider 的機器人於 4 月推出,現已成爲最活躍的網頁抓取工具之一。

機器人管理公司 Kasada 和機器人監控公司 Dark Visitors 的研究顯示,字節跳動的 Bytespider 抓取網絡數據的速度比 OpenAI 用於 ChatGPT 平臺的網絡抓取工具 GPTbot 快 25 倍。它的抓取速度也比 Anthropic 用於其 Claude 平臺的抓取工具 ClaudeBot 快 3,000 倍。

抓取狂潮

據《財富》報道,自首次亮相以來,Bytespider 的活動只增不減,過去六週內抓取量明顯飆升。

字節跳動似乎正試圖快速收集儘可能多的數據,以趕上谷歌、Meta 和 OpenAI 等其他科技巨頭,這些公司都使用網絡爬蟲收集大量在線數據來訓練他們的大型語言和多模態模型(LLM 或 LMM)。

然而,與其他人工智能公司使用的一樣,字節跳動的抓取工具並不遵守 robots.txt 文件,該文件旨在向抓取工具發出信號,避免從特定網站獲取數據。

儘管 robots.txt 不具有法律強制力,但對它的忽視引發了爭議,因爲網絡抓取通常被視爲侵犯版權,特別是在用於訓練人工智能模型時。

由於生成式人工智能工具嚴重依賴網絡數據來運作,因此抓取數據已成爲一個有爭議的問題,許多個人和組織認爲他們的作品被無償複製。這種做法已經存在了幾十年,主要針對搜索引擎,但人工智能的興起帶來了新的法律和道德問題。

字節跳動的 AI 努力

字節跳動積極抓取數據之際,該公司正受到嚴格審查,尤其是在美國。美國總統喬·拜登已簽署立法,要求字節跳動出售 TikTok 或將其關閉,理由是出於國家安全考慮。

儘管如此,字節跳動似乎決心提升其人工智能能力。

字節跳動的抓取狂潮表明該公司正在開發一種新的大型語言模型。今年早些時候的報道表明,字節跳動在生成式人工智能競賽中落後,甚至依賴 OpenAI 來幫助建立自己的模型,此舉違反了 OpenAI 的服務條款。

2023 年初,字節跳動推出了基於聊天的 LLM 項目 Duabo,但該模型的開發在最近的數據收集工作之前就完成了。

字節跳動新AI項目的一個潛在應用是改進 TikTok 的搜索功能。TikTok 最近更新了其搜索功能,專注於廣告關鍵詞,讓廣告商可以實時定位熱門詞彙。藉助基於最新網絡數據訓練的更強大的 AI 模型,TikTok 可以進一步增強其搜索功能,爲目前依賴谷歌的廣告商創造更具競爭力的環境。

快速的數據收集和人工智能的進步表明,字節跳動不僅渴望迎頭趕上,而且有可能重塑搜索和人工智能的格局,尤其是在 TikTok 龐大的用戶羣的背景下。

如果成功,這些努力可能會讓 TikTok 的搜索環境對希望通過精準、數據驅動的關鍵詞和趨勢吸引更多受衆的廣告商具有極大的吸引力。