歐盟出手,調查谷歌模型訓練內幕

當下,爲我們的世界提供動力的 人工智能 固然重要,但人工智能模型的訓練方式也同樣重要。我們都知道這些人工智能模型需要在大量數據上進行訓練。問題在於,當中有很多數據是未經許可獲取而來的。據一份新的報告稱,歐盟已對谷歌展開調查,旨在查看它是否非法獲取數據來訓練其模型。

數據隱私這個主題相當熱門,原因是大公司一直持續無視基本的隱私法。根本無法得知這些公司非法獲取了多少數據。例如,Meta 剛剛承認早在 2007 年(當時它還叫 Facebook)就從澳大利亞人那裡抓取數據。

我們都非常確定,爲雙子座提供動力的大部分數據是非法獲取的,但這次調查與雙子座無關,因爲谷歌還有其他模型。總部位於愛爾蘭的 DPC(數據保護委員會)表示擔憂谷歌如何訓練其路徑語言模型 2 即 PaALM 2。這是於 2023 年 5 月推出的一個基礎模型。

該委員會想要了解谷歌在訓練此模型時是否尊重了歐盟公民的隱私。“這項法定調查是數據保護委員會更廣泛努力的一部分,該委員會與歐盟/歐洲經濟區(European Economic Area)的同行監管機構攜手合作,對在人工智能模型和系統開發中處理歐盟/歐洲經濟區數據主體個人數據的行爲進行監管,”它聲明。

這是一個合理的擔憂。隨着時間的推移,這些模型變得更強大了,因爲其背後的公司爭相將它們打造爲市場上的佼佼者。然而,問題在於隨着時間的推移,公司正在收集更多的數據。我們已經有了生效的數據保護法,但直到生成式人工智能熱潮興起,我們才真正意識到每天到底有多少數據被抓取。

目前,這只是一個問詢,所以這並非表明存在訴訟或任何法律行動。然而,如果碰巧谷歌非法獲取了任何信息,那麼我們可以預期會有法律行動隨之而來。