AI“剽竊”問題難解,這家初創公司發明解決算法丨AI版權戰事
21世紀經濟報道記者肖瀟 實習生韓佳序 北京報道
8月6日,一家初創公司ProRata.AI在加州成立,創始人是Bill Gross。這個名字不像其他硅谷大牛那樣耳熟能詳,但他發明的按點擊付費廣告、競價排名廣告每個人都很熟悉。搜索引擎巨頭的繁榮一定程度歸功於該商業模式,說是互聯網經濟的心肺功能也不爲過。
現在Bill Gross提出了AI時代的商業模式:AI按使用收費(AI pay-per-use)。依靠一項專利算法,AI的輸出會被拆解成不同部分,找到相應的版權來源,並根據輸出比例分配收入。
儘管還沒有完全落地的產品,《金融時報》、《財富》、環球音樂集團等大型內容版權方已經和ProRata簽署了合作協議。目前該公司獲得2500萬美元的A輪融資。
按使用次數分成
ProRata的最大噱頭無疑是它的歸因算法。
Bill Gross這樣解釋:“我們可以把生成式人工智能的輸出——無論是文本、圖像、音樂還是電影,分解成各個組成部分,找出它們的來源,然後給每個版權持有者一個百分比的歸屬,以此給他們相應的報酬。”公司官網提到,這一歸因算法已經申請了專利。
想法固然美好,但要如何落地推行?考慮到ProRata主要針對的是AI搜索應用,公司計劃在10月推出自己的AI搜索產品作爲演示。據稱該產品只會引用有明確授權的內容,將靠廣告和訂閱收費,50%的總收入與版權方分享。
實際上,《連線》雜誌報道稱,Bill Gross的終極目標是吸引Open AI、Anthropic這樣的AI巨頭,把ProRata的技術糅合進大模型,最終成爲類似Visa或 Master Card的支付零件。
這延續了Bill Gross的創業思路。他在1998年創立了GoTo.com,發明了現在谷歌、雅虎、百度等搜索引擎依賴的“按點擊付費”廣告。簡單來說,就是廣告商爲搜索關鍵詞競價,併爲用戶最終點擊的廣告次數出錢。不過,GoTo.com公司自身過於依賴和大型搜索公司的合作,逐漸淪落爲一個零部件供應商,最終在2003年被雅虎用16.3億美元收購。
從這次ProRata的產品構想來看,風險無疑也是存在的:AI被稱爲“大力出奇跡”,如果沒有海量的互聯網數據支持,大模型的性能需要打上問號。Bill Gross也意識到了這一點。
Bill Gross解釋,“我認爲 7000 萬份優質文檔實際上優於 700 億份劣質文檔,能帶來更好的答案。” 他希望ProRata能夠證明,數據質量比數量更重要,並認爲這樣可以抑制AI的幻覺。換句話說,相比其他AI搜索,ProRata將競爭力押注在大模型的準確性和可靠性上。
儘管產品還沒有被檢驗,ProRata已經收到了熱情的市場反應。據公司官網信息,ProRata已與環球音樂集團、《金融時報》、《財富》、《大西洋月刊》、Axel Springer媒體集團、環球音樂集團合作;此外,該公司還與知名作家達成了合作協議,包括託尼·羅賓斯(Tony Robbins)、尼爾·波茲曼(Neal Postman)和斯科特·加洛韋(Scott Galloway);Bill Gross還稱,首次發佈公司聲明後,自己收到了大量合作請求,《時代》雜誌最新加進了合作名單中。
激烈的戰火,不明晰的法律
“我們迫切需要一個協調AI和版權方的方案……內容有明確歸屬,創作者能獲得公平報酬,可以幫助建立一個更健康的生態。”《金融時報》CEO在ProRata的合作聲明中寫道。
從這份聲明裡可以感受到,內容行業對AI“剽竊”愈發不滿,催生了對ProRata此類公司的需求。
近幾年AI公司抓取數據當作訓練素材的做法,引起大量創作者抗議,由此帶來的版權訴訟不斷。今年6月,AI搜索也深陷這一漩渦——《福布斯》指控Perplexity幾乎能原封不動地輸出自己的報道原文;美國付費媒體《連線》也發現了一樣的問題。
之所以會被稱爲“剽竊”,有兩方面原因:
拿Perplexity的爭議爲例。根據用戶的輸入詞,Perplexity會在互聯網中爬取相關結果,總結成答案輸出。有付費牆阻攔的網站和在代碼文件中禁止了robots.txt(爬蟲抓取)的網站,通常是會被繞開的。但如果用戶自己輸入了一個明確網址,Perplexity很可能會突破規則,強行滿足用戶的要求。
更深一層的原因則是,由於Perplexity可以直接概括內容,用戶可能不再需要點進原網站閱讀。內容網站流量減少,但又無法從AI搜索這一渠道獲利,此般利益衝突難以調解。
AI搜索從網上爬取、引用數據,算不算侵犯版權,要不要給創作者補償?目前法律沒有給出明確答案。
日本、歐盟在內的部分國家規定了“文本與數據挖掘行爲”屬於合理使用,也就是不算侵犯版權,這也是許多AI公司的底氣來源。但前段時間,法國競爭管理局回覆谷歌,抓取數據能不能用來訓練AI“還不清楚”。
廣東財經大學法學院教授姚志偉此前向21記者解釋,這是因爲當初立法時,文本與數據挖掘針對的是傳統的算法推薦,不是生成式AI,這兩種技術顯然不能簡單畫上等號。
而我國《著作權法》列舉的13種合理使用情形中,沒有包含數據挖掘行爲。姚志偉補充道,我國在司法實踐中看重使用目的,會強調這一行爲是否爲商業使用、有沒有營利性質。這樣來看,挖掘數據來訓練大模型,在我國可能更難落入合理使用的範疇。
作爲AI搜索的頭部應用,Perplexity的合規困境是整個AI行業的縮影。在硬性要求遲遲不來的情況下,依靠ProRata這樣更軟性的市場方案,也許是擺脫困境的一種方式。
值得一提的是,許多AI公司已經啓動了收入共享計劃,只是尚不清楚細節。8月1日,Perplexity首席商務官就在採訪中說,目前Perplexity已經簽署了一批授權協議,同樣也是按照引用次數計算,沒有透露更具體的分成比例和計算方式。