AI生圖審覈惹爭議:米老鼠抽菸,特朗普接吻,海綿寶寶穿納粹服

智東西編譯 徐豫編輯 漠影

智東西9月3日消息,據《華爾街日報》9月2日報道,近期一些帶有戲謔意味、政治誤導性的AI圖像在社交媒體平臺X上流傳,例如“特朗普與哈里斯纏綿”、“奧巴馬吸食可卡因”、“米奇拿槍”等,畫面內容令用戶感到迷惑和不適。

這些AI圖像由Grok-2、Gemini等AI大模型生成。Grok-2由馬斯克創辦的美國AI大模型獨角獸xAI研發,Gemini來自美國科技巨頭谷歌。

近期,谷歌一直在完善其AI圖像生成內容的審覈機制,以儘可能避免AI輸出帶有偏見、歧義、錯誤、種族主義、違背歷史事實等方面的內容。

針對類似的問題,此前美國AI大模型獨角獸OpenAI,已禁止利用AI生成指向性明確的人物形象,來加強AI圖像生成內容審覈力度。

一、xAI新一代大模型Grok-2,默許政治人物被惡搞

打開社交媒體平臺X(原Twitter),你可能會看到這些“雷人”畫面:米老鼠喝啤酒,海綿寶寶穿納粹制服,美國前總統唐納德·特朗普(Donald Trump)與美國副總統卡瑪拉·哈里斯(Kamala Harris)接吻。

這些令人費解、不適的圖像,都是用xAI和谷歌的生成式AI新模型或軟件生成的。

▲利用AI技術生成的圖像,特朗普“公主抱”哈里斯,人物肖像清晰(圖源:《華爾街日報》)

8月14日,xAI推出下一代大語言模型Grok-2。模型發佈後的幾天內,X平臺涌入了大量據說是用Grok-2生成的圖像。在這些畫面中,“死對頭”特朗普與哈里斯動作親密,童話世界裡的米奇卻拿槍、抽菸。這些利用生成式AI技術製作的圖像,不僅損害了政治人物形象,還令有版權的角色做出一些帶有冒犯意味的動作。“迪士尼如果看到,可能也笑不出來。”

Grok-2大語言模型由德國AI圖像和視頻生成創企Black Forest Labs提供支持,目前僅向X平臺的付費訂閱用戶開放。

根據X平臺的政策,用戶禁止分享可能混淆或誤導事實、人爲刻意僞造的,以及最終導致人身或財產傷害的內容。Grok-2發佈當天的晚些時候,雖然部分違規的AI圖像已無法在X平臺上檢索出來,但用戶仍可以使用Grok-2生成充斥“惡趣味”的新作品。

然而,X平臺的實控人馬斯克,似乎並不介意這種惡搞政治的行爲。今年7月,他轉發了一段深度僞造哈里斯的虛假視頻,視頻中哈里斯自稱爲“最終的多元化僱員”。

有內容審覈方面的專家稱,類似的生成式AI工具可能會在美國大選週期中,生成一些虛假信息,甚至擴散到社會面。

8月19日,2024美國民主黨全國代表大會開幕的前一天,特朗普發佈了一張疑似用AI生成的圖像。當時,由於美國現任總統拜登已放棄連任,經過黨內投票後,這幅AI圖像的主角哈里斯已提前鎖定民主黨總統候選人提名。

而圖像中描繪了“哈里斯在芝加哥發表演講”的現場情況,其背景中有一面鐮刀和錘子圖案的紅旗,似乎在暗示哈里斯是共產主義者,從而引發政治爭議。

二、谷歌Gemini大模型屢屢翻車,涉敏感元素就黑白不分

谷歌的Gemini聊天機器人,由其同名大語言模型Gemini支持。

在今年2月推出新版Gemini聊天機器人之前,谷歌曾調試Gemini模型,使其遇到涉及生成人物的指令時,能反饋更多樣化、屬性更模糊的人物形象。

例如,之前在生成醫生圖像時,AI通常更傾向於給出白人男性的形象。谷歌希望能通過“多樣化”的方式,來減少AI圖像生成模型的“偏見”。

但不到一個月,Gemini模型就捅了大簍子。該模型在生成“具有種族多樣性”的圖像時,出現錯誤匹配宗教、種族、性別等情況,以至於得到多張不符合歷史事實的人物圖像。受到大量網友的抨擊後,谷歌決定暫停Gemini模型的圖像生成功能,爲AI圖像生成的潛在風險踩下“急剎車”。

谷歌副總裁兼Gemini聊天機器人負責人Sissie Hsiao,在近期的一次採訪中,稱確保AI模型聽從用戶指令,是谷歌堅持的原則。“這是用戶的Gemini,我們是爲用戶服務的。”

儘管如此,使用Gemini聊天機器人生成的部分圖像,仍存在違背歷史事實的情況。不少X平臺的用戶截圖質疑谷歌模型的內容審覈能力。

對於Gemini模型輸出帶有冒犯意味的、種族偏見的內容,谷歌CEO Sundar Pichai迴應稱,“這是不可接受的”,該公司將“全面解決這一問題”。

不過,谷歌最近因利用AI技術生成的畫面內容不嚴謹,再次激怒了用戶。

8月中旬,谷歌最新一代智能手機Pixel 9系列上市。Pixel 9系列引入了一個名爲“Reimagine”的AI照片編輯工具,因此用戶可以通過輸入文本提示,來調用AI修改照片中的內容。

但有用戶發現,Reimagine允許用戶添加一些違規元素,比如爲海綿寶寶“佩戴”納粹標誌。這一內容安全漏洞引起用戶的反感。

一位谷歌發言人稱,該公司正在“不斷加強和完善AI模型現有的安全防護措施”。

谷歌今年8月底曾透露,其AI聊天機器人Gemini將重新上線人物圖像生成功能,該功能初期僅面向付費訂閱的英語用戶開放。同時,谷歌已在AI圖像生成審覈方面取得“重大進展”,不過Gemini生成的圖像也“不可能每一張都準確無誤”。

三、AI生圖的倫理、法律邊界,待建立行業標杆

當前,AI圖像生成軟件不斷試探社交媒體平臺政策的底線。這種現象引發了爭論和反思,比如科技公司是否應該控制,又如何審覈前沿的AI圖像生成軟件所輸出的內容呢?

在把生成式AI技術開放給網友用於自由創作前,AI圖像生成軟件配備有效的安全防護措施,以確保AI生成的作品不違規、不觸犯道德準則。這是科技公司在AI內容審覈上面臨的壓力。

除了倫理困境之外,AI模型和軟件背後的開發者,還需要揹負許多潛在的法律責任。這是由於他們在訓練AI模型和軟件時,所用的訓練數據涉及侵犯知識產權等權利。

因涉嫌侵權,2023年藝術家們對AI圖像創企Stability AI和Midjourney發起集體訴訟。這次集體訴訟的對象還包括DeviantArt、Runway等一系列擁有AI圖像生成模型的公司。

此外,除了來自藝術家們的集體訴訟外,Stability AI還面臨美國視覺媒體公司Getty Images的訴訟。後者指控Stability AI侵犯了其訓練模型的權利。對此,Getty Images的一位發言人稱,該公司現已推出了自己的AI圖像生成模型。

OpenAI於2022年推出了AI圖像生成模型DALL-E。去年收到藝術家們的集體訴訟後,OpenAI爲此在DALL-E模型界面新增了一個選項,允許創作者勾選個人上傳圖像不用於DALL-E下一代模型的訓練。

《華爾街日報》的母公司News Corp已與OpenAI簽訂了內容許可協議。得益於此,在一定限度內,OpenAI可以自由訪問、採集News Corp現有的媒體資源。

“我們終究會搞清楚這一點。”知識產權保護律師Geoffrey Lottenberg稱,這類涉AI知識版權的法律糾紛可能會爲AI法律邊界開創先例。那麼,其他AI公司訓練其模型和聊天機器人的時候,可以使用哪些圖片、視頻等數據也就有了參考標準。

結語:谷歌、OpenAI積極糾偏,xAI反其道而行之

AI圖像生成軟件在生成特定、知名人物圖像方面的能力,是這輪AI內容審覈爭議的主要矛盾點之一。

包括谷歌和OpenAI在內,多家科技公司都禁止用AI圖像生成軟件,來創作包含特定人物的、角色易辨認的AI作品。

出於xAI創始人馬斯克對言論自由的堅持,xAI的Grok-2大模型選擇保留特定人物、角色的圖像生成功能。然而,此舉導致xAI遭到科技行業監督機構的批評。

加州大學洛杉磯分校的Sarah T. Roberts教授致力於內容審覈研究。她認爲,用戶會利用AI前沿技術深度僞造視頻、聲音、照片等,用於傳播虛假信息。

Roberts補充道,傳統社交媒體中存在的所有問題,生成式AI也依然需要面對,並且更難以檢測。尤其是使用AI技術生成的圖像等視覺內容,有時候更容易讓人信服。

賓夕法尼亞大學教授Pinar Yildirim稱,平臺試圖設立一些規則,比如通過禁用關鍵詞來阻止AI技術的濫用。但與此同時,用戶也能找到安全漏洞,繞開這些規則限制,從而獲取他們想要的內容。“用戶會變得更聰明,最終還是能通過鑽空子來創作違規內容。”Yildirim說道。

來源:《華爾街日報》