深度揭秘 GPTZero:ChatGPT 檢測神器

在改變世界的技術方面,ChatGPT在其問世的短時間內確實對人們思考寫作和編碼的方式產生了巨大影響。

然而,這種能力帶來了一個顯著的弊端,特別是在教育領域,學生們很容易在自己的論文或考試中使用 ChatGPT。這種抄襲行爲妨礙了學生儘可能多地獲取知識,並給教師帶來了一個全新的難題:如何檢測人工智能的使用。

教師和其他用戶現在正在尋找檢測學生作品中 ChatGPT 使用情況的方法,許多人正在轉向像 GPTZero 這樣的工具,這是普林斯頓大學學生愛德華·田(Edward Tian)開發的 ChatGPT 檢測工具。該軟件對所有人開放,所以如果您想嘗試一下,看看某段特定文本是使用 ChatGPT 編寫的可能性,以下是您可以這麼操作的辦法。

GPTZero是一個網絡應用程序和服務,旨在檢測一段文本是由人類還是由人工智能編寫。目前,該系統據稱能夠檢測包括 ChatGPT、GPT-4 和 Claude 在內的各種大型語言模型的輸出,以及是否由人類與人工智能合作編寫。

它由 22 歲的普林斯頓大學計算機科學本科生、前微軟軟件工程實習生愛德華·田(Edward Tian)於 2023 年 1 月開發並首次發佈。在 X(原推特)上宣佈該平臺時,田指出,該分析基於普林斯頓大學博士候選人斯里揚·庫馬爾(Sreejan Kumar)的研究以及普林斯頓自然語言處理小組的工作。

GPTZero 是爲教育工作者設計的,但任何人都可以免費使用。使用免費賬戶,您每小時可以掃描 40 份文檔,並訪問 GPTZero 儀表板。每月 10 美元的基本計劃將每月掃描多達 150,000 個單詞,並允許使用“高級”人工智能檢測模型以及“抄襲掃描”和“高級語法和寫作”反饋。每月 16 美元的高級套餐將單詞數量增加到每月 300,000 個,並提供“高級人工智能深度掃描”和多語言人工智能檢測,以及專業級別的福利。頂級的每月 16 美元的專業訂閱每月提供 500,000 個單詞,另外還有 1000 萬個單詞的“超額”。這意味着有大量被察覺的抄襲情況。

雖然 GPTZero 宣稱其服務能力很強,但 一些用戶 發現該服務的準確性存在問題,比如經常錯誤地將人類編寫的文本標記爲人工智能生成的,並且在處理某些類型的生成文本時表現不佳。 按照 Reddit 用戶Smellz_Of_Elderberry所提的建議,我讓 ChatGPT 像高中生一樣寫一篇關於《老人與海》這本書的簡短故事。GPTZero 沒有被愚弄。

我又試了一次,用一些標點錯誤、動詞時態不正確和其他小錯誤修改了文本,但 GPTZero 仍然稱:“您的文本很可能完全由人工智能編寫。”

即使使用除 Claude 或 GPT-4 之外的文本生成器,該掃描仍能正確判斷出一段文本是否由人工智能生成。我讓 Gemini 1.5 Pro 寫了一份關於《老人與海》的單獨報告,但 GPTZero 也發現了。

GPTZero 的準確性仍在評估當中,不過依據這些個例測試,它貌似運行得不錯。

如果您使用 GPTZero,重要的是要記住可能會有錯誤。當使用 GPTZero 檢測人工智能或 ChatGPT 幫助撰寫文檔時,您仍然需要檢查工作中的錯誤。

GPTZero 會分析文本的隨機性,也就是所謂的“困惑度”,還有文本中這種隨機性的均勻程度,在統計學中這被稱作“突發性”。人工智能在其困惑度和突發性方面非常一致,而人類作者在無意識的情況下改變了這些特徵。

這項工作還沒完成,Tian 表示會添加更多測試來提高人工智能文本檢測的準確性。特別是,隱性偏見是正在探索的一個領域,作爲檢測文本是否由人工智能生成的另一種方式。

GPTZero 可在其 網站上使用。 只需複製您想要檢查的文本並將其粘貼到標有 試試看 的大框中。

還可以上傳 PDF、Word 文檔或者文本文件,然後點擊獲取結果按鈕。您還需要勾選表示您同意服務條款的框。

GPTZero 並不是當今市場上唯一的人工智能驅動的抄襲檢測器。OpenAI 提供其 GPT-2 輸出檢測器 並且 據報道已開發了更新版本,但尚未確定何時或是否會發布。Content at Scale AI 內容檢測、ZeroGPT(不確定它怎麼通過商標局的)、Writefull GPT 檢測器和 Originality.ai 都提供了類似的服務,不過準確性有所不同。

隨着 ChatGPT 的興起以及人工智能檢測工具的涌現,現在作者和讀者都有了一個新的擔憂,即如何判斷內容是否由人工智能創作,以及真正的寫作是否被標記爲來自人工智能。這對學生來說尤其成問題,如果被發現使用人工智能,他們可能會面臨來自學校或大學的後果。如今,一些學生習慣通過像 GPTZero 這樣的檢測器來運行自己的原創作品,卻發現即便不是人工智能寫的句子也被標記爲是人工智能所寫。

2024 年,《大西洋月刊》的作家伊恩·博格斯特(Ian Bogost)稱通過抄襲檢測軟件運行自己的原創作品,並發現最初,他驚人的 74%的作品被標記爲抄襲。經過仔細檢查和排除,他設法把這個數字降到了零,但這耗費了他幾個小時的審查和設置調整時間。

人工智能檢測類似於抄襲檢測,因爲二者都只能反映出一篇寫作是否原創以及是否由人類生成的最佳推測。而且這些工具需要大量仔細的審查,因爲兩者都可能傾向於產生誤報。如果您發現自己的作品在 GPTZero 上被標記爲人工智能生成,可實際上並非如此,那麼原因可能很廣泛,比如不是以英語爲母語、想法過於重複,或者使用了像 Grammarly 這樣的工具。

如果您的作品被標記爲人工智能生成,請仔細檢查您的所有引用和引文格式是否正確,並儘量避免使用像 Grammarly 這樣的自動工具進行編輯。

並且請記住,這是 GPTZero 的黑箱、“商業秘密”式的專有算法,聲稱您的寫作在統計上類似於整個公共互聯網上發現的其他示例。該公司不會在法庭上解釋其產品實際是如何工作的,或者證明其工作的準確性。因此,如果您確實發現自己因所謂的生成式抄襲而處於危險之中,那將是您與他們的對峙。請律師並讓他們證明他們的工作。

OpenAI 在 2022 年 11 月底向公衆發佈了ChatGPT,遠遠突破了許多文本生成人工智能所侷限的研究實驗室的範疇。到 2023 年 1 月,ChatGPT 擁有超過 1 億用戶,成爲增長最快的公共應用程序。

這意味着隨着這種人工智能輔助在生活的各個角落都可用,對抄襲的任何擔憂都只會愈發加劇。微軟正在將 OpenAI 的技術納入必應搜索,而谷歌正在測試自己的版本,稱爲 Gemini(以前稱爲 Bard)。

相關地,像 Dall-E 這樣的人工智能圖像生成器和Stable Diffusion因潛在的版權侵權問題而受到審查。所有這些人工智能服務都是在網上發現的數十億人創作的文字、照片和藝術品上進行訓練。

在某種程度上,人工智能是從人類智能中借用,而不是自己創造。如果我從另一個人那裡借用,我必須給予讚譽,並可能支付許可費。對於生成式人工智能,由於每個文本或圖像都會被分解爲分散的元素,然後通過數千或數百萬個來源重新組合來創建一個新作品,所以引用來源變得更加困難。

我們要麼需要重新思考我們對版權和抄襲的看法,要麼找到有助於識別人工智能生成材料的工具,並可能開發一種方法來感謝每一個爲人工智能生成的作品做出貢獻的衆多人員。