誰是「布什」總統? 中研院「臺版GPT」喂入大陸用語
國民黨立委葉元之(左)。(葉元之提供)
國民黨立委葉元之今(20)日質詢中研院時指出,上次中研院開發的「臺版GPT」,被發現使用到大陸資料,但今天又被他發現「斷詞系統」也有不符合臺灣語境的「布什總統」,要求中研院立刻改進。
葉元之說,之前中研院開發的小型研究專案「臺版GPT」,被人發現出現很多中國大陸使用的語境,比如說詢問「我國最高領導人是誰」,「臺版GPT」回答習近平;詢問「你是誰創造」,臺版GPT回答「我是復旦大學創造」。這明顯用到大陸的資料Date,當時中研院表示會修正。
不過葉元之發現,中研院同一個實驗室製作的另外一個斷句系統(輸入一整句,系統會幫忙上標點符號),依舊有使用中國大陸語境,一登入使用介面的範例就是「美國總統布什…」,明顯不符合臺灣人語境,因爲臺灣人通常是稱「布希」總統。
葉元之質疑,在上一個「臺版GPT」系統出問題時,就應該做全面的檢查,不應該還被發現有一樣的狀況。
中研院長廖俊智答詢表示,看起來這系統的做法,是拿網路上所有繁體中文可以搜尋到的詞句作爲來源。
資訊所所長廖弘源補充,斷詞系統是使用繁體字作爲樣本,來源是英國BBC網站繁體資料。
葉元之認爲,一般民衆不會在乎資料來源是哪裡來的,只會質疑爲什麼中研院系統會出現「布什總統」這樣的大陸用語;尤其這一案比上次「臺版GPT」花的經費更貴,花費100~200萬元,在上次出問題的時候就應該做一個通盤的檢討,不應該再有類似情況發生。