誰是「布什」總統? 中研院「台版GPT」餵入大陸用語

國民黨立委葉元之(左)。(葉元之提供)
國民黨立委葉元之(左)。(葉元之提供)

國民黨立委葉元之今(20)日質詢中研院時指出,上次中研院開發的「台版GPT」,被發現使用到大陸資料,但今天又被他發現「斷詞系統」也有不符合台灣語境的「布什總統」,要求中研院立刻改進。

葉元之說,之前中研院開發的小型研究專案「台版GPT」,被人發現出現很多中國大陸使用的語境,比如說詢問「我國最高領導人是誰」,「台版GPT」回答習近平;詢問「你是誰創造」,台版GPT回答「我是復旦大學創造」。這明顯用到大陸的資料Date,當時中研院表示會修正。

不過葉元之發現,中研院同一個實驗室製作的另外一個斷句系統(輸入一整句,系統會幫忙上標點符號),依舊有使用中國大陸語境,一登入使用介面的範例就是「美國總統布什…」,明顯不符合台灣人語境,因為台灣人通常是稱「布希」總統。

葉元之質疑,在上一個「台版GPT」系統出問題時,就應該做全面的檢查,不應該還被發現有一樣的狀況。

中研院長廖俊智答詢表示,看起來這系統的做法,是拿網路上所有繁體中文可以搜尋到的詞句作為來源。

資訊所所長廖弘源補充,斷詞系統是使用繁體字作為樣本,來源是英國BBC網站繁體資料。

葉元之認為,一般民眾不會在乎資料來源是哪裡來的,只會質疑為什麼中研院系統會出現「布什總統」這樣的大陸用語;尤其這一案比上次「台版GPT」花的經費更貴,花費100~200萬元,在上次出問題的時候就應該做一個通盤的檢討,不應該再有類似情況發生。