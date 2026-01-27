來到長期深耕大型語言模組訓練的新創公司，了解訓練的過程，問到「台灣有哪幾個國家公園」的問題，有用到數發部發布的台灣主權AI訓練語料庫，可以明確回答數量、名稱，還有簡單的介紹；而如果只用國際語料庫訓練的模組，得到的答案，卻會出現合歡山這些不存在的國家公園。

APMIC技術副總宋豐价表示，「訓練個模型而言，我們需要的語料是非常之龐大的，那這樣子很巨量的語料的話，還是要仰賴政府去授權提供給我們會比較好，越符合我們平常溝通的方式，其實是越容易問到我們想要的答案。」

為了讓AI模型的訓練更貼近台灣的語言和文化，數發部去年底首度發布台灣主權AI的訓練語料庫，當時已有超過200個政府機關投入，上架2000多筆資料集，總計有超過6億組的詞元。如今上線一個多月，平台已經突破11億組詞元，正體中文的語料規模幾乎翻倍。

數位發展部資料創新司科長林哲豪指出，「語料的擴充，不僅提升整個主權AI模型，訓練所需要的一些在地化的語言跟文化的內涵，也是模型訓練重要的基礎來源。」

東吳大學兼任助理教授、資訊軟體服務商業同業公會副理事長張榮貴表示，「可以讓國外做模型的人拿去訓練，能夠去增加更多的正體中文的描述啦，文化涵意啦，我們的認知啦，這些對於模型以後反映出來，會比較平衡。」

學者分析，國際的AI模型訓練上，因為華文語料幾乎以簡體為主，正體中文較少，很容易出現抓到的資料是中國的解讀模式，容易出現偏差、錯誤，而台灣主權AI的訓練語料庫，可以提供台灣本土的思維模式，呈現台灣的文化價值，也可掌控語言主權。