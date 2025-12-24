政府推動「台灣主權AI訓練語料庫」，目前上架超過6億個詞元(token)。數發部次長侯宜秀指出，資料與人才是發展AI的重要護城河，主權語料庫有助強化在地化模型發展。數發部未來將與各部會協作，持續累積符合台灣文化與價值的高品質數據。

為推動主權AI，數發部建置「台灣主權AI訓練語料庫」，目前有超過200個政府機關投入，上架超過2,000筆資料集、6億個詞元(token)，收錄具台灣文化特色的資料集，內容涵蓋語言、文化、教育、生物、地理環境等領域。資料如同AI教材，幫助AI模型學會更自然、貼近台灣社會的語言表達。

侯宜秀指出，AI資料庫中正體中文代表性不足，因此，推動屬於台灣的語料庫至關重要，資料更是發展AI的重要護城河，她說：『(原音)AI算力其實不見得是護城河，真正的護城河其實是資料和人才，這兩個部分數位發展部都會非常著力來推動。尤其在資料這一層，台灣專有的這些資料，除了我們以外，沒有其他的國家或是國際性的公司會來協助我們，因此，我們必須要在這方面建立一個好的制度，而且是持續不斷地累積。』

她說，除了政府單位，數發部也將攜手民間單位，包含開發者、研究單位、學校，以及Google、Anthropic等AI開發公司，共同使用語料庫。數發部也會提誘因，像是金質獎章機制，吸引更多政府部門參與。

數發部補充，第一階段由中央機關先行，建立高品質語料基礎；接下來將邀集地方政府投入，擴大語料的廣度與在地性。第三階段將導入民間量能，提供具台灣觀點、文化特色的高品質語料，用來訓練主權AI模型。

數發部除了推動語料庫，也提出「促進資料創新利用發展條例」，目前已送交行政院。侯宜秀指出，相信該條例將儘速送交立法院審議，進一步完善資料治理與應用。