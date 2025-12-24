（中央社記者趙敏雅台北24日電）數發部今天發布台灣主權AI訓練語料庫，廣納高品質、具在地化的正體中文語料，已有超過200個政府機關投入，上架逾2000筆資料集、超過6億Tokens，有需求者可至台灣主權AI訓練語料庫（https://taic.moda.gov.tw）申請。

數位發展部今天舉行記者會，宣布台灣主權AI訓練語料庫上線。數發部次長侯宜秀表示，人工智慧（AI）發展的護城河在於資料與人才，在資料面向，數發部已提出「促進資料創新利用發展條例」草案，並建置台灣主權AI訓練語料庫，強化AI發展基礎。

數發部資料創新司司長莊明芬說明，台灣主權AI訓練語料庫已有超過200個政府機關投入，上架逾2000筆資料集、超過6億Tokens，收錄各機關具台灣文化特色的高品質資料集，內容涵蓋語言、文化、教育、生物、地理環境等領域，這些資料就像AI的教材，幫助AI模型更了解台灣，學會更自然、更貼近台灣社會的語言表達能力。

莊明芬舉例，教育部提供的語言辭典資料涵蓋台語、客語及國語等，有助強化AI模型的用詞精準度與語意理解能力；文化部上架的公共藝術及文化資產類型資料集，展現台灣豐富、多元的藝文風貌，可作為訓練AI模型認識台灣文化內容的重要素材。

莊明芬表示，為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」，數發部與經濟部智慧財產局合作，共同推出「台灣主權AI訓練語料授權條款-第1版」，讓語料釋出有明確的授權依據，減少AI訓練資料可能產生的著作權爭議。

莊明芬說明，AI模型訓練等需求者可上台灣主權AI訓練語料庫（https://taic.moda.gov.tw），申請帳號並上傳相關文件，語料庫維運管理單位在收受申請案後7個工作日內完成審查，並以電子郵件通知帳號啟用；為確保帳號安全性及有效性，帳號啟用後每3個月，須重新進行憑證驗證。

侯宜秀指出，台灣主權AI訓練語料庫第1階段為中央機關先行，各政府部門上傳資料，只要有新資料加入，語料庫就會同步更新；第2階段為地方政府投入；第3階段將與民間團體合作，未來也希望有更多開發者、研究單位、學校及國際AI開發公司使用，讓大語言模型更貼近台灣需求，也確保有足夠的資料讓產業運用。

數發部說明，詞元（Tokens）簡單來說是AI模型的最小單位，AI不像人類可以一次讀完一句話再回應，而是一字字讀進去，再一字字產出。在這過程中，模型是以詞元（Tokens）為最小運算單位進行處理。（編輯：潘羿菁）1141224