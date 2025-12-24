進入數位發展部剛發布的台灣主權AI訓練語料庫，申請後取得使用資格，如果搜尋「土豆」一詞，會發現教育部的辭典，呈現「土豆」在台灣是指「花生」，可是在中國卻代表的是「馬鈴薯」，差別很大。

不過，國際的AI模型訓練上，因為華文語料多以簡體為主，AI學習後會把「土豆」就解釋成「馬鈴薯」，為了避免這種情況的不斷發生，數位發展部24日發布台灣主權AI訓練語料庫，強調目前已有超過200個政府機關投入，上架2000多筆的資料集。

數發部資料創新司長莊明芬表示，「這些資料涵蓋了我們文化藝術語言、教育醫療地理交通等等，都是一些高品質的一個資料。」

像是文化部的國家文化記憶庫，提供台灣的族群文化、宗教民俗等資料，具有台灣獨特的文化風貌。教育部提供的語言辭典，涵蓋台語、客語等，強化AI模型，對台灣用詞的精準度。

文化部綜合規劃司魏秋宜說道，「主動積極的盤點跟提供資料，協助主權AI進行訓練，提升主權AI在台灣文化的這個銓釋能力。」

學者分析，政府積極開放台灣主權AI的訓練語料庫，除了在網路華文世界爭取繁體中文的主權，也是基礎建設的建構、語言主權的掌控，以及台灣文化價值的散播。

淡江大學資工系兼任助理教授/台灣數位理協會常務理事張榮貴指出，「你沒做，那更抓不到， 那應該是說，我們把它整理，有計畫的釋出的話，那對於這些做模型的公司，如果知道這些訊息，那可能就會來拿去引用。」

數發部次長侯宜秀認為，「希望我們孩子們用的AI，是像台灣、像我們講話方式的AI，是分享我們價值的AI。」

數發部強調，語料庫透過合法授權，提供給AI模型訓練的工程師運用，這些給AI的教材，幫助AI模型更容易了解台灣，也學會更貼近台灣社會的語言表達能力，也希望公私協力提供資料，豐富語料庫。