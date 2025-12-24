為了避免台灣開發的AI模型滿口「京片子」，或是缺乏在地文化認知，數位發展部 (MODA)稍早宣布推出「台灣主權AI語料庫」 (Taiwan Sovereign AI Corpus)Beta版。

數發部「台灣主權AI語料庫」Beta版上線，首波釋出6億組Token規模正體中文資料

首波集結了文化部、教育部、客委會、原民會、交通部等超過200個政府機關，釋出逾2000筆資料集，總計約6億組Tokens規模的高品質正體中文數據，涵蓋文化藝術、地理、語言、醫療與交通等領域，即日起開放產學研界申請使用。

為什麼我們需要「主權AI」？

數發部次長侯宜秀表示，各國都在發展AI，真正的護城河不是算力 (因為GPU只要有錢就買得到)，而是「資料」與「人才」。台灣獨有的文化、語言與價值觀，如果我們自己不做，沒有其他國家或科技巨頭會幫我們做。

資料創新司司長莊明芬舉了一個最經典的例子：「土豆」。 在中國的語境裡，土豆是「馬鈴薯」 (Potato)；但在台灣，土豆指的是「落花生」 (Peanut)。如果用錯誤的資料餵養AI，訓練出來的模型就會給出錯誤的答案，甚至導致文化認知的錯亂。加強繁體、正體中文的比重，才能讓大型語言模型 (LLM) 真正理解台灣的政經文化與價值。

兩大類資料，申請要看「身分證」

目前上線的語料庫分為兩個部分：

• 開放資料 (Open Data)：開放自由下載。

• 授權資料 (Restricted)：僅供AI訓練使用，需申請審核。

為了確保數據不被濫用，外界若欲使用授權資料，必須透過自然人憑證或工商憑證確認身分，並且說明使用目的。數發部約需7個工作天進行審核，通過後才會提供授權帳號供下載，目前提供的檔案格式包含通用的PDF與JSON，符合國際共享資料的FAIR原則 (可查找、可取得、可互通、可再利用)。

解決最頭痛的「版權」問題：一次性授權

對於開發者來說，訓練AI最怕踩到著作權地雷。對此，數發部與經濟部智財局合作制定了專屬的授權條款。

採用「一次性授權」模式，在授權人同意下，讓提供的語料能合法用於AI訓練 (包含重製、改作、編輯等)。相對地，被授權人 (開發者)也有義務標示資料來源，同時產出的內容需標示為以AI生成，並且確保訓練成果不會與原語料「實質近似」，以保障原創者的市場價值。

分析觀點：資料是AI時代的石油，但「量」與「質」仍是挑戰

筆者認為，數發部推出主權AI語料庫，是台灣AI發展基礎建設中極為關鍵的一塊拼圖。

過去一年，我們看到許多基於Llama或GPT微調的繁中模型，雖然對話流暢，但在涉及台灣法律、歷史、原住民文化或在地用語時，往往還是會「露餡」。官方出面整合高品質、經人工審核的政府數據，確實能大幅提升國產模型的「純度」。

不過，6億組Tokens規模對於現代 LLM 的訓練量來說，其實還僅是九牛一毛 (動輒數兆組Tokens規模起跳)。未來的挑戰在於如何從「中央政府」擴散到「地方政府」，甚至「民間企業」。唯有讓更多私部門的數據 (如新聞媒體、出版社、學術機構)在合理的授權與分潤機制下願意加入，這個語料庫才能真正成為台灣AI的大腦，而不僅僅是政府法規的資料庫。

