【2023年度風雲人物6】AI會說台灣人的中文台語模型也完備「真歡喜看著你」

曾芷筠

2023年12月26日下午4:58

國科會推動可信任生成式AI對話引擎計畫（TAIDE），模型訓練組召集人是中央資工系教授蔡宗翰。（翁睿坤攝）

不畏通膨與升息，2023年生成式AI在全球經濟異軍突起。超級運算掀起滔天巨浪，加速產業變革，也重新定義人們慣習思考、學習與創作的場景。

在這波轉型浪潮中，台灣有一群人也站上浪頭。他們或是掌握供應鏈先機的科技業大老，或是突圍出海的創業者，甚至是敲響警鐘的創作人，以及守護台灣價值的工程師與律師。他們讓AI不只是矽谷巨頭、中美大國之間的權力遊戲，也帶台灣迎向新世界。

今年6月國科會公開「台版ChatGPT」第一階段測試，專案模型組召集人蔡宗翰和一群平均年齡不到25歲的工程師緊盯黑壓壓的對話模型框，當模型一字一句吐出中文，卻不見ChatGPT系統常出現、台灣人不會使用的「總的來說」「人工智能」等中國用語，蔡宗翰開心笑了，「很像在教一個從美國回台灣的ABC，我們說一句，他說一句，當他終於可以講得很流利，而不是怪裡怪氣的字句，那應該是我的AI時刻吧。」

國科會推動可信任生成式AI對話引擎計畫（TAIDE）後台，對話語氣參數等都可以調整。（翁睿坤攝）

餵養台灣素材打造語言模型

ChatGPT問世一年，矽谷科技巨頭微軟、Google相互較勁，各國軍備戰也開打，中國推自產的「悟道」「文心一言」，法國有「Bloom」可理解46國語言。台灣產官學各單位也動起來，試圖打造台灣的大型語言模型，商用如聯發科的BLOOM-zh、台智雲的福爾摩沙，官方有如國科會的「可信任人工智慧對話引擎」（Trustworthy AI Dialogue Engine，簡稱TAIDE），另外，直接以台灣為名的「Taiwan-LLM」，由台大資工系博士生林彥廷與台大資工系指導教授陳縕儂獨立開發、開源釋出，11月釋出的2.0版，包括數位部已嵌入內部工作流程，台積電、聯發科也來探詢。

「去年看到ChatGPT出來，想說：哇，『這東西也太厲害了！』又支援中文，直覺那是美國、矽谷、大公司才能做的事，沒想過我們也能做，」大學念資管系的林彥廷，因大三修習機器學習的課，對自然語言產生興趣，改攻資工博士，今年5月到亞馬遜實習時，剛好也在相關開發小組，7月，當他看到海外一些社群運用Meta開源模型LLaMA2開發出落地版的大型語言模型，立刻向指導教授、台大資工系副教授陳縕儂提案並得到支持。

ChatGPT等由大國、科技巨頭催生的大型語言模型，台灣資料占少數，容易出現簡體，用語也不台灣。

「每個時代都有科技的buzzword（流行語），但語言模型不一樣，之後會被大量應用，尤其在教育、法律與醫療領域…它可能變成私人家教，取代部分學習的功能，當它牽涉很多價值觀，卻滲透到小孩的學習，做底層模型的源頭管控很重要，」林彥廷說，Taiwan-LLM的初衷是讓語言模型能流暢說台灣人會說的繁體中文，下一步則是調教成能提供在地知識的對話機器人。然而，初步篩選資料就遇到困難。

第一版他們採用包含由國際非營利組織Common Crawl自動抓取的中文網站檔案，即便已排除簡體字來源，甚至要求網站只要有一個簡體字，整筆資料刪除，訓練出來的語言模型還是會給出「台灣是中國」的答案。「中國有大量的內容農場網站翻成繁體，因為廉價，又很好爬（程式自動抓取），即便篩選過，資料仍充斥大量中國大陸的文本。」林彥廷推估。

台大資工系博士生林彥廷，所開發說流利繁體中文的「Taiwan-LLM」，目前數位部已採用。

國家專案計畫資料授權謹慎

第一版結束後，他們四處談合作，最終由日商優必達與亞馬遜協助提供算力；資料集的部分，他排除第一版的網路公開資料，選擇餵入台灣新聞、社群網站、維基百科、司法院、法典、法學資料庫等，約300億繁體中文字，「很意外，第二版不用特別過濾，也不會產生國籍錯誤。」他另外寫了100多題問答訓練，確保語言模型在穩定情況下，不會在敏感的政治議題出錯，包括準確解釋戒嚴、避免政黨偏好，現在若問它「NTU」，答案也不再是通用大型語言模型會跑出的南洋理工大學（Nanyang Technological University），而是台大。

國科會的TAIDE計畫也建立在開源模型。同時是中央資工系教授、中研院人社中心研究員的蔡宗翰說，關於台灣是否要開發自己的大型語言模型，一直有爭論。畢竟從頭開發一個大型語言模型，除了需要一兆字元的基礎訓練，成本也過於高昂，但他認為，台灣已錯過一個世代的網路發展，「我們沒有自己的搜尋引擎、社群網站，人才沒辦法拿到最好的資料，也不能確保資料隱私。」2月，當國科會主委吳政忠宣布，台灣應該要有自己的ChatGPT，避免被大量簡體中文資料主導，他很快被計畫主持人、資通安全專題中心執行長李育杰找來負責模型訓練組。

國科會TAIDE團隊在國網中心。開發大型語言模型需要算力，由國網中心支持。前排左四為蔡宗翰，左六為計畫主持人李育杰。（蔡宗翰提供）

因為是國家專案計畫，第二階段又希望商用，資料集的來源、授權，需比學界獨立試驗開發的計畫來得謹慎。蔡宗翰和團隊老師、30多位工程師，除了蒐集包括中央社、維基、學術會議論文摘要等十多種資料，整理成一段一段乾淨的字條，餵入模型，展開文字接龍的中文基礎教育，科政中心也跨部門調取政府公開資訊與學術論文，同時與新聞媒體、出版社等機構洽談。「品質好的內容，才能訓練好的內容。」蔡宗翰也提到，當中資料屬性平衡、個資隱私訊息都要另外處理。

資料庫打地基守住本土文化

TAIDE在六月中公開初代測試模型，截至12月初，第二階段的模型在自動摘要、翻譯文本、寫信、寫文章等任務表現能力，已超過去年底的ChatGPT 3.5，但因安全性評測未建立完成，申請才能使用，目前有包括勞動部等3、40個單位簽署合作備忘錄。

蔡宗翰笑說，短時間要完成這麼大的任務，除了30多位工程師日夜趕工，他們也運用一些機巧，譬如LLaMA的模型說的是英文，他們先做一個翻譯機，訓練初始便問模型Meta當時怎麼訓練它，結果模型吐出30多萬條提問，再讓模型自己回答達成訓練。TAIDE也利用做好的中文模型，發展台語、客語模型，已完備的台語模型，招呼語就是「你好！真歡喜看著你」，12月初在新加坡，Meta主管和科學家都表示出興趣。只是少數語種的資料量，落差更明顯，英文一T，繁中一B，台語只有一M，原住民語言模型，其他團隊還在開發努力。

無論是Taiwan-LLM或TAIDE，未來如何擴大提升繁體中文語料、算力及法律，步步是挑戰。但就像吳政忠表明的，台灣不能萬事問ChatGPT，建置大型語言模型像「打地基」，未來除了提供公私部門加值應用，也是守住台灣珍貴的語料和文化。

姊妹淘·2 天前
《歌手》回歸！重磅名單曝光，BLACKPINK Rosé將驚喜加入？
《歌手》宣佈重啟，參賽名單瘋傳。陶喆、那英、Rosé、Bruno Mars等引熱議。新季5月10日首播，名單曝光，傳陳奕迅候補。討論那英地位，猜測參賽者真實性。網友樂觀但懷疑，期待開播揭曉。
三立新聞網 setn.com·2 小時前
震央在中央山脈的地震終於還是發生了　王士豪醫師籲：別入高山「危邦」
記者李鴻典／台北報導0403花蓮強震後，大小餘震不斷，根據氣象署觀測資料，今天（4/30）17:35發生芮氏規模4.4地震、地震深度7.5公里，震央位於花蓮縣萬榮鄉；高海拔醫學權威
Reactions25
三立新聞網 setn.com·21 小時前
大二女生被王晶看上！演三部電影狂賺116億票房　如今成「最美晶女郎」
娛樂中心／綜合報導香港名導王晶執導過不少膾炙人口的電影，而且他挖掘演員常有點石成金的本事，捧紅了包括李麗珍、邱淑貞等女星，令不少嚮往加入娛樂圈的女孩子，也想搭上王晶的順風車。當中一
Reactions212
鏡週刊Mirror Media·17 小時前
【李多慧強壓林襄3】李多慧遭爆名花有主　200公分男友「經紀人」當掩護
礙於啦啦隊女神身份，一直聲稱是單身的李多慧，去年10月曾在個人 YouTube頻道影片中，開出「理想型」男友條件，包括要顧家、相處合得來，以及接受她的個性；至於長相和年紀則沒有任何限制，認為心靈契合更重要。不過據球界人士透露，李多慧根本早已名花有主，男友正是那名在台灣總跟在她身邊的韓國經紀人。
Reactions56
民視·6 小時前
張鈞甯逛地攤「厚重鏡框忘記脫」認不出！41歲近拍大臉嚇暈萬人
娛樂中心／曾郁雅報導41歲女星張鈞甯有著氣質的外貌，加上「高材生」的學業表現，自2002年出道至今，一直是粉絲榜樣，身為演技派演員的她，曾演出不少經典作品《我在墾丁天氣晴》、《痞子英雄》、《白色巨塔》等，成為不少觀眾心中戲劇女王，近日前進米蘭旅行的張鈞甯在IG分享一系列在街頭拍下素顏0偽裝的自然模樣，讓不少粉絲一見到她真實狀態都瞪大眼睛：「太美啦！」。
Reactions16
太報·14 小時前
傳胡瓜烙狠話「拿3、4千萬跟丁柔安離婚」　熊霓消失《綜藝大集合》　經紀公司證實了
資深藝人胡瓜先前與小44歲的樂天女孩熊霓傳出關係親近，然而後來補教名師徐薇的兒子江大成低調承認，正在熱烈追求女方，讓胡瓜與熊霓之間的關係降溫。據週刊報導，傳聞胡瓜的「照顧名單」又新增1人，就是曾參加節目《綜藝大集合》的女星宋羽葤。沒想到，近來又傳出胡瓜因為跟妻子丁柔安出現日常爭執，胡一度講出要拿3、4千萬元跟丁離婚的氣話。
Reactions44
三立新聞網 setn.com·12 小時前
獨家／爆拿4千萬離婚丁柔安！掰了熊霓換寵宋羽葤　胡瓜火大發聲了
記者蔡維歆／台北報導胡瓜（瓜哥）跟丁柔安今天遭《鏡週刊》報導出現日常爭執，甚至講出要拿4千萬元離婚的氣話，還傳出掰了熊霓後，新歡改寵宋羽葤。對此記者剛求證瓜哥，他火大駁斥：「你們一
Reactions92
TVBS新聞網·7 小時前
朱軒洋「正臉見不得人」！偷吃吳卓源形象全毀　廣告被剪到只剩背影
男星朱軒洋月初被拍到與「鄉民女神」Julia吳卓源在公園摟抱、隔罩擁吻等親密畫面，也因此與交往近6年的美妝YouTuber、「文山泫雅」Cindy分手。相較於Cindy風波過後已重新開始工作，朱軒洋和吳卓源神隱近一個月，吳卓源在捷運站的廣告即便沒被拆下，本人卻接連推多個早已排定的工作；而男方除了先前臨時取消出席運動品牌的活動，原本拍好的廣告也遭廠商切割「被消失」，只剩下一個背影。
Reactions18
三立新聞網 setn.com·5 小時前
戀情成真了？金秀賢「私下牽手」金智媛畫面瘋傳　網嗨：請原地結婚
娛樂中心／林汝珊報導人氣韓劇《淚之女王》28日播出大結局，以24.9%高收視率完美收官，劇組日前也開心出席慶功宴，飾演金秀賢姊姊的模特兒張允柱，昨（29日）PO出一
Reactions9
三立新聞網 setn.com·2 天前
汪小菲賣北京3億豪宅！大S私人物品全曝光　網見內部裝潢沉默了
娛樂中心／黃韻璇報導大S（徐熙媛）和汪小菲2021年離婚後風波不斷，先前汪小菲曾兩度闖大S豪宅還上警局揚言要實名舉報大S濫用藥物。近日汪小菲又被發現把他跟大S的北京豪宅拿出
Reactions57
今日新聞NOWnews·6 小時前
藍提案「凍漲電價」表決通過！政院回應了
[NOWnews今日新聞]立法院今（30）日針對「停止調漲電價並檢討能源政策」進行朝野協商未果，緊接著在院會上演表決大戰，針對國民黨提案「停止調漲電價並檢討能源政策」進行投票，表決通過此案。對此行政院...
Reactions129
引新聞·2 天前
地震危機未解！台大教授一張圖「示警」：這3斷層須高度戒備
（記者周德瑄／綜合報導）自4月3日花蓮發生規模7.2強震後，餘震持續不斷。根據氣象署統計，截至27日下午2點1 […]
Reactions44
今日新聞NOWnews·7 小時前
葉元之爆吳秉叡不在場卻投票　他嗆偽造文書
[NOWnews今日新聞]立法院會今（30日）表決國民黨所提電價凍漲公決案，卻發生案外案，國民黨立委葉元之指控，在表決「停止在彰濱工業區興建晶鼎焚化爐」時，民進黨立委吳秉叡於表決時明明人已不在議場，卻...
Reactions45
TVBS新聞網·2 天前
藍心湄暴氣！不滿「女星誇張行徑」錄影喊卡　主持《女大》21年首動怒
「藍教主」藍心湄自2003年主持TVBS《女人我最大》，節目邀請來賓分享穿搭、髮型和生活經驗等，播出21年來累積一票死忠觀眾。藍心湄日前在節目中分享，曾有位香港女星上節目宣傳，在吳依霖老師準備幫女星做造型時，對方的經紀人卻出聲阻止，讓藍心湄罕見動怒，錄影現場直接喊「卡」，直呼：「我主持20幾年，我第一次發脾氣，就是因為那位港星，那個女明星。」
Reactions16
中天新聞網·2 天前
好天氣要沒了！　4/30起雷雨再次發威「轟爆全台」
今（29）早豔陽高照，讓許多民眾誤信好天氣似乎回來了。然而，明（30）週二起，全台又再將轉雨。氣象署表示，尤其週三、週四的雨勢最大，因為鋒面通過導致天氣不穩定，各地也容易出現短暫陣雨或雷雨。
Reactions14
聯合新聞網（運動）·11 小時前
MLB／大谷翔平滿壘雙殺打→得點圈敲安日媒：污名奉還
第2局在滿壘時敲出雙殺打，大谷翔平很快就為自己平反，第8局再度遇到得點圈的打席，敲安貢獻1分打點，單場雙安，幫助道奇隊以8：4擊敗響尾蛇隊，道奇打線相隔18年再出現單場0三振的戰役。道奇的客場...
Reactions7
中天新聞網·13 小時前
5/1「媽祖生」恰逢勞動節！3生肖拜完媽祖「好運立刻到」
明天（5/1）農曆3/23也是「媽祖生」，恰逢勞動節。清水孟國際塔羅小孟老師表示，有三個生肖當天拜完媽祖之後好運立刻就到。
Reactions5
三立新聞網 setn.com·5 小時前
MLB／真的送禮！暴投+暴傳一口氣掉2分　平手變成輸
記者劉彥池／綜合報導真的是暴投送幸福，還一口氣送2分！你沒看錯，天使30日在主場迎戰費城人，7局下兩隊4：4平手，費城人後援投手1次失投加上捕手1次暴傳竟然掉了2分
今日新聞NOWnews·1 天前
民眾黨現新內鬥？前幕僚：柯文哲無法容忍他
[NOWnews今日新聞]有消息傳出，民眾黨主席柯文哲日前在黨團會議裡下令，要求黨內立委應深耕議題，避免民眾黨成「一人政黨」，同時也認為除重大議題共同表態外，應讓立委自主決定民生議題。對此，柯文哲前幕...
Reactions239
民視·1 天前
國民黨將提不信任案威脅行政院？李坤城：那就解散國會！
論壇中心/綜合報導國民黨擬推藐視國會相關法案，連歐洲在台商務協會都痛批「荒謬」，同時示警相關風險。更傳出國民黨在等520後，要發動行政院長不信任案，民進黨立委李坤城《全國第一勇》節目中直呼，要倒閣的話「我們就解散國會」，誰怕誰？
Reactions566

餵養台灣素材 打造語言模型

國家專案計畫 資料授權謹慎

資料庫打地基 守住本土文化

其他人也在看

餵養台灣素材打造語言模型

國家專案計畫資料授權謹慎

資料庫打地基守住本土文化