聯發科與中研院、國教院合力開發以千億參數的繁體中文 AI 語言生成模型開放開源下載

對於台灣或是香港的搜尋與 AI 翻譯使用者,應該都會對於多數語言模型別說是分辨香港繁體或是台灣繁體,甚至簡繁用語也完全不分的情況感到頭痛,不過未來繁體中文使用者有望獲得更好的 AI 繁體語言使用環境;聯發科集團旗下所屬的前瞻技術研究單位聯發創新基地、中央研究院詞庫小組與國家教育研究院三方組成的研究團隊宣布,將開放全球首款繁體中文語言大型模型到開源網站進行測試,此次釋出的繁體中文大型模型以開源 BLOOM 模型為基礎,相較當前可用的最大繁體中文模型大 1,000 倍,所使用的訓練資料也高出 1,000 倍,當前開放外界下載,可用於包括問答系統、文字編修、廣告文案生成、華語教學與客服系統。

目前開源的大型語言模型多以英文為優先最佳化對象,透過遷移學習的繁體中文模型在字詞方面的效果與語意理解能力較為不足;中央研究院詞庫小組在 2019 年開發並公開 BERT 與 GPT-2 的繁體中文優化版本,但由於訓練的資料量不足,相較主流大型語言模型的差距持續擴大。

有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性,聯發創新基地、中央研究院詞庫小組與國家教育研究院三方在 2022 年 5 月展開合作計畫,透過大型語言模型 BLOOM 的繁體中文模型進行再訓練與優化,是當前首款具大型規模的繁體中文語言模型;連發科創新基地當前暫備一個手機網頁介面公語言研究者試用;此模型系列的評量指標與參數達 176B 的模型預計在後續開放下載。

為實現具可用性的繁體中文大型語言模型,國家教育研究院提供大量高品質的繁體中文語料作為訓練材料,連發科創新基地建構用於訓練的硬體環境,並制定各種符合國際標準的繁體中文評量指標與蒐集更近期的語料,同時針對模型進行更有效讀懂使用者的指示( prompt )的特別訓練。而中央研究院詞庫小組則針對生成的文字是否帶有偏見與敵意等不合適內容進行自動偵測與改正的研究與評估。最中三方結果皆達到當前開源繁體中文語言模型未有的成果,並相對避免具有偏見與敵意的內容。

更多Cool3C文章
歧路旅人2攻略心得:角色分析、地圖指令、固有技能、潛力整理
Netflix我是千尋電影心得:有村架純觀察日記、反差產生美感、片尾彩蛋