廣告

客語語料庫導入AI技術 保存客家文化

為了保存客家文化,呈現客語全貌,客委會建置台灣客語語料庫,逐步將文字及語音數位化.目前書面語料已有500萬字、口語語料10萬字,三年後將正式上線。不但是全台灣,也是全世界第一個由官方帶頭建置的客語語料庫,還導入人工智慧技術,宣示開創客語AI新時代!

透過採錄客語口說訪談,再由客語母語人士轉寫,利用系統機器學習,匯入語料庫。客委會推動客語結合AI,要讓想學客語的人輕鬆對話!

為了保存客家文化,客委會從106年底開始建置「台灣客語語料庫」,將文字及語音數位化,這是全台灣,也是全世界第一個由官方帶頭建置的客語語料庫!

客委會主委李永得表示:「客語語料庫可以讓人做研究,可以讓人學習,同時語言絕不會斷可以保存,最重要可以在未來在AI平台上,客家話可以跟全世界,各種語言做對話。」

「台灣客語語料庫」已經完成書面語料授權出版品316筆、149筆單篇文章,而且處理語料庫書面語料500萬字、口語語料10萬字,還完成語料庫斷詞系統。

其中在客語口語語料部分,透過政大團隊親自採錄的客語口說內容,像是訪談,演講等等。每一筆口語預料,都有經過正式授權同意。

客語語料庫計畫共同主持人劉慧文表示:「應用上是有可能是出現對譯,比方說跟華語對譯,跟英文對譯,或者是說應用在長照上面,如果老人家不會說,其他的語言的話,客語這個部分可以協助幫忙。」

台灣客語語料庫預計在111年底正式上線,客委會希望不只是保存客家文化,也透過導入智能AI技術,擴展客語翻譯跟別的語文對話,未來產製客語的各項加值服務,達到永續客語的目標!

(民視新聞/楊怡安、郭文海 台北報導)