LLM有害?讓AI大型語言模型更好用

AI大型語言模型(LLM: Large Language Models),如ChatGPT,已成為一項革命性技術,能生成各種內容,並處理各種任務,包括文本生成、摘要、翻譯、分類和聊天機器人互動。這些模型透過海量資料的訓練,而獲得合成看似新穎且智慧輸出的能力。但是伴隨其卓越的能力,LLM也帶來了一系列必須解決的挑戰。

開發和維護LLM的一大障礙是需要大量計算能力,訓練這些模型需要大規模的硬體基礎設施,如高性能GPU或TPU,來處理龐大的處理需求。這不僅需要大量資金投入,而且還引發能源消耗和環境影響的擔憂。隨著模型規模增大,其能源需求也會增加,有估計稱ChatGPT的單日營運成本,可能高達數十萬美元。

確保LLM輸出的準確性和完整性,是另一個關鍵挑戰,隨著這些模型規模和複雜度的增長,理解其內部機制和決策過程變得愈來愈困難。保持透明度和可解釋性尤其重要,特別是在醫療保健或金融等敏感領域。企業必須投入資源,來提高LLM的可解釋性,並建立系統化的流程來更新模型、重新訓練和版本控制,以確保持續的相關性和性能。

健全法律框架和安全措施,發揮LLM的優勢

LLM面臨一些必須解決的法律和道德挑戰,一個重大隱憂,是侵犯版權的可能性。由於LLM在包括版權作品在內的海量資料集上訓練,生成的內容可能包含與原始來源過於相似的內容,從而可能侵犯版權。另外,作者和藝術家是否同意將他們的作品用於訓練LLM,也值得商榷。

LLM也可能出現偏差,並產生虛假資訊,因為它們無法區分事實和虛構。隨著線上學習興起,用戶輸入不斷被納入訓練過程,導致審核資料的準確性和公平性,變得愈來愈困難。在存在偏差或不準確資料的情況下訓練的模型,可能會助長偏差觀念、傳播虛假資訊,並在某些情況下,提供看似可行但實際有害的建議。

另一個潛在問題,是LLM生成的內容可能會汙染互聯網,由於披露「在內容創作中使用AI」並非法律要求,網上可能已存在大量LLM生成的材料。隨著生成資料的便利性和速度不斷提高,互聯網可能會被低品質的AI生成內容淹沒,從而可能導致品質惡化,實現互聯網的死亡(內容不再可信可用)。

為了降低這些風險,充分發揮LLM的潛力,我們需要建立一個全面的法律框架來規範其使用。該框架應涵蓋隱私、法律和道德方面,並就驗證訓練資料集中是否存在偏差、虛假資訊和個人資料,提供指引。此外,LLM應配備強大的內容篩檢程式,以防止生成有害輸出,並應進行安全評估,以確保模型不受惡意軟體、篡改和技術缺陷的影響。

LLM代表一種變革性技術,具有巨大的潛力,但其開發和部署也帶來了重大挑戰,需要解決計算能力需求、可擴展性問題、人才短缺、準確性問題、法律和道德困境等,只有透過AI專家、資料科學家、網路安全專家和政府機構之間的合作,並實施健全的法律框架和安全措施,我們才可以發揮LLM的優勢,同時降低風險,確保人類福祉受到保護。

本文章反映作者意見,不代表《遠見》立場

(作者為台北商大前校長、叡揚資訊數位轉型大使)

更多精采報導,歡迎加入《遠見》 Line官方帳號!