ChatGPT的語言偏見:令非英語使用者「掉隊」的三種方式

印度企業家資料照片
在非英語產品中使用硅谷人工智能的企業處於不利地位。

專家警告說,由於人工智能(AI)系統向英語傾斜,令全世界的非英語使用者正在「掉隊」。

聊天機器人ChatGPT和谷歌Bard等AI生成工具正在為數百萬人帶來新技能和商業理念,但也有可能讓更多人處於弱勢地位。

在過去幾個月裏,通常由政府支持的公司競相推出或開始為其母語構建AI,包括印尼語、日語、漢語、韓語和印度的多種語言等。

但它們能否與硅谷的AI機器人相抗衡,或提供可靠的替代方案呢?

以下是非英語使用者被生成式AI浪潮甩在後面的三種方式,以及為什麼我們需要重視這個問題。

1. 對於非英語使用者來說,凖確性更低,成本更高

機器學習工程師鄭甄妮(Yennie Jun,音譯)在用不同語言測試ChatGPT-4時,開始注意到這個問題。

「我發現速度慢了很多,而且不像使用韓語和漢語時效果那麼好,因為它們通常有高質量的訓練數據可供使用。」她說道。

本月早些時候,鄭甄妮決定用一些棘手的數學問題來測試OpenAI的最新人工智能模型GPT-4。

ChatGPT背景和OpenAI標識
聊天機器人ChatGPT等AI生成工具正在為數百萬人帶來新技能和商業理念,但也有可能讓更多人處於弱勢地位。

她用16種不同的語言提出相同的數學問題,結果發現GPT-4在解決某些語言(如英語、德語和西班牙語)的問題時表現得更好。

事實上,GPT-4能夠正確解決用英語提出的數學問題的概率,是亞美尼亞語或波斯語等其他語言的三倍。而它無法解決用緬甸語或阿姆哈拉語提出的任何難題。

這只是鄭甄妮為強調ChatGPT和其他所謂AI「大型語言模型」的不平等性,而進行的最新實驗。

在今年夏季早些時候進行的另一項測試中,鄭甄妮製作了一個「Tokenizer」(分詞器)工具,用來說明為何這些AI模型在處理非英語語言時會困難重重。

AI會將語句分解成更小、更易理解的語塊,即「token」(詞節;也被譯為標記)。它對語言的理解程度越低,創建的詞節就越多。例如,如果你用不同的語言在她的分詞器工具中輸入「告訴我羊肚菌」(tell me about morel mushrooms)這個簡單的語句,詞節的數量會有很大的不同:

  • 英語:6個詞節

  • 西班牙語:8個詞節

  • 漢語(中文):14個詞節

  • 緬甸語:65個詞節

這很重要,因為這意味著非英語用戶面對的結果會稍慢一些,而且由於提示框受到詞節長度的限制,他們也無法像英語用戶那樣在提示框中輸入那麼多單詞。

但鄭甄妮表示,這種不平等帶來的真正劣勢,來自於企業試圖利用這些AI構建產品和服務。

例如,如果一家蘑菇種植企業在自己的應用程序中內置了ChatGPT-4來回答客戶提問,那麼該公司為緬甸客戶提供服務的成本將是英語客戶的10倍,因為為滿足客戶要求需要大量的詞節。

這並非僅限於ChatGPT,所有大型語言模型都會存在類似的差異。當你向谷歌的Bard詢問這個問題時,它也承認了這一點:「Bard對非英語語言的詞節化可能會導致用其他語言提出提示的速度更慢、成本更高,因為非英語語言的詞節化過程要比英語複雜得多。」

2.以英語優先的AI無法反映其他文化

OpenAI首席執行官薩姆·奧爾特曼(Sam Altman)在美國參議院委員會就人工智能的潛力及其風險作證。
在美國參議院委員會的聽證會上,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)被質疑該工具偏向英語使用者。他表示該公司「同樣重視」保障其他文化也被納入其中。

英語在互聯網上佔據主導地位,目前也在人工智能領域佔據主導地位。

這背後的原因在於,大多數AI模型都是使用從開源互聯網上搜集來的數據進行訓練的,而這些數據絕大多數都是英語。

非營利組織「民主與技術中心」(CDT)在其關於AI語言偏見的報告中指出,儘管全球只有16%的人口使用英語,但英語網站卻佔全球網站的63.7%。

英語經常被描述為一種「資源極多」的語言,從社交媒體帖子到商業報告和科學論文,英語文本似乎取之不竭。

但是,一種語言的網絡資源豐富程度與其使用人數並不成正比。

例如,「民主與技術中心」研究員表示,儘管非洲大陸有6億多互聯網用戶,但幾乎所有的非洲語言仍是「資源很少」的語言。

學術界對語言的分類各有不同,但以下是對語言資源狀況的總體概述:

  • 資源極多的語言:英語

  • 資源很多的語言:中文(漢語)、日語、西班牙語、德語、法語、俄語、阿拉伯語

  • 資源中等的語言:印地語、葡萄牙語、越南語、荷蘭語、韓語、印度尼西亞語、芬蘭語、波蘭語、捷克語

  • 資源很少的語言:巴斯克語、海地克里奧爾語、斯瓦希裏語、阿姆哈拉語、緬甸語、切羅基語、祖魯語和大多數其他語言

OpenAI沒有透露英語在ChatGPT的訓練數據中所佔比例。如果你詢問AI,它的回答是「數據集中語言的具體分類和百分比仍然是專有信息」。谷歌的Bard被問及這些信息時也表示,具體的數據樣本是「機密的」。

正如「民主與技術中心」在其報告中所說,「這種(對某種語言的)偏向未能反映全球互聯網用戶所使用語言的多樣性,並進一步延續了英語的主導地位」。

鄭甄妮說,她的實驗也發現了強烈的西方偏見。

「我做了一些實驗,比如向AI詢問歷史上重要的事件和人物,即使你用其他語言詢問,它仍會得出非常偏向西方的人物和事件。」她說。

3. 硅谷可能不會解決不平等問題

Chat GPT
「民主與技術中心」和其他研究者在內的一些人認為,多語種語言模型對於非英語用戶的表現仍然較差。而另一些語言擁有更大的數據集,這意味著翻譯和轉錄會更加凖確。

「民主與技術中心」認為,美國公司沒有投入同樣多的資金來改善非英語客戶的體驗,因為從全球南方等地區獲得的收入更少。

據《連線》(Wired)最早報道,OpenAI的一名員工去年在一個開發者論壇上承認,該公司的模型「有意使用英語訓練」,「任何好的西班牙語結果都是額外獎勵」。

在美國參議院委員會的聽證會上,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)被質疑該工具偏向英語使用者。他表示該公司「同樣重視」保障其他文化也被納入其中。

OpenAI和谷歌都沒有回應我們向其新聞辦公室提出的問題。

另一家AI巨頭Meta正在投資一個名為「不落下任何語言」(No Language Left Behind)的大型翻譯項目,以改進數百種語言的機器學習翻譯工具。但即便如此,該公司也承認其最新的大型語言模型Llama 2對於非英語用戶來說「仍然很脆弱,應謹慎使用」。

尼克·亞當斯(Nick Adams)是專注於AI的風險投資基金「微分創業」的創始合伙人。他表示,如果繼續維持現狀,那麼資金和投資將繼續流向那些已經很富有的公司、國家和語言。

「我認為,AI的現狀會加速不平等,而不是讓它變得更好。新興市場沒有足夠的算力、數據集或AI所需的財力來與西方世界的模型競爭。」他說。

除了缺乏對非英語AI的投資外,數據問題也很難克服,甚至超出了美國科技巨頭的能力範圍。

人們曾一度認為,開發多語種語言模型可以解決數據差異問題,即通過訓練人工智能模型來發現資源較多語言的模式,並將其應用於資源較少的語言。但包括「民主與技術中心」和其他研究者在內的一些人認為,多語種語言模型對於非英語用戶的表現仍然較差。

The Bhasha Daan initiative
「巴沙達安倡議」邀請人們「通過驗證數據來改進自己的AI語言模型」,它向參加者播放不同的印度語言播客或節目音頻,然後給予數字獎牌以獎勵他們將其翻譯成自己的語言。

印度電子和信息技術部發起了一個野心勃勃的項目,旨在通過眾包提高低資源語言的訓練數據量。

「巴沙達安倡議」(Bhasha Daan initiative)邀請人們「通過驗證數據來改進自己的AI語言模型」。該計劃向參加者播放不同的印度語言播客或節目音頻,然後給予數字獎牌以獎勵他們將其翻譯成自己的語言。

但是,該方式仍然道阻且長。儘管母語人口眾多,但迄今只有幾千人參與其中。