最低時薪僅9元,每小時或標註2萬個單詞…ChatGPT背後的“血汗工廠”曝光:有員工遭受持久心理創傷

於2022年11月發佈,ChatGPT被譽為當年最具創新性的人工智慧工具之一。這項強大的AI聊天機器人幾乎可以生成任何問題的文字,從莎士比亞的十四行詩,到用5歲孩子都能理解語言描述的複雜數學問題,可謂“無所不能”。

瑞銀此前發佈的一份研究報告顯示,ChatGPT的月活躍使用者在今年1月份預計達到了1億,這距離其推出只有2個月時間,成為史上增長最快的消費者應用

然而,在ChatGPT掀起的這場人工智慧“革命”和資本市場狂歡的背後,有一個被邊緣化的、被遺忘的卻又至關重要的群體,值得所有人關注,他們就是資料標註員。

據美國《時代週刊》上月中旬的報導,為了訓練ChatGPT,OpenAI僱傭了時薪不到2美元的肯亞外包勞工,他們所負責的工作就是對龐大的資料庫手動進行資料標註。

時薪1.32~2美元每小時或標註超2萬個單詞

從當下看來,OpenAI已經成為“生成式人工智慧”行業無可爭議的領頭羊。

最樂觀的投資者認為,電腦生成的文字、圖像、視訊和音訊將改變無數行業的經營方式,從創意藝術到法律,再到電腦程式設計,該技術都將提高人類的工作效率。

然而,資料標籤員工的工作條件揭示了行業背後“黑暗”的部分:儘管人工智慧魅力無限,但它往往依賴於全球最廉價的勞動力,他們往往被大幅剝削。儘管他們為數十億美元的產業作出了傑出貢獻,但這些幾乎“隱形”的工人仍然處於最邊緣的地帶。

《時代週刊》查閱的檔案顯示,OpenAI在2021年底與Sama簽署了三份總價值約20萬美元的合同,為資料庫中有害的內容進行標記

Sama是一家總部位於美國舊金山的公司,該公司僱傭了肯亞、烏干達和印度的外包員工。

大約30多名工作人員被分成三個小組,每個小組都專注於一個主題。三名員工對《時代週刊》表示,他們每9個小時要閱讀和標註150~200段文字。這些段落的範圍從100個單詞到1000多個單詞不等。如此計算,平均每小時他們最多要閱讀和標註超2萬個單詞

接受《時代週刊》採訪的四名員工都表示,這份工作給他們留下了持久的心理創傷。儘管他們有權參加健康諮詢師課程,但四人都表示,由於對工作效率的要求很高,他們只能選擇參加小組會議。其中還有一人表示,他們要求以一對一的方式與心理諮詢師會面的請求被Sama管理層多次拒絕

Sama官網截圖

合同規定,OpenAI將為該項目向Sama支付每小時12.50美元的報酬,這是該項目員工時薪的6~9倍

《時代週刊》稱,其查閱了數百頁Sama和OpenAI的內部檔案(包括工人工資單),並採訪了Sama四名參與該項目的員工,驚人的內幕顯示,Sama為OpenAI僱傭的資料標籤員工支付的時薪在1.32美元~2美元之間(約8.99元~13.62元),具體取決於資歷和表現

據Sama員工透露,“代理商”是三個小組中最初級的資料標籤人員,他們的基本工資為每月2.1萬肯亞先令(約170美元或者約1158元)。此外,他們每月還能獲得約70美元(約477元)的獎金,如果達到精準性和速度等關鍵績效指標,他們還可以獲得佣金。

按此計算,一名每天工作9小時的員工預計稅後時薪至少能拿1.32美元,如果超額完成所有目標,則最高可達到1.44美元。質量分析師是資歷更深的資料標籤員工,他們的工作是檢查“代理商”的工作,如果他們達到了所有績效目標,時薪可以拿到2美元

公開資料顯示,肯亞並沒有統一的最低工資標準,但當這些外包員工受僱時,肯亞首都內羅畢的最低時薪是1.52美元

據《時代週刊》報導,Sama的一名發言人在一份聲明中稱,公司對工人的要求是在9小時的工作中標註70段文字,而非200段。此外,工人們的稅後時薪是1.46美元~3.74美元,不過這位發言人拒絕透露哪類崗位會達到其所述時薪區間的上限。

OpenAI的一位發言人則在另一份聲明中稱,該公司沒有發佈任何的業績目標,且外包員工的工資和心理健康由Sama的管理層負責。

2022年2月,Sama開始為OpenAI的另一個項目進行試點工作,但工作內容根據美國的法律是非法的。儘管這項試點工作似乎與ChatGPT無關,但僅僅在幾週之內,Sama便叫停了與OpenAI的所有項目,比合同中約定的時間提前了8個月。

Sama當時在一份聲明中稱,其為OpenAI收集的圖像協議中不包括任何涉及非法的內容,直到相關工作開始後,OpenAI才發來“附加指示”,提到了“一些非法的類別”,隨後肯亞團隊的高管立即提出了擔憂並結束了該項目。

Sama曾向多家矽谷大廠提供類似服務自稱是“有道德的人工智慧公司”

訓練ChatGPT對OpenAI來說至關重要。

ChatGPT的前身GPT-3已經展示了非常強大的語句串聯的能力。然而,當時的GPT-3卻存在很多弊端,例如內容容易出現暴力、性別歧視等言論。之所以會出現這樣的不足之處,是因為AI工具從網際網路抓取了數千億個單詞來訓練,這也是一把雙刃劍——由於網際網路的詞彙有不少帶有偏見及負面的詞彙,因此單純憑藉學習能力無法來清除這些訓練資料。

《時代週刊》的報導顯示,即使是一個由數百人組成的團體,也需要幾十年的時間才能手動搜尋龐大的資料庫。OpenAI只能通過建立一個額外的、AI驅動的安全機制,才能控制上述弊端,創造出適合人們日常使用的聊天機器人。

《時代週刊》報導截圖

據報導,為了建立這個安全系統,OpenAI借鑑了Facebook(現Meta)等社交媒體公司的做法。此前,Facebook已經證明其可以建構能夠檢測仇恨言論等的AI工具,並將這些內容從其平台上移除。這項工作也很簡單:給AI提供標有暴力、仇恨語言等標籤,AI工具就可以學會檢測這些內容。目前類似的工具已經內建到ChatGPT當中,以檢測它是否與訓練資料的內容相呼應,並在它觸及到使用者之前將不良內容過濾掉。

《時代週刊》報導稱,為了獲得這些有害內容的標籤,OpenAI從2021年11月開始便向一家外包公司傳送了數萬條文字片段。其中大部分文字似乎都是從網際網路“最黑暗的角落”挖掘出來的。

據報導,OpenAI發言人曾在一份聲明中證實,Sama在肯亞的員工為該公司正在開發的監測有害內容的工具作出了貢獻,該工具最終被內建到ChatGPT中

除了OpenAI,Sama還為Google、Mate和微軟等矽谷科技巨頭標註資料。此外,Sama還標榜其是一家“有道德的人工智慧公司”,並稱其已經幫助5萬多人脫貧。

人工智慧組織聯盟Partnership on AI表示,“儘管這些豐富資料的專業人士發揮了基礎作用,但越來越多的研究表明,這些工人都面臨著不穩定的工作條件。這可能是慶祝技術效率提升的同時,試圖掩蓋人工智慧對龐大勞動力依賴的結果。”

本文來自微信公眾號“每日經濟新聞”(ID:nbdnews),作者:蔡鼎,編輯:段煉 高涵 杜波,校對:盧祥勇,36氪經授權發佈。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪

更多相關新聞
ChatGPT迎來AI的榮耀世紀?專家籲提防三大「暗黑情境」
AI認證新竹「1美食」全台第一!答案曝光網全傻
翻牆問「中國何時統一台灣?」 ChatGPT超狂神回
ChatGPT是什麼?6大QA認識現在最夯的ChatGPT
國科會擬推出台灣版ChatGPT 防中國偏見論述