【于思專欄】人工智慧革命正在耗盡數據

【于思專欄】人工智慧革命正在耗盡數據
【于思專欄】人工智慧革命正在耗盡數據

尼古拉瓊斯 Nicola Jones發表在最新一期權威期刊《自然》(Nature)的<人工智慧革命正在耗盡數據。研究人員可以做什麼?>( The AI revolution is running out of data. What can researchers do?) 人工智慧開發人員正在迅速利用互聯網來訓練大型語言模型,例如 ChatGPT 背後的模型。這篇報導指出他們試圖解決這個問題的方法。(AI developers are rapidly picking the Internet clean to train large language models such as those behind ChatGPT. Here’s how they are trying to get around the problem.)


LLM正在耗盡用於訓練模型的傳統資料集
網路是人類知識的浩瀚海洋,但它並不是無限的。人工智慧(AI)研究人員幾乎已經把它吸乾了。
過去十年人工智慧的爆炸性進步在很大程度上是透過擴大神經網路並使用越來越多的數據對其進行訓練來推動的。事實證明,這種擴展在建立大型語言模型 (LLM) 方面非常有效,例如那些為聊天機器人 ChatGPT 提供支援的模型,它們不僅能夠更有效地複製會話語言,還能夠開發推理等新興屬性。但一些專家表示,我們現在正在接近擴展的極限。部分原因是計算的能源需求不斷增加。但這也是因為大型語言模型 (LLM) 開發人員正在耗盡用於訓練模型的傳統資料集。
人工智慧可能會在大約四年的時間內耗盡訓練資料
一項著名研究因對這個問題給出了數字而成為今年的頭條新聞:虛擬研究機構Epoch AI 的研究人員預測,到2028 年左右,用於訓練AI 模型的數據集的典型大小將達到相同的大小作為公共線上文本的估計總存量。換句話說,人工智慧可能會在大約四年的時間內耗盡訓練資料。同時,資料所有者(例如報紙出版商)開始限制其內容的使用方式,進一步收緊存取權限。劍橋麻省理工學院人工智慧研究員謝恩·朗普雷(Shayne Longpre) 表示,這導致了「資料共享」規模的危機。
訓練資料迫在眉睫的瓶頸可能開始變得緊張。 「我強烈懷疑這種情況已經發生了,」朗普雷說。
通用的LLM轉移到更小、更專業的模型
儘管專家表示這些限制可能會減緩人工智慧系統的快速改進,但開發人員正在尋找解決方法。 Epoch AI 駐馬德里研究員、預測 2028 年數據崩潰研究的主要作者 Pablo Villalobos 表示:“我認為沒有人對大型人工智慧公司感到恐慌。” “或者至少他們不會給我發電子郵件,如果他們是的話。”
例如,位於加州舊金山的 OpenAI 和 Anthropic 等著名人工智慧公司已經公開承認了這個問題,同時暗示他們有計劃解決這個問題,包括產生新資料和尋找非常規資料來源。 OpenAI 的一位發言人告訴《自然》雜誌:“我們使用多種來源,包括公開數據和非公開數據的合作夥伴、合成數據生成和來自人工智能培訓師的數據。”
即便如此,資料緊縮可能會迫使人們建構的生成人工智慧模型類型發生劇變,可能會將景觀從大型、通用的大型語言模型 (LLM) 轉移到更小、更專業的模型。
LLM在過去十年的發展已經顯示出其對數據的貪婪胃口。儘管一些開發人員沒有公佈其最新模型的規格,但Villalobos 估計,自2020 年以來,用於訓練LLM 的「令牌」或部分單字的數量已增加了100 倍,從數千億增加到數百萬億。
在人工智慧領域,越大越好嗎?
這可能是網路上的很大一部分,儘管總數如此之大以至於很難確定——Villalobos 估計當今網路文字資料的總存量為 3,100 兆個代幣。各種服務使用網路爬蟲來抓取這些內容,然後消除重複並過濾掉不需要的內容(例如色情內容)以產生更乾淨的資料集:一個名為RedPajama 的常見資料集包含數十萬億個單字。一些公司或學術機構自行進行爬行和清理,以製作客製化資料集來培訓大型語言模型 (LLM) 。網路的一小部分被認為是高品質的,例如可能在書籍或新聞中找到的人工編輯的、社會可接受的文本。
可用網路內容的成長速度出乎意料地緩慢:Villalobos 的論文估計其每年增長不到 10%,而人工智慧訓練資料集的規模每年增加一倍以上。對這些趨勢的預測表明,這些趨勢在 2028 年左右會趨於一致。
同時,內容提供者越來越多地包含軟體程式碼或完善其使用條款,以阻止網路爬蟲或人工智慧公司抓取其資料進行訓練。 Longpre 和他的同事今年 7 月發布了一份預印本,顯示阻止特定爬蟲訪問其網站的數據提供者數量急劇增加2。在三個主要清理資料集中的最高品質、最常用的網路內容中,受爬蟲限制的令牌數量從 2023 年的不到 3% 上升到 2024 年的 20-33%。
目前正在進行幾起訴訟,試圖為人工智慧訓練中使用的資料提供者贏得賠償。 2023年12月,《紐約時報》起訴OpenAI及其合作夥伴微軟侵犯版權;今年4月,紐約市奧爾登環球資本旗下8家報紙聯合提起了類似訴訟。反駁的觀點是,人工智慧應該被允許以與人類相同的方式閱讀和學習線上內容,這構成了對材料的合理使用。OpenAI 公開表示,它認為《紐約時報》的訴訟「毫無根據」。
如果法院支持內容提供者應獲得經濟補償的觀點,那麼人工智慧開發人員和研究人員(包括財力不雄厚的學者)將更難獲得他們所需要的東西。 「學術界將受到這些交易的最大打擊,」朗普雷說。 「擁有一個開放的網絡有很多非常有利於社會、有利於民主的好處,」他補充道。