AI透過嬰兒的眼睛看世界學習語言

利用單一嬰兒的拍攝經歷自學辨識物體的神經網路可以為人類如何學習提供新的見解。透過研究單一嬰兒生命中一小部分的頭顯記錄,人工智慧 (AI) 模型學會了識別「嬰兒床」和「球」等單字。伊莉莎白·吉布尼 Elizabeth Gibney發表在最新一期《自然》(Nature)的<人工智慧透過嬰兒的眼睛看世界來學習語言>( This AI learnt language by seeing the world through a baby’s eyes)
該研究的合著者、紐約大學人工智慧研究員 Wai Keen Vong 表示,結果顯示人工智慧可以幫助我們了解人類如何學習。 Vong 表示,這一點先前尚不清楚,因為 ChatGPT 等其他語言學習模型是在數十億個數據點上學習的,這與嬰兒的現實世界體驗無法相比。 「我們出生時並沒有獲得互聯網。」
引發關於兒童如何學習語言的長期爭論
作者希望,2 月1 日發表在《科學》雜誌上的這項研究能夠引發關於兒童如何學習語言的長期爭論。人工智慧只能透過在它看到的圖像和文字之間建立關聯來學習;它沒有使用任何其他有關語言的先驗知識進行程式設計。 Vong 說,這對一些認知科學理論提出了挑戰,這些理論認為,為了賦予單字意義,嬰兒需要一些關於語言如何運作的先天知識。
加州大學默塞德分校的認知科學家希瑟·博特菲爾德 (Heather Bortfeld) 表示,這項研究是理解兒童早期語言習得的「一種令人著迷的方法」。
使用了一種稱為對比學習的技術
Vong 和他的同事使用安裝在一個名叫 Sam 的男嬰頭盔上的攝影機進行了 61 小時的記錄,從嬰兒的角度收集經驗。 Sam 住在澳洲阿德萊德附近,從六個月大到兩歲左右,他每週兩次佩戴相機,每次一小時左右(大約是他清醒時間的 1%)。
研究人員根據影片中的畫面以及從錄音中轉錄出來的對山姆說的話來訓練他們的神經網路(一種受大腦結構啟發的人工智慧)。該模型接觸了 250,000 個單字和相應的圖像,這些圖像是在玩耍、閱讀和吃飯等活動中捕獲的。該模型使用了一種稱為對比學習的技術來了解哪些圖像和文字傾向於結合在一起,哪些不結合在一起,從而建立可用於預測某些單字(例如「球」和「碗」)所指的圖像的資訊。
為了測試人工智慧,研究人員要求模型將一個單字與四個候選圖像之一進行匹配,這項測試也用於評估兒童的語言能力。它在 62% 的時間裡成功地對物件進行了分類——比偶然預期的 25% 好得多,並且與使用來自該資料集之外的 4 億個圖像文字對進行訓練的類似 AI 模型相當。
對於某些單詞,例如「蘋果」和「狗」,該模型能夠正確識別以前未見過的例子——人類通常認為這相對容易。平均而言,成功率為 35%。當訓練資料中頻繁出現的物體時,人工智慧能夠更好地辨識脫離上下文的物體。 Vong 表示,它也最擅長辨識外觀變化不大的物體。可以指稱各種不同物品的單字(例如「玩具」)更難學習。
關於學習的教訓
博特菲爾德表示,這項研究對單一兒童數據的依賴可能會引發對其研究結果的普遍性的質疑,因為兒童的經驗和環境差異很大。但她補充說,這項練習表明,嬰兒在最初的日子裡,僅透過在不同的感官來源之間建立聯繫就可以學到很多東西。這些發現也對美國語言學家諾姆·喬姆斯基等科學家提出了挑戰,他們聲稱語言過於複雜,資訊輸入過於稀疏,無法透過一般學習過程來習得語言。 「這些是我見過的最有力的數據,表明這種『特殊』機制是沒有必要的,」博特菲爾德說。
DeepMind AI 像嬰兒一樣學習簡單的物理
現實世界的語言學習比人工智慧體驗的更加豐富多元。研究人員表示,由於人工智慧僅限於靜態圖像和書面文字的訓練,因此它無法體驗真實嬰兒生活中固有的互動。 Vong 說,例如,人工智慧很難學習「手」這個詞,而這個詞通常是在嬰兒生命的早期學習的。 「嬰兒有自己的雙手,他們有很多使用雙手的經驗。這絕對是我們模型中缺少的一個組成部分。」
加拿大蒙特利爾大學機器學習科學家 Anirudh Goyal 表示:「進一步改進模型,使模型更符合人類學習的複雜性,潛力巨大,為認知科學的進步提供令人興奮的途徑。」