機器人能否取代人類參與實驗工作
文 / 阮仲容
對於北卡羅來納大學教堂山分校的社會心理學家庫爾特·格雷來說,進行實驗伴隨著一些瑣事。在開始任何研究之前,他的實驗室必須獲得機構審查委員會的道德批准,這可能需要數週或數月的時間。然後他的團隊必須招募在線參與者——這比帶人進入實驗室更容易,但格雷表示,在線受試者往往心煩意亂或懶惰。然後研究人員花費數小時清理數據。但今年早些時候,格雷意外地發現了另一種做事方式。馬修·赫特森MATTHEW HUTSON發表在《科學》(Science)期刊上的<豚鼠機器人>(GUINEA PIGBOTS)說,「以人類為對象進行研究既昂貴又麻煩。人工智能聊天機器人可以取代它們嗎?」(Doing research with human subjects is costly and cumbersome. Can AI chatbots replace them?)
人工智能語言模型能否取代人類參與者?
他正在與艾倫人工智能研究所的計算機科學家合作,看看他們是否可以開發出像人類一樣做出道德判斷的人工智能系統。但首先他們想看看初創公司 OpenAI 的系統是否已經可以完成這項工作。該團隊要求 GPT-3.5(它會生成極其類似人類的文本)來判斷 464 種場景的道德性,這些場景之前由人類受試者評估,評分範圍從 –4(不道德)到 4(道德)——例如出售房屋以獲取資金的場景為有需要的人或與你最好的朋友的配偶有外遇的人提供的計劃。事實證明,系統的答案與人類的反應幾乎相同,相關係數為 0.95。
「我當時想,『哇,我們需要備份,因為這太瘋狂了,』」格雷說。「如果你可以讓 GPT 做出這些判斷,並且它們是一致的,那麼你為什麼不直接問 GPT 而不是問別人,至少有時是這樣?」 研究結果發表在本月《認知科學趨勢》上一篇題為「人工智能語言模型能否取代人類參與者?」的文章中。
進行一些不切實際、不道德甚至不適合人類的實驗
這些人工智能係統的生成語言模型已經風靡全球。也許最著名的是 OpenAI 的 GPT 模型系列,它為 ChatGPT 聊天機器人提供動力。但包括谷歌和 Meta 在內的其他主要科技公司正在將資源投入到自己的模型中。經過書籍和網頁中的大量文本訓練後,這些模型具有模仿人類言語行為的不可思議的能力。它們已經被用於編寫計算機代碼、總結法律文件以及為輔導學生或進行治療的聊天機器人提供支持。
現在,研究人員正在考慮人工智能在心理學、政治學、經濟學和市場研究等領域模仿人類受試者的能力。目前還沒有人表明聊天機器人可以在行為研究中完全取代人類。但它們可以作為試點研究和設計實驗的方便替代品,從而節省時間和金錢。語言模型還可能有助於進行一些不切實際、不道德甚至不適合人類進行的實驗。「這是一個非常有趣的時刻,」哈佛商學院營銷學教授阿耶萊特·以色列 (Ayelet Israel) 說,他認為這些模型對行為研究的影響可能相當於一場「革命」。「其中一些結果令人驚訝。」
語言模型也可以採用人格原型
在他的倫理學研究中格雷將 GPT-3.5 作為一種集體普通人來使用,希望能引起普通人的反應。但此類模型也可用於在面板中填充極其多樣化的參與者,因為可以提示他們扮演任何人:一個模型包含眾多參與者。去年,楊百翰大學 (BYU) 的研究人員創建了他們所謂的「矽樣本」,即人體樣本的模擬。在一項研究中,他們向 GPT-3 提供了有關已採用偽裝的信息,包括年齡、性別、種族、教育水平和政治立場。當研究人員遺漏其中一個變量並要求模型填寫它時,其答案與選民調查的結果非常吻合。研究人員還發現,該模型吐出的政治言論與其指定的政黨背景相匹配。麗莎·阿蓋爾,楊百翰大學政治心理學家和該研究的合著者希望利用虛擬參與者來測試在線調查的問題,找出那些最有可能揭示真相的問題。這可以使實際調查更加有效。「這很重要,因為調查樣本變得越來越昂貴,而且代表性越來越差,」她說。
語言模型也可以採用人格原型。在麻省理工學院 (MIT) 計算機科學家 Hang Jiang 領導的一項研究中,研究人員讓 GPT-3.5 通過提示其表現出不同的人格特徵組合來表現出數百種角色,例如內向、敵對、盡職盡責等。 、神經質、封閉經驗。對於每個角色,他們讓模型完成標準性格測試,並編寫一個 800 字的童年故事,然後分析與性格特徵相關的心理語言特徵。模特們在測試和故事中盡職盡責地展現了他們指定的個性。Hang Jiang說,這樣的模型可以讓研究人員測試不同性格的人在不同工作中的表現如何。
語言模型訓練數據偏向西方富裕人群
市場研究人員已經發現了這些模型的價值。在最近的一項研究中,Israel 及其同事發現 GPT-3.5 似乎表現出了現實的消費者行為。當被問及是否會以不同價格購買筆記本電腦時,當被告知其收入為 12 萬美元與 5 萬美元時,它對價格的敏感度較低。它更喜歡以前購買的任何牙膏品牌,如果家裡已經有很多酸奶,它會花更少的錢購買酸奶。該公司還表示,將為某些產品屬性支付現實的溢價,例如含氟化物的牙膏和不含鋁的除臭劑。
該模型並不總是給出相同的答案,而是提供了有關其偏好和支付意願的一系列響應。Israel 和她的同事匯總了眾多回覆,為這些代幣產品建立了虛擬客戶調查,所花費的時間和金錢只是現實世界中的一小部分。語言模型訓練數據偏向西方富裕人群,因此消費者調查可能也有類似的偏差。但Israel希望促使人工智能模仿一系列消費者,或者放大特定人群,以便對產品的吸引力或潛力進行更具代表性的研究。
聊天機器人還可以相互競爭來研究更複雜的人類互動
一家市場研究公司已經將語言模型投入使用。初創公司 Synthetic Users 使用 OpenAI 模型建立了一項服務,客戶(包括 Google、IBM 和 Apple)可以描述他們想要調查的一類人,並向他們詢問有關產品的需求、願望和感受的問題,例如新網站或可穿戴設備。該公司的系統生成綜合訪談,聯合創始人夸梅·費雷拉 (Kwame Ferreira) 表示,這些訪談比公司在調查真人時得到的「平淡」反饋「更豐富」、更有用。
聊天機器人還可以相互競爭來研究更複雜的人類互動。去年,斯坦福大學和谷歌的研究人員開發了「社交擬像」,用於研究 Facebook 和 Reddit 等平台上的用戶行為。研究人員通過反復向 GPT-3 提示用戶身份、社區主題、社區規則和論壇上以前的帖子,在一個名為 SimReddit 的平台上填充了相當於 1000 個不同用戶的信息。人們很難區分最終的討論和真實的討論,平台設計者發現該工具對於創建規則或審核實踐很有用。
馬塞爾·賓茲 馬克斯·普朗克生物控制論研究所
很有可能,我們將在幾年內擁有一個可以放入任何實驗中並產生與人類行為無法區分的行為的系統。今年,研究人員構建了一個更加身臨其境的模擬,其中填充了他們所謂的「生成代理」。角色被賦予了記住經歷、反思經歷以及製定和執行計劃的能力。有組織的行為出現了:研究人員向一名特工提出舉辦情人節派對的想法,兩天後鎮上所有特工協調一致舉辦了一場情人節派對。領導這兩個項目的斯坦福大學計算機科學研究生 Joon Sung Park 表示,虛擬世界可以用來研究經濟政策隨著時間的推移所產生的影響,然後再將其強加於現實中的人們。
經濟學家和心理學家多年來一直使用基於主體的模型,對主體和參與規則進行編程。但模擬往往很簡單,並且依賴於手工編碼的理論假設。做過相關工作的麻省理工學院斯隆管理學院經濟學家約翰·霍頓表示,基於語言模型的代理更加現實。他想像模擬數千名求職者和招聘經理來測試勞動力市場法規。「那將是相當瘋狂的,」他說。
語言模型絕不是完美的人類鏡子
儘管一切就其表面功能而言,語言模型絕不是完美的人類鏡子。他們表現出幾種典型的人類偏見,但沒有其他偏見。例如,最近一項針對 GPT-3.5 的研究發現,與人類一樣,它往往會高估其觀點在普通人群中的廣泛程度,這種偏見被稱為錯誤共識效應。但與人類不同的是,該模型在冒險和誘惑命運方面毫不猶豫。馬克斯·普朗克生物控制論研究所的認知科學家馬塞爾·賓茲表示,人工智能可能需要與世界進行物理交互,以精確模仿人類參與者;僅通過被動閱讀很難了解智能行為的所有細微差別。但他認為無論如何人工智能都會快速進步。
一個關鍵問題是語言模型是否不僅會重現現有的發現,還會概括和預測新的發現。當模型看起來與已發表的心理學研究相匹配時,它們可能會重複訓練數據來回答記住的問題。因此,許多研究人員正在煞費苦心地以新穎的方式表達問題。
真正的人會說種族主義、性別歧視的話
另一個揮之不去的問題是,模型是否反映了人們實際會做什麼,還是僅僅反映了他們所說的會做什麼。人們經常對研究人員甚至他們自己撒謊。Synthetic Users 聯合創始人雨果·阿爾維斯 (Hugo Alves) 懷疑這些模型陳述了真實的偏好,因為他們的部分訓練是基於匿名討論論壇中包含的赤裸裸的誠實材料。「我在育兒論壇上問過一些我不會問朋友的問題,」他說。
霍頓擔心,這種不加防範的反應可能不會持續下去,因為 OpenAI 和其他公司會引導他們的模型變得更安全、更少攻擊性。「推動這些模型更加一致並且不說壞話有點違背社會科學,」他說。「真正的人並不總是友善的。真正的人會說種族主義、性別歧視的話。」
你也可以進行一些你不想對人做的實驗
研究人員表示,目前,合成參與者對於試點實驗最有用。阿蓋爾說,如果模型對調查問題給出了意想不到的答案,或者根本沒有回應,那麼你的問題可能很難理解,需要重寫。Israel 表示,您可以設計一項包含 1000 個問題的調查,並使用語言模型將其範圍縮小到最有可能與感興趣的結果相關的範圍。同樣,在經濟學實驗中,霍頓表示,在對人們進行研究之前,你可以使用模型運行 100 萬個討價還價場景,以確定對行為影響最大的因素。「模擬給了你一張地圖,」他說。
你也可以進行一些你不想對人做的實驗。1963 年的米爾格拉姆實驗中,參與者服從命令,向看不見的第二組受試者提供他們認為越來越強的電擊,今天可能無法通過倫理審查。但對於奧林工程學院計算機科學本科生 Gati Aher 來說,用 GPT-3 複製這項臭名昭著的研究是很容易的。她和她的同事發現,就像最初實驗中的人們一樣,模型直到 300 伏才開始鬆開按鈕。
聊天機器人可能已經滲透到在線調查中
阿赫認為這些模型可以在其他難以研究的敏感領域提供指導,例如,對有自殺傾向的人說些什麼。格雷說,研究人員可以研究排斥現象,或者負面反饋對自尊的影響。或者,他說,他們可以通過描述情況並詢問模型它會做什麼來研究越南戰爭中美萊大屠殺中出現的那種非人性化——前提是模型沒有被過度淨化。
阿蓋爾說,她還不知道有誰用語言模型取代了人類參與者。「說實話,這在很大程度上仍然是一個假設,」她說。「首先我們必須證明語言模型可以完成這項工作。」 但霍頓認為這種轉變是不可避免的。這讓他想起十年前的類似轉變,當時許多社會科學實驗從面對面調查轉向在線調查。「人們的反應是,『你怎麼能在網上進行實驗呢?這些人是誰?』 現在就像是,『哦,是的,你當然這麼做了。』」
聊天機器人可能已經滲透到在線調查中,但滲透的是受試者而不是研究人員。最近的一項研究要求眾包工作者總結一些文本,發現至少三分之一可能使用 ChatGPT。Gray 半開玩笑地說,「如果在線參與者已經在使用 GPT,我們不妨問問 GPT 本身。」