機器人能否取代人類參與實驗工作

特別報導

2023年7月14日下午4:05

文 / 阮仲容

對於北卡羅來納大學教堂山分校的社會心理學家庫爾特·格雷來說，進行實驗伴隨著一些瑣事。在開始任何研究之前，他的實驗室必須獲得機構審查委員會的道德批准，這可能需要數週或數月的時間。然後他的團隊必須招募在線參與者——這比帶人進入實驗室更容易，但格雷表示，在線受試者往往心煩意亂或懶惰。然後研究人員花費數小時清理數據。但今年早些時候，格雷意外地發現了另一種做事方式。馬修·赫特森MATTHEW HUTSON發表在《科學》(Science)期刊上的<豚鼠機器人>(GUINEA PIGBOTS)說，「以人類為對象進行研究既昂貴又麻煩。人工智能聊天機器人可以取代它們嗎？」(Doing research with human subjects is costly and cumbersome. Can AI chatbots replace them?)

人工智能語言模型能否取代人類參與者？

他正在與艾倫人工智能研究所的計算機科學家合作，看看他們是否可以開發出像人類一樣做出道德判斷的人工智能系統。但首先他們想看看初創公司 OpenAI 的系統是否已經可以完成這項工作。該團隊要求 GPT-3.5（它會生成極其類似人類的文本）來判斷 464 種場景的道德性，這些場景之前由人類受試者評估，評分範圍從 –4（不道德）到 4（道德）——例如出售房屋以獲取資金的場景為有需要的人或與你最好的朋友的配偶有外遇的人提供的計劃。事實證明，系統的答案與人類的反應幾乎相同，相關係數為 0.95。

「我當時想，『哇，我們需要備份，因為這太瘋狂了，』」格雷說。「如果你可以讓 GPT 做出這些判斷，並且它們是一致的，那麼你為什麼不直接問 GPT 而不是問別人，至少有時是這樣？」研究結果發表在本月《認知科學趨勢》上一篇題為「人工智能語言模型能否取代人類參與者？」的文章中。

進行一些不切實際、不道德甚至不適合人類的實驗

這些人工智能係統的生成語言模型已經風靡全球。也許最著名的是 OpenAI 的 GPT 模型系列，它為 ChatGPT 聊天機器人提供動力。但包括谷歌和 Meta 在內的其他主要科技公司正在將資源投入到自己的模型中。經過書籍和網頁中的大量文本訓練後，這些模型具有模仿人類言語行為的不可思議的能力。它們已經被用於編寫計算機代碼、總結法律文件以及為輔導學生或進行治療的聊天機器人提供支持。

現在，研究人員正在考慮人工智能在心理學、政治學、經濟學和市場研究等領域模仿人類受試者的能力。目前還沒有人表明聊天機器人可以在行為研究中完全取代人類。但它們可以作為試點研究和設計實驗的方便替代品，從而節省時間和金錢。語言模型還可能有助於進行一些不切實際、不道德甚至不適合人類進行的實驗。「這是一個非常有趣的時刻，」哈佛商學院營銷學教授阿耶萊特·以色列 (Ayelet Israel) 說，他認為這些模型對行為研究的影響可能相當於一場「革命」。「其中一些結果令人驚訝。」

語言模型也可以採用人格原型

在他的倫理學研究中格雷將 GPT-3.5 作為一種集體普通人來使用，希望能引起普通人的反應。但此類模型也可用於在面板中填充極其多樣化的參與者，因為可以提示他們扮演任何人：一個模型包含眾多參與者。去年，楊百翰大學 (BYU) 的研究人員創建了他們所謂的「矽樣本」，即人體樣本的模擬。在一項研究中，他們向 GPT-3 提供了有關已採用偽裝的信息，包括年齡、性別、種族、教育水平和政治立場。當研究人員遺漏其中一個變量並要求模型填寫它時，其答案與選民調查的結果非常吻合。研究人員還發現，該模型吐出的政治言論與其指定的政黨背景相匹配。麗莎·阿蓋爾，楊百翰大學政治心理學家和該研究的合著者希望利用虛擬參與者來測試在線調查的問題，找出那些最有可能揭示真相的問題。這可以使實際調查更加有效。「這很重要，因為調查樣本變得越來越昂貴，而且代表性越來越差，」她說。

語言模型也可以採用人格原型。在麻省理工學院 (MIT) 計算機科學家 Hang Jiang 領導的一項研究中，研究人員讓 GPT-3.5 通過提示其表現出不同的人格特徵組合來表現出數百種角色，例如內向、敵對、盡職盡責等。、神經質、封閉經驗。對於每個角色，他們讓模型完成標準性格測試，並編寫一個 800 字的童年故事，然後分析與性格特徵相關的心理語言特徵。模特們在測試和故事中盡職盡責地展現了他們指定的個性。Hang Jiang說，這樣的模型可以讓研究人員測試不同性格的人在不同工作中的表現如何。

語言模型訓練數據偏向西方富裕人群

市場研究人員已經發現了這些模型的價值。在最近的一項研究中，Israel 及其同事發現 GPT-3.5 似乎表現出了現實的消費者行為。當被問及是否會以不同價格購買筆記本電腦時，當被告知其收入為 12 萬美元與 5 萬美元時，它對價格的敏感度較低。它更喜歡以前購買的任何牙膏品牌，如果家裡已經有很多酸奶，它會花更少的錢購買酸奶。該公司還表示，將為某些產品屬性支付現實的溢價，例如含氟化物的牙膏和不含鋁的除臭劑。

該模型並不總是給出相同的答案，而是提供了有關其偏好和支付意願的一系列響應。Israel 和她的同事匯總了眾多回覆，為這些代幣產品建立了虛擬客戶調查，所花費的時間和金錢只是現實世界中的一小部分。語言模型訓練數據偏向西方富裕人群，因此消費者調查可能也有類似的偏差。但Israel希望促使人工智能模仿一系列消費者，或者放大特定人群，以便對產品的吸引力或潛力進行更具代表性的研究。

聊天機器人還可以相互競爭來研究更複雜的人類互動

一家市場研究公司已經將語言模型投入使用。初創公司 Synthetic Users 使用 OpenAI 模型建立了一項服務，客戶（包括 Google、IBM 和 Apple）可以描述他們想要調查的一類人，並向他們詢問有關產品的需求、願望和感受的問題，例如新網站或可穿戴設備。該公司的系統生成綜合訪談，聯合創始人夸梅·費雷拉 (Kwame Ferreira) 表示，這些訪談比公司在調查真人時得到的「平淡」反饋「更豐富」、更有用。

聊天機器人還可以相互競爭來研究更複雜的人類互動。去年，斯坦福大學和谷歌的研究人員開發了「社交擬像」，用於研究 Facebook 和 Reddit 等平台上的用戶行為。研究人員通過反復向 GPT-3 提示用戶身份、社區主題、社區規則和論壇上以前的帖子，在一個名為 SimReddit 的平台上填充了相當於 1000 個不同用戶的信息。人們很難區分最終的討論和真實的討論，平台設計者發現該工具對於創建規則或審核實踐很有用。

馬塞爾·賓茲馬克斯·普朗克生物控制論研究所

很有可能，我們將在幾年內擁有一個可以放入任何實驗中並產生與人類行為無法區分的行為的系統。今年，研究人員構建了一個更加身臨其境的模擬，其中填充了他們所謂的「生成代理」。角色被賦予了記住經歷、反思經歷以及製定和執行計劃的能力。有組織的行為出現了：研究人員向一名特工提出舉辦情人節派對的想法，兩天後鎮上所有特工協調一致舉辦了一場情人節派對。領導這兩個項目的斯坦福大學計算機科學研究生 Joon Sung Park 表示，虛擬世界可以用來研究經濟政策隨著時間的推移所產生的影響，然後再將其強加於現實中的人們。

經濟學家和心理學家多年來一直使用基於主體的模型，對主體和參與規則進行編程。但模擬往往很簡單，並且依賴於手工編碼的理論假設。做過相關工作的麻省理工學院斯隆管理學院經濟學家約翰·霍頓表示，基於語言模型的代理更加現實。他想像模擬數千名求職者和招聘經理來測試勞動力市場法規。「那將是相當瘋狂的，」他說。

語言模型絕不是完美的人類鏡子

儘管一切就其表面功能而言，語言模型絕不是完美的人類鏡子。他們表現出幾種典型的人類偏見，但沒有其他偏見。例如，最近一項針對 GPT-3.5 的研究發現，與人類一樣，它往往會高估其觀點在普通人群中的廣泛程度，這種偏見被稱為錯誤共識效應。但與人類不同的是，該模型在冒險和誘惑命運方面毫不猶豫。馬克斯·普朗克生物控制論研究所的認知科學家馬塞爾·賓茲表示，人工智能可能需要與世界進行物理交互，以精確模仿人類參與者；僅通過被動閱讀很難了解智能行為的所有細微差別。但他認為無論如何人工智能都會快速進步。

一個關鍵問題是語言模型是否不僅會重現現有的發現，還會概括和預測新的發現。當模型看起來與已發表的心理學研究相匹配時，它們可能會重複訓練數據來回答記住的問題。因此，許多研究人員正在煞費苦心地以新穎的方式表達問題。

真正的人會說種族主義、性別歧視的話

另一個揮之不去的問題是，模型是否反映了人們實際會做什麼，還是僅僅反映了他們所說的會做什麼。人們經常對研究人員甚至他們自己撒謊。Synthetic Users 聯合創始人雨果·阿爾維斯 (Hugo Alves) 懷疑這些模型陳述了真實的偏好，因為他們的部分訓練是基於匿名討論論壇中包含的赤裸裸的誠實材料。「我在育兒論壇上問過一些我不會問朋友的問題，」他說。

霍頓擔心，這種不加防範的反應可能不會持續下去，因為 OpenAI 和其他公司會引導他們的模型變得更安全、更少攻擊性。「推動這些模型更加一致並且不說壞話有點違背社會科學，」他說。「真正的人並不總是友善的。真正的人會說種族主義、性別歧視的話。」

你也可以進行一些你不想對人做的實驗

研究人員表示，目前，合成參與者對於試點實驗最有用。阿蓋爾說，如果模型對調查問題給出了意想不到的答案，或者根本沒有回應，那麼你的問題可能很難理解，需要重寫。Israel 表示，您可以設計一項包含 1000 個問題的調查，並使用語言模型將其範圍縮小到最有可能與感興趣的結果相關的範圍。同樣，在經濟學實驗中，霍頓表示，在對人們進行研究之前，你可以使用模型運行 100 萬個討價還價場景，以確定對行為影響最大的因素。「模擬給了你一張地圖，」他說。

你也可以進行一些你不想對人做的實驗。1963 年的米爾格拉姆實驗中，參與者服從命令，向看不見的第二組受試者提供他們認為越來越強的電擊，今天可能無法通過倫理審查。但對於奧林工程學院計算機科學本科生 Gati Aher 來說，用 GPT-3 複製這項臭名昭著的研究是很容易的。她和她的同事發現，就像最初實驗中的人們一樣，模型直到 300 伏才開始鬆開按鈕。

聊天機器人可能已經滲透到在線調查中

阿赫認為這些模型可以在其他難以研究的敏感領域提供指導，例如，對有自殺傾向的人說些什麼。格雷說，研究人員可以研究排斥現象，或者負面反饋對自尊的影響。或者，他說，他們可以通過描述情況並詢問模型它會做什麼來研究越南戰爭中美萊大屠殺中出現的那種非人性化——前提是模型沒有被過度淨化。

阿蓋爾說，她還不知道有誰用語言模型取代了人類參與者。「說實話，這在很大程度上仍然是一個假設，」她說。「首先我們必須證明語言模型可以完成這項工作。」但霍頓認為這種轉變是不可避免的。這讓他想起十年前的類似轉變，當時許多社會科學實驗從面對面調查轉向在線調查。「人們的反應是，『你怎麼能在網上進行實驗呢？這些人是誰？』現在就像是，『哦，是的，你當然這麼做了。』」

聊天機器人可能已經滲透到在線調查中，但滲透的是受試者而不是研究人員。最近的一項研究要求眾包工作者總結一些文本，發現至少三分之一可能使用 ChatGPT。Gray 半開玩笑地說，「如果在線參與者已經在使用 GPT，我們不妨問問 GPT 本身。」

EBC東森新聞·2 天前
凶手抓到了！藥單上印「媽媽是婊子」動機曝光
凶手抓到了！藥單上印「媽媽是婊子」動機曝光
Reactions244
TVBS新聞網·20 小時前
台北大地震「恐滅國」？倒4000棟房　專家警告：把台灣摧毀
今（27）日凌晨花蓮連續地震，規模6.1、5.8接連來，而且台北、新北相當有感。如果震央發生在台北呢？威力可能滅國。前內政部長李鴻源曾警告，台北若發生6級以上地震，台北粗估4000棟建築倒塌；若7.3級地震，會倒掉3.5萬棟房，「一個中級地震就會把台灣摧毀。」
Reactions455
Yahoo奇摩新聞（記者簡子喬）·2 天前
鄭靚歆辦同志婚禮淚娶德裔老婆！辣媽胡文英穿「全透視比基尼」驚呆全場
前《我愛黑澀會》美眉鄭靚歆，26日與大5歲的德裔老婆鄭采熙（Aky）舉辦同志婚禮。特別的是，鄭靚歆的美魔女辣媽胡文英，以透視藍色比基尼打扮現身，相當搶鏡。
Reactions188
新頭殼·12 小時前
共軍2殲-11南海纏鬥4美軍「大黃蜂」！一度遭射控雷達鎖定場面驚險
[Newtalk新聞] 中國官媒《央視》近日曝光一段畫面，顯示解放軍「南部戰區」海軍兩架殲-11BSH，曾於南海上空遭遇美軍 4 架 F/A-18「大黃蜂」（Hornet）戰機。雙方當時於空中交鋒纏鬥，甚至解放軍機一度遭射控雷達（fire-control radar）鎖定，意味著美軍完成開火前的最後步驟。激情過後，該題為「奮飛向戰的海空獵手」的央視紀錄片，稱海軍航空兵最終成功將外機驅離，除以「展現中國軍人血性擔當」來誇誕形容外，並強調其英勇無畏的精神值得高度贊揚。不少中國媒體、評論員也加入吹噓行列，直指當時「狂妄的外軍戰機」，以機載雷達鎖定自家軍人，是極其惡劣的行為，「絲毫不掩蓋其中的敵意」。了不起的解放軍「南部戰區」海軍航空兵，儘管以 2 比 4 屈居數量劣勢，然而他們並未調頭撤離，而是選擇與外軍機展開空中纏鬥，做好「洗身（犧牲）準備，絕不後退，毫不畏懼。」美軍機最終只好「灰溜溜」飛走。紀錄片中，當時駕駛其中一架殲-11 的飛行員王中元更自述，稱飛行員有飛行員之間的「語言」，經過一番較量後，「外機顯然意識到了面前幾名解放軍都是『狠角色』，即便他們在戰機數量上佔優勢，但真正較量
Reactions275
CTWANT·7 小時前
大舅子找上門⋯才知妻曾接S「被乾爹包養」破3位數　人夫崩潰了
[周刊王CTWANT] 人夫在Dcard透露，在自己33歲時認識老婆，當時老婆29歲，開了一間髮廊，收入在同年齡女生應該是PR99，由於中間碰到疫情，所以2021年結婚時沒有宴客，後來陸續生了2個小孩，豈料近日因為老婆哥哥找上門，這才知道老婆過去的一切。人夫表示，剛認識老婆時，老婆把父母講得很爛...
Reactions104
TVBS新聞網·2 天前
女兒婚禮58歲美魔女連換3套　驚見「統促黨」張安樂也來！親密關係曝光
58歲資深女星胡文英，女兒鄭靚歆與老婆Aky今（26）日大喜之日，在台北信義區補辦婚宴。她連換3套禮服，成為全場焦點；婚宴上也驚見「統一促進黨」主席白狼張安樂，胡文英親揭二人親密關係！
Reactions157
三立新聞網 setn.com·17 小時前
蔡阿嘎亂入北港媽遶境！沒報名自組藝閣車遊街　網友轟：就是來蹭
記者吳泊萱／雲林報導一年一度的北港迓媽祖遶境活動，今（27）日正式登場，由於今年活動恰逢假日，預估將吸引數萬人潮湧入北港看熱鬧。網紅蔡阿嘎，昨（26）晚也在臉書宣布，他們打造了一輛
Reactions203
三立新聞網 setn.com·19 小時前
水泥車上腿開開燦笑！林志玲曬「陸時尚雜誌照」網傻眼：什麼風格？
記者蔡維歆／台北報導林志玲18日受邀出席第14屆北京國際電影節開幕式，為了喜愛的電影相關活動，她事前向兒子和婆婆請假4天，坦言這是離開兒子最久的一次！昨26日她曬出
Reactions156
三立新聞網 setn.com·7 小時前
才解禁登大陸音樂節！田馥甄無預警「取消演出」：很遺憾無法見面
記者王意馨／台北報導歌手田馥甄（Hebe）2年前曾經因為「義大利麵事件」遭對岸網友貼上台獨，最近宣布將於5月2日在天津參加「泡泡島音樂與藝術節」，卻遭到部分小粉紅抵
Reactions81
FTNN新聞網·13 小時前
台積電「法會」夾殺！中國產能追殺晶圓二哥　謝金河：台灣跟著危險
[FTNN新聞網]記者游俊彥／綜合報導中國因多達18座的晶圓廠將在今年投入生產，導致價格戰愈發激烈，讓財信傳媒董事長謝金河表示，這讓聯電遭到中國產能夾擊，...
Reactions61
壹蘋新聞網·9 小時前
「整形皇后」罹大腸癌三期！醫曝存活率　她懊悔做錯1件事
【王怡人／綜合報導】被封為「整形皇后」的女星顧婕，57歲仍是保有火辣身材的美魔女，近來驚傳罹患直腸癌3期，近期就要住院開刀。顧婕透露血便已經半年，因為平時有便秘與痔瘡問題，所以輕忽了問題的嚴重性，近日驗出大腸癌，她相當懊悔沒有及早就醫檢查。
Reactions18
中天新聞網·12 小時前
震不完！台大學者示警：短期內恐持續地震　曬一圖呼籲「注意3斷層段」
台大學者陳文山表示，403地震後，約90%的餘震都發生在主震的破裂面上，就是嶺頂斷層，他也點名「3斷層」沒有發生大規模地表變動或規模7.0以上的地震，恐要注意。
Reactions40
三立新聞網 setn.com·8 小時前
沒人幫忙！不滿婦人下車動作慢　老翁拖她下車再補踹
記者楊忠翰／基隆報導基隆市1名55歲張姓婦人，25日搭乘公車等候下車時，突遭陌生男子出言挑釁，還嫌她動作太慢，男子竟將她拖下車並猛踹一腳，張婦當場被踢倒在地，頭部及左側身體受傷，卻
Reactions64
三立新聞網 setn.com·2 天前
范雲要民眾黨表決！黃國昌怒吼「我有欠你喔？」　韓國瑜：請維持秩序
記者陳怡潔／台北報導立法院今(26日)召開院會，民進黨立院黨團提出國會改革相關法案，而國民黨團版本已完成初審，民進黨團盼逕付二讀，但國民黨團表示反對，因此進行表決。不過，民眾黨團未
Reactions212
台視新聞網·1 天前
半夜國家級警報響起！凌晨2:21花蓮近海規模6.1地震
27日凌晨2點21分花蓮近海發生規模6.1有感地震，地震深度24.9公里，最大震度4級包括花蓮、南投、宜蘭、台中、新竹縣和新北、桃園市，台北也有3級震度。圖／地震測報中心提供國家級警報發出。圖／台視新
Reactions10
中天新聞網·10 小時前
見張廖萬堅、林靜儀入閣　賴士葆傻眼：假謙卑的時代過去了
準總統賴清德即將在520就任，賴政府新內閣的人事安排也大致底定。其中，連任失利的民進黨前立委張廖萬堅和林靜儀，分別被延攬為教育部政次和衛福部政次。對此，國民黨立委賴士葆直言，賴清德是準備要開幹藍營了嗎？
Reactions362
三立新聞網 setn.com·14 小時前
獨家／台股進場時機到了！專家選股「這1檔」低基期＋題材有空間
記者王翊綺／台北報導台股本週上漲593.39點至20120.51點，漲幅3.04%。聖科諾國際投顧分析師謝誌指出，目前盤勢已穩定下來，加權指數成交量大致上維持在40
Reactions28
中天新聞網·1 天前
有借沒還！桃猿循環杯去年逾1萬個一去不復返　今年大改版增加辨識度
桃園市政府與樂天球團攜手推動環境友善球場，去年63場主場賽事推動使用循環杯達6萬杯。今年度搭配循環杯樣式改版，增加循環杯辨識度，號召場內攤商一同響應。
Reactions33
三立新聞網 setn.com·2 天前
突拋震撼彈！柯文哲脫口：2026選很差「2028收攤」　曝藍營2大總統人選
記者詹宜庭／台北報導民眾黨主席柯文哲挑戰總統大位失利後說好4年後要再拚一次，面對外界關注的2026九合一選舉及2028總統大選佈局，柯文哲今（26日）接受資深媒體人
Reactions148
三立新聞網 setn.com·2 天前
七寶媽靠業配賺翻了！64家合作廠商全被挖　跟她切割「僅10家」
記者趙浩雲／台北報導網紅「林叨囡仔」（七寶媽）因為當眾在直播中歧視資源班的小孩，即使二度道歉仍被罵翻，而有網友整理出與她合作廠商清單，食衣住行育樂就有64家。七寶媽網紅24日在直播
Reactions136

其他人也在看