心理學有一半是錯的?心理實驗的「可複製性危機」

心理學研究的結果不可靠?

根據《自然》期刊的報導,科學家們一場大規模的複製實驗中,在近乎理想的環境條件下,28項實驗只有一半能得出相同的實驗結果。

面露笑容可以提振實機上的心情?較常處於高溫氣候的人們對全球暖化有較強的信念?兄弟姊妹的排行影響人際的利他性格?

這些心理學實驗的「結果」可能因時因地而有誤。

可疑的心理學?

研究結果的可複製性(reproducibility)近年來成科學界--特別是心理學界--密切審視的話題,一些研究者在各領域嘗試重複過去發表過的研究結果,得到的結論不一。

這一次由全球科學家共同參與的實驗計畫Many Labs 2,試圖大規模重新複製過去歷史上名噪一時的心理學實驗。他們發現,在近乎理想的環境條件下,28個過去學術界發表過的心理學經典實驗結果,有一半無法成功複製。

這個比例在專家看來可能還算正常。根據《大西洋期刊》科學作家楊艾德(Ed Yong)的說法:「每次當心理學家進行類似Many Labs 2的計畫,大規模複製過去的心理實驗,通常他們成功的比率大約是一半。」換句話說:「很矛盾的是,在心理學一個最可靠的發現是,只有一半的心理學研究可以被成功複製。」

在幾年前,Open Science Collaboration進行過為期三年的「可複製性研究計畫」也曾得到類似的結果。他們重新複製過去100個心理學研究的實驗過程,大約有40%的研究有相同的結果。楊艾德說:「就連一些著名的、歷史悠久的案例結論--心理教科書和TED演講的內容--也可能不是真的。」

實驗結果不可複製,過去心理學家認為和實驗參與者有關:可能研究人員設計不夠嚴謹、或是刻意操弄數據;或者是複製實驗時對原初的實驗理解不夠、或使用的數據組太少。

Many Labs 2為了儘可能排除這些質疑,他們這次的研究採取了一些步驟,包括事先和一些原初實驗的研究者進行討論;複製實驗的樣本數一定要多於原本的樣本數;同時,複製實驗重複進行了多次,包括了世界各個不同國家的參與者。

文化差異與不可複製性無關

這次的研究發現,實驗結果能否複製,和文化和地區的差異關係不大。

Many Labs 2的採樣人口包括全球六大洲,報告中認為,實驗參與者的出身環境與實驗結果能否複製關係不大。

過去心理學的研究多集中在歐美地區,因此實驗的樣本多半是「西方人、受過教育、工業化、富有、民主」(Western, educated, industrialized, rich and democratic,字頭縮寫為WEIRD)。有人因此推論心理實驗的不可複製性和實驗群體的特殊文化特殊有關。Many Labs 2的研究結果則顯示,將受實驗者的做比較, 「西方人、受過教育、工業化、富有、民主」 程度較高(high WEIRDness)的受實驗者和較低的受實驗者(low WEIRDness)之間,實驗的不可複製性並沒有明顯的差異。

此外,實驗室在實驗室進行,或是透過網路線上進行,對實驗的可複製性也看不出明顯差別。

實驗複製與科學進步

多倫多史卡波羅大學心理學家因巴爾(Yoel Inbar)在2009年的研究實驗中發現,較容易體驗噁心厭惡感受的人,有比較高比例的反同志傾向。他這次也參與了Many Labs 2的研究。他很驚訝自己的研究結果無法複製,他認為或許他當初的實驗樣本太小,或是人們對同志態度的轉變有關。

他認為實驗結果可複製比例只有一半似乎太低:「如果我們這麼大的樣本規模,只有丟銅板一樣的比例可以複製,感覺是哪兒出錯了。」

另一位科學家史卓克(Fritz Strack)則不確定這樣的實驗複製計畫,對心理學本身能提供多少有用的啟示。不過,他也認為,每一次的複製都讓我們可以更了解,有那些因素會影響實驗結果:「與其說是宣告又有某個經典的發現是『假陽性』(false positive)結果,進行實驗複製的人應該做的是找出有哪些實驗條件影響了結果。」

主持Many Labs 2計畫的心理學家諾塞克(Brian Nosek)則認為,有兩個重要的理由支持重複實驗的必要。一方面,複製實驗是為確保實驗本身的結果是可複製的;同時,也是對過去的研究提出批判。他說:「證據、批判、和更多的證據來檢驗批判的可行性:這正是科學進展的方式。」

參考資料:Atlantic, Nature


更多鏡週刊報導
【「史丹佛監獄實驗」(下)】知名心理實驗竟是騙人的?
【「史丹佛監獄實驗」(上)】知名心理實驗竟是騙人的?
【不是你心太硬(上)】敘利亞男童遭遇令你掉淚 為何大規模死傷令你無感?