用巨量資料看人心

談心說理

用巨量資料看人心
用巨量資料看人心

2020-10-01 曾祥非

近年科學家試圖藉由網路關鍵字的搜尋熱度,做為研究心理態度的新工具。

新冠肺炎尚在全球肆虐,台灣卻防疫有成,許多國際論文分析台灣的「成功秘訣」,其中台灣民眾對防疫的高敏銳度與謹慎態度被視為關鍵因素。有趣的是,「敏銳度」和「態度」這種看不見、摸不著的心理敘述,要如何用科學方式來量化呢?


過去心理學家會設計實驗或問卷,近年來巨量資料分析盛行,許多研究團隊跳過傳統實驗,直接蒐集並分析使用者生活中的數據。Google在2009年分析了與流感相關的關鍵字在美國各地的Google搜尋趨勢(Google Trends, GT),發現GT蒐集到的數據與美國疾病防制中心(CDC)分析民眾就診記錄所得到的分佈結果相符,相較於從傳統管道抓資料,還省下一、兩週的時間,從此開啟巨量資料時代。


我和台北醫學大學巨量資料團隊在近期抓出今年2月台灣、日本、南韓民眾在Google上搜尋新冠肺炎相關字詞的趨勢圖。在上圖中,三個國家在1月底都出現高峰,正好是中國武漢剛傳出新冠肺炎消息的時間點;接著2月底到3月初又有另一高峰,當時三個國家皆陸續出現確診病例。值得注意的是2月初到中旬,中國新冠肺炎新聞的熱潮已過,台灣的搜尋量仍居高不下,日本和南韓的搜尋熱度則降溫較快,這段為期兩到三週的「潛伏期」,搜尋熱度似乎可預測3月的疫情發展。


GT既即時又貼近人們生活,莫非搜尋熱度就是心理學家期待已久的預測神器?2011年8月~2013年9月(共108週),GT高估了其中100週的流感盛行率;而在流感高峰期,GT估計美國有11%的人得到流感,比CDC的數據(6%)高出近一倍。剎那間GT跌落神壇,也跌破眾人眼鏡。問題癥結點之一是我們不確定人們為何搜尋關鍵字?是生病了想獲得醫療資訊(GT研究美國流感盛行率的邏輯),還是擔憂會生病所以搜尋疫情消息並準備「超前部署」(我們團隊解讀上圖的邏輯)?前者是得到流感的潛在族群,後者則大部份是健康族群,在不細分關鍵字種類下,兩者在GT定義中都是「+1」。時間順序或許是線索,如果人們搜尋尚未發生的事,那麼關鍵字反映的可能是態度,而非結果。2015年學者藉由GT預測該年希臘公投結果是否接受國際紓困,之後成功預測為「拒絕」。但另一團隊使用GT預測2008和2010年美國國會選舉結果,卻發現GT在選情膠著的地區預測能力並不高,可能是因為選民不只搜尋支持的候選人,也會搜尋競爭對手的負面資訊。


巨量資料究竟是否適合用於研究人心?我持樂觀態度,但科學家(尤其是心理學家)在解釋所謂客觀的巨量資料時必須謹慎,並納入使用者的族群分佈(例如數據能代表全國,還是只能代表常上網的族群)與時空背景。說來弔詭,這些數據最初運用來研究心理學,但是在解釋分析結果時,又不能缺少對人們心理的描述,這也反映出心理學是一門艱難的科學,但也因此有趣!