選戰大數據(1)

文/鄭自隆

選戰分析研究社群媒體貼文的統計,稱之「網路聲量」,很多人都說這就是「大數據」,這是以管窺豹,但何謂「大數據」?

「大數據」是「沒有『理論』的理論」或「不理『理論』的理論」,傳統社會科學研究,會先參酌文獻(理論),假設變項之間具有「因果相關」,然後蒐集個案資料,再以適當統計方法證明或否證之;若經統計檢定呈現顯著的差異或關聯後,接著就要進一步思考或用理論檢視此個案,到底只是「統計相關」,抑或真的有「因果相關」?其佐證模式如下:理論檢索(假設)→ 統計相關(分析)→ 因果相關(結論)。

但大數據理論(Big Data)顛覆這種思維,大數據可不管第一階段的由文獻所建構的因果相關假設,而是從浩瀚的數據中,沙裡掏金,先找出2個變項的統計相關,然後再找出理由詮釋其關連,甚至不管因果關係:不做假設(沙裡掏金)→ 統計相關 → 因果相關(臆測推論)。

換言之,傳統社會科學研究是先有Why,再找出What以證明之,而大數據理論是先有What,再探究之間Why的關連,如果認為只是從網路找出很多data就是「大數據」,這是誤會,「大數據」重要的是「觀念」與創新連結,至於data是否來自網路倒是其次。

「大數據」是近年興起的概念,除上述方法論(methodology)的基本思維和傳統社會科學研究方法迥然不同外,其研究程序二者也不同:一是「樣本與母體」,傳統社會調查,樣本由母體依適當抽樣方法,以隨機方式產生,而且樣本數至少1067個,如此方具「信心水準95%,抽樣誤差±3%」的推論意義,就是以樣本的研究結果可以推論或預測母體的行為,如選戰候選人支持度調查,就可以用1067人的態度推論1900萬選民的傾向,這就是抽樣(sampling)的功力。

而大數據則是「樣本=母體」,沒有抽樣問題,所有與研究目的可能有關的資料庫都可以是母體來源,所以是龐大二手資料所建構的巨量資料,而這二手資料庫未必是與研究直接有關,也未必是網路行為的資料庫,如何連結取用,就看研究著功力洞見,也因為「樣本=母體」,所以沒有信心水準與抽樣誤差問題,大數據是「信心水準100%,抽樣誤差為0%」。

傳統社會調查,資料取得是配合研究目的所形成的特定調查,其資料量就是樣本數,資料格式是依研究目的事先規劃的,要形成資料化(datafication),即無論數字、文字、圖片、影像均必須符碼化(coding)-轉化為可量化計算的人工符碼,如以內容分析法(content analysis)探討候選人臉書圖片元素,可依研究目的將候選人臉書圖片區分為圖像攝影、群眾互動、使用道具等類目(categories),每一類目再建構測量標尺(measurement scale或稱indicator),如「圖像攝影」就分為大特寫、特寫、近景、全景、其他,測量標尺的建構就是「資料化」的過程。

而大數據除了資料化外,有的還必須數位化(digitization),數位化即由電腦可直接閱讀的符碼,如透過人臉辨識分析造勢活動參與者的共同特徵即是,不必經過人工的符碼化。

而資料的精確性,傳統社會調查要求「絕對精確」,這當然很難,但必須力求「相對精確」,如問受訪者每月收入多少,看似絕對精確,但也未必,本薪或許記得,但加班費與獎金是浮動的,也說不準;平均每天看電視多少分鐘、使用手機多久,這些在社會調查中常見的題目,多少都涉及信度(reliability)或效度(validity)問題,無法絕對精確,只能達到相對精確;遑論7等分或5等分的態度量表,由受訪者自我評量,請問你對A牌泡麵評價為何,今天評價5(「好」),隔一週再問可能就變成6(「很好」),要求「精確」很難。

大數據分析用的是巨量資料,要求精確更不可能也沒有必要,舉個例,台灣面積是36,197平方公里,今天隔壁填了一口井1平方公尺,我們會說今天台灣面積變成36,197.001平方公里嗎?在巨量資料中,這種微小的誤差會被稀釋,可以忽略。

本文為作者評論意見,不代表《台灣數位匯流網》立場

圖片來源:取自pikist、TDC NEWS製作

更多台灣數位匯流網報導
聲量大,當選機率高?(1)
聲量大,當選機率高?(2)

【專欄評論文章.非經授權禁止轉載】