到底是大數據還是拜天公

並非用大數據三個字包裝的就是正確,就是領先,數據是中立的,要怎麼扭曲是你家的事,但是拿來對自己加油打氣,小心打氣過頭搞不清楚真正的狀況了啊!
並非用大數據三個字包裝的就是正確,就是領先,數據是中立的,要怎麼扭曲是你家的事,但是拿來對自己加油打氣,小心打氣過頭搞不清楚真正的狀況了啊!

【作者:朱學恒-低階酸民代表】

選戰又要到了,很多關於用大數據預測人們投票模式的說法及報導又跑出來了,聽起來很炫,但真的是這樣嗎?

先讓我們來看看維基百科上關於大數據的定義:

大數據(英語:Big data或Megadata),或稱巨量資料、海量資料、大資料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。在總資料量相同的情況下,與個別分析獨立的小型資料集(data set)相比,將各個小型資料集合併後進行分析可得出許多額外的資訊和資料關聯性,可用來察覺商業趨勢、判定研究品質、避免疾病擴散、打擊犯罪或測定即時交通路況等;這樣的用途正是大型資料集盛行的原因。

的確,大數據在很多可以輕易確認的結果(有沒有犯罪,有沒有消費)逆推之下,是可以分析出趨勢來的。譬如說如果當局願意公佈犯罪時間、犯罪件數、犯罪種類,套上地圖位置,就可以得出所謂的犯罪熱點,甚至是分析出對民眾來講何時在機率上比較有可能安全的在那個區域行走而不會遭遇到危險。

但是,若是要用在模糊的搜尋行為上,目前的大數據的工具就不夠先進了。原因很簡單,所謂的搜尋其實只是一種對某某事物感到好奇的行為,但這個好奇所代表的是正面或是負面,或者代表支持或是反對,除非有人開發出跟人腦一樣的分辨軟體,否則根本無法判斷。我曾經參加過某個公司的專案(相信現在還是很多公司這樣做),他的媒體分析就是把每天報導的媒體剪報拿下來,一張一張計算,有時加上媒體加權、版面加權,最後用工讀生人眼閱讀之後,判別這篇報導整體到底是正面還是負面,替這個報導加上一個正負號,最後把整個月的數據統計出來加總,就得出一篇報告。

是的,你沒看錯,是工讀生。但即使是工讀生,所做的也比當時的電腦,和現在的電腦要好。因為語意分析就是這麼困難:爸爸這麼有錢,「好好喔~~~~」、這麼努力能夠獲得大家照顧,「真是太好了~~~~」。不要說是電腦了,就算是人類,在沒有看前後文的狀況之下,你能夠只從「」內的文字看出正面或是負面,酸人或是稱讚嗎?

所以這篇報導顯然完全沒有搞懂大數據的真正概念(或者是它有別的想法哈哈)「據香港中評智庫大數據中心日前完成的大數據分析,在一定時間裡,洪秀柱的媒體聲量達54%,領先蔡英文8個百分點之多。在自媒體(指如BBS、部落客等個人媒體)部分,洪秀柱的網民提及度達55.6%,比蔡英文高出11.2個百分點。而自媒體中的意見領袖對蔡英文及洪秀柱的提及度相差較大,洪秀柱的提及率為91.7%,遠高於蔡英文的50%。」

也就是這原始文章的引用者(我查過中評智庫的原文並不是這樣寫的)天真的以為美國大亨川普(Donald Trump)在發表了墨西哥人都是強暴犯小偷之後,引起舉國譁然,各意見領袖爭相批評嘲笑諷刺,這是一種媒體聲量和自媒體的領先?川普的謀士會跳出來說真是太好了,這樣我們最近領先希拉蕊非常多,遠高於她50%?

簡單下個結論就是,並非用大數據三個字包裝的就是正確,就是領先,數據是中立的,要怎麼扭曲是你家的事,但是拿來對自己加油打氣,小心打氣過頭搞不清楚真正的狀況了啊!