美國民調四年進步了多少?沒有太多!

About 100 mostly masked northern Nevadans waiting to vote in person at Reed High School in Sparks about two hours before the polls closed Tuesday in the western battleground state. Mail-in ballots also were sent to active registered statewide, including Reno-Sparks, where registration is split almost evenly among the two major parties (AP Photo/Scott Sonner)
圖片來源:AP

⊙王宏恩

四年前,美國各家民調公司預測民主黨候選人希拉蕊.柯林頓有九成的機會當選總統,最後由共和黨的川普出線。當時各家民調公司的討論結果是,雖然民調資料跟大選選舉人票是接近的(希拉蕊拿到比較多選票是事實,而且誤差也在統計範圍內),但是幾個搖擺州同時產生了有地區相關的誤差,因此最後集體向川普偏移幾個百分點,又因為選舉人團制,所以導致結果大逆轉。

這個說法是來自於統計的理論,民調本來就會有誤差,有時高估有時低估,這是只使用抽樣時不可避免的。但是理論上高估跟低估的分布是均勻的,畢竟每次抽樣彼此之間是獨立的,因此有時高估、有時低估的狀況會互相抵銷,總體來說平均值應該是準確的。

但是民調公司認為2016年的許多州的誤差之間有互相連帶,一個州低估時另一個州也會跟著被低估。這個連帶的背後可能是特定的政黨、族群、職業間的關聯,最後導致結果一起逆轉。單純從各州平均誤差來說,假如用收集各家民調做最後預測的FiveThirtyEight為基準,平均高估了希拉蕊1.6%,而低估了川普2.3%,一來一往就是4%的差距。

因此在這次2020年,各家民調公司在進行預測時,幾乎都把各州過去的空間相關納入考量,尤其是FiveThirtyEight以及《經濟學人》都特別聲明它們的預測模型有放入空間相關。四年之後,這一次的預測結果是否有改進了呢?

從目前(美國西岸時間11/4早上11點)的結果來看,民調這次似乎沒有進步太多。

首先,就預測差異來看,我同樣使用538的資料以及目前開票的結果資料,平均而言,538在所有州低估川普2.56%、高估拜登2.96%,這一來一往的差距高達5%!這也是為什麼選前民調幾乎全面看好拜登,但最後結果開出來至今還在拉鋸。

接著,我把538在2016年預測川普的差距程度、跟2020年預測川普的差距程度,畫成以下的分布圖。在這張圖裡面,X軸是2016年川普實際得票扣掉2016年538對川普的預測,而Y軸則是2020年川普實際得票扣掉2020年538對川普的預測,中間的黑斜實線是做為比較基準的X=Y,而虛線則是誤差分布回歸模型的趨勢線。

從結果來看,我們可以發現以下的狀況。

第一,大部分的點落在第一象限,代表538在2016年低估川普的地方,2020年還是低估川普,但也有一些點落在第二象限,是2016高估但2020低估的州。

第二,幾乎很少點在Y=0以下,代表538幾乎在所有的地方在2020年都是繼續低估川普。在第三象限的點很少,代表沒有什麼地方是2016以及2020都高估川普的。

第三,假如從趨勢線來看,趨勢線的確比X=Y還要平,這代表說預測誤差範圍變小了。2016年誤差可以從+10%一路錯到-10%,但是2020的誤差錯誤只從+10%到-2%,這可能可以歸功於這次把空間相關納進模型,因此有修正了空間上的不準確率。

然而,平均誤差顯然還是很大,這裡看到的5%誤差遠比傳統抽樣一千人的3%還大(當然,誤差本來就可能大於3%,請參考這篇〈對比式選舉民調的錯誤解讀〉。而且就分布來看,顯然仍然有系統性的朝低估川普的方向偏移。在選前一些討論,就有提到民調裡面有害羞的川普支持者,而且這比例可能也高達3%。民調做出這個比例的方式是,先問受訪者有沒有認識誰支持川普但不敢講的,假如受訪者說有,民調再問說「那是不是你啊?」。大概有3%的受訪者承認,因此得到這個數字。

但正因為這些人的存在,導致民調在修正上出現困難。過去民調修正的方法是透過社會經濟變數來加權,這背後的假設是不同社會經濟背景的人投票傾向不一樣,而且不接受採訪的比例也不一樣,但總體來說在修正之後,不接受採訪的比例會是隨機誤差。

但假如現在的誤差是來自於某候選人的支持者系統性的不接受採訪,那麼就算修正之後,還是會普遍低估該候選人的支持度,除非我們直接加一個比例給這候選人,但這很可能是毫無理論基礎的加法。

雖然這聽起來很玄,但這在台灣民調界過去並不是個這麼神奇的事。以前由於台灣白色恐怖,泛綠選民往往拒絕在民調裡面表態,甚至根本不接受民調採訪,因此導致過去台灣的民調常常會顯著地高估泛藍的支持度(以我跑2014年台灣地方選舉來看,平均而言會有3.7%高估泛藍。這個現象隨著蔡英文在2016年當選之後逐漸消逝,但在過去幾十年政黨估票時,常常就是從民調未表態裡面直接分超過一大半給民進黨,這樣的結果往往更接近最後的選舉結果。當然,現在美國的民調偏差顯然不是因為有白色恐怖,但對於民調的類似反應同樣出現在結果的偏差上。

因此光就結果來看,這次的民調與選舉結果之間的差異,可以說民調公司還是有很大的改進空間。但是否真的在理論或實務上有辦法修正,以及這個修正本身的速度是否趕不上社會政治經濟的快速變化,或許就是一個更嚴肅的問題了。

作者為內華達大學拉斯維加斯分校政治系助理教授。在台中一中被選進數學校隊,接著考取台大電機系後想當個科學家。在椰林繞了一圈後,覺得還是人類有趣多了,於是跟著數學一起投入研究政治,成了政治科學家。

更多思想坦克文章

銹帶與太陽帶 ─ 2016與2020的總統大選

與其押寶美國總統,不如押寶美國社會

______________

【Yahoo論壇】係網友、專家的意見交流平台,文章僅反映作者意見,不代表Yahoo奇摩立場 >>> 投稿去