美國總統大選:民調會不會又出錯?

換日線
換日線

作者:Mike Calcagno

作為在台灣的美國移民,我的「責任」之一便是向台灣朋友們解釋美國究竟發生了什麼事。雖然我過去兩年來幾乎一直都住在台灣,我仍然十分關注家鄉動態,因此我很樂意提供我的見解。

可以想見,近來我最常被問到的問題就是「誰會贏得美國總統大選?」有時候問題中會夾雜著一定程度的懷疑,像是「你真的覺得拜登會擊敗川普嗎?!」或「鑒於 X、Y、Z 或 W 議題,川普怎麼還能保有競爭力?」這些問題往往包裝著另一個真正的問題,並將引導出一段有趣的討論,也是今天專欄的主題:「我看到拜登在一些民調裡領先,不過萬一民調結果錯了呢?」

「民調本來就是錯的」

請注意:民調結果「本來就是」錯的。也就是說,民調的本質是一個選民觀點的近似值,它並不完整,而且事實上,幾乎每一個像樣的民調和民調專家都明確地認知到他們是錯的,並且嘗試以誤差值量化他們可能出錯的程度。

在誤差值之外,不同的民調機構,在同一天針對同一場選舉做民調,通常也會得出不同的答案,有時候甚至超越彼此的誤差值。舉例來說,ABC 新聞和《華盛頓郵報》的民調顯示拜登可能在全國選民中領先 12 個百分點,另一個機構的結果卻可能只領先了 8 個百分點,甚至也可能高達 16 或低至 4 個百分點。

面對這樣的落差,人們可能會問「哪個民調才對?」或者「哪個民調最好?」很多人最後會仰賴特定民調,該民調通常能夠提供他們希望成真的結果;他們會認定該民調才是「對的」,其他民調則是「偏頗的」或「錯的」。

事實上民調的方法不同,特別是他們代表與接觸選民的方式,甚至是決定誰更可能投票而誰較不可能的方式均有不同;因此才會產生這樣的結果:某些備受尊崇的民調結果傾向共和黨,其他受到同樣尊崇的民調結果則傾向民主黨,但這些傾向都是肇因於其方法,而非透過刻意操作或基於偏見所得出的結果。

進入到像 538(FiveThirtyEight,美國一專長民意調查的部落格,現屬於 ABC 新聞)或者其他同樣由「預測模型」所建構的網站,並非奠基於單一的民調數據,而是許多民調數據的總和,伴隨著其他因素比如經濟、任期、選戰獲得的關注度,和很重要的,民調機構歷來的品質,被和相互關聯的上千個不同民調結果,以及前次選舉的實際結果綜合衡量。

舉例而言,比起認定 ABC 新聞和《華盛頓郵報》的民調結果是「對的」(因為你喜歡這個答案),538 的模型假設所有的選舉結果,包括你比較偏愛的那一個,都是錯的,並且嘗試透過大量其他針對全國和各州的民調結果,做出「它們可能錯到什麼程度」的模型。

在最近的例子裡,路透社和益普所(Ipsos)在同一天進行民調,同樣得出拜登領先 12 個百分點的結果,南加大朵恩塞夫學院(USC Dornsife)在 9 月 26 日到 10 月 9 日間,針對潛在選民的兩個不同小組所做的民調,則分別得出拜登領先 11 和 12 個百分點的結果。

與其問誰才是對的而誰又是錯的,538 僅僅將所有民調結果當作數個不盡完整的證據,並且將之與數個結果相反的證據放在一起予以衡量,並創造出對於選舉結果的新預測。

在這樣的情況下,根據 538,多數的證據顯示,拜登領先 11-12 個百分點可能高估了拜登的支持度,他們認為拜登「只有」領先 10.1 個百分點(仍然領先很多,也是拜登自 2020 年 3 月模型開跑以來領先最多的一次)。不過幾天前,預測的結果顯示拜登只領先了 9 個百分點,雖然當時也有民調顯示拜登領先 16 個百分點。

飽受爭議的預測模型

當我針對「選舉將會如何」發表個人意見時,我主要根據的便是預測模型。我在 2008 年接觸到 538,當時奈特.西爾弗(Nate Silver)透露,他就是模型的作者,以及舉辦民調的這個小網站的創辦人。奈特是一個受過訓練的資料科學家和記者,我最早接觸到他的模型並不是因為政治,而是因為他發表在一個熱門的棒球數據網站上的模型──PECOTA (球員數據比較及優化測算模型,全名為 Player Empirical Comparison and Optimization Test Algorithm)。

自從 538 網站開辦以來,有兩件事情是(我本人作為一個數學狂人)非常感謝的:首先,奈特對於模型運作的方式百分之百的透明,另外很重要的是,他不會為了回應看來奇怪/錯誤的事件或預測結果,而不停地改變模型。他建立模型,公開其假設,然後讓它日復一日地運作下去,直到新的民調結果出爐。

奈特的模型在 2008 年的選舉中精準到令人毛骨悚然,並且在 2012 年的選舉中重複其壯舉。他輕易地用其模型革新了大選預測之餘,還使之更為普及,而他也成了一個世代的書呆子和數學狂人們眼中的英雄──他們很高興看到自己領域的東西,以如此具有說服力的方式,被應用在政治領域。

然而最近,奈特的模型和他的預測受到大量熱議:他既被指控偏袒自由派(提供漂亮的民調數字供自由派宣傳,以確保其候選人當選),也被批評偏袒保守派(人為操作讓雙方的支持度更接近,以確保網站流量),更遭各種外行人批評其方法與假設──從他如何處理未決定的選民(undecided voters,編按:指尚未決定是否投票,或要投給哪位候選人的選民),到提前投票,再到他如何計算「機構效應」(house effects)這種內行人才懂的數學細節,或者其他模型的組成──有些觀點有其根據也值得討論,但很多只不過是以花稍的方式表達「我們不喜歡你的結果」而已。

更有甚者,他繼續因 2016 年大選那歷史性的、人盡皆知的「錯誤」而飽受攻擊──川普成功取得了美國大選歷史上自 1948 年杜威擊敗杜魯門以來,最出人意表的勝利。對我來說,這個在 2016 年之後對於 538 的批評,有趣之處在於奈特的模型實際上給了川普比當時幾乎任何其他(合理的)模型更大的勝算。2016 年,538 給了川普幾乎 30% 的勝選率,相較其他民調結果都低於 10%,有時甚至低於 1%。11 月 8 日,選前兩天,538 預測川普有 35% 的勝選率。

事實是,奈特絕對會百分之百同意人們從 2016 年得出的結論,即認為「川普證明了『民調是錯的』」。民調可能是錯的這個事實,正是 538 一開始會存在的原因。

當然,更大的問題在於,2016 年時 538 哪裡出了錯?我們可以合理的預期 2020 年也將發生同樣的事情嗎?我為接下來要談到比較複雜的邏輯向你說聲抱歉,但我相信某些小細節對於了解 2020 年的情況是必要也有用的。

2016 年的民調到底哪裡出了錯?

在 2016 年大選日的早上,奈特和他的團隊放在網站上的總統大選最終預測如下:

柯林頓被預期將以 3.6 個百分點的差距贏得全國選民票,以及平均約 302-235 張的選舉人票。這個預測並非絕對,在模型的運作中,它不僅預測柯林頓贏的機率,事實上也包括川普勝選、柯林頓慘輸的可能性。而上面的這張地圖就是這些各式預測的總結。

現在,要了解 2016 年哪裡出了差錯,我們必須聚焦於這 5 州──佛羅里達州(FL)、北卡羅萊納州(NC)、賓夕法尼亞州(PA)、密西根州(MI)和威斯康辛州(WI)。這些州對於密切鎖定 2020 年大選的人來說應該不陌生,民調專家和選舉活動都特別執著於這 5 州,原因正是 2016 年發生的事情。

柯林頓有拿下這幾州的優勢,她在佛羅里達和北卡羅來納的優勢較小(所以圖中以淺藍色呈現),但根據 538 預測的可能性,這兩州的結果本質上就宛如擲硬幣般(換句話說,川普有 50% 的機率贏得這些州)。此外,這些州的結果在統計上並非獨立,兩個州的人口統計資料相近且部分重疊,所以佛州的民調「誤差」可能也會出現在北卡。

538 模型一個重要的特徵是注意到這些州彼此之間的關聯性。美國大選並非 50 個獨立州的選舉,而是 50 個某種程度上彼此相關的選舉,並以全國結果作為整體。這點在模型表現中代表的是,通常,如果你有兩州的機率都是 50/50,那麼一個候選人同時贏得兩個州的機率將是 25% (½ * ½ = ¼)。然而,因為結果相互關聯,兩個州在投票時做出相同選擇的機率也更高。

這個關聯性也適用於賓州、密西根和威斯康辛的組合:在這些州之中,柯林頓民調獲得的支持度更高,模型只給了川普每個州 20% 的勝選率,但因為這些州相互關聯,所以同時贏得這 3 州的機率不是 8%,而是接近 20%。川普當時的確處於劣勢,但他絕非注定失敗。

最後柯林頓輸掉了這 5 州,由川普贏得選舉。佛州和北卡為川普打破預期,更重要的是,模型低估了川普在賓州和上中西部的支持度,所以他也以 1% 的極小差距贏得了那些州。柯林頓確實贏得了選民票,但只贏了 2 個百分點而非預測中的 3.6 個,而此類柯林頓表現不如預期的情況在全國各州非常一致,即使是在她拿下的州也一樣。

所以我們可以從該次結果中學到什麼呢?首先,是的,模型是「錯的」,模型(和放進模型中的民調數據)高估了柯林頓的支持度。但是它也並非脫離現實。因為有太多距離相近的情況,導致這些極小幅度的高估──在全國僅差了 1.5%──在選舉人團中造成了巨大的改變。

我們學到的第二課是,那些可能性介乎約 25-30% 的事件,即使並非最可能發生的情況,也並非那麼全無可能。一個人在一組相同數字、四種不同花色的撲克牌中,抽出紅心的機率是 25%,但如果你正好就抽到紅心,幾乎沒有人會驚訝這件事發生了,有時你就是比較走運。而在選舉之中,有時候你也會走霉運,並可能錯過那些能幫助你做出更好預測的資訊。

2016 年柯林頓錯失的訊息是,未決定選民在選舉日會如何抉擇,特別是鑒於迫近選舉時才爆出的「醜聞」──聯邦調查局在當年 10 月 28 日,選舉宣傳將近尾聲時,表示將重啟對希拉蕊.柯林頓電子郵件一案的調查。在 2016 年直到選舉之前,美國有多到不尋常的未決定選民,他們之中有很多人最後決定投給川普。

另一個被遺漏的重要訊息則是上中西部州關鍵的民調數據。歐巴馬在 2008 和 2012 年均輕鬆拿下這些州,很多人因而假定歐巴馬在上中西部的「藍牆」(Blue Wall)會守住。柯林頓在選戰最後並沒有認真在這些州拉票,而是選擇鎖定佛州、北卡和內華達這些民調接近的州。

2020 年大選會重蹈覆轍嗎?

那麼 2016 年的情況和 2020 年的現在有哪些相似之處呢?我認為今昔對比,至少有 3 個重大的不同:

一、拜登在全國選民票預期領先的比例(10.1%)遠高於柯林頓(3.6%)。柯林頓當時在全國被高估了 1.5%。如果民調專家今年也有同樣的失準,那麼拜登仍然領先 8-9%,並且,即使憑藉川普在選舉人團中的優勢,拜登幾乎不可能在贏得全國 8% 選民票的情況下仍然輸掉選舉。如果拜登在選民票中領先 8.5%,他將輕易拿下選舉人團。

二、2020 年的未決定選民遠比 2016 年少。柯林頓和川普在 2016 年時的民調支持度均未超過 50%,因此在進入 10 月底時,還有相對更多的未決定選民(也有些選民考慮除共和黨和民主黨外的第三黨候選人),佔了選民的約 10-12%。2020,拜登在民調中的支持度通常都超過 50%,未決定選民即使在最競爭的幾個州平均也只佔了 4-5%。

三、今年的民調做得更多。或許是受到 2016 年的「創傷」,民調專家在這輪選舉中更為積極,不僅是在如密西根、威斯康辛和賓夕法尼亞州這些兵家必爭之地,在其他州亦然。有些相對而言的盲點確實存在,但在任何傳統上較競爭的州,這次都密集地做了民調。即使是在共和黨的鐵票倉德州,民調次數也差不多。更多的民調表示在任何單一民調中的誤差會被抵銷(它只是眾多數據的其中一部份),我們在民調中得到的數據也會更新、更即時。

綜上所述,在 11 月 3 日,我認為拜登較可能會贏。根據現在的 538 數據,川普有 15% 的機率反敗為勝,並且如我們所討論的,有 15% 可能性的事件不太可能會發生,但非完全不可能;所以如果發生黑天鵝效應,川普靠選舉人票連任也沒什麼好驚訝的。

不過要發生這種情況,從現在起到 11 月 3 日得發生劇烈的變化,嚴重打亂選舉並讓選民們改變心意。2020 是瘋狂的一年,大選仍存在著大量的不確定性與疑問,但是現階段並沒有足夠的未決定選民來替川普追上和拜登間的差距,即使民調結果不盡正確。

川普需要「出大事」才能贏,雖然他還是可能辦到,但我不相信「大事」可以如同民調誤差這麼簡單。預測模型提供我們很好的方法,思考民調本身的不精確性。此刻,模型告訴我們的是:拜登將在 11 月當選。

※本文由換日線網站授權刊載,原標題為《 美國總統大選:民調會不會(又)出錯?》,未經同意禁止轉載

更多換日線文章
美國總統大選 2020:民調是否依然可信,專家分析如何看懂

「奇蹟」降臨澳洲?國會大選爆冷門,原來是民調「又」錯了!

作者簡介:

Mike Calcagno 是科技新創美商超級聰明有限公司的 CEO 和共同創辦人,駐點於台北和西雅圖。加州人,畢業於史丹佛大學。他在西雅圖的微軟任職 17 年,其後於日本和韓國擔任藝術家及影片製作人,2018 年搬到台灣,擔任台灣人工智慧實驗室的策略顧問。他的熱情包括紀實攝影、搖擺舞和冬季運動冰壺。他滿懷希望地關注家鄉政治。

______________

【Yahoo論壇】係網友、專家的意見交流平台,文章僅反映作者意見,不代表Yahoo奇摩立場 >>> 投稿去