【Yahoo論壇/涂子沛】平息霍亂的英雄John Snow:抗疫要數據,更需要數商

'A Court for King Cholera', 1852. A scene typical of the crowded, unsanitary conditions in London slums. Cholera first appeared in Britain in 1831, and outbreaks occurred regularly in London in the mid 19th century. Its relationship with contaminated water was not understood until established by John Snow (1813-1858). Snow published his theory in a pamphlet in 1849, but did not prove his findings to be correct until another epidemic occurred in 1854. His work led to legislation paving the way for dramatic improvements in all aspects of public health provision. Cartoon from Punch. (London, 25 September 1852). (Photo by Ann Ronan Pictures/Print Collector/Getty Images)
圖片來源:Getty image

作者涂子沛為前阿里巴巴集團副總裁

1831年,倫敦爆發了第一次霍亂大流行。小災進城,大災離城,在巨大死亡陰影的籠罩下,城市的居民都成群結隊向鄉村逃亡。這個時候,斯諾(John Snow,1813-1858)還是一名學徒,他目睹了出城的人流造成交通大壅塞,人走城空,正常的生活被傳染病快速摧毀,這些場景令他心如刀割。

他是一名麻醉醫生,這種傳染病跟他關係不大,但醫者仁心,他開始關注研究這種病。

當時的人們都傳言,霍亂是經由空氣傳播的,城市裡無處不在的臭味和瘴氣是這種傳染病的根源。

1848年,倫敦爆發了第三次霍亂大流行。斯諾發現,霍亂患者的最初症狀都是腹瀉嘔吐,「如果真的是瘴氣傳播,為什麼最先被感染的不是鼻子和肺,而是腸胃?又為什麼一家人當中會有倖存者,接觸病人的醫生也不會被傳染?」

斯諾斷定,霍亂一定是經口腔進入腸胃的。他推測這極有可能是因為喝了不乾淨的水。但當時的科學設備看不到水裡的微生物,被霍亂弧菌汙染的水,看起來完全和正常的水一樣,仍然純淨透明。斯諾無法說服身邊的人相信他的判斷。

斯諾需要的顯然是更多的證據。他深入疫區,挨家挨戶敲門詢問患者和喝水有關的資訊。他發現了一個驚人的事實,1848年至1849年霍亂爆發期間,倫敦市共有7,466人死亡,其中4,001人都居住在泰晤士河南岸,這意味著南岸的死亡率接近0.8%,是市中心區的3倍,而倫敦西邊和北邊的死亡率僅僅只有0.1%。

對此,瘴氣論的流行解釋是,泰晤士河南岸聚居了大量的勞工階層,汙濁的空氣導致死亡率更高。

斯諾認為這個解釋是錯誤的,他舉出反證說,倫敦東區比泰晤士河南岸聚居了更多的民工,是全倫敦最貧窮、最擁擠的地方,但死亡率只有泰晤士河南岸的一半。斯諾認為真正的原因是,南岸的倫敦人都飲用泰晤士河的水,而北岸倫敦人的飲用水來源並不僅限於泰晤士河,而是有多個來源。他分析了各個來源,發現死亡的數據和供水的路線有高度相關性。

斯諾的調查數據表明,飲用A公司水的家庭有1,263人死於霍亂,而飲用B公司水的家庭只有98人死於霍亂。當然,單純比較死亡的絕對人數是不公平的,因為有些地區的人多,有些地區的人少,斯諾又拿每一萬戶的死亡人數做對比,結論是飲用A公司水的家庭,每一萬戶死亡人數約是B公司的8.5倍(315除以37)。

飲用不同供水公司的水,每一萬戶死亡人數就會有高達8.5倍的差距,這究竟是什麼原因?斯諾又進一步追蹤了兩家公司的水源,他發現A公司在流經倫敦市中心的泰晤士河下游取水,B公司則在上游取水,而當時泰晤士河已經被霍亂患者的排泄物汙染了。

倫敦市政府的戶籍登記處有名統計學家,叫法爾(William Farr,1807-1883),他的職責就是記錄人口的最新變化,例如出生、結婚和死亡。這個法爾非常了不起,他在戶政部門工作30幾年,建立了完善的倫敦出生和死亡人口記錄體系。法爾對斯諾的觀點半信半疑,他提出:要測定水源對霍亂的影響,必須要有兩組居民,這兩組人生活在同一海拔高度、活動於同一空間、吃的東西一樣、日常活動也要相同,僅僅一方面不同,那就是喝的水,但在現實中的倫敦,顯然找不到這樣的實驗條件。

然而,斯諾認為,實驗已經擺在眼前。兩家公司的管道都通向所有的街道,進入幾乎所有的院落和小巷,無論貧富,無論房子大小,兩家公司都等而視之地提供自來水服務,而接受不同公司服務的客戶,他們在生活條件或職業方面也無明顯的區別,特別是他們都被同樣的「瘴氣」圍繞,為什麼有的生病,有的沒事呢?

1849年,斯諾把這些調查和發現編寫成一本小冊子《霍亂的傳播方式》,正式提出水汙染是霍亂流行的真正原因:「再也設計不出比這更好的實驗方式,讓我們澈底地檢測水對霍亂的影響,整套實驗設計已現成地擺在研究者面前,而且這一實驗的規模相當大,多達 30 萬名不同性別、年齡、職業階層和地位的人,從上流人士到底層窮人,被分成了兩組,他們不僅不能主動選擇,而且在大多數情況下對這種選擇毫不知情。」一組得到乾淨的水,而另一組得到被汙染的水,所以斯諾得出結論:水源不乾淨,才是霍亂傳播的真正原因。

斯諾的論斷是天才式的。他在「隨機對照實驗」的概念遠遠尚未產生的時代,就在現實中發現了一次科學實驗。科學的實驗機制要到20世紀初才被統計學家確立。但斯諾的這些論述只獲得極少數的人相信,這本小冊子總共才賣出去幾十本。大眾對瘴氣論深信不疑,畢竟,嗅覺是人類一種最原始的感覺,我們相信自己的感覺,就像哥白尼時代的人相信地球是靜止的一樣。人類對感官的迷信可謂根深蒂固,只有一流腦袋才能將數據當作「感覺的替代品」,透過數據來感知我們自己的身體和外部環境。

斯諾告訴法爾,為什麼光看死亡人數,瘴氣論好像很正確?那是因為在海拔高的地方,人口密度往往較低,因此死亡人口總數更少;但真正的原因不是這些地方遠離瘴氣,而是居民遠離了泰晤士河下游,水源較為乾淨。他甚至得出結論說,如果A公司將其取水口移到泰晤士河上游,就可以挽救1,000多人的生命!斯諾最終說服了法爾,在他的統計當中增加一個新的變數:死亡者的飲用水源。

同樣是數據分析,為什麼只有斯諾才能洞察真正的因果關係?我想這源自於他對事實和規律持之以恆的細密追蹤。很多時候,流於表面的觀察都無濟於事,最高水準的成就來自一步一腳印的追蹤和不罷休。「實事求是」,事,就是事實;是,則是規律。實事求是即透過事實分析並發現事物的規律。斯諾的方法,可以總結為實「數」求是:把事實記錄下來,再透過全面細密的數據來尋找規律。

數據英雄的逆行

1854年秋天,霍亂第4次席捲英國,8月31日爆發,3天內就有127人喪生,10天之後,死亡人數攀升到500多人,其中一個名為寬街(Broad Street)的區域,居民死亡案例最多、最集中。

這時候的斯諾,於每週第一時間閱讀法爾的死亡報表,關注死者的飲用水源,希望在表格和數據中找到線索。

雖然法爾收集了供水的來源,但斯諾根據這部分數據做不出任何判斷。為什麼呢?這是因為整個倫敦有10幾家大公司供水給城市的不同地區,各家公司的地盤互相交錯,供水管雜亂無章地交織在一起,僅憑地址無法準確判斷供水公司。

斯諾左思右想,無計可施之下,為了得到這些數據,他最後決定一家一家上門走訪。斯諾走了多少路,我們今天已不得而知。但他很快又碰到新的困難──即使挨家挨戶去敲開每一位患者的門,得到的數據也還是不完整、不準確,因為很多住戶根本不知道自家的用水是哪個公司提供的,房子可能是租的,水費可能是由房東繳交的,即便是自己付的,也找不到公司的收據,名稱還是不清楚。

皇天不負苦心人,斯諾又想出新辦法解決這個問題。他在走訪中發現,某一家公司的水中,鹽分含量是另外一家公司的4倍,根據這個差別就能判斷水的來源,如此一來,他碰到不知道自家供水公司的住戶時,就取一小瓶水樣,在瓶上注明地址,然後帶回去檢測。

斯諾搜集數據的執著讓人感佩。在大多數情況下,數據都沒有現成的。搜集數據太難了,就像在風中奔跑,搜集隨風飛散的柳絮一樣,你需要逐風而行,東奔西走。但對高數商的人而言,這一點是共性:他們都願意展開搜集數據的行動,都願意付出極大的努力,包括精力和時間。搜集數據所用的精力、體力和時間,可能是分析數據的數倍之多。第谷和克卜勒就是最好的例子。

在死亡案例高度集中的寬街,斯諾發現,「幾乎所有的死亡案例都發生在某街頭的一口水井附近。只有10名死者的住所靠近另一個街頭的水井,而其中有 5 名死者的家屬確認,他們一直使用那個水泵,有3戶距離這口水井遠一點,但死亡的孩子所在的學校就在這口水井附近」。

在這條街上,他還發現有一家啤酒廠和一家感化院沒有任何人死亡。他實地走訪了這兩個地方,發現啤酒廠和感化院都有自己獨立的水井,而且啤酒廠的工人平常只喝啤酒不喝水,斯諾因此更加確定,水就是人們感染霍亂的最終原因。

現在,讓我們試想一下,一個社區爆發了有史以來最為兇險的傳染病,驚恐的居民在一片混亂中成群出逃,用馬車拉著家當往一個方向走,但一名皇家醫生選擇逆人流而上,挨家挨戶去敲門瞭解死者的生活細節,他走進的每一間屋子,都還籠罩在葬禮的陰影和哀號當中。

斯諾不僅追蹤每一起霍亂死亡的病例,還創新了記錄的方法。他將死者的地址在地圖上標注成一個一個的點,當所有代表死亡的點都標注上去之後,地圖呈現的資訊立刻清晰起來:霍亂絕不是像空氣一樣平均分布在這個地區的,死神的陰影有濃雲密布之處,它是從一個點發散出去的,這個點就是水井!相較於數據,人類的大腦更願意接受圖表,當面對人群,高數商的人一定得想辦法將數據轉化為圖表。

9月8日這一天晚上,是新一輪霍亂爆發的第 10 天,在政府組織的緊急會議上,斯諾展示了自己的數據和發現,並建議立即封閉寬街上的水井,以此切斷霍亂的傳播。

這在當時是一個異常艱難的決定。因為如果斯諾搞錯了,那些備受死神折磨的家庭還將無水可喝、無水可用,這無異於雪上加霜;但如果他是對的,這個舉措就能挽救無數的家庭和生命。斯諾在會議上發言並展示他的圖表,這張圖表發揮了巨大的作用,市政理事會最後經過投票採納了斯諾的建議,當局立即拆除了寬街水井的水泵手柄,以控制水井的使用。

寬街霍亂引發的死亡,由此慢慢地平息下來。

後續調查證明,1854 年這一場霍亂起源於寬街 40 號的一名女嬰,她被確認感染了霍亂,她的母親把她的尿直接倒進家門口的化糞池,化糞池的穢物滲透到土裡,而距離這個化糞池不到三英尺的地方,就有一口公用水井。

女嬰的父親隨後也感染了霍亂,並於9月19日去世。在丈夫病倒後,這位母親又開始朝化糞池中傾倒汙水,如果當局沒有拆除寬街上的水泵手柄,後果將不堪設想。

也就是說,斯諾的判斷有效地阻止了霍亂的再一次爆發。

在我看來,斯諾是敢於逆行的英雄,更是一名有頭腦的英雄。所謂數據英雄,就是一個人有足夠的勇氣和專業的判斷,為真正解決問題起到關鍵性、壓倒一切的作用。如果沒有斯諾的行動,倫敦霍亂的局面和後果將會完全不同。

●本文摘錄自《數商:向阿里巴巴前副總裁學習數據時代的生存商數

______________

【Yahoo論壇】係網友、專家的意見交流平台,文章僅反映作者意見,不代表Yahoo奇摩立場 >>> 投稿去