E04|報導所有攤在陽光下的事— 《經濟學人》數據新聞部主編Alex Selby-Boothroyd

許越如中文配音|蔡恩禮
·25 分鐘 (閱讀時間)
《經濟學人》數據新聞部的主編Alex Selby-Boothroyd,語調冷靜且起伏不大,但依然能從他解釋圖表的詳細程度,聽出他對數據圖表的熱情。
《經濟學人》數據新聞部的主編Alex Selby-Boothroyd,語調冷靜且起伏不大,但依然能從他解釋圖表的詳細程度,聽出他對數據圖表的熱情。

《經濟學人》的總部,位在倫敦河邊一棟金融大樓其中一層,媒體的辦公室像迷宮,最大條的走道擺一張沒人坐的長桌,每週四早晨,這裡變成讀報台,來自世界各地的總編輯,都會在這裡檢查送印前的紙本內容。在辦公室轉了4、5個彎,才抵達Alex Selby-Boothroyd工作的數據新聞部。 35張A4雜誌內頁拼成的圖表牆,接近成人身高,是我對數據新聞部的印象。這組加上主編Alex,才13個人的編制,每週要為《經濟學人》紙本雜誌做出30-40張圖表,還有10-20張網頁版配圖,還不包括他們組負責的單元「每日圖表」與「圖表新聞專題」。

《經濟學人》1843年成立,這個歷經近兩世紀的老牌雜誌,一直是商務人士跟學者仰賴的媒體來源,他們秉持編輯獨立的精神,不為財團勢力動搖,以深度分析和數據圖表著名。2015年,他們新成立數據新聞組,將過往的數據圖表加上互動功能,上傳到網路。在 《經濟學人》 辦公室走一圈,除了數據新聞組的記者之外,許多記者的電腦上,也停留在coding的介面。

《經濟學人》數據新聞部的主編Alex Selby-Boothroyd,大學讀的是歐洲研究和現代語言,但對圖表有執著的熱情,他的twitter自我介紹只有三個字:「我愛圖表。」(I love charts.)這組成立之前,他曾在《經濟學人》智庫工作20年,負責數據分析和資料庫,幾乎不會程式語言。當初這份工作機會來臨時,不要求Alex任何學經歷背景,只要他在下週一專題上線之前,讓圖表動起來。他至今回想起來,那仍像是個被施魔法的週末,「短短48小時內,我得摸熟jquery、D3跟Javascript library,到星期天凌晨三點,圖表還是沒有隨著數據互動,我好沮喪,以為自己得不到這份工作。」結果就在這個節骨眼,他的測試便成功了。

即便講起這段情緒起伏如雲霄飛車的回憶,Alex的語調仍平穩。他的思路清晰,不管問題再長,他都能聽過不忘,精準到每問必答,我幾乎以為自己在跟未來機器人說話。為什麼 《經濟學人》決定做短小的數據圖表分析,而不是長文多媒體專題?數據新聞如何創造出更有效率的媒體趨勢?為什麼極權政府不希望公開資訊給人民?跟著主編Alex Selby-Boothroyd的分享,探索那些「攤在陽光下的數據」。

《經濟學人》的數據新聞部。
《經濟學人》的數據新聞部。


採訪逐字:

問:自紐約時報2012年推出《雪崩》線上多媒體互動專題之後,新聞界引起了一波風潮,各家編輯室紛紛推出華麗的新聞專題,希望讓讀者用更互動的方法看新聞。不過《經濟學人》的數據報導風格,似乎比較傾向是推出像「每日圖表」(The Daily Charts)搭配「圖表細節」(Graphic Details)的短、精、快風格,為什麼會有這樣的差異?

紐約時報當時做的《雪崩》多媒體互動式專題,的確引起媒體同業很大的迴響,很多報紙認為他們也做的到,但要把他做的好,真的很不容易,需要很多人力。《經濟學人》的數據新聞組在2015年成立,當時只有我一位互動開發工程師,我是個新手,所以我們反向操作,不做那種長文、多媒體素材的互動專題,而做些輕薄短小的互動式圖表。

不過我們也曾嘗試過大型的多媒體報導,像2018年,我們做了一篇談英國若脫歐後,北愛爾蘭邊境可能遇到的問題,整組才12人,但這專題就佔了我們10個人力,所以只能說以我們目前的編制,還無法推出像紐約時報那樣精緻的多媒體報導。我們決定要放更多心血在互動式的新聞圖表,且選擇的議題最好是可以延燒一段時間的。舉例來說,2019年1月我們推出一個專題,追蹤美國民主黨的初選,點進這個專題,你會看到每個民主黨初選候選人的數據資訊、每週我們跟YouGov合作,每週都有至少上千份的民調彙整進來更新,知道選民對某候選人的看法是否有改變,這個計畫會持續一年,直到民主黨最終選出總統候選人。另一個數據新聞的例子是,脫歐公投之前,我們做了一份追蹤民調的專題,一樣是跟YouGov合作、每週更新,觀察不同的年齡層、性別、職業對脫歐議題取向的改變。我們組的twitter,也會在每一次圖表有大幅變動時,跟大家推播最新發展。

《經濟學人》數據新聞組成立之前,你在《經濟學人》的智庫(EIU)工作了20年,後來怎麼轉到這組的?你不是相關科系畢業的,是自學程式語言嗎?

我一開始是在《經濟學人》的智庫工作,在那邊待了二十年,主要負責數據的操作整理,EIU有個資料庫,是針對世界上近200個國家設計的數據分析模型,裡面包括國家概況、人均所得、風險評估、市場衡量等等,這個頁面需要很多原始數據,最後再整理成圖表,我在那邊工作時自學了Visual Basic,還有其他數據分析的技術。所以當《經濟學人》新聞部要成立數據新聞部時,我的前同事是這組的召集人,他問我想不想轉到這裡,條件是我要在下週入職前先學會D3,是一個用動態圖形進行資料視覺化的JavaScript程式庫,那個週末我開始自學、摸索,我得承認那是個很漫長的週末,真的很難,但我還是有成功在週一報導要出刊時,讓那個互動圖表運作。在那週末之前,我從沒用過D3、不太會JAVASCRIPT、不認識jQeury,真的是從頭開始學,非常難但也很有挑戰性,我確實滿享受在其中,因為在coding過程中,我能不斷改變人們看見的變化和圖形趨勢,此後我都一直是自學這些程式語言的,我學的是javascript,d3 dynamic data document,還有一個 javascript library,來把這些數據統合在一個網頁上。我們每發展出一種互動圖表的呈現方式,我就多學到一種coding,不同形狀的圖適合呈現不同的資訊、怎麼過濾數據等等,都是在這份工作上。看到現在我們組裡很多互動工程師的作品,他們真的超強的,他們完全知道他們在設計什麼,我們會用共享資源的React資料庫,每做一張新的互動圖表,就可以直接匯入標籤、風格、版型跟互動鈕。

我還記得那次驚險的週末測試,我做的是一個關於傳染性疾病的病毒傳播速度跟分布地圖。這不是一個多大的專題,呈現看起來簡單,但其實到週日午夜前,我的圖表還沒有辦法真的隨數據互動,那個節骨眼我真的有點沮喪,覺得永遠不可能得到這份工作了,但我一直試到凌晨三點,就幾乎要修好了。那個地圖互動的方式是,總共有五種疾病,你每點選一種,他就會顯示如果該帶原病人跟10個人見面,那會有多少人受影響?如果這10個人又分別再接觸10人,總共有多少人會被傳染。基本上呈現出伊波拉病毒是一種非常危險的傳染病。

你們組的編制有多少人?除了寫「每日圖表」跟「圖表細節」單元,數據記者也需要出門採訪嗎?「每日圖表」這個單元又是怎麼選題的?

我們這組有4位數據記者、5位圖表視覺化的設計者、2位互動工程師,還有我跟另一位數據編輯,其中一位數據記者負責美國版。數據記者主要的工作,是找到幾組數據,並從中找出可能的新聞故事。舉例來說,我一位同事James Fransham最近在研究收益率曲線(Yield curve),他找到一個有趣的發現 ,就是在美國,每次殖利率曲線倒掛,也就是當短期利率高於長期利率,通常經濟衰退就會隨之發生,10次裡面有9次是這樣,並不是說現在倒掛就一定會帶來衰退,但是我們想表達的是,從歷史曲線可以歸納出這些有趣的事情。

至於出外採訪的部分,數據新聞跟傳統跑新聞最大的不同,就是你幾乎不需要出去採訪別人,數據新聞的核心,是要從數據裡就能夠看出很多故事,最後可能只需要採訪一兩個關鍵的人,來確認你的發現。我們的記者James Tozer寫過幾則從數據發現的有趣新聞,像是:Google搜尋引擎的AI到底有沒有偏見?他花了很多心力研究,最後採訪幾位專家來解釋他的發現,這樣的採訪是為了要確認記者有沒有朝對的方向調查。我們組在《經濟學人》雜誌中負責的「每日圖表」(Daily Chart)單元,文章幾乎很少放引用句,因為證據都在數據跟圖表了。

「每日圖表」(Daily Chart)這個單元大概是從2013就開始了,在我們這組成立前就已經存在的欄目。我想他們當初的構想是,希望紙本週刊上能有一部分留給視覺圖表,在網頁板的Daily Chart上,我們就是把那個圖表放上來,再加上200字解釋,但現在我們組的記者除了維持這個單元以外,每個人手上都有一兩個要做的深度解釋性圖表專題,至少都需要花上2星期,所以我們也開始招募外稿寫手來替我們寫「每日圖表」單元。至於涵蓋的主題有哪些?我們出過一個關於俄羅斯方塊的每日圖表,分析速解玩家們的解俄羅斯方塊比賽,發現獲勝關鍵跟記憶肌肉、機器學習還有運氣都有關。另一個新發現是,原來每個俄羅斯方塊,平均最多花上20步可以解開,我個人就從來沒注意到這件事。每日圖表不一定都要是很嚴肅的政治經濟數據,也可以有些像這樣有趣的環節。

數據新聞組每週四有一次例會,大家在會議上提出想做的議題,其他人幫忙平衡或是分配比重,才不會一週每天主題都很嚴肅,當然希望涵蓋的議題越多元越好,所以曾經有記者做過櫻花形狀的圖表,來顯示日本櫻花花期高峰,有隨著氣溫上升和氣候變遷,越來越早到來。而我們也相信,只要圖表設計夠吸引人,讀者不需要太多文字解釋,就會自己開始研究圖。

經濟學人的深度評論是全球性的,不只要關注英國、也有美國、台灣選總統時或是像香港的抗爭等等,你們組跟其他文字記者的合作關係為何?請問這個新聞編輯室是怎麼運作的? 倫敦的總辦公室是大多新聞編輯室、印刷流程的統整處,但我們在世界各地有很多記者,之前有篇關於新疆恐怖攻擊的報導,就是在北京通訊處寫的,不是所有新聞都在寫英國發生的事,但的確,那篇文章最後也會回到倫敦辦公室編輯後出版。《經濟學人》真的很努力不要只關注英美的現況,尤其對我們而言,世界上有那麼多數據可以撈,眼界應該要更寬廣。只不過,在非洲國家或中國撈數據通常比較困難,我們有一些管道能要到,但數量不多,如果幸運能有完整一組的數據,這些地區的數據新聞也會是我們優先想要關注的,只因機會難得。

大多數的數據記者找到數據、找到新聞故事,也都會自己做圖表,但我們有專業的分工,會讓視覺化專家來負責呈現,所以我們的每日圖表風格幾乎一致,而且看起來也很漂亮,視覺工程師從前期就加入討論,他們花很多時間思考要如何呈現出最吸睛跟有效的圖。而如果是在我們組外的文字記者,有時候會請研究員幫忙找數據,但通常他們新聞專題只想呈現一個故事主軸,而不是以圖表為導向的寫作方式。

數據新聞組當週要做出30-45張圖表。
數據新聞組當週要做出30-45張圖表。

除了比較即時、精巧的圖表分析之外,你們也做過一些大型的專題,像Build an American voter,你們分析政治光譜跟美國地區身分認同之間的關係。這樣的預測型數據專題,通常需要花多少人力時間來製作? 我們在這數據模型匯入了yougov的90000多份問卷,是關於美國的總統期中大選時,呈現不同年齡、性別、種族、信仰、州別、職業、薪資的人,在投票選擇上有哪些變化,你可能有哪些政治傾向。這真的是個很複雜的模型,我們只有2000字可以來解釋這個模型,然後做完我們又寫25則推特,來一一重現這些模型是怎麼做的。

要建造出一個數據專題的模型,主要會先有一位工程師寫下這個模型,不斷修正跟整理;再來會有一位專做視覺化的同事,先設計出一個排版,看看在網頁上的效果如何,接下來互動工程師他們速度很快,在不到一個星期的時間,就會透過D3設計,如何讓圖表跟使用者互動,當然數據記者需要根據這個過程,詳細寫出此模型如何預測的方法學,並從目前的數據寫出新聞故事,所以要做這樣一個計畫,至少需要4-5個人才能完成,要花上好幾週才能完成。

你剛剛提到數據記者要會撈數據跟從中洞察出一些關鍵趨勢,那數據的來源都是從哪裡來的?你們會購買數據嗎?

要當數據記者幾乎對於去哪裡找數據,都有很熟的門路,NBER(美國全國經濟研究所)他們會發表進行中的研究,所以當每日圖表使用他們的數據時,也會特別注意,但他們總有很多學術或科學主題的研究。REDDIT也是可以挖掘好主題的地方,數據記者會有一個直覺,看標題如何下,大概就能知道這則數據有沒有好故事,或是我們會去看twitter找靈感,網路上有些很厲害的分析或討論,我們會能很快判斷,這個有沒有可能做成數據,或是可以視覺化這個發現。我之前做了一個歷年奧斯卡得獎影片的影響力變化 ,這個題材也是從一篇論文來的,讓我開始思考,也許我們可以把這個研究用圖表呈現?因為一般人哪有那麼多時間讀完幾十萬字。還有一個重要來源,就是正在發生的新聞時事,總有很多突發狀況、各式各樣的媒體網站、運動時事、影劇動向等等的,只有要夠多的人在關注,或是有資金金流投入,自然就會有數據的生成可以分析。

不會,我們從來沒有花錢買過數據,已經有太多資料庫不需要付錢了,而且若媒體付錢買數據的話,也可能會產生新聞倫理的疑慮,就是會有人去創造出那些「好賣錢」的數據,過去只有一兩次的案例是,我們拿到的數據並不是公開給大眾的,需要透過一些管道拿,但這真的是很少數的案例,通常我們都用開放資源。

如今你已經做過上千張圖表了,能否歸納出有哪些視覺化數據時致命的錯誤,或是說,有哪些原則、元素是好的數據新聞或圖表共同會有的?

關於數據視覺化這件事,我覺得最重要的就是,每張圖表想要傳達的訊息,是否能讓讀者一目瞭然?舉例來說,如果你發現的數據是關於人們的幸福感,如果你畫的是當人們越幸福,線就越往下墜,那你的視覺化就不是那麼成功。因為通常人們對方向上的認知是,往上是比較好的。這也是所謂的視覺認知,在眾多線條中,人們比較容易注意到有東西往上、或是看出線性的A比B高,但是我們很難比較圓形,所以我們做圖表時,會避免用圓形來表達重要的訊息,因為要讀者從十個圓形中,找出哪個是最大的圓形,不是這麼直覺性的。不過另一種情況下,我們經常用圓形來跟地圖配合,因為通常有地圖時,你沒有太多空間可以做長條圖,而圓形在這時候就能突顯出範圍或數量,我們也會把數字放在圓形當中,讀者能夠一看就知道哪個圓形最大。另外,做這種圖表還有一個重點就是,把所有你不需要的資訊拿下來,不能夠貪心,我們會盡量避免做出所謂的無效圖表(chart junk),

我昨天看到一則有趣的推特,裡面有十張跟恐龍化石相關的表,但是人們看完後,只記得那張上面有畫暴龍當作統計條線的,因為用恐龍圖形來當統計的視覺呈現,給了讀者一種視覺提示,讓他跟主題可以很快聯想在一起,就像我剛剛提到那個畫櫻花來呈現櫻花開花與氣候變遷的圖,就很好讓人記得;我們還有做另外一張圖表分析,是關於黑鮪魚的價格,是否能用來預測日本該年的GDP,那張圖就是用一張鮪魚的形狀來表示。

其他原則還有像是,一張圖上最多只能有四條線,除非你有很大的空間可以用,不能有超過5種顏色;如果你需要用到超過5種顏色,那你得重新思考,你是不是用到錯的圖來呈現了。我們通常對顏色有嚴謹的規定,第一次出現的線條都是同一種藍色,所以如果這張表只有一個重點,那條就會是藍色的趨勢線、有兩個重點,第二條會是同一種淺藍色,第三種會是黃色,除非我們要用來表示政黨,那我們就會用該政黨的顏色,這樣讀者就能很快地認出政黨。但基本原則就是深藍、淺藍、黃色依序使用,這樣也免除了麻煩,不用每製一張圖就重新想要用什麼顏色。還有一個原則是,假設我們真的有30個曲線要表示,但其中28條會是非常淺的灰色,只有兩條是用顯著的顏色,這樣你就能直接看到我們想強調給你的兩個東西。還有永遠永遠要有副標題,用幾個字讓讀者知道,他們正在讀什麼圖表。

我們組寫過一篇很棒的medium文章,是Sara去回顧好幾張圖表,是我們現在會覺得做的不是那麼好的。通常一週下來,我們組會為紙本雜誌內容做出30-40張配圖表、另外10-20張給《經濟學人》網頁版或其他部門,這個工作量的確是滿大的,所以我們的確會犯錯。有時候可能是用錯顏色,本來以為那樣的配色會很吸睛,事實可能不是如此;非常少的次數是我們做了不搭數據內容的形式,因為通常製圖師都非常有經驗,早就歸納出:跟時間相關的要做直線圖、要做表達比例的圖,就該用堆疊長條圖。沒有一種圖會是永遠都最正確的圖,有時候圖可以放跨頁、有時候會把一大張圖拆成兩張圖,看這樣效果如何。通常數據記者提出題目跟數據分析後,交給視覺化的同事,他們一次會跑出10-15種圖表呈現,再由記者和數據編輯一起討論、給回饋,如果一直找不到合適的,我們會把所有圖表重新來過。有時,我們也會把這些表,給完全不懂這主題的人看,之後再給一個跟主題相關的專家看。每犯一個錯誤,我們的操作也就會越來越熟練。

經濟學人雜誌從1986年,就開始編制大麥克指數(Big Mac Index),用「大麥克在各國的價格/大麥克在美國的價格」來當作「購買力平價條件所隱含的匯率」,評估各國貨幣幣值是被高估還低估的指標。《經濟學人》數據新聞組剛在2019年,更新了數據跟呈現形式了對不對,改變的考量是什麼?

大麥克指數每兩年就會更新一次數據,每六個月研究組就會有人去蒐集世界各地麥當勞大麥克的價格還有GDP,這34年下來,我們都一直在做這件事。至於你說到網路上的大麥克專題,最早是在智慧型手機出現前就設計好了,當時沒有互動的部分,但有地圖、長條圖跟一些分布點圖。所以去年知道我們開始要重新規畫這個互動專題時,因為google會將只有網頁板、沒有手機板的網頁,降他們的搜尋觸及,這聽起來也滿合理的,因為他們希望有越多人能夠使用越好。我們在正式改版前先做了問卷統計,請讀者幫我們從現況分析,他們喜歡圖表的那些部分、不喜歡哪些部分,然後花了一個月研究、設計、建造模型,現在這個版本,看起來好多了,也可以在手機上閱讀。我們把原本的地圖換掉了,雖然我很愛地圖,用來呈現一個地區性的趨勢也很棒,但是我們的工程師說,要讀者在一個小小的螢幕上,把世界地圖滑來滑去,簡直是太辛苦了,而且如果讀者不認識這個國家在哪裡,地圖對他們就沒有意義。新的這版。你可以很快就看出哪些國家的大麥克跟年均所得比起來,是太貴或是太便宜。

數據新聞算是一個相對新的領域,你也是從頭開始自學程式語言的人,會建議有志從事此業的人要具備什麼條件?

我覺得要做數據新聞,你當然會需要一些基本的電腦技術,不是一定要學習R或是PYTHON,但是大概需要知道如何調整數據,用google sheets也沒關係,很多數據視覺化的工程師,都是從這些線上試算表開始的。我覺得最重要的不是技術上的技能,而是你的調查能力,你對數據的敏感度,找出數據想跟你說什麼故事,這些數據圖形的變化,凸顯出什麼重要性或是關鍵階段。舉個例子好了,像2017年的時候,北英格蘭的畜牧業暴發了牛結核疾病,當這件事情爆發的時候,數據記者就需要了解:這是個什麼樣的疾病?當有官方說法說這不會太嚴重時,我們從國外得到了一筆數據,知道這個疾病的危險性,還有些牧場不願意公開承認,這可能導致更大的麻煩,這樣去思考,就是一篇很棒的數據新聞了,當然剛剛說的這些都是虛擬的例子,千萬別把他當真。不過如果可以的話,我還是會建議想當數據記者的人可以花點時間學R,因為他幾乎是多功能合一,可以幫助你更快地整理超大量地數據、從中看出端倪。

既然數據新聞已經是一個趨勢了,你會建議一般的文字記者們,都要訓練自己閱讀圖表或是熟悉數據嗎?

絕對的,我們很幸運,在《經濟學人》的記者都對數據敏感跟聰穎,他們在寫作時就會思考數據進來,有些也會自己編碼寫模型,所以跟他們溝通上非常順利。在任何其他的新聞編輯室,每個記者都真的應該將數據考量進去他們的新聞故事裡,重視數據像他們重視採訪跟專題的任何一步一樣,不應該說自己不懂數學或統計就逃避這部分,這不是一件值得驕傲的事。想當記者你就得克服這點,重點是不要害怕接觸數字,而且熟悉這一塊也代表你會寫出更好、更有根據跟洞見的故事。如果一篇新聞用了錯誤的單位或是數據,那這篇新聞的力道當然就會少很多。而且用數據圖表,通常可以再讓你的新聞故事篇幅縮短,一張有用的圖可以讓你少寫兩段落,在當今的時代是更有效率的做法。

最後也想要問你,你做了一個用聲譜分析數據的專題,談的是母親生完孩子後的工資懲罰。丹麥婦女成為母親十年後的收入,比女性少21%。在德國,這個薪資懲罰更驚人,母親的收入少61%。你們怎麼會想要用聲譜的方式,來呈現數據的變化?

《經濟學人》有一個播客節目叫做The Intelligence,他們邀請我們組上節目,談我們最近做了哪些專題,我就開始想,是不是能夠讓觀眾「聽」出數據的變化。我本身也很喜歡音樂,你可以從音符高低聽出數據的變化,這也很可能是人們最直觀的感受了,加上《經濟學人》的強項真的是這些數據圖表,我們很想實驗出聲音圖表。這個專題其中一個驚人的數據就是,在德國,生過小孩的女性再回到職場,他們的薪水收入少了整整80%,可是光是做出一個音高上上下下的圖表聲音趨勢,並沒有辦法讓讀者一聽就能得到所有資訊,這樣的呈現還是太仰賴視覺了。我們現在還在實驗階段,需要先替這些數據找到一個平均值的聲音,在同一個基準上讓音高隨著比例有變化,而不能只像傳統數據新聞那樣,用數字來轉換成圖形的最高最低點。我相信我們一旦找出這個聲音數據化的方法,有很多的主題都能夠用這種形式呈現,像是最近我們有另一個專題,是從被困在北極冰層中的鉛含量,追蹤過去兩千年來歐洲的貨幣供應史,這也是一個很適合聲音化的主題。

今天很謝謝Alex的分享,讓我們了解數據新聞的演進還有趨勢,也跟我們分享你們工作的方法。

沒問題,謝謝你們,很高興能跟大家分享。

下載「鏡好聽」APP,聲音節目隨身聽

最多獨家更新內容,請下載《鏡好聽》APP:https://mirrormediafb.pros.is/LY67K