大數據與算法:Netflix們是如何比我更早知道我的性取向的?

Ellie House
BBC記者艾莉·豪斯

BBC記者艾莉·豪斯(Ellie House)出櫃後,發現Netflix似乎早已知曉此事。這是怎麼發生的?

Short presentational grey line
Short presentational grey line

我在大學二年級時意識到自己是雙性戀,但科技巨頭企業似乎在此之前幾個月就已經弄明白了。

在那之前,我有過一個長期男朋友,並且一直認為自己是直的。說實話,那時約會並不是我的優先項。

然而,就是那段時間我看了很多Netflix影片,而且我越來越多地收到包含女同性戀情節或者雙性戀角色的電視劇推送。

這些電視劇都是那些和我年齡相仿、背景相似、觀影歷史相似的朋友們沒有被推送的,甚至連聽都沒聽說過。

其中一部特顯眼的劇叫做《情牽你我她》(You Me Her),講述了一對城郊的已婚夫婦如何接納第三者進入他們的關係。這部劇充滿了非異性戀情節和雙性戀角色,被形容為電視界的「第一部多性別浪漫(polyromantic)喜劇」。

Ellie House looking at Neflix
Ellie House looking at Neflix

不單是Netflix。我很快就在其它好幾個平台上也看到了類似的推送。Spotify向我推薦了一張他們稱之為「莎孚式」(sapphic)的歌單——這個字眼是用來形容喜愛女性的女性。

幾個月後,在TikTok上,我開始在我的動態中看到來自雙性戀創作者的視頻。

又過了幾個月後,我從另一方面意識到,我自己是雙性戀。這些科技平台到底發現到了哪些我自己沒有注意到的跡象呢?

當用戶遇見內容

Netflix在全球有2.22億用戶,有數以千計的電影和劇集供用戶觀看,類別無窮無盡。但是,每個單獨用戶平均只會在一個月內觀看六個不同類別的內容

為了向人們展示平台認為他們會想看的內容,Netflix使用了一個強大的推薦系統。這個算法網絡幫助決定將哪些視頻、圖片和預告片擺放在用戶的首頁上。

例如,《情牽你我她》被標記為類別碼「100010」——顯示在人眼前的標籤則是「LGBTQ+故事」。

推送系統的目標是將使用平台的人與內容相匹配。

這個數字媒人會收集兩邊的信息並建立聯繫。比如一首歌的類型、一部電影所探討的主題、電視劇中的演員,所有這些都可以被標記。在此基礎上,算法會預測出一個人最有可能被什麼內容吸引。

「大數據就像一座巨大的山脈,」Netflix的前高管托德·耶林(Todd Yellin)在網站「Future of StoryTelling」上的一段視頻中說道,「借助成熟的機器學習技術,我們試圖找出哪些標籤能起作用。」

Ellie House checking her data
Ellie House checking her data

但這些平台對用戶的了解有多少,以及它們是如何了解的呢?

根據英國的數據隱私法規,個人有權知道一個機構如何掌握關於他們的數據。許多流媒體和社交媒體公司都已經為用戶創建了一個自動化系統,來請求獲得這些信息。

我從八個最大的平台上下載了自己的全部信息。臉書(Facebook)一直追蹤我訪問過的其它網站,包括一款語言學習工具和酒店預訂網站。它甚至有我家地址,存放在一個名為「位置」的文件夾中。

Instagram列出了300多個它認為我會感興趣的不同主題,用於個性化廣告。

Netflix向我發送了一份詳細記錄我觀看過的每條預告片和節目的電子表格——什麼時候、在哪種設備上觀看,以及是自動播放還是我自己選擇點擊的。

沒有證據表明這些平台標記過任何與我的性取向有關的內容。Spotify在給BBC的一份聲明中表示:「我們的隱私政策概括劃定了Spotify收集用戶數據的範圍,其中不包括性取向。此外,我們的運算法不會根據用戶聽音樂的偏好來預測性取向。」

其它平台也有類似的政策。Netflix告訴我,比起年齡或性別等人口數據,用戶觀看什麼內容,以及如何與應用程式進行互動,是判斷他們口味的更好指標。

重點不在看什麼,而在如何看

劍橋大學的運算化社會心理學博士生格雷格·塞拉皮奧-加西亞(Greg Serapio-Garcia)表示:「沒有人明白地告訴Netflix,他們是同性戀」,但是平台可以觀察那些喜歡「非異性戀內容」的用戶。

用戶不一定要曾經觀看過被標記為LGBT+的內容,才會接收到這些推送。推送系統會比這更加深入。

根據格雷格的說法,一種可能性是,觀看某些並非專門涉及LGBT+的電影和電視劇也會幫助算法預測「你喜歡非異性戀內容的傾向」。

一個人看什麼,只是運算方程式的一部分;很多時候,一個人如何使用平台更加能說明問題。


更多關於科技與生活的報道:


其他細節也可以用來對用戶進行預測——比如,他們連續觀看內容的時間比例,或者他們是否看完片尾字幕。

格雷格說,這些習慣本身可能並不意味著什麼,但是數以百萬計用戶綜合起來,它就可以用來作出「非常具體的預測」。

於是,Netflix的運算法在預測我對LGBT+情節的興趣時,或許並不僅僅是基於我過去觀看過的內容,它還會關注我何時點開它,甚至是我在哪種設備上觀看,以及何時觀看。

對我來說,這只是關乎好奇心,但是格雷格認為,在同性戀行為非法的國家,這有可能給人們帶來潛在危險。

在與世界各地的LGBT+人士交談時,我聽到了彼此矛盾的訊息。一方面,他們常常會喜歡流媒體網站上推薦的內容——甚至可能覺得這是在解放他們。

但是另一方面,他們感到擔心。

「我覺得這是對我們隱私的侵犯,」一位男同性戀人士告訴我(出於他的安全考慮,我們保持匿名)。

「它給了你更多認知,了解在自由的情況下,你的生活會是怎樣的,那種感覺很美好,」但是,他補充說,「運算法確實讓我有一點害怕。」