領英7億用戶資料被公開出售 黑客如何在社交媒體上抓取信息

computer keyboard
黑客能操縱社交媒體平台上的軟件,獲取額外的數據。

在你的社交媒體個人資料頁上,你公開了多少個人信息?

姓名、地點、年齡、職位、婚姻狀況,還有頭像?每個人在網上願意發佈的個人信息有所不同。

但是,大多數人都接受一點,即無論我們在公開的個人資料頁上發佈了什麼信息,這些內容都屬公有領域所有。

那麼,如果你聽說一個黑客把你所有的信息分門別類,放入一個有上百萬個條目的怪獸式表格里,凖備賣給出價最高的網絡罪犯時,你會作何反應呢?

上周,一名自稱叫湯姆·萊內爾(Tom Liner)的黑客「為了好玩」便做出了這樣的事情。他匯編了一個來自全世界7億領英(LinkedIn)用戶的數據庫,每次售價大約為5千美元。

這起事件和其他類似的社交媒體數據抓取(social media scraping)案例引發了一場激烈討論。大家開始關注,我們在資料頁分享的個人基本信息是否應該得到更好的保護。

在某天的英國時間早上8點57分,萊內爾在一個臭名昭著的黑客論壇上發佈了一則貼文,宣佈了自己最近的行動。

對於黑客來說,這是一個出奇正常的時間,但當然,我們不知道這個叫自己為湯姆·萊內爾的黑客究竟住在哪個時區。

「大家好,我有7億條2021年領英記錄,」他寫道。

LinkedIn logo
湯姆·萊內爾抓取數據的目標是求職網站領英。

貼文中有一個鏈接,點開便是一個一百萬條記錄的樣本,以及一封邀請其他黑客私下聯繫他、為他的數據庫報價的信息。

不出所料,這筆生意在黑客世界裏引起了一陣轟動。湯姆告訴我,他正以大約5千美元的價格把自己的貨物出售給「多個」有意願的客戶。

他不肯透露自己的客戶是誰,或者他們為什麼想要得到這些信息。但他表示,這些數據可能會在今後被用於惡意的黑客行動。

在網絡安全與隱私領域,這則新聞還點燃一場關於我們是否應該擔憂這種超級抓取行為的爭論。

這裏重要的一點是,這些數據庫並不是通過侵入服務器或者社交媒體網站建立起來的。

它們的構建主要依靠使用自動程序抓取面向公眾的平台數據,從中獲取關於用戶的一切免費可用信息。

理論上來說,大多數被集合的數據都可以通過從每個社交媒體資料頁逐一摘錄得到。當然,要想匯集黑客們收集到的這麼多數據,需要花費多個人一輩子的時間。

Clubhouse
Clubhouse上的130萬用戶數據被抓取。

到目前為止,今年已經至少發生過至少三起大型「數據抓取」事件。

今年4月,一個黑客出售了另一個從領英抓取的涉及5億條記錄的數據庫。

同一周,另一名黑客在一個論壇上免費發佈了一個抓取到的130萬條Clubhouse用戶檔案的數據庫。

同樣在4月,一個黑客論壇上發佈5.53億臉書(Facebook)用戶的信息,其中含有新舊抓取的資料,發佈這則信息的黑客借此接受捐款。

而自稱對臉書數據庫負責的那名黑客,也自稱湯姆·萊內爾。

我與湯姆在Telegram上交談了三周多,Telegram是一個基於雲的即時通訊應用程序。我們的一些信息和未接電話是在半夜收到的,其餘通訊則是在工作時間進行,因此,我對他所在的位置一無所知。

關於他日常生活的唯一一條線索是一次他對我說,他不能接電話,因為他的妻子正在睡覺。此外,他白天有一份工作,做黑客是他的「愛好」。

湯姆告訴我,他打造7億領英用戶數據庫所使用的技術,與他創建臉書用戶清單使用的技術「幾乎完全一樣」。

他說:「這個工作花了我幾個月時間。非常複雜。我必須侵入領英的API。如果你一次針對用戶數據作出太多次請求,系統便會永久封禁你。」

Tom Liner's profile
湯姆在一個黑客論壇上發佈了他的抓取成果。

API全稱是應用程序編程接口(application programming interface),大多數社交網絡都會出售其API伙伴關係,這樣使得其他公司可以訪問他們的數據,可以用於市場營銷或搭建應用程序。

湯姆稱,他找到了一個欺騙領英API軟件的方法,可以在不觸發警報的情況下讓領英API向他提供大量記錄。

率先發現這個數據庫交易的公司Privacy Shark在瀏覽免費樣品後發現,這些數據包括用戶全名、郵箱地址、性別、手機號碼以及所在行業信息。

領英堅持表示,湯姆·萊內爾沒有使用他們的API,但同時承認,這些數據「包括從領英抓取的信息,以及從其他出處獲取的信息」。

領英還表示:「這不是一次領英的數據洩露,也沒有領英會員的私人數據遭到暴露。從領英上抓取數據是違反我們服務條款的做法,我們一直在努力確保我們會員的隱私得到保護。」

臉書在回應4月出現的數據擔憂時,同樣將那次事件視作以前的數據抓取事件而冷淡處理。臉書媒體聯絡團隊甚至不小心向一名記者透露,他們的策略是「將數據抓取構述成一個廣泛的行業問題,並將這一活動定義為定期發生的事情,使其正常化。」

Mark Zuckerberg gestures with arms open in front of a padlock symbol on stage during a privacy speech
臉書曾經遭到數據抓取,超過5億用戶的記錄被搜走。

然而,真實情況是,黑客們從這些數據庫中賺取錢財,這讓一些網絡安全專家感到擔憂。

SOS Intelligence是一家為企業提供收集威脅性情報服務的公司,其創始人及總裁埃米爾·哈濟茲帕希奇(Amir Hadžipašić)每天日夜在各個黑客論壇上游走。當7億領英用戶數據庫的消息一出現,他和團隊便開始對數據進行分析。

他表示,無論是這起還是其他的大規模抓取數據事件,其中包含的信息都不是大多數人以為可以在公有領域看到的。他認為,API程序提供的與用戶有關的數據多出了公眾可以看到的範圍,這種程序應該得到更加嚴格的控制。

「鑒於這些信息錯綜複雜的細節,比如在一些情況下包含地理位置或私人手機號碼和郵件地址,像這樣的大規模洩露是令人擔憂的,」他說。

「大多會人會對這些API擴展服務擁有的如此信息量而感到驚訝。如果這些信息落在壞人的手裏,可能會對一些人帶來重大影響。」

湯姆·萊內爾說,他知道自己的數據庫很可能會被用於實施惡意攻擊。

他說,這的確「給他帶來困擾」,但他不願明說自己為何仍在繼續做這樣的抓取。

哈濟茲帕希奇表示,購買領英數據的黑客可以將這些信息用於發動對高層目標(比如公司老闆)的有計劃的黑客攻擊。

他還表示,單單是數據庫中的活躍郵箱用戶數量便有價值,因為黑客們可以用其進行大規模郵件釣魚活動。

「這些數據本身就是公開的」

但是,網絡安全專家特洛伊·亨特(Troy Hunt)相比之下對於最近的信息抓取事沒有那麼擔憂。在他職業生涯當中,他的大部分時間都花在研究遭黑客入侵的數據內容上面,研究結果用於自己的網站haveibeenpwned.com。他認為,我們需要接受這些作為我們資料公開分享的一部分。

「這些絶對不是洩露,這中間沒有含糊不清的地方。這些數據的大部分本身就是公開的,」他說。

「不過,在每起事件中我們要問的問題是,這些信息中有多少是用戶選擇公開可見的,有多少是沒有打算讓公眾可以訪問的。」

與埃米爾一樣,特洛伊也認為我們應該改善對社交媒體網絡API程序的控制,他表示,我們不能對這些事件做輕描淡寫的處理。

「我不反對臉書和其他方的立場,但我覺得,『這不是個問題』的這種回應雖然在技術上來說可能是凖確的,但忽視了關注這些用戶數據價值的意見,也可能是在淡化他們自己在這些數據庫創建中的角色。」

萊內爾的行為很可能讓他自己因知識產權盜竊或侵犯版權而被社交媒體公司起訴。如果他的真實身份被人發現,他或許並不會面臨法律嚴懲,但當被問及是否擔心被捕時,他表示,「不,沒人可以找得到我,」之後便結束了我們的對話,只留下一句「祝你玩得開心」。