網路時光機與 Cloudflare 合作,方便取得更大量的庫存網頁

Wayback Machine
Igor Bonifacic / Engadget

俗話說「凡走過必留下痕跡」,而在網路上負責留下這個「痕跡」的,非「網路時光機(The Wayback Machine)」莫屬了。這個由非營利組織「網際網路檔案館(The Internet Archive)」所建立的數位資料庫,自 2001 年來持續不斷地爬找、備份整個網路上所有的網頁,不僅為所有看得到的頁面都留下備份,還能看到同一個頁面在不同時期的樣貌,至今已經庫存了超過 4,680 億個網頁了。

網路時光機取得頁面的方式,原先主要有兩種。一個是由使用者自行上傳網址到網路時光機,另一個則是透過機器人定時去爬找並存下所有的連結和對應的頁面。如今網路時光機宣佈了將與 Cloudflare 合作,新增第三種取得的方式 —— Cloudflare 提供的「Always Online」服務。這個服務將客戶的網頁存成靜態的頁面,放在 Cloudflare 的伺服器上,讓客戶在自己的服務斷線時,還能由 Cloudflare 提供備援。當客戶把要備援的網頁提供給 Cloudflare 時,Cloudflare 就會順便將網址傳一份給網路時光機了,除了協助擴大網路時光機的庫藏之外,也能在 Cloudflare 自身出問題時,擔當「備援的備援」。

目前網路時光機每天都要爬取十億個連結,目前不清楚的是 Cloudflare 所提供的新連結當中,有多少是與現有重複的。但不論如何,這都意味著網路時光機將能備份更多的網站與網頁,為後代留下更多網路時代早年的紀錄吧。