自製全網站備份工具，歡迎使用（零資源佔用，一鍵備份）

火鳥

2022 年 1 月 11 日

透過Internet Archive的Wayback Machine進行網站備份，為了節省資源，我們只會備份那些未被Wayback Machine抓取過的頁面。備份之後人人共享，任何人都可以瀏覽下載。

【如何使用】

進入：https://datalabour.com/saveWeb/

找到中間的輸入框，輸入完整的包含http或https開頭的網站首頁鏈接，然後點按鈕「開始備份」即可。
同一時間最多10個備份任務，如果任務已滿，提交後會將網址存入候選列表，請過段時間再來備份。資源請有效利用，不要去備份維基百科、FB、Google、Twitter之類大型網站，因為沒有意義。
可以備份任何網站，適合未雨綢繆地保存一些舊的blog、社運網站、社區網站、獨立新聞媒體、NGO網站等等。

【它怎麼運作】

這個服務與httrack或者wget等直接將網站下載到你的本地硬碟的方式不同，我們依靠Internet Archive的Wayback Machine進行運作。

Internet Archive是全球最大的互聯網檔案館/圖書館，儲存了數以百億計的網頁。雖然過去曾遭遇火災，但因為Internet Archive出色的多地備份，而沒有任何資料損失。Internet Archive的Wayback Machine類似於Google或百度或Bing的爬蟲，會自動搜尋網路上的網站內容進行抓取，並提供給所有人訪問或下載，基本不設限制。

不過，因為資源有限，也因為Internet Archive位處美國，主要運營者都是英語使用者，Internet Archive對於中文世界，尤其是小眾的網站的備份仍有缺乏。

所以，本網站的運作方式是：我們會循環抓取（使用文本瀏覽器lynx）你提供的網站的所有頁面連結，並詢問Wayback Machine是否抓取過該頁面。如果沒有抓取過，我們會提交申請進行抓取。直到所有網站頁面都被詢問完成。

CC BY-NC-ND 2.0 授权