保護您的 WordPress 網站免受內容抓取的 7 種萬無一失的方法
已發表: 2017-04-29內容抓取(又名網絡抓取、網絡收集、網絡數據提取等)是從網站複製數據的過程。 內容抓取工具是複制數據的人或軟件。 網絡抓取本身並不是一件壞事。 事實上,所有網絡瀏覽器本質上都是內容抓取工具。 例如,內容抓取工具有許多合法用途,例如搜索引擎的網絡索引。
真正關心的是您網站上的內容抓取工具是否有害。 競爭對手可能想竊取您的內容並將其作為自己的內容髮布。 如果你能區分合法用戶和壞人,你就有更好的機會保護自己。 本文介紹了網頁抓取的基礎知識,以及保護 WordPress 網站的 7 種方法。
內容抓取工具的類型
內容抓取工具下載數據的方式有很多種。 它有助於了解各種方法及其使用的技術。 方法範圍從低技術(人工複製和粘貼)到復雜的機器人(能夠在網絡瀏覽器中模擬人類活動的自動化軟件)。 以下是您可能遇到的問題的摘要:
- 蜘蛛:網絡爬行是內容抓取工具工作方式的重要組成部分。 像 Googlebot 這樣的蜘蛛將從抓取單個網頁開始,然後從一個鏈接到另一個鏈接下載網頁。
- Shell 腳本:您可以使用 Linux Shell 創建帶有腳本的內容抓取工具,例如 GNUs Wget 來下載內容。
- HTML 抓取工具:這些類似於 shell 腳本。 這種類型的刮刀很常見。 它通過獲取網站的 HTML 結構來查找數據。
- 屏幕抓取器:屏幕抓取器是通過複製人類用戶使用計算機瀏覽互聯網的行為來從網站捕獲數據的任何程序。
- 人工複製:這是一個人從您的網站手動複製內容的地方。 如果您曾經在網上發表過文章,您可能已經註意到抄襲很猖獗。 在最初的奉承消失之後,有人從你的工作中獲利的現實開始出現。
有很多方法可以做同樣的事情。 上面列出的內容抓取工具的類別並非詳盡無遺。 此外,類別之間有很多重疊。
內容抓取工具使用的工具

圖片來自 medejaja/shutterstock.com
有各種內容抓取工具可用,以及各種工具來幫助網絡抓取過程。 還存在一些提供數據提取服務的專家組織。 內容抓取工具可以用來獲取數據的工具不乏其人。 這些工具被業餘愛好者和專業人士用於各種不同的目的。 很多時候,您可以下載一個完整的工具包,例如 Beautiful Soup,一個用於解析 HTML 和 XML 文檔的 Python 包。 以下是內容抓取工具常用的一些工具。
- cURL:這是 libcurl 的一部分,libcurl 是一個用於發出 HTTP 請求的 PHP 庫。
- HTTrack:一種免費的開源網絡爬蟲,可下載網站以供離線瀏覽。
- GNU Wget:一種通過 FTP、HTTPS 和 HTTP 從服務器下載內容的工具。 從 GNUs 網站免費獲取。
- Kantu:免費的可視化網絡自動化軟件,可自動執行通常由人類處理的任務,例如填寫表格。
保護您的 WordPress 網站免受內容抓取的 7 種方法

圖片來自 0beron/shutterstock.com

網站管理員可以使用各種措施來停止或減慢機器人。 網站使用一些方法來阻止內容抓取,例如檢測和禁止機器人查看其頁面。 以下是保護您的網站免受內容抓取的 10 種方法。
1. 速率限制和阻塞
您可以通過首先檢測問題來對抗大部分機器人。 自動化機器人以異常高的請求數量向您的服務器發送垃圾郵件是很常見的。 顧名思義,速率限制通過設置規則來限制來自單個客戶端的服務器請求。
你可以做一些事情,比如測量請求之間的毫秒數。 如果在初始頁面加載後人們點擊該鏈接的速度太快,那麼您就知道這是一個機器人。 隨後阻止該 IP 地址。 您可以根據許多標準(包括其來源國家/地區)阻止 IP 地址。
2. 註冊和登錄
註冊和登錄是一種防止內容被窺探的流行方式。 您可以阻礙無法通過這些方法使用計算機成像的機器人的進展。 只需註冊和登錄您想要的內容,只為您的觀眾。 登錄安全的基礎知識適用於此。 請記住,搜索引擎不會將需要註冊和登錄的頁面編入索引。
3. 蜜罐和假數據
在計算機科學中,蜜罐是虛擬的刺痛操作。 您可以通過使用蜜罐設置陷阱來圍捕潛在的攻擊者,以檢測來自內容抓取工具的流量。 有無數種方法可以做到這一點。
例如,您可以在網頁上添加一個不可見的鏈接。 接下來創建一個算法來阻止點擊鏈接的客戶端的 IP 地址。 更複雜的蜜罐可能很難設置和維護。 好消息是有很多開源蜜罐項目。 在 github 上查看這個很棒的蜜罐列表。
4. 使用驗證碼
Captcha 代表完全自動化的公共圖靈測試,用於區分計算機和人類。 驗證碼可能很煩人,但它們也很有用。 您可以使用一個來阻止您懷疑機器人可能感興趣的區域,例如聯繫表單上的電子郵件按鈕。 有許多優秀的驗證碼插件可用於 WordPress,包括 Jetpack 的驗證碼模塊。 我們還有一篇關於在 WordPress 中使用 CAPTCHA 的好處的信息豐富的帖子,您可能應該查看一下。
5. 經常更改 HTML
這可能會干擾依賴可預測的 HTML 標記來識別您網站部分內容的內容抓取工具。 您可以通過添加意想不到的元素來在此過程中使用扳手。 Facebook 過去通過生成隨機元素 ID 來做到這一點,你也可以。 這可能會阻礙內容抓取工具,直到它們損壞為止。 請記住,此方法可能會導致更新和緩存等問題。
6.混淆
您可以通過修改站點的文件來隱藏數據以使其不易訪問。 我遇到過一些將文本作為圖像提供服務的網站,這使得嘗試手動複製和粘貼文本的人類變得更加困難。 您還可以使用 CSS 精靈來隱藏圖像的名稱。
7. 不要發布它!
在加密方面,現實世界是您最好的選擇。 如果您有絕對需要保密的信息,請不要將其放在互聯網上。 不將信息放在互聯網上確實是確保您的內容安全的唯一方法。 雖然我們在此處提到的方法都是防止內容抓取者竊取您數據的有效方法,但無法保證。 這些方法使它變得更加困難,但並非不可能。
包起來
一些安全措施會影響用戶體驗。 請記住,您可能必須在安全性和可訪問性之間做出妥協。 最好先去追求低垂的果實。 在許多情況下,您可以找到一個插件來提供幫助。 WordFence 和 Sucuri 等安全插件可以自動進行速率限制和阻止等。 我遇到的最有效的方法包括:
- 使用蜜罐
- 混淆代碼
- 速率限制和其他形式的檢測
沒有防彈解決方案可以保護您的網站免受內容抓取工具的侵害。 更複雜的內容抓取工具的發展是對精明的網站管理員的回應。 這是一場自 1990 年代初以來一直在進行的來回戰鬥。 抓取工具幾乎可以偽造人類用戶的每個方面,這使得很難弄清楚誰是壞人。 雖然這令人生畏,但您將處理的大多數內容抓取都足夠基本,可以輕鬆停止。
您有使用惡意內容抓取工具的經驗嗎? 你做了什麼來阻止他們? 請隨時在下面的評論部分分享。
幸運三葉草/shutterstock.com 的文章縮略圖
