保护您的 WordPress 网站免受内容抓取的 7 种万无一失的方法

已发表: 2017-04-29

内容抓取(又名网络抓取、网络收集、网络数据提取等)是从网站复制数据的过程。 内容抓取工具是复制数据的人或软件。 网络抓取本身并不是一件坏事。 事实上,所有网络浏览器本质上都是内容抓取工具。 例如,内容抓取工具有许多合法用途,例如搜索引擎的网络索引。

真正关心的是您网站上的内容抓取工具是否有害。 竞争对手可能想窃取您的内容并将其作为自己的内容发布。 如果你能区分合法用户和坏人,你就有更好的机会保护自己。 本文介绍了网页抓取的基础知识,以及保护 WordPress 网站的 7 种方法。

内容抓取工具的类型

内容抓取工具下载数据的方式有很多种。 它有助于了解各种方法及其使用的技术。 方法范围从低技术(人工复制和粘贴)到复杂的机器人(能够在网络浏览器中模拟人类活动的自动化软件)。 以下是您可能遇到的问题的摘要:

  • 蜘蛛:网络爬行是内容抓取工具工作方式的重要组成部分。 像 Googlebot 这样的蜘蛛将从抓取单个网页开始,然后从一个链接到另一个链接下载网页。
  • Shell 脚本:您可以使用 Linux Shell 创建带有脚本的内容抓取工具,例如 GNUs Wget 来下载内容。
  • HTML 抓取工具:这些类似于 shell 脚本。 这种类型的刮刀很常见。 它通过获取网站的 HTML 结构来查找数据。
  • 屏幕抓取器:屏幕抓取器是通过复制人类用户使用计算机浏览互联网的行为来从网站捕获数据的任何程序。
  • 人工复制:这是一个人从您的网站手动复制内容的地方。 如果您曾经在网上发表过文章,您可能已经注意到抄袭很猖獗。 在最初的奉承消失之后,有人从你的工作中获利的现实开始出现。

有很多方法可以做同样的事情。 上面列出的内容抓取工具的类别并非详尽无遗。 此外,类别之间有很多重叠。

内容抓取工具使用的工具

保护您的 WordPress 网站免受内容抓取的 7 种万无一失的方法

图片来自 medejaja/shutterstock.com

有各种内容抓取工具可用,以及各种工具来帮助网络抓取过程。 还存在一些提供数据提取服务的专家组织。 内容抓取工具可以用来获取数据的工具不乏其人。 这些工具被业余爱好者和专业人士用于各种不同的目的。 很多时候,您可以下载一个完整的工具包,例如 Beautiful Soup,一个用于解析 HTML 和 XML 文档的 Python 包。 以下是内容抓取工具常用的一些工具。

  • cURL:这是 libcurl 的一部分,libcurl 是一个用于发出 HTTP 请求的 PHP 库。
  • HTTrack:一种免费的开源网络爬虫,可下载网站以供离线浏览。
  • GNU Wget:一种通过 FTP、HTTPS 和 HTTP 从服务器下载内容的工具。 从 GNUs 网站免费获取。
  • Kantu:免费的可视化网络自动化软件,可自动执行通常由人类处理的任务,例如填写表格。

保护您的 WordPress 网站免受内容抓取的 7 种方法

保护您的 WordPress 网站免受内容抓取的 7 种万无一失的方法

图片来自 0beron/shutterstock.com

网站管理员可以使用各种措施来停止或减慢机器人。 网站使用一些方法来阻止内容抓取,例如检测和禁止机器人查看其页面。 以下是保护您的网站免受内容抓取的 10 种方法。

1. 速率限制和阻塞

您可以通过首先检测问题来对抗大部分机器人。 自动化机器人以异常高的请求数量向您的服务器发送垃圾邮件是很常见的。 顾名思义,速率限制通过设置规则来限制来自单个客户端的服务器请求。

你可以做一些事情,比如测量请求之间的毫秒数。 如果在初始页面加载后人们点击该链接的速度太快,那么您就知道这是一个机器人。 随后阻止该 IP 地址。 您可以根据许多标准(包括其来源国家/地区)阻止 IP 地址。

2. 注册和登录

注册和登录是一种防止内容被窥探的流行方式。 您可以阻碍无法通过这些方法使用计算机成像的机器人的进展。 只需注册和登录您想要的内容,只为您的观众。 登录安全的基础知识适用于此。 请记住,搜索引擎不会将需要注册和登录的页面编入索引。

3. 蜜罐和假数据

在计算机科学中,蜜罐是虚拟的刺痛操作。 您可以通过使用蜜罐设置陷阱来围捕潜在的攻击者,以检测来自内容抓取工具的流量。 有无数种方法可以做到这一点。

例如,您可以在网页上添加一个不可见的链接。 接下来创建一个算法来阻止点击链接的客户端的 IP 地址。 更复杂的蜜罐可能很难设置和维护。 好消息是有很多开源蜜罐项目。 在 github 上查看这个很棒的蜜罐列表。

4. 使用验证码

Captcha 代表完全自动化的公共图灵测试,用于区分计算机和人类。 验证码可能很烦人,但它们也很有用。 您可以使用一个来阻止您怀疑机器人可能感兴趣的区域,例如联系表单上的电子邮件按钮。 有许多优秀的验证码插件可用于 WordPress,包括 Jetpack 的验证码模块。 我们还有一篇关于在 WordPress 中使用 CAPTCHA 的好处的信息丰富的帖子,您可能应该查看一下。

5. 经常更改 HTML

这可能会干扰依赖可预测的 HTML 标记来识别您网站部分内容的内容抓取工具。 您可以通过添加意想不到的元素来在此过程中使用扳手。 Facebook 过去通过生成随机元素 ID 来做到这一点,你也可以。 这可能会阻碍内容抓取工具,直到它们损坏为止。 请记住,此方法可能会导致更新和缓存等问题。

6.混淆

您可以通过修改站点的文件来隐藏数据以使其不易访问。 我遇到过一些将文本作为图像提供服务的网站,这使得尝试手动复制和粘贴文本的人类变得更加困难。 您还可以使用 CSS 精灵来隐藏图像的名称。

7. 不要发布它!

在加密方面,现实世界是您最好的选择。 如果您有绝对需要保密的信息,请不要将其放在互联网上。 不将信息放在互联网上确实是确保您的内容安全的唯一方法。 虽然我们在此处提到的方法都是防止内容抓取者窃取您数据的有效方法,但无法保证。 这些方法使它变得更加困难,但并非不可能。

包起来

一些安全措施会影响用户体验。 请记住,您可能必须在安全性和可访问性之间做出妥协。 最好先去追求低垂的果实。 在许多情况下,您可以找到一个插件来提供帮助。 WordFence 和 Sucuri 等安全插件可以自动进行速率限制和阻止等。 我遇到的最有效的方法包括:

  • 使用蜜罐
  • 混淆代码
  • 速率限制和其他形式的检测

没有防弹解决方案可以保护您的网站免受内容抓取工具的侵害。 更复杂的内容抓取工具的发展是对精明的网站管理员的回应。 这是一场自 1990 年代初以来一直在进行的来回战斗。 抓取工具几乎可以伪造人类用户的每个方面,这使得很难弄清楚谁是坏人。 虽然这令人生畏,但您将处理的大多数内容抓取都足够基本,可以轻松停止。

您有使用恶意内容抓取工具的经验吗? 你做了什么来阻止他们? 请随时在下面的评论部分分享。

幸运三叶草/shutterstock.com 的文章缩略图