7 façons infaillibles de protéger votre site WordPress des grattoirs de contenu

Publié: 2017-04-29

Le grattage de contenu (c'est-à-dire le grattage Web, la récolte Web, l'extraction de données Web, etc.) est le processus de copie de données à partir d'un site Web. Les grattoirs de contenu sont les personnes ou les logiciels qui copient les données. Le grattage Web en lui-même n'est pas une mauvaise chose. En fait, tous les navigateurs Web sont essentiellement des grattoirs de contenu. Il existe de nombreuses fins légitimes pour les grattoirs de contenu, comme l'indexation Web pour les moteurs de recherche, par exemple.

La vraie préoccupation est de savoir si les grattoirs de contenu sur votre site sont nuisibles ou non. Les concurrents peuvent vouloir voler votre contenu et le publier comme le leur. Si vous pouvez faire la distinction entre les utilisateurs légitimes et les méchants, vous avez de bien meilleures chances de vous protéger. Cet article explique les bases du grattage Web, ainsi que 7 façons de protéger votre site WordPress.

Types de grattoirs de contenu

Il existe de nombreuses manières différentes pour les grattoirs de contenu de télécharger des données. Il est utile de connaître les différentes méthodes et la technologie qu'elles utilisent. Les méthodes vont de la basse technologie (une personne qui copie et colle manuellement) aux robots sophistiqués (logiciel automatisé capable de simuler l'activité humaine dans un navigateur Web). Voici un résumé de ce à quoi vous pourriez être confronté :

  • Araignées : l' exploration du Web est une grande partie du fonctionnement des grattoirs de contenu. Une araignée comme Googlebot commencera par explorer une seule page Web et passera de lien en lien pour télécharger des pages Web.
  • Scripts Shell : vous pouvez utiliser le shell Linux pour créer des grattoirs de contenu avec des scripts tels que GNUs Wget pour télécharger du contenu.
  • Scrapers HTML : ils sont similaires aux scripts shell. Ce type de grattoir est très courant. Il fonctionne en obtenant la structure HTML d'un site Web pour trouver des données.
  • Grattoirs d' écran : un grattoir d'écran est un programme qui capture les données d'un site Web en reproduisant le comportement d'un utilisateur humain qui utilise un ordinateur pour naviguer sur Internet.
  • Copie humaine : c'est ici qu'une personne copie manuellement le contenu de votre site Web. Si vous avez déjà publié en ligne, vous avez peut-être remarqué que le plagiat est endémique. Une fois que la flatterie initiale a disparu, la réalité que quelqu'un profite de votre travail s'installe.

Il y a plusieurs façons de faire la même chose. Les catégories de grattoirs de contenu énumérées ci-dessus ne sont en aucun cas exhaustives. De plus, il y a beaucoup de chevauchement entre les catégories.

Outils utilisés par les grattoirs de contenu

7 façons infaillibles de protéger votre site WordPress des grattoirs de contenu

Image de medejaja / shutterstock.com

Il existe une variété de grattoirs de contenu disponibles, ainsi qu'une variété d'outils pour aider le processus de grattage Web. Il existe également des organisations expertes qui proposent des services d'extraction de données. Les outils que les scrapers de contenu peuvent utiliser pour obtenir des données ne manquent pas. Ces outils sont utilisés par les amateurs et les professionnels à diverses fins. Plusieurs fois, vous pouvez télécharger un ensemble complet d'outils comme Beautiful Soup, un package Python pour l'analyse de documents HTML et XML. Vous trouverez ci-dessous quelques outils couramment utilisés par les grattoirs de contenu.

  • cURL : cela fait partie de libcurl, une bibliothèque PHP pour faire des requêtes HTTP.
  • HTTrack : Un robot d'exploration Web gratuit et open source qui télécharge des sites Web pour une navigation hors ligne.
  • GNU Wget : un outil pour télécharger du contenu à partir de serveurs via FTP, HTTPS et HTTP. Obtenez-le gratuitement sur le site Web de GNU.
  • Kantu : logiciel d'automatisation Web visuel gratuit qui automatise les tâches généralement gérées par des humains, telles que le remplissage de formulaires.

7 façons de protéger votre site WordPress des grattoirs de contenu

7 façons infaillibles de protéger votre site WordPress des grattoirs de contenu

Image de 0beron / shutterstock.com

L'administrateur d'un site Web peut utiliser diverses mesures pour arrêter ou ralentir un bot. Les sites Web utilisent des méthodes pour contrecarrer les grattoirs de contenu, telles que la détection et l'interdiction aux robots d'afficher leurs pages. Vous trouverez ci-dessous 10 méthodes pour protéger votre site des grattoirs de contenu.

1. Limitation et blocage de débit

Vous pouvez combattre une grande partie des robots en détectant d'abord le problème. Il est courant qu'un bot automatisé spamme votre serveur avec un nombre inhabituellement élevé de requêtes. La limitation du débit, comme son nom l'indique, limite les demandes de serveur provenant d'un client individuel en définissant une règle.

Vous pouvez faire des choses comme mesurer les millisecondes entre les requêtes. S'il est trop rapide pour un humain d'avoir cliqué sur ce lien après le chargement initial de la page, alors vous savez qu'il s'agit d'un bot. Bloquez ensuite cette adresse IP. Vous pouvez bloquer les adresses IP en fonction d'un certain nombre de critères, notamment leur pays d'origine.

2. Inscription et connexion

L'enregistrement et la connexion sont un moyen populaire de protéger le contenu des regards indiscrets. Vous pouvez entraver la progression des robots qui ne sont pas en mesure d'utiliser l'imagerie informatique avec ces méthodes. Exigez simplement une inscription et une connexion pour le contenu que vous souhaitez uniquement pour vos téléspectateurs. Les bases de la sécurité de connexion s'appliquent ici. Gardez à l'esprit que les pages qui nécessitent une inscription et une connexion ne seront pas indexées par les moteurs de recherche.

3. Pots de miel et fausses données

En informatique, les pots de miel sont des opérations d'infiltration virtuelles. Vous rassemblez les attaquants potentiels en définissant des pièges avec un pot de miel, pour détecter le trafic provenant des grattoirs de contenu. Il existe un nombre infini de façons de le faire.

Par exemple, vous pouvez ajouter un lien invisible sur votre page Web. Créez ensuite un algorithme qui bloque l'adresse IP du client qui a cliqué sur le lien. Les pots de miel plus sophistiqués peuvent être difficiles à installer et à entretenir. La bonne nouvelle est qu'il existe de nombreux projets de pots de miel open source. Consultez cette grande liste de pots de miel géniaux sur github.

4. Utilisez un CAPTCHA

Captcha signifie test de Turing public complètement automatisé pour distinguer les ordinateurs des humains. Les captchas peuvent être ennuyeux, mais ils sont aussi utiles. Vous pouvez en utiliser un pour bloquer les zones qui pourraient intéresser un bot, comme un bouton d'e-mail sur votre formulaire de contact. Il existe de nombreux bons plugins Captcha disponibles pour WordPress, y compris le module Captcha de Jetpack. Nous avons également un article informatif sur les avantages de l'utilisation de CAPTCHA dans WordPress que vous devriez probablement consulter.

5. Changez fréquemment le code HTML

Cela peut perturber les grattoirs de contenu qui s'appuient sur un balisage HTML prévisible pour identifier des parties de votre site Web. Vous pouvez jeter une clé dans ce processus en ajoutant des éléments inattendus. Facebook faisait cela en générant des identifiants d'éléments aléatoires, et vous le pouvez aussi. Cela peut frustrer les grattoirs de contenu jusqu'à ce qu'ils se cassent. Gardez à l'esprit que cette méthode peut causer des problèmes avec des choses comme les mises à jour et la mise en cache.

6. Obscurcissement

Vous pouvez masquer vos données pour les rendre moins accessibles en modifiant les fichiers de votre site. J'ai rencontré une poignée de sites Web qui servent de texte sous forme d'image, ce qui rend beaucoup plus difficile pour les êtres humains d'essayer de copier et coller manuellement votre texte. Vous pouvez également utiliser des sprites CSS pour masquer les noms des images.

7. Ne le publiez pas !

Le monde réel est votre meilleur pari en matière de cryptage. Si vous avez des informations dont vous avez absolument besoin d'être privées, ne les mettez pas sur Internet. Ne pas mettre les informations sur Internet est vraiment le seul moyen de protéger votre contenu. Bien que les méthodes que nous avons mentionnées ici soient toutes des moyens efficaces d'empêcher les grattoirs de contenu de voler vos données, il n'y a aucune garantie. Ces méthodes rendent la tâche plus difficile, mais pas impossible.

Emballer

Certaines mesures de sécurité affectent l'expérience utilisateur. Gardez à l'esprit que vous devrez peut-être faire un compromis entre la sécurité et l'accessibilité. Il est préférable de s'attaquer d'abord aux fruits à portée de main. Dans de nombreux cas, vous pouvez trouver un plugin pour vous aider. Les plugins de sécurité comme WordFence et Sucuri peuvent automatiser la limitation et le blocage du débit, entre autres. Les méthodes les plus efficaces que j'ai rencontrées impliquent:

  • Utiliser des pots de miel
  • Obscurcir le code
  • Limitation de débit et autres formes de détection

Il n'y a pas de solutions à toute épreuve pour protéger votre site des grattoirs de contenu. L'évolution des grattoirs de contenu plus sophistiqués est née en réponse aux webmasters avertis. C'est une bataille de va-et-vient qui dure depuis le début des années 1990. Les grattoirs peuvent simuler presque tous les aspects d'un utilisateur humain, ce qui peut rendre difficile de déterminer qui sont les méchants. Bien que cela soit intimidant, la plupart des grattoirs de contenu que vous traiterez seront suffisamment basiques pour s'arrêter facilement.

Avez-vous une expérience avec les grattoirs de contenu malveillant ? Qu'avez-vous fait pour les arrêter ? N'hésitez pas à partager dans la section commentaires ci-dessous.

Image miniature de l'article par Lucky clover / shutterstock.com