7 maneiras infalíveis de proteger seu site WordPress de scrapers de conteúdo

Publicados: 2017-04-29

O scraping de conteúdo (também conhecido como web scraping, web harvesting, extração de dados web e assim por diante) é o processo de copiar dados de um site. Raspadores de conteúdo são as pessoas ou software que copiam os dados. O web scraping em si não é uma coisa ruim. Na verdade, todos os navegadores da web são essencialmente raspadores de conteúdo. Existem muitos propósitos legítimos para scrapers de conteúdo, como indexação da web para mecanismos de pesquisa, por exemplo.

A verdadeira preocupação é se os scrapers de conteúdo em seu site são prejudiciais ou não. Os concorrentes podem querer roubar seu conteúdo e publicá-lo como se fosse seu. Se você puder distinguir entre usuários legítimos e malfeitores, terá uma chance muito melhor de se proteger. Este artigo explica os conceitos básicos de web scraping, juntamente com 7 maneiras de proteger seu site WordPress.

Tipos de Scrapers de Conteúdo

Existem muitas maneiras diferentes de os scrapers fazerem o download de dados. Ajuda saber os vários métodos e qual tecnologia eles usam. Os métodos variam de baixa tecnologia (uma pessoa copiando e colando manualmente) a bots sofisticados (software automatizado capaz de simular a atividade humana em um navegador da web). Aqui está um resumo do que você pode estar enfrentando:

Spiders: o rastreamento da Web é uma grande parte do funcionamento dos scrapers de conteúdo. Uma aranha como o Googlebot começa rastreando uma única página da web e vai de link em link para fazer download de páginas da web.
Scripts de Shell: você pode usar o Shell do Linux para criar scrapers de conteúdo com scripts como GNUs Wget para baixar conteúdo.
Raspadores de HTML: são semelhantes aos scripts de shell. Este tipo de raspador é muito comum. Funciona obtendo a estrutura HTML de um site para localizar dados.
Screenscrapers: Um raspador de tela é qualquer programa que captura dados de um site, replicando o comportamento de um usuário humano que está usando um computador para navegar na Internet.
Cópia humana: é onde uma pessoa copia manualmente o conteúdo do seu site. Se você já publicou online, deve ter notado que o plágio é galopante. Depois que a lisonja inicial vai embora, surge a realidade de que alguém está lucrando com seu trabalho.

Existem muitas maneiras de fazer a mesma coisa. As categorias de raspadores de conteúdo listadas acima não são de forma alguma exaustivas. Além disso, há muitas sobreposições entre as categorias.

Ferramentas usadas por scrapers de conteúdo

7 maneiras infalíveis de proteger seu site WordPress de scrapers de conteúdo

Imagem por medejaja / shutterstock.com

Há uma variedade de raspadores de conteúdo disponíveis, bem como uma variedade de ferramentas para ajudar no processo de raspagem da web. Também existem algumas organizações especializadas que oferecem serviços de extração de dados. Não faltam ferramentas que os raspadores de conteúdo podem usar para obter dados. Essas ferramentas são usadas por amadores e profissionais para uma variedade de finalidades diferentes. Muitas vezes você pode baixar um pacote cheio de ferramentas como Beautiful Soup, um pacote Python para análise de documentos HTML e XML. Abaixo estão algumas ferramentas comumente usadas por scrapers de conteúdo.

cURL: faz parte da libcurl, uma biblioteca PHP para fazer solicitações HTTP.
HTTrack: Um rastreador da web gratuito e de código aberto que baixa sites para navegação offline.
GNU Wget: Uma ferramenta para baixar conteúdo de servidores via FTP, HTTPS e HTTP. Obtenha-o gratuitamente no site da GNUs.
Kantu: software de automação visual da web gratuito que automatiza tarefas normalmente realizadas por humanos, como o preenchimento de formulários.

7 maneiras de proteger seu site WordPress contra scrapers de conteúdo

Imagem por 0beron / shutterstock.com

O administrador de um site pode usar várias medidas para interromper ou desacelerar um bot. Existem métodos que os sites usam para impedir os scrapers de conteúdo, como detectar e impedir que os bots vejam suas páginas. Abaixo estão 10 métodos para proteger seu site de scrapers de conteúdo.

1. Limitação e bloqueio de taxa

Você pode lutar contra uma grande parte dos bots detectando o problema primeiro. É comum um bot automatizado enviar spam para seu servidor com um número excepcionalmente alto de solicitações. A limitação de taxa, como o próprio nome sugere, limita as solicitações do servidor provenientes de um cliente individual, definindo uma regra.

Você pode fazer coisas como medir os milissegundos entre as solicitações. Se for muito rápido para um humano clicar naquele link após o carregamento inicial da página, então você sabe que é um bot. Em seguida, bloqueie esse endereço IP. Você pode bloquear endereços IP com base em vários critérios, incluindo seu país de origem.

2. Registro e Login

O registro e o login são uma forma popular de manter o conteúdo protegido de olhares indiscretos. Você pode impedir o progresso de bots que não conseguem usar imagens de computador com esses métodos. Simplesmente exija registro e login para o conteúdo que você deseja apenas para seus visualizadores. Os princípios básicos de segurança de login se aplicam aqui. Lembre-se de que as páginas que exigem registro e login não serão indexadas pelos mecanismos de pesquisa.

3. Honeypots e dados falsos

Na ciência da computação, os honeypots são operações de picada virtuais. Você reúne possíveis invasores configurando armadilhas com um honeypot para detectar o tráfego de raspadores de conteúdo. Existem inúmeras maneiras de fazer isso.

Por exemplo, você pode adicionar um link invisível em sua página da web. Em seguida, crie um algoritmo que bloqueie o endereço IP do cliente que clicou no link. Os honeypots mais sofisticados podem ser difíceis de configurar e manter. A boa notícia é que existem muitos projetos de honeypots de código aberto por aí. Confira esta grande lista de honeypots incríveis no github.

4. Use um CAPTCHA

Captcha significa Teste de Turing Público Completamente Automatizado para distinguir Computadores e Humanos. Captchas podem ser irritantes, mas também são úteis. Você pode usar um para bloquear áreas nas quais você suspeita que um bot possa estar interessado, como um botão de e-mail em seu formulário de contato. Existem muitos plug-ins Captcha bons disponíveis para WordPress, incluindo o módulo Captcha do Jetpack. Também temos um post informativo sobre os benefícios de usar CAPTCHA no WordPress, você provavelmente deveria dar uma olhada.

5. Altere o HTML com frequência

Isso pode atrapalhar os scrapers de conteúdo que dependem de marcação HTML previsível para identificar partes do seu site. Você pode jogar uma chave nesse processo adicionando elementos inesperados. O Facebook costumava fazer isso gerando IDs de elementos aleatórios, e você também pode fazer isso. Isso pode frustrar os scrapers de conteúdo até que eles quebrem. Lembre-se de que esse método pode causar problemas com atualizações e armazenamento em cache.

6. Ofuscação

Você pode ocultar seus dados para torná-los menos acessíveis, modificando os arquivos do seu site. Eu encontrei vários sites que servem texto como imagem, o que torna muito mais difícil para os seres humanos tentarem copiar e colar manualmente o seu texto. Você também pode usar sprites CSS para ocultar os nomes das imagens.

7. Não publique!

O mundo real é sua melhor aposta quando se trata de criptografia. Se você tiver informações de que absolutamente precisa que sejam privadas, não as coloque na Internet. Não colocar as informações na Internet é realmente a única maneira de manter seu conteúdo seguro. Embora os métodos mencionados aqui sejam maneiras eficazes de impedir que os scrapers roubem seus dados, não há garantias. Esses métodos tornam isso mais difícil, mas não impossível.

Empacotando

Algumas medidas de segurança afetam a experiência do usuário. Lembre-se de que pode ser necessário fazer um compromisso entre segurança e acessibilidade. É melhor ir atrás das frutas mais baixas primeiro. Em muitos casos, você pode encontrar um plugin para ajudar. Plug-ins de segurança como WordFence e Sucuri podem automatizar a limitação e o bloqueio de taxas, entre outras coisas. Os métodos mais eficazes que encontrei envolvem:

Usando honeypots
Ofuscando o código
Limitação de taxa e outras formas de detecção

Não existem soluções à prova de balas para proteger seu site de scrapers de conteúdo. A evolução de scrapers de conteúdo mais sofisticados surgiu como uma resposta a webmasters experientes. É uma batalha para trás e para frente que vem acontecendo desde o início dos anos 1990. Os scrapers podem falsificar quase todos os aspectos de um usuário humano, o que pode tornar difícil descobrir quem são os bandidos. Embora isso seja assustador, a maioria dos scrapers de conteúdo com os quais você lidará serão básicos o suficiente para serem interrompidos facilmente.

Você tem alguma experiência com scrapers de conteúdo malicioso? O que você fez para detê-los? Sinta-se à vontade para compartilhar na seção de comentários abaixo.

Imagem em miniatura do artigo por Lucky clover / shutterstock.com