7 modi infallibili per proteggere il tuo sito WordPress dagli scraper di contenuto

Pubblicato: 2017-04-29

Lo scraping dei contenuti (noto anche come web scraping, web harvesting, estrazione di dati web e così via) è il processo di copia dei dati da un sito web. I raschiatori di contenuti sono le persone o il software che copiano i dati. Il web scraping in sé non è una brutta cosa. In effetti, tutti i browser Web sono essenzialmente raschietti di contenuti. Ci sono molti scopi legittimi per i content scraper come l'indicizzazione web per i motori di ricerca, ad esempio.

La vera preoccupazione è se i raschiatori di contenuti sul tuo sito siano dannosi o meno. I concorrenti potrebbero voler rubare i tuoi contenuti e pubblicarli come propri. Se riesci a distinguere tra utenti legittimi e malintenzionati, hai molte più possibilità di proteggerti. Questo articolo spiega le basi del web scraping, insieme a 7 modi in cui puoi proteggere il tuo sito WordPress.

Tipi di raschiatori di contenuto

Esistono molti modi diversi in cui i content scraper scaricano i dati. Aiuta a conoscere i vari metodi e quale tecnologia usano. I metodi vanno dal low tech (una persona che copia e incolla manualmente), ai bot sofisticati (software automatizzato in grado di simulare l'attività umana all'interno di un browser web). Ecco un riepilogo di ciò che potresti dover affrontare:

Ragni: la scansione del Web è una parte importante del funzionamento degli scraper di contenuti. Uno spider come Googlebot inizierà eseguendo la scansione di una singola pagina Web e passerà da un collegamento all'altro per scaricare le pagine Web.
Script di shell: è possibile utilizzare Linux Shell per creare raschietti di contenuto con script come GNU Wget per scaricare contenuti.
Scraper HTML: sono simili agli script di shell. Questo tipo di raschietto è molto comune. Funziona ottenendo la struttura HTML di un sito Web per trovare dati.
Screenscraper: uno screen scraper è qualsiasi programma che acquisisce dati da un sito Web replicando il comportamento di un utente umano che utilizza un computer per navigare in Internet.
Human Copy: qui è dove una persona copia manualmente i contenuti dal tuo sito web. Se hai mai pubblicato online, potresti aver notato che il plagio è dilagante. Dopo che l'adulazione iniziale se ne va, la realtà che qualcuno sta traendo profitto dal tuo lavoro inizia.

Ci sono molti modi per fare la stessa cosa. Le categorie di raschiatori di contenuti sopra elencate non sono affatto esaustive. Inoltre, c'è molta sovrapposizione tra le categorie.

Strumenti utilizzati dai raschiatori di contenuti

7 modi infallibili per proteggere il tuo sito WordPress dagli scraper di contenuto

Immagine di medejaja / shutterstock.com

Sono disponibili una varietà di raschiatori di contenuti, nonché una varietà di strumenti per aiutare il processo di raschiamento del web. Esistono anche alcune organizzazioni di esperti che offrono servizi di estrazione dei dati. Non mancano gli strumenti che i content scraper possono utilizzare per ottenere dati. Questi strumenti sono utilizzati da hobbisti e professionisti per una serie di scopi diversi. Molte volte puoi scaricare un pacchetto pieno di strumenti come Beautiful Soup, un pacchetto Python per l'analisi di documenti HTML e XML. Di seguito sono riportati alcuni strumenti comunemente utilizzati dagli scraper di contenuti.

cURL: fa parte di libcurl, una libreria PHP per effettuare richieste HTTP.
HTTrack: un web crawler gratuito e open source che scarica siti Web per la navigazione offline.
GNU Wget: uno strumento per scaricare contenuti dai server tramite FTP, HTTPS e HTTP. Scaricalo gratuitamente dal sito Web di GNU.
Kantu: software di automazione web visuale gratuito che automatizza le attività solitamente gestite da esseri umani come la compilazione di moduli.

7 modi per proteggere il tuo sito WordPress dagli scraper di contenuto

Immagine di 0beron / shutterstock.com

L'amministratore di un sito Web può utilizzare varie misure per arrestare o rallentare un bot. Esistono metodi che i siti Web utilizzano per contrastare i raschiatori di contenuti, come rilevare e impedire ai bot di visualizzare le loro pagine. Di seguito sono riportati 10 metodi per proteggere il tuo sito dai raschiatori di contenuti.

1. Limitazione e blocco della velocità

Puoi combattere una gran parte dei bot rilevando prima il problema. È tipico per un bot automatizzato inviare spam al tuo server con un numero insolitamente elevato di richieste. Il rate limiting, come suggerisce il nome, limita le richieste del server in arrivo da un singolo client impostando una regola.

Puoi fare cose come misurare i millisecondi tra le richieste. Se è troppo veloce per un essere umano aver cliccato su quel link dopo il caricamento iniziale della pagina, allora sai che è un bot. Successivamente bloccare quell'indirizzo IP. Puoi bloccare gli indirizzi IP in base a una serie di criteri, incluso il paese di origine.

2. Registrazione e accesso

La registrazione e l'accesso sono un modo popolare per proteggere i contenuti da occhi indiscreti. Puoi ostacolare il progresso dei bot che non sono in grado di utilizzare l'imaging del computer con questi metodi. Richiedi semplicemente la registrazione e il login per i contenuti che desideri solo per i tuoi spettatori. Le basi della sicurezza dell'accesso si applicano qui. Tieni presente che le pagine che richiedono registrazione e login non verranno indicizzate dai motori di ricerca.

3. Honeypot e dati falsi

In informatica, gli honeypot sono operazioni di puntura virtuale. Arrotonda i potenziali aggressori impostando trappole con un honeypot, per rilevare il traffico dagli scraper di contenuti. Ci sono un numero infinito di modi per farlo.

Ad esempio, puoi aggiungere un collegamento invisibile alla tua pagina web. Quindi creare un algoritmo che blocchi l'indirizzo IP del client che ha fatto clic sul collegamento. Honeypot più sofisticati possono essere difficili da configurare e mantenere. La buona notizia è che ci sono molti progetti honeypot open source là fuori. Dai un'occhiata a questo ampio elenco di fantastici honeypot su github.

4. Usa un CAPTCHA

Captcha è l'acronimo di Completely Automated Public Turing test per distinguere i computer e gli esseri umani. I captcha possono essere fastidiosi, ma sono anche utili. Puoi usarne uno per bloccare le aree in cui sospetti che un bot possa essere interessato, come un pulsante e-mail nel tuo modulo di contatto. Ci sono molti buoni plugin Captcha disponibili per WordPress, incluso il modulo Captcha di Jetpack. Abbiamo anche un post informativo sui vantaggi dell'utilizzo di CAPTCHA in WordPress che dovresti probabilmente controllare.

5. Cambia frequentemente l'HTML

Questo può creare problemi con i content scraper che si basano su un markup HTML prevedibile per identificare parti del tuo sito web. Puoi gettare una chiave inglese in questo processo aggiungendo elementi imprevisti. Facebook lo faceva generando ID di elementi casuali e puoi farlo anche tu. Questo può frustrare i raschiatori di contenuti fino a quando non si rompono. Tieni presente che questo metodo può causare problemi con cose come aggiornamenti e memorizzazione nella cache.

6. Offuscamento

Puoi oscurare i tuoi dati per renderli meno accessibili modificando i file del tuo sito. Mi sono imbattuto in una manciata di siti Web che servono il testo come immagine, il che rende molto più difficile per gli esseri umani cercare di copiare e incollare manualmente il testo. Puoi anche usare gli sprite CSS per nascondere i nomi delle immagini.

7. Non pubblicarlo!

Il mondo reale è la soluzione migliore quando si tratta di crittografia. Se hai informazioni che devi assolutamente essere private, non metterle su Internet. Non mettere le informazioni su Internet è davvero l'unico modo per proteggere i tuoi contenuti. Sebbene i metodi che abbiamo menzionato qui siano tutti modi efficaci per impedire ai content scraper di rubare i tuoi dati, non ci sono garanzie. Questi metodi lo rendono più difficile, ma non impossibile.

Avvolgendo

Alcune misure di sicurezza influiscono sull'esperienza dell'utente. Tieni presente che potresti dover fare un compromesso tra sicurezza e accessibilità. È meglio cercare prima il frutto che pende basso. In molti casi, puoi trovare un plugin per aiutarti. Plugin di sicurezza come WordFence e Sucuri possono automatizzare la limitazione e il blocco della velocità, tra le altre cose. I metodi più efficaci che ho trovato riguardano:

Utilizzo di honeypot
Offuscare il codice
Limitazione della velocità e altre forme di rilevamento

Non esistono soluzioni a prova di proiettile per proteggere il tuo sito dai content scraper. L'evoluzione di raschiatori di contenuti più sofisticati è nata come risposta ai webmaster esperti. È una battaglia avanti e indietro che va avanti dai primi anni '90. Gli scraper possono falsificare quasi ogni aspetto di un utente umano, il che può rendere difficile capire chi sono i cattivi. Anche se questo è scoraggiante, la maggior parte dei raschietti di contenuti con cui avrai a che fare sarà abbastanza semplice da poter essere fermata facilmente.

Hai esperienza con raschiatori di contenuti dannosi? Cosa hai fatto per fermarli? Sentiti libero di condividere nella sezione commenti qui sotto.

Immagine in miniatura dell'articolo di Lucky Clover / shutterstock.com