7 moduri nepotrivite de a vă proteja site-ul WordPress de Scrapers de conținut
Publicat: 2017-04-29Scraping-ul de conținut (aka scraping-ul web, recoltarea web-ului, extragerea datelor web-ului și așa mai departe) este procesul de copiere a datelor de pe un site web. Scraperii de conținut sunt persoanele sau software-ul care copiază datele. Răzuirea web în sine nu este un lucru rău. De fapt, toate browserele web sunt în esență scrapere de conținut. Există multe scopuri legitime pentru răzuitorii de conținut, cum ar fi indexarea web pentru motoarele de căutare, de exemplu.
Adevărata preocupare este dacă răzuitoarele de conținut de pe site-ul dvs. sunt dăunătoare sau nu. Concurenții ar putea dori să vă fure conținutul și să-l publice ca al lor. Dacă puteți face distincția între utilizatorii legitimi și băieții răi, aveți șanse mult mai mari de a vă proteja. Acest articol explică elementele de bază ale răzuirii web, împreună cu 7 moduri în care vă puteți proteja site-ul WordPress.
Tipuri de răzuitoare de conținut
Există multe moduri diferite în care descreierele de conținut descarcă date. Vă ajută să cunoașteți diferitele metode și ce tehnologie utilizează. Metodele variază de la tehnologie redusă (o persoană care copiază și lipesc manual), până la roboți sofisticati (software automat capabil să simuleze activitatea umană într-un browser web). Iată un rezumat cu ceea ce vă puteți confrunta:
- Păianjeni: accesarea cu crawlere pe web este o mare parte a modului în care funcționează racloarele de conținut. Un păianjen precum Googlebot va începe prin accesarea cu crawlere a unei singure pagini web și va trece de la un link la altul pentru a descărca pagini web.
- Shell Scripts: Puteți utiliza Linux Shell pentru a crea screere de conținut cu scripturi precum GNUs Wget pentru a descărca conținut.
- Scraper HTML: Acestea sunt similare scripturilor shell. Acest tip de răzuitor este foarte frecvent. Funcționează prin obținerea structurii HTML a unui site web pentru a găsi date.
- Screenscrapers: un scraper de ecran este orice program care captează date de pe un site web reproducând comportamentul unui utilizator uman care folosește un computer pentru a naviga pe internet.
- Human Copy: aici o persoană copiază manual conținut de pe site-ul dvs. web. Dacă ați publicat vreodată online, este posibil să fi observat că plagiatul este rampant. După ce lingușirea inițială dispare, se instalează realitatea că cineva profită de munca ta.
Există multe modalități de a face același lucru. Categoriile de răzuitoare de conținut enumerate mai sus nu sunt în niciun caz exhaustive. În plus, există o mulțime de suprapuneri între categorii.
Instrumente utilizate de Scrapers de conținut

Imagine de medejaja / shutterstock.com
Există o varietate de răzuitoare de conținut disponibile, precum și o varietate de instrumente pentru a ajuta procesul de răzuire web. Există, de asemenea, unele organizații de experți care oferă servicii de extragere a datelor. Nu lipsesc instrumentele pe care le pot folosi scraperii de conținut pentru a obține date. Aceste instrumente sunt folosite de amatori și profesioniști în diferite scopuri. De multe ori puteți descărca un pachet plin de instrumente precum Beautiful Soup, un pachet Python pentru analiza documentelor HTML și XML. Mai jos sunt câteva instrumente utilizate în mod obișnuit de răzuitorii de conținut.
- cURL: Aceasta face parte din libcurl, o bibliotecă PHP pentru efectuarea de cereri HTTP.
- HTTrack: un crawler web gratuit și open source care descarcă site-uri web pentru navigare offline.
- GNU Wget: Un instrument pentru descărcarea conținutului de pe servere prin FTP, HTTPS și HTTP. Obțineți-l gratuit de pe site-ul GNUs.
- Kantu: Software gratuit de automatizare web vizuală care automatizează sarcinile gestionate de obicei de oameni, cum ar fi completarea formularelor.
7 moduri de a vă proteja site-ul WordPress de Scrapers de conținut

Imagine de la 0beron / shutterstock.com
Administratorul unui site web poate utiliza diverse măsuri pentru a opri sau a încetini un bot. Există metode pe care site-urile web le utilizează pentru a împiedica răzuitorii de conținut, cum ar fi detectarea și interzicerea roboților de la vizualizarea paginilor lor. Mai jos sunt 10 metode pentru a vă proteja site-ul împotriva răzuitorilor de conținut.
1. Limitarea și blocarea ratei
Puteți lupta împotriva unei porțiuni mari de roboți detectând mai întâi problema. Este tipic ca un robot automat să vă spameze serverul cu un număr neobișnuit de mare de solicitări. Limitarea ratei, așa cum sugerează și numele său, limitează cererile serverului care vin de la un client individual prin stabilirea unei reguli.

Puteți face lucruri precum măsurarea milisecundelor între cereri. Dacă este prea rapid ca un om să fi făcut clic pe acel link după încărcarea inițială a paginii, atunci știți că este un bot. Ulterior blocați acea adresă IP. Puteți bloca adresele IP pe baza unui număr de criterii, inclusiv țara lor de origine.
2. Înregistrare și autentificare
Înregistrarea și autentificarea sunt o modalitate populară de a păstra conținutul în siguranță de ochii curioși. Puteți împiedica progresul roboților care nu sunt capabili să utilizeze imagini pe computer cu aceste metode. Pur și simplu solicitați înregistrarea și autentificarea pentru conținutul pe care îl doriți doar pentru spectatorii dvs. Bazele securității conectării se aplică aici. Rețineți că paginile care necesită înregistrare și autentificare nu vor fi indexate de motoarele de căutare.
3. Honeypots și date false
În informatică, poturile de miere sunt operațiuni virtuale de sting. Așezați potențialii atacatori prin setarea de capcane cu un pot de miere, pentru a detecta traficul de la răzuitorii de conținut. Există un număr infinit de modalități de a face acest lucru.
De exemplu, puteți adăuga un link invizibil pe pagina dvs. web. Apoi creați un algoritm care blochează adresa IP a clientului care a dat clic pe link. Poturile de miere mai sofisticate pot fi greu de instalat și întreținut. Vestea bună este că există o mulțime de proiecte open source cu melodie. Verificați această listă mare de minunate minunate pe github.
4. Folosiți un CAPTCHA
Captcha reprezintă testul complet automatizat al Turing-ului Public pentru a spune Computers and Humans Apart. Captcha-urile pot fi enervante, dar sunt și utile. Puteți utiliza una pentru a bloca zone despre care bănuiți că ar putea fi interesat de un bot, cum ar fi un buton de e-mail de pe formularul dvs. de contact. Există multe plugin-uri Captcha bune disponibile pentru WordPress, inclusiv modulul Captcha al Jetpack. Avem, de asemenea, o postare informativă despre Avantajele utilizării CAPTCHA În WordPress, probabil că ar trebui să verificați.
5. Schimbați frecvent codul HTML
Acest lucru se poate încurca cu răzuitorii de conținut care se bazează pe marcaje HTML previzibile pentru a identifica părțile site-ului dvs. web. Puteți arunca o cheie în acest proces adăugând elemente neașteptate. Facebook obișnuia să facă acest lucru generând ID-uri de element aleatoriu, și tu poți și tu. Acest lucru poate frustra răzuitorii de conținut până când se rup. Rețineți că această metodă poate cauza probleme cu lucruri precum actualizări și stocarea în cache.
6. Ofuscare
Puteți ascunde datele pentru a le face mai puțin accesibile modificând fișierele site-ului dvs. Am întâlnit o mână de site-uri web care servesc textul ca imagine, ceea ce face mult mai greu pentru ființele umane care încearcă să copieze și să lipească manual textul. De asemenea, puteți utiliza sprite CSS pentru a ascunde numele imaginilor.
7. Nu-l postați!
Lumea reală este cel mai bun pariu când vine vorba de criptare. Dacă aveți informații, trebuie absolut să fiți private, nu le puneți pe internet. Nu puneți informațiile pe internet este cu adevărat singura modalitate de a vă păstra conținutul în siguranță. În timp ce metodele pe care le-am menționat aici sunt toate modalități eficiente de a împiedica răzuitorii de conținut să vă fure datele - nu există garanții. Aceste metode o fac mai dificilă, dar nu imposibilă.
Încheierea
Unele măsuri de securitate afectează experiența utilizatorului. Rețineți că poate fi necesar să faceți un compromis între siguranță și accesibilitate. Cel mai bine este să mergeți mai întâi după fructul cu agățare scăzută. În multe cazuri, puteți găsi un plugin pentru a vă ajuta. Pluginurile de securitate precum WordFence și Sucuri pot automatiza limitarea și blocarea ratei, printre altele. Cele mai eficiente metode pe care le-am întâlnit implică:
- Folosind vase de miere
- Amorsarea codului
- Limitarea ratei și alte forme de detectare
Nu există soluții antiglonț pentru a vă proteja site-ul împotriva răzuitorilor de conținut. Evoluția scraperelor de conținut mai sofisticate a apărut ca răspuns la webmasterii pricepuți. Este o bătălie înainte și înapoi care se desfășoară de la începutul anilor 1990. Răzuitorii pot falsifica aproape fiecare aspect al unui utilizator uman, ceea ce poate face dificilă aflarea cine sunt băieții răi. Deși acest lucru este descurajant, majoritatea răzuitorilor de conținut cu care veți avea de gând vor fi suficient de elementari pentru a se opri cu ușurință.
Aveți experiență cu răzuitorii de conținut rău intenționat? Ce ai făcut pentru a-i opri? Simțiți-vă liber să distribuiți în secțiunea de comentarii de mai jos.
Imagine în miniatură a articolului de Lucky clover / shutterstock.com
