7 narrensichere Möglichkeiten, Ihre WordPress-Site vor Content Scrapern zu schützen

Veröffentlicht: 2017-04-29

Content Scraping (auch bekannt als Web Scraping, Web Harvesting, Web Data Extraction usw.) ist der Prozess des Kopierens von Daten von einer Website. Content Scraper sind die Personen oder Software, die die Daten kopieren. Web-Scraping selbst ist keine schlechte Sache. Tatsächlich sind alle Webbrowser im Wesentlichen Content Scraper. Es gibt viele legitime Zwecke für Content Scraper, wie zum Beispiel die Webindexierung für Suchmaschinen.

Die eigentliche Sorge besteht darin, ob die Content Scraper auf Ihrer Website schädlich sind oder nicht. Wettbewerber möchten möglicherweise Ihre Inhalte stehlen und als ihre eigenen veröffentlichen. Wenn Sie zwischen legitimen Benutzern und den Bösen unterscheiden können, haben Sie eine viel bessere Chance, sich zu schützen. Dieser Artikel erklärt die Grundlagen des Web-Scrapings sowie 7 Möglichkeiten, wie Sie Ihre WordPress-Site schützen können.

Arten von Content Scrapern

Es gibt viele verschiedene Möglichkeiten, wie Content Scraper Daten herunterladen. Es hilft, die verschiedenen Methoden und die verwendete Technologie zu kennen. Die Methoden reichen von Low-Tech (eine Person, die manuell kopiert und einfügt) bis hin zu ausgeklügelten Bots (automatisierte Software, die menschliche Aktivitäten in einem Webbrowser simulieren kann). Hier ist eine Zusammenfassung dessen, womit Sie möglicherweise konfrontiert werden:

Spinnen: Web-Crawling ist ein großer Teil der Funktionsweise von Content Scrapern. Ein Spider wie der Googlebot beginnt mit dem Crawlen einer einzelnen Webseite und geht dann von Link zu Link, um Webseiten herunterzuladen.
Shell-Skripte: Sie können die Linux-Shell verwenden, um Inhalts-Scraper mit Skripten wie GNUs Wget zum Herunterladen von Inhalten zu erstellen.
HTML-Scraper: Diese ähneln Shell-Skripten. Diese Art von Schaber ist sehr verbreitet. Es funktioniert, indem es die HTML-Struktur einer Website erhält, um Daten zu finden.
Screenscraper: Ein Screenscraper ist jedes Programm, das Daten von einer Website erfasst, indem es das Verhalten eines menschlichen Benutzers repliziert, der einen Computer zum Surfen im Internet verwendet.
Human Copy: Hier kopiert eine Person manuell Inhalte von Ihrer Website. Wenn Sie jemals online veröffentlicht haben, haben Sie vielleicht bemerkt, dass Plagiate weit verbreitet sind. Nachdem die anfängliche Schmeichelei weg ist, setzt die Realität ein, dass jemand von Ihrer Arbeit profitiert.

Es gibt viele Möglichkeiten, dasselbe zu tun. Die oben aufgeführten Kategorien von Content Scrapern erheben keinen Anspruch auf Vollständigkeit. Außerdem gibt es viele Überschneidungen zwischen den Kategorien.

Von Content Scrapern verwendete Tools

7 narrensichere Möglichkeiten, Ihre WordPress-Site vor Content Scrapern zu schützen

Bild von medejaja / shutterstock.com

Es gibt eine Vielzahl von Inhalts-Scrapern sowie eine Vielzahl von Tools, die den Web-Scraping-Prozess unterstützen. Es gibt auch einige Expertenorganisationen, die Datenextraktionsdienste anbieten. Es gibt keinen Mangel an Tools, mit denen Content Scraper Daten abrufen können. Diese Werkzeuge werden von Hobbyisten und Profis für eine Reihe verschiedener Zwecke verwendet. Oft können Sie ein Paket voller Tools wie Beautiful Soup herunterladen, ein Python-Paket zum Parsen von HTML- und XML-Dokumenten. Im Folgenden finden Sie einige Tools, die häufig von Content Scrapern verwendet werden.

cURL: Dies ist Teil von libcurl, einer PHP-Bibliothek zum Erstellen von HTTP-Anfragen.
HTTrack: Ein kostenloser Open-Source-Webcrawler, der Websites zum Offline-Browsen herunterlädt.
GNU Wget: Ein Tool zum Herunterladen von Inhalten von Servern über FTP, HTTPS und HTTP. Holen Sie es sich kostenlos von der GNU-Website.
Kantu: Kostenlose visuelle Web-Automatisierungssoftware, die Aufgaben automatisiert, die normalerweise von Menschen erledigt werden, wie das Ausfüllen von Formularen.

7 Möglichkeiten, Ihre WordPress-Site vor Content-Scrapern zu schützen

Bild von 0beron / shutterstock.com

Der Administrator einer Website kann verschiedene Maßnahmen ergreifen, um einen Bot zu stoppen oder zu verlangsamen. Es gibt Methoden, die Websites verwenden, um Content Scraper zu vereiteln, z. B. das Erkennen und Verbieten der Anzeige ihrer Seiten durch Bots. Im Folgenden finden Sie 10 Methoden, um Ihre Website vor Content Scrapern zu schützen.

1. Ratenbegrenzung und -blockierung

Sie können einen großen Teil der Bots abwehren, indem Sie das Problem zuerst erkennen. Es ist typisch für einen automatisierten Bot, Ihren Server mit einer ungewöhnlich hohen Anzahl von Anfragen zu spammen. Die Ratenbegrenzung begrenzt, wie der Name schon sagt, die Serveranforderungen, die von einem einzelnen Client eingehen, indem eine Regel festgelegt wird.

Sie können beispielsweise die Millisekunden zwischen den Anforderungen messen. Wenn es für einen Menschen zu schnell ist, diesen Link nach dem ersten Laden der Seite anzuklicken, wissen Sie, dass es sich um einen Bot handelt. Blockieren Sie anschließend diese IP-Adresse. Sie können IP-Adressen basierend auf einer Reihe von Kriterien blockieren, einschließlich ihres Herkunftslandes.

2. Registrierung und Login

Die Registrierung und Anmeldung ist eine beliebte Methode, um Inhalte vor neugierigen Blicken zu schützen. Mit diesen Methoden können Sie den Fortschritt von Bots behindern, die keine Computer-Imaging verwenden können. Erfordern Sie einfach eine Registrierung und Anmeldung für Inhalte, die Sie nur für Ihre Zuschauer wünschen. Hier gelten die Grundlagen der Login-Sicherheit. Beachten Sie, dass Seiten, die eine Registrierung und Anmeldung erfordern, von Suchmaschinen nicht indiziert werden.

3. Honeypots und gefälschte Daten

In der Informatik sind Honeypots virtuelle Stacheloperationen. Sie fassen potenzielle Angreifer zusammen, indem Sie Fallen mit einem Honeypot setzen, um den Verkehr von Content Scrapern zu erkennen. Es gibt unendlich viele Möglichkeiten, dies zu tun.

Sie können beispielsweise einen unsichtbaren Link auf Ihrer Webseite hinzufügen. Erstellen Sie als Nächstes einen Algorithmus, der die IP-Adresse des Clients blockiert, der auf den Link geklickt hat. Anspruchsvollere Honeypots können schwierig einzurichten und zu warten sein. Die gute Nachricht ist, dass es viele Open-Source-Honeypot-Projekte gibt. Schauen Sie sich diese große Liste großartiger Honeypots auf github an.

4. Verwenden Sie ein CAPTCHA

Captcha steht für Completely Automated Public Turing Test to Tell Computers and Humans Apart. Captchas können nervig sein, sind aber auch nützlich. Sie können einen verwenden, um Bereiche zu blockieren, von denen Sie vermuten, dass ein Bot interessiert sein könnte, z. B. eine E-Mail-Schaltfläche in Ihrem Kontaktformular. Es gibt viele gute Captcha-Plugins für WordPress, einschließlich des Captcha-Moduls von Jetpack. Wir haben auch einen informativen Beitrag zu den Vorteilen der Verwendung von CAPTCHA in WordPress, den Sie sich wahrscheinlich ansehen sollten.

5. Ändern Sie häufig den HTML-Code

Dies kann mit Content Scrapern durcheinander kommen, die sich auf vorhersehbares HTML-Markup verlassen, um Teile Ihrer Website zu identifizieren. Sie können einen Schraubenschlüssel in diesen Prozess werfen, indem Sie unerwartete Elemente hinzufügen. Facebook hat dies früher durch die Generierung zufälliger Element-IDs getan, und das können Sie auch. Dies kann Content Scraper frustrieren, bis sie kaputt gehen. Beachten Sie, dass diese Methode Probleme mit Dingen wie Updates und Caching verursachen kann.

6. Verschleierung

Sie können Ihre Daten unkenntlich machen, um sie weniger zugänglich zu machen, indem Sie die Dateien Ihrer Site ändern. Ich bin auf eine Handvoll Websites gestoßen, die Text als Bild verwenden, was es für Menschen viel schwieriger macht, Ihren Text manuell zu kopieren und einzufügen. Sie können auch CSS-Sprites verwenden, um die Namen von Bildern auszublenden.

7. Veröffentlichen Sie es nicht!

Die reale Welt ist Ihre beste Wahl, wenn es um Verschlüsselung geht. Wenn Sie Informationen haben, die unbedingt privat sein müssen, stellen Sie sie nicht ins Internet. Die Informationen nicht ins Internet zu stellen, ist wirklich die einzige Möglichkeit, Ihre Inhalte zu schützen. Die hier genannten Methoden sind zwar allesamt wirksame Möglichkeiten, um zu verhindern, dass Content Scraper Ihre Daten stehlen – es gibt jedoch keine Garantien. Diese Methoden machen es schwieriger, aber nicht unmöglich.

Einpacken

Einige Sicherheitsmaßnahmen wirken sich auf die Benutzererfahrung aus. Denken Sie daran, dass Sie möglicherweise einen Kompromiss zwischen Sicherheit und Zugänglichkeit eingehen müssen. Es ist am besten, zuerst nach den tief hängenden Früchten zu suchen. In vielen Fällen finden Sie ein Plugin, das Ihnen hilft. Sicherheits-Plugins wie WordFence und Sucuri können unter anderem die Geschwindigkeitsbegrenzung und -blockierung automatisieren. Die effektivsten Methoden, die ich kennengelernt habe, sind:

Honeypots verwenden
Den Code verschleiern
Frequenzbegrenzung und andere Formen der Erkennung

Es gibt keine kugelsicheren Lösungen, um Ihre Website vor Content Scrapern zu schützen. Die Entwicklung ausgefeilterer Content Scraper entstand als Reaktion auf versierte Webmaster. Es ist ein hin und her Kampf, der seit Anfang der 90er Jahre im Gange ist. Schaber können fast jeden Aspekt eines menschlichen Benutzers vortäuschen, was es schwierig machen kann, herauszufinden, wer die Bösen sind. Obwohl dies entmutigend ist, sind die meisten Content Scraper, mit denen Sie sich beschäftigen werden, einfach genug, um leicht zu stoppen.

Haben Sie Erfahrungen mit Scrapern für schädliche Inhalte? Was hast du getan, um sie aufzuhalten? Fühlen Sie sich frei, in den Kommentaren unten zu teilen.

Miniaturansicht des Artikels von Lucky Clover / shutterstock.com