7 надежных способов защитить ваш сайт WordPress от парсеров контента
Опубликовано: 2017-04-29Парсинг контента (он же веб-сборщик, сбор веб-данных, извлечение веб-данных и т. Д.) - это процесс копирования данных с веб-сайта. Парсеры контента - это люди или программное обеспечение, которые копируют данные. Само по себе парсинг веб-страниц - неплохая вещь. Фактически, все веб-браузеры по сути являются парсерами контента. Есть много законных целей для парсеров контента, таких как, например, веб-индексирование для поисковых систем.
Настоящая проблема заключается в том, вредны ли парсеры контента на вашем сайте. Конкуренты могут захотеть украсть ваш контент и опубликовать его как свой собственный. Если вы можете отличить законных пользователей от плохих парней, у вас будет гораздо больше шансов защитить себя. В этой статье рассказывается об основах парсинга веб-страниц, а также рассказывается о 7 способах защиты своего сайта WordPress.
Типы парсеров контента
Есть много разных способов, которыми парсеры контента загружают данные. Это помогает узнать о различных методах и технологиях, которые они используют. Методы варьируются от низкотехнологичных (человек вручную копирует и вставляет) до сложных ботов (автоматизированное программное обеспечение, способное имитировать деятельность человека в веб-браузере). Вот краткое изложение того, с чем вы можете столкнуться:
- Пауки: сканирование Интернета - большая часть работы парсеров контента. Такой паук, как Googlebot, начнет сканирование одной веб-страницы и будет переходить от ссылки к ссылке для загрузки веб-страниц.
- Сценарии оболочки: вы можете использовать оболочку Linux для создания парсеров содержимого с помощью таких сценариев, как GNU Wget, для загрузки содержимого.
- HTML Scrapers: они похожи на сценарии оболочки. Этот тип скребка очень распространен. Он работает путем получения HTML-структуры веб-сайта для поиска данных.
- Скребки экрана: скребок экрана - это любая программа, которая собирает данные с веб-сайта, копируя поведение человека-пользователя, который использует компьютер для просмотра веб-страниц.
- Human Copy: здесь человек вручную копирует контент с вашего сайта. Если вы когда-либо публиковали статьи в Интернете, вы могли заметить, что плагиат широко распространен. После того, как первоначальная лесть уходит, появляется реальность, что кто-то получает прибыль от вашей работы.
Есть много способов сделать то же самое. Перечисленные выше категории парсеров контента никоим образом не являются исчерпывающими. Кроме того, категории во многом пересекаются.
Инструменты, используемые парсерами контента

Изображение: medejaja / shutterstock.com
Существует множество инструментов для парсинга контента, а также множество инструментов, помогающих в процессе парсинга веб-контента. Существуют также некоторые экспертные организации, предлагающие услуги по извлечению данных. Нет недостатка в инструментах, которые парсеры контента могут использовать для получения данных. Эти инструменты используются любителями и профессионалами для различных целей. Много раз вы можете загрузить пакет, полный инструментов, таких как Beautiful Soup, пакет Python для анализа документов HTML и XML. Ниже приведены несколько инструментов, которые обычно используются парсерами контента.
- cURL: это часть libcurl, библиотеки PHP для выполнения HTTP-запросов.
- HTTrack: бесплатный веб-сканер с открытым исходным кодом, который загружает веб-сайты для просмотра в автономном режиме.
- GNU Wget: инструмент для загрузки контента с серверов через FTP, HTTPS и HTTP. Получите его бесплатно с веб-сайта GNU.
- Канту: Бесплатное программное обеспечение для визуальной веб-автоматизации, которое автоматизирует задачи, обычно выполняемые людьми, такие как заполнение форм.
7 способов защитить ваш сайт WordPress от парсеров контента

Автор изображения: 0beron / shutterstock.com
Администратор веб-сайта может использовать различные меры, чтобы остановить или замедлить работу бота. Существуют методы, которые веб-сайты используют для предотвращения парсеров контента, такие как обнаружение и запрет ботам просматривать свои страницы. Ниже приведены 10 методов защиты вашего сайта от парсеров контента.
1. Ограничение и блокировка скорости
Вы можете бороться с большой частью ботов, сначала обнаружив проблему. Автоматизированный бот обычно рассылает спам на ваш сервер необычно большим количеством запросов. Ограничение скорости, как следует из названия, ограничивает запросы к серверу, поступающие от отдельного клиента, путем установки правила.

Вы можете делать такие вещи, как измерять миллисекунды между запросами. Если человек слишком быстро щелкнул ссылку после начальной загрузки страницы, значит, это бот. Впоследствии заблокируйте этот IP-адрес. Вы можете заблокировать IP-адреса по ряду критериев, в том числе по стране происхождения.
2. Регистрация и вход
Регистрация и вход в систему - это популярный способ защитить контент от посторонних глаз. Вы можете препятствовать работе ботов, которые не могут использовать компьютерные образы с помощью этих методов. Просто потребуйте регистрации и входа в систему для контента, который вы хотите только для своих зрителей. Здесь применяются основы безопасности входа в систему. Имейте в виду, что страницы, требующие регистрации и входа, не будут индексироваться поисковыми системами.
3. Приманки и поддельные данные
В информатике приманки - это виртуальные операции. Вы облавливаете потенциальных злоумышленников, устанавливая ловушки с помощью приманки для обнаружения трафика от парсеров контента. Есть бесконечное количество способов сделать это.
Например, вы можете добавить невидимую ссылку на свою веб-страницу. Затем создайте алгоритм, который блокирует IP-адрес клиента, который щелкнул ссылку. Более сложные приманки сложно настроить и поддерживать. Хорошая новость заключается в том, что существует множество приманок с открытым исходным кодом. Ознакомьтесь с этим большим списком отличных приманок на github.
4. Используйте CAPTCHA.
Captcha означает полностью автоматизированный общедоступный тест Тьюринга, позволяющий отличить компьютеры от людей. Капчи могут раздражать, но они также полезны. Вы можете использовать один, чтобы заблокировать области, которые, как вы подозреваете, могут заинтересовать бота, например кнопку электронной почты в вашей контактной форме. Для WordPress доступно множество хороших плагинов Captcha, включая модуль Captcha Jetpack. У нас также есть информативный пост о преимуществах использования CAPTCHA в WordPress, который вам, вероятно, стоит проверить.
5. Часто меняйте HTML
Это может испортить работу парсеров контента, которые полагаются на предсказуемую разметку HTML для идентификации частей вашего веб-сайта. Вы можете вмешаться в этот процесс, добавив неожиданные элементы. Facebook раньше делал это, генерируя случайные идентификаторы элементов, и вы тоже можете. Это может нарушить работу скребков до тех пор, пока они не сломаются. Имейте в виду, что этот метод может вызвать проблемы с такими вещами, как обновления и кеширование.
6. Обфускация
Вы можете скрыть свои данные, чтобы сделать их менее доступными, изменив файлы своего сайта. Я встречал несколько веб-сайтов, которые используют текст в качестве изображения, что значительно усложняет попытки людей вручную скопировать и вставить ваш текст. Вы также можете использовать спрайты CSS, чтобы скрыть имена изображений.
7. Не размещайте это!
Когда дело доходит до шифрования, ваш лучший выбор - это реальный мир. Если у вас есть информация, которая абсолютно необходима для конфиденциальности, не размещайте ее в Интернете. Не размещать информацию в Интернете - действительно единственный способ сохранить ваш контент в безопасности. Хотя все упомянутые здесь методы являются эффективными способами предотвращения кражи ваших данных парсерами контента, нет никаких гарантий. Эти методы усложняют задачу, но не делают невозможной.
Заключение
Некоторые меры безопасности влияют на взаимодействие с пользователем. Имейте в виду, что вам, возможно, придется пойти на компромисс между безопасностью и доступностью. Лучше сначала заняться низко висящими фруктами. Во многих случаях вам может помочь плагин. Плагины безопасности, такие как WordFence и Sucuri, помимо прочего, могут автоматизировать ограничение и блокировку скорости. Самые эффективные методы, с которыми мне приходилось сталкиваться, включают:
- Использование приманок
- Обфускация кода
- Ограничение скорости и другие формы обнаружения
Не существует надежных решений для защиты вашего сайта от парсеров контента. Эволюция более сложных парсеров контента возникла в ответ на просьбу сообразительных веб-мастеров. Это битва вперед и назад, которая продолжается с начала 1990-х годов. Скреперы могут подделать практически все аспекты человека-пользователя, что может затруднить выяснение того, кто такие плохие парни. Хотя это и пугает, большинство парсеров контента, с которыми вы будете иметь дело, будут достаточно простыми, чтобы их можно было легко остановить.
Есть ли у вас опыт работы со скребками вредоносного контента? Что вы сделали, чтобы их остановить? Не стесняйтесь делиться в разделе комментариев ниже.
Миниатюра статьи: Lucky clover / shutterstock.com
