콘텐츠 스크레이퍼로부터 WordPress 사이트를 보호하는 7가지 확실한 방법
게시 됨: 2017-04-29콘텐츠 스크래핑(웹 스크래핑, 웹 수집, 웹 데이터 추출 등)은 웹사이트에서 데이터를 복사하는 프로세스입니다. 콘텐츠 스크레이퍼는 데이터를 복사하는 사람 또는 소프트웨어입니다. 웹 스크래핑 자체가 나쁜 것은 아닙니다. 사실 모든 웹 브라우저는 본질적으로 콘텐츠 스크레이퍼입니다. 예를 들어 검색 엔진에 대한 웹 인덱싱과 같은 콘텐츠 스크레이퍼에는 많은 합법적인 목적이 있습니다.
진짜 관심사는 사이트의 콘텐츠 스크래퍼가 유해한지 여부입니다. 경쟁자는 귀하의 콘텐츠를 도용하여 자신의 콘텐츠로 게시하려고 할 수 있습니다. 합법적인 사용자와 악의적인 사용자를 구분할 수 있다면 자신을 보호할 가능성이 훨씬 높아집니다. 이 기사에서는 웹 스크래핑의 기본 사항과 함께 WordPress 사이트를 보호할 수 있는 7가지 방법을 설명합니다.
콘텐츠 스크레이퍼의 유형
콘텐츠 스크레이퍼가 데이터를 다운로드하는 방법에는 여러 가지가 있습니다. 다양한 방법과 그들이 사용하는 기술을 아는 것이 도움이 됩니다. 방법은 로우 테크(사람이 수동으로 복사하여 붙여넣기)에서 정교한 봇(웹 브라우저 내에서 인간 활동을 시뮬레이션할 수 있는 자동화된 소프트웨어)에 이르기까지 다양합니다. 다음은 귀하가 반대할 수 있는 사항에 대한 요약입니다.
- 스파이더: 웹 크롤링은 콘텐츠 스크레이퍼 작동 방식의 큰 부분입니다. Googlebot과 같은 스파이더는 단일 웹페이지를 크롤링하여 시작하여 링크에서 링크로 이동하여 웹페이지를 다운로드합니다.
- 셸 스크립트: Linux 셸을 사용하여 콘텐츠를 다운로드하는 GNU Wget과 같은 스크립트로 콘텐츠 스크레이퍼를 만들 수 있습니다.
- HTML 스크레이퍼: 쉘 스크립트와 유사합니다. 이 유형의 스크레이퍼는 매우 일반적입니다. 데이터를 찾기 위해 웹사이트의 HTML 구조를 얻어 작동합니다.
- 스크린 스크레이퍼 : 스크린 스크레이퍼는 컴퓨터를 사용하여 인터넷을 탐색하는 인간 사용자의 행동을 복제하여 웹사이트에서 데이터를 캡처하는 모든 프로그램입니다.
- 휴먼 카피: 사용자가 웹사이트에서 콘텐츠를 수동으로 복사하는 곳입니다. 온라인에 출판한 적이 있다면 표절이 만연한 것을 눈치채셨을 것입니다. 처음의 아첨이 사라진 후 누군가가 당신의 일을 통해 이익을 얻고 있다는 현실이 시작됩니다.
동일한 작업을 수행하는 방법은 여러 가지가 있습니다. 위에 나열된 콘텐츠 스크레이퍼의 범주가 절대적인 것은 아닙니다. 또한 범주 간에 겹치는 부분이 많습니다.
콘텐츠 스크레이퍼가 사용하는 도구

이미지 제공: medejaja / shutterstock.com
웹 스크래핑 프로세스를 돕는 다양한 도구뿐만 아니라 다양한 콘텐츠 스크래퍼를 사용할 수 있습니다. 데이터 추출 서비스를 제공하는 일부 전문 조직도 존재합니다. 콘텐츠 스크레이퍼가 데이터를 가져오는 데 사용할 수 있는 도구는 부족하지 않습니다. 이 도구는 다양한 목적을 위해 애호가와 전문가에 의해 사용됩니다. HTML 및 XML 문서를 구문 분석하기 위한 Python 패키지인 Beautiful Soup과 같은 도구로 가득 찬 번들을 여러 번 다운로드할 수 있습니다. 다음은 콘텐츠 스크레이퍼에서 일반적으로 사용하는 몇 가지 도구입니다.
- cURL: 이것은 HTTP 요청을 만들기 위한 PHP 라이브러리인 libcurl의 일부입니다.
- HTTrack: 오프라인 검색을 위해 웹사이트를 다운로드하는 무료 오픈 소스 웹 크롤러입니다.
- GNU Wget: FTP, HTTPS 및 HTTP를 통해 서버에서 콘텐츠를 다운로드하기 위한 도구입니다. GNUs 웹사이트에서 무료로 받으세요.
- Kantu: 양식 작성과 같이 일반적으로 사람이 처리하는 작업을 자동화하는 무료 시각적 웹 자동화 소프트웨어입니다.
콘텐츠 스크레이퍼로부터 WordPress 사이트를 보호하는 7가지 방법

0beron/Shutterstock.com의 이미지
웹 사이트 관리자는 다양한 방법을 사용하여 봇을 중지하거나 느리게 할 수 있습니다. 봇이 페이지를 보는 것을 감지하고 허용하지 않는 것과 같이 웹사이트에서 콘텐츠 스크레이퍼를 방해하는 데 사용하는 방법이 있습니다. 다음은 콘텐츠 스크래퍼로부터 사이트를 보호하는 10가지 방법입니다.

1. 속도 제한 및 차단
먼저 문제를 감지하여 봇의 많은 부분을 제거할 수 있습니다. 자동화된 봇이 비정상적으로 많은 요청으로 서버에 스팸을 보내는 것은 일반적입니다. 속도 제한은 이름에서 알 수 있듯이 규칙을 설정하여 개별 클라이언트에서 들어오는 서버 요청을 제한합니다.
요청 사이의 밀리초를 측정하는 것과 같은 작업을 수행할 수 있습니다. 사람이 초기 페이지 로드 후 해당 링크를 클릭하기에는 너무 빠르면 봇임을 알 수 있습니다. 그런 다음 해당 IP 주소를 차단하십시오. 출신 국가를 포함한 여러 기준에 따라 IP 주소를 차단할 수 있습니다.
2. 회원가입 및 로그인
등록 및 로그인은 다른 사람의 눈에 띄지 않도록 콘텐츠를 안전하게 보호하는 인기 있는 방법입니다. 이러한 방법으로 컴퓨터 이미징을 사용할 수 없는 봇의 진행을 방해할 수 있습니다. 시청자에게만 원하는 콘텐츠를 등록하고 로그인하기만 하면 됩니다. 로그인 보안의 기본 사항이 여기에 적용됩니다. 등록 및 로그인이 필요한 페이지는 검색 엔진에서 색인을 생성하지 않습니다.
3. 허니팟과 가짜 데이터
컴퓨터 과학에서 허니팟은 가상 작업입니다. 콘텐츠 스크레이퍼의 트래픽을 탐지하기 위해 허니팟으로 트랩을 설정하여 잠재적인 공격자를 모읍니다. 이를 수행하는 방법은 무한합니다.
예를 들어 웹 페이지에 보이지 않는 링크를 추가할 수 있습니다. 다음으로 링크를 클릭한 클라이언트의 IP 주소를 차단하는 알고리즘을 만듭니다. 더 정교한 허니팟은 설정 및 유지 관리가 어려울 수 있습니다. 좋은 소식은 많은 오픈 소스 허니팟 프로젝트가 있다는 것입니다. github에서 멋진 허니팟 목록을 확인하세요.
4. 보안문자 사용
Captcha는 Completely Automated Public Turing test to tell Computers and Humans Apart의 약자입니다. 보안 문자는 성가실 수 있지만 유용하기도 합니다. 연락처 양식의 이메일 버튼과 같이 봇이 관심을 가질 것으로 의심되는 영역을 차단하는 데 사용할 수 있습니다. Jetpack의 Captcha 모듈을 포함하여 WordPress에 사용할 수 있는 좋은 Captcha 플러그인이 많이 있습니다. 또한 WordPress에서 CAPTCHA를 사용하는 이점에 대한 유익한 게시물이 있습니다.
5. HTML을 자주 변경
이는 웹사이트의 일부를 식별하기 위해 예측 가능한 HTML 마크업에 의존하는 콘텐츠 스크레이퍼를 엉망으로 만들 수 있습니다. 예상치 못한 요소를 추가하여 이 프로세스에 렌치를 던질 수 있습니다. Facebook은 이전에 임의의 요소 ID를 생성하여 이를 수행했으며 여러분도 그렇게 할 수 있습니다. 이것은 파손될 때까지 컨텐츠 스크레이퍼를 방해할 수 있습니다. 이 방법을 사용하면 업데이트 및 캐싱과 같은 문제가 발생할 수 있습니다.
6. 난독화
사이트의 파일을 수정하여 데이터에 액세스하지 못하도록 숨길 수 있습니다. 나는 텍스트를 이미지로 제공하는 소수의 웹사이트를 접했는데, 이는 인간이 텍스트를 수동으로 복사하여 붙여넣는 것을 훨씬 어렵게 만듭니다. CSS 스프라이트를 사용하여 이미지 이름을 숨길 수도 있습니다.
7. 게시하지 마세요!
암호화에 관해서는 현실 세계가 가장 좋습니다. 절대적으로 비공개로 처리해야 하는 정보가 있다면 인터넷에 올리지 마십시오. 인터넷에 정보를 게시하지 않는 것이 콘텐츠를 안전하게 유지하는 유일한 방법입니다. 여기에서 언급한 방법은 모두 콘텐츠 스크레이퍼가 데이터를 훔치는 것을 방지하는 효과적인 방법이지만 보장은 없습니다. 이러한 방법을 사용하면 더 어려워지지만 불가능한 것은 아닙니다.
마무리
일부 보안 조치는 사용자 경험에 영향을 미칩니다. 안전과 접근성 사이에서 타협을 해야 할 수도 있음을 명심하십시오. 낮은 매달린 과일을 먼저 쫓는 것이 가장 좋습니다. 많은 경우에 도움이 되는 플러그인을 찾을 수 있습니다. WordFence 및 Sucuri와 같은 보안 플러그인은 무엇보다도 속도 제한 및 차단을 자동화할 수 있습니다. 내가 만난 가장 효과적인 방법은 다음과 같습니다.
- 허니팟 사용
- 코드 난독화
- 속도 제한 및 기타 형태의 감지
콘텐츠 스크래퍼로부터 사이트를 보호하는 완벽한 솔루션은 없습니다. 보다 정교한 콘텐츠 스크레이퍼의 진화는 정통한 웹마스터에 대한 응답으로 발생했습니다. 1990년대 초반부터 계속되고 있는 전후방의 싸움입니다. 스크레이퍼는 인간 사용자의 거의 모든 측면을 속일 수 있으므로 누가 나쁜 사람인지 파악하기 어려울 수 있습니다. 이것이 벅찬 일이지만 다루게 될 대부분의 콘텐츠 스크래퍼는 쉽게 멈출 수 있을 만큼 충분히 기본적입니다.
악성 콘텐츠 스크레이퍼에 대한 경험이 있습니까? 그들을 막기 위해 무엇을 했습니까? 아래 의견 섹션에서 자유롭게 공유하십시오.
Lucky clover / shutterstock.com의 기사 축소판 이미지
