WordPressサイトをコンテンツスクレーパーから保護するための7つの絶対確実な方法

公開: 2017-04-29

コンテンツスクレイピング(別名Webスクレイピング、Webハーベスティング、Webデータ抽出など)は、Webサイトからデータをコピーするプロセスです。 コンテンツスクレーパーは、データをコピーする人またはソフトウェアです。 Webスクレイピング自体は悪いことではありません。 実際、すべてのWebブラウザーは本質的にコンテンツスクレーパーです。 たとえば、検索エンジンのWebインデックス作成など、コンテンツスクレーパーには多くの正当な目的があります。

本当の懸念は、サイトのコンテンツスクレーパーが有害かどうかです。 競合他社はあなたのコンテンツを盗んで自分のものとして公開したいと思うかもしれません。 正当なユーザーと悪意のあるユーザーを区別できれば、自分自身を保護する可能性がはるかに高くなります。 この記事では、Webスクレイピングの基本と、WordPressサイトを保護するための7つの方法について説明します。

コンテンツスクレーパーの種類

コンテンツスクレーパーがデータをダウンロードする方法はたくさんあります。 さまざまな方法とそれらが使用するテクノロジーを知るのに役立ちます。 方法は、ローテク(手動でコピーして貼り付ける人)から高度なボット(Webブラウザー内で人間の活動をシミュレートできる自動ソフトウェア)まで多岐にわたります。 これがあなたが反対しているかもしれないことの要約です:

  • スパイダー: Webクロールは、コンテンツスクレーパーの動作の大部分を占めています。 Googlebotのようなスパイダーは、単一のWebページをクロールすることから始まり、リンクからリンクに移動してWebページをダウンロードします。
  • シェルスクリプト: Linuxシェルを使用して、GNUSWgetなどのスクリプトでコンテンツスクレーパーを作成してコンテンツをダウンロードできます。
  • HTMLスクレーパー:これらはシェルスクリプトに似ています。 このタイプのスクレーパーは非常に一般的です。 これは、データを見つけるためにWebサイトのHTML構造を取得することによって機能します。
  • スクリーンスクレイパースクリーンスクレイパーは、コンピューターを使用してインターネットを閲覧している人間のユーザーの行動を複製することにより、Webサイトからデータをキャプチャするプログラムです。
  • ヒューマンコピー:これは、人がWebサイトからコンテンツを手動でコピーする場所です。 オンラインで公開したことがある場合は、盗用が横行していることに気付いたかもしれません。 最初のお世辞が消えた後、誰かがあなたの仕事から利益を得ているという現実が始まります。

同じことをする方法はたくさんあります。 上記のコンテンツスクレーパーのカテゴリは、すべてを網羅しているわけではありません。 さらに、カテゴリ間には多くの重複があります。

コンテンツスクレーパーが使用するツール

WordPressサイトをコンテンツスクレーパーから保護するための7つの絶対確実な方法

medejaja / shutterstock.comによる画像

利用可能なさまざまなコンテンツスクレイパーと、Webスクレイピングプロセスを支援するさまざまなツールがあります。 データ抽出サービスを提供する専門家組織もいくつか存在します。 コンテンツスクレーパーがデータを取得するために使用できるツールに不足はありません。 これらのツールは、さまざまな目的で愛好家や専門家によって使用されます。 多くの場合、HTMLおよびXMLドキュメントを解析するためのPythonパッケージであるBeautifulSoupなどのツールが満載のバンドルをダウンロードできます。 以下は、コンテンツスクレーパーで一般的に使用されるいくつかのツールです。

  • cURL:これは、HTTPリクエストを行うためのPHPライブラリであるlibcurlの一部です。
  • HTTrack:オフラインブラウジング用にWebサイトをダウンロードする無料のオープンソースWebクローラー。
  • GNU Wget:FTP、HTTPS、およびHTTPを介してサーバーからコンテンツをダウンロードするためのツール。 GNUのウェブサイトから無料で入手してください。
  • Kantu:フォームへの入力など、通常は人間が処理するタスクを自動化する無料のビジュアルWeb自動化ソフトウェア。

WordPressサイトをコンテンツスクレーパーから保護する7つの方法

WordPressサイトをコンテンツスクレーパーから保護するための7つの絶対確実な方法

0beron / shutterstock.comによる画像

Webサイトの管理者は、さまざまな手段を使用してボットを停止または減速できます。 ボットがページを表示するのを検出して禁止するなど、Webサイトがコンテンツスクレーパーを阻止するために使用する方法があります。 以下は、コンテンツスクレーパーからサイトを保護するための10の方法です。

1.レート制限とブロック

最初に問題を検出することで、ボットの大部分を撃退することができます。 自動化されたボットが異常に多くのリクエストでサーバーにスパムを送信するのはよくあることです。 レート制限は、その名前が示すように、ルールを設定することにより、個々のクライアントからのサーバー要求を制限します。

リクエスト間のミリ秒を測定するなどのことができます。 最初のページの読み込み後に人間がそのリンクをクリックするのが速すぎる場合は、それがボットであることがわかります。 その後、そのIPアドレスをブロックします。 原産国を含むいくつかの基準に基づいてIPアドレスをブロックできます。

2.登録とログイン

登録とログインは、コンテンツを詮索好きな目から守るための一般的な方法です。 これらの方法でコンピューターイメージングを使用できないボットの進行を妨げる可能性があります。 視聴者だけに必要なコンテンツの登録とログインを要求するだけです。 ログインセキュリティの基本はここに適用されます。 登録とログインが必要なページは、検索エンジンによってインデックスに登録されないことに注意してください。

3.ハニーポットと偽のデータ

コンピュータサイエンスでは、ハニーポットは仮想のおとり捜査です。 ハニーポットでトラップを設定して攻撃者になる可能性のある人を切り上げ、コンテンツスクレーパーからのトラフィックを検出します。 これを行う方法は無数にあります。

たとえば、Webページに非表示のリンクを追加できます。 次に、リンクをクリックしたクライアントのIPアドレスをブロックするアルゴリズムを作成します。 より洗練されたハニーポットは、セットアップと保守が難しい場合があります。 幸いなことに、オープンソースのハニーポットプロジェクトがたくさんあります。 githubでこの素晴らしいハニーポットの大規模なリストをチェックしてください。

4.CAPTCHAを使用します

Captchaは、ComputersとHumansを区別するためのCompletely Automated PublicTuringテストの略です。 キャプチャは煩わしい場合がありますが、便利です。 お問い合わせフォームのメールボタンなど、ボットが関心を持っていると思われる領域をブロックするために使用できます。 JetpackのCaptchaモジュールを含む、WordPressで利用できる多くの優れたCaptchaプラグインがあります。 WordPressでCAPTCHAを使用する利点についての有益な投稿もあります。おそらくチェックする必要があります。

5.HTMLを頻繁に変更する

これは、予測可能なHTMLマークアップに依存してWebサイトの一部を識別するコンテンツスクレーパーを混乱させる可能性があります。 予期しない要素を追加することで、このプロセスにレンチを投入できます。 Facebookは、ランダムな要素IDを生成することでこれを行っていましたが、あなたもそうすることができます。 これは、コンテンツスクレーパーが壊れるまでイライラする可能性があります。 この方法では、更新やキャッシュなどの問題が発生する可能性があることに注意してください。

6.難読化

サイトのファイルを変更することで、データを隠してアクセスしにくくすることができます。 テキストを画像として提供するウェブサイトをいくつか見つけました。これにより、人間がテキストを手動でコピーして貼り付けようとするのがはるかに困難になります。 CSSスプライトを使用して画像の名前を非表示にすることもできます。

7.投稿しないでください!

暗号化に関しては、現実の世界が最善の策です。 絶対に非公開にする必要のある情報がある場合は、インターネットに公開しないでください。 情報をインターネットに公開しないことが、コンテンツを安全に保つ唯一の方法です。 ここで説明した方法はすべて、コンテンツスクレーパーがデータを盗むのを防ぐ効果的な方法ですが、保証はありません。 これらの方法はそれをより困難にしますが、不可能ではありません。

まとめ

一部のセキュリティ対策は、ユーザーエクスペリエンスに影響を与えます。 安全性とアクセシビリティの間で妥協しなければならない場合があることに注意してください。 最初にぶら下がっている果物を追いかけるのが最善です。 多くの場合、役立つプラグインを見つけることができます。 WordFenceやSucuriなどのセキュリティプラグインは、とりわけレート制限とブロックを自動化できます。 私が遭遇した最も効果的な方法は次のとおりです。

  • ハニーポットの使用
  • コードを難読化する
  • レート制限およびその他の形式の検出

コンテンツスクレーパーからサイトを保護するための防弾ソリューションはありません。 より洗練されたコンテンツスクレーパーの進化は、知識豊富なウェブマスターへの対応として生まれました。 それは1990年代初頭から続いている前後の戦いです。 スクレーパーは、人間のユーザーのほぼすべての側面を偽造する可能性があり、悪者が誰であるかを把握するのが困難になる可能性があります。 これは気が遠くなるようなことですが、扱うコンテンツスクレーパーのほとんどは、簡単に停止できるほど基本的なものになります。

悪意のあるコンテンツスクレーパーの使用経験はありますか? 彼らを止めるためにあなたは何をしましたか? 以下のコメントセクションでお気軽に共有してください。

ラッキークローバーによる画像サムネイルの記事/ shutterstock.com