7 Cara Mudah untuk Melindungi Situs WordPress Anda dari Pencakar Konten
Diterbitkan: 2017-04-29Pengikisan konten (alias pengikisan web, pemanenan web, ekstraksi data web, dan sebagainya) adalah proses penyalinan data dari situs web. Pencakar konten adalah orang atau perangkat lunak yang menyalin data. Pengikisan web itu sendiri bukanlah hal yang buruk. Faktanya, semua browser web pada dasarnya adalah pengikis konten. Ada banyak tujuan sah untuk pengikis konten seperti pengindeksan web untuk mesin pencari, misalnya.
Kekhawatiran sebenarnya adalah apakah pengikis konten di situs Anda berbahaya atau tidak. Pesaing mungkin ingin mencuri konten Anda dan mempublikasikannya sebagai milik mereka. Jika Anda dapat membedakan antara pengguna yang sah dan orang jahat, Anda memiliki peluang yang jauh lebih baik untuk melindungi diri Anda sendiri. Artikel ini menjelaskan dasar-dasar pengikisan web, bersama dengan 7 cara Anda dapat melindungi situs WordPress Anda.
Jenis Scraper Konten
Ada banyak cara berbeda yang digunakan scraper konten untuk mengunduh data. Ini membantu untuk mengetahui berbagai metode dan teknologi apa yang mereka gunakan. Metode berkisar dari teknologi rendah (seseorang menyalin dan menempel secara manual), hingga bot canggih (perangkat lunak otomatis yang mampu mensimulasikan aktivitas manusia dalam browser web). Berikut ringkasan tentang apa yang mungkin Anda hadapi:
- Laba-laba: Perayapan web adalah bagian besar dari cara kerja scraper konten. Laba-laba seperti Googlebot akan mulai dengan merayapi satu halaman web, dan beralih dari tautan ke tautan untuk mengunduh halaman web.
- Skrip Shell: Anda dapat menggunakan Linux Shell untuk membuat pengikis konten dengan skrip seperti GNU Wget untuk mengunduh konten.
- Scraper HTML: Ini mirip dengan skrip shell. Jenis pengikis ini sangat umum. Ia bekerja dengan mendapatkan struktur HTML dari sebuah situs web untuk menemukan data.
- Screenscrapers: Screen scraper adalah program apa pun yang menangkap data dari situs web dengan mereplikasi perilaku pengguna manusia yang menggunakan komputer untuk menjelajahi internet.
- Salinan Manusia: Di sinilah seseorang secara manual menyalin konten dari situs web Anda. Jika Anda pernah mempublikasikan secara online, Anda mungkin telah memperhatikan bahwa plagiarisme merajalela. Setelah sanjungan awal hilang, kenyataan bahwa seseorang mendapat untung dari pekerjaan Anda muncul.
Ada banyak cara untuk melakukan hal yang sama. Kategori pencakar konten yang tercantum di atas sama sekali tidak lengkap. Selain itu, ada banyak tumpang tindih antar kategori.
Alat yang Digunakan oleh Pencakar Konten

Gambar oleh medejaja / shutterstock.com
Ada berbagai scraper konten yang tersedia, serta berbagai alat untuk membantu proses scraping web. Beberapa organisasi ahli juga ada yang menawarkan layanan ekstraksi data. Tidak ada kekurangan alat yang dapat digunakan scraper konten untuk mendapatkan data. Alat-alat ini digunakan oleh penghobi, dan profesional untuk berbagai tujuan yang berbeda. Sering kali Anda dapat mengunduh bundel yang penuh dengan alat seperti Beautiful Soup, paket Python untuk mengurai dokumen HTML dan XML. Di bawah ini adalah beberapa alat yang biasa digunakan oleh scraper konten.
- cURL: Ini adalah bagian dari libcurl, perpustakaan PHP untuk membuat permintaan HTTP.
- HTTrack: Perayap web sumber terbuka dan gratis yang mengunduh situs web untuk penjelajahan offline.
- GNU Wget: Alat untuk mengunduh konten dari server melalui FTP, HTTPS, dan HTTP. Dapatkan gratis dari situs web GNU.
- Kantu: Perangkat lunak otomatisasi web visual gratis yang mengotomatiskan tugas yang biasanya ditangani oleh manusia seperti mengisi formulir.
7 Cara Melindungi Situs WordPress Anda dari Pencakar Konten

Gambar oleh 0beron / shutterstock.com
Administrator situs web dapat menggunakan berbagai tindakan untuk menghentikan atau memperlambat bot. Ada metode yang digunakan situs web untuk menggagalkan pengikis konten, seperti mendeteksi dan melarang bot melihat halaman mereka. Di bawah ini adalah 10 metode untuk melindungi situs Anda dari pencakar konten.
1. Pembatasan dan Pemblokiran Nilai
Anda dapat melawan sebagian besar bot dengan mendeteksi masalahnya terlebih dahulu. Biasanya bot otomatis mengirim spam ke server Anda dengan jumlah permintaan yang luar biasa tinggi. Pembatasan tarif, seperti namanya, membatasi permintaan server yang datang dari klien individual dengan menetapkan aturan.

Anda dapat melakukan hal-hal seperti mengukur milidetik di antara permintaan. Jika terlalu cepat bagi manusia untuk mengklik tautan itu setelah pemuatan halaman awal, maka Anda tahu itu bot. Selanjutnya blokir alamat IP tersebut. Anda dapat memblokir alamat IP berdasarkan sejumlah kriteria termasuk negara asalnya.
2. Registrasi dan Login
Registrasi dan Login adalah cara populer untuk menjaga konten tetap aman dari pengintaian. Anda dapat menghambat kemajuan bot yang tidak dapat menggunakan pencitraan komputer dengan metode ini. Cukup memerlukan pendaftaran dan login untuk konten yang Anda inginkan hanya untuk pemirsa Anda. Dasar-dasar keamanan login berlaku di sini. Perlu diingat bahwa halaman yang memerlukan pendaftaran dan login tidak akan diindeks oleh mesin pencari.
3. Honeypot dan Data Palsu
Dalam ilmu komputer, honeypots adalah operasi sengatan virtual. Anda mengumpulkan calon penyerang dengan mengatur jebakan dengan honeypot, untuk mendeteksi lalu lintas dari pencakar konten. Ada banyak cara untuk melakukan ini.
Misalnya, Anda dapat menambahkan tautan tak terlihat di halaman web Anda. Selanjutnya buat algoritma yang memblokir alamat IP klien yang mengklik link tersebut. Honeypot yang lebih canggih bisa jadi sulit diatur dan dipelihara. Kabar baiknya adalah ada banyak proyek honeypot open source di luar sana. Lihat daftar besar honeypots mengagumkan ini di github.
4. Gunakan CAPTCHA
Captcha adalah singkatan dari Tes Turing Publik Sepenuhnya Otomatis untuk membedakan Komputer dan Manusia. Captcha bisa mengganggu, tetapi juga berguna. Anda dapat menggunakannya untuk memblokir area yang Anda curigai mungkin diminati oleh bot, seperti tombol email di formulir kontak Anda. Ada banyak plugin Captcha bagus yang tersedia untuk WordPress, termasuk modul Captcha Jetpack. Kami juga memiliki posting informatif tentang Manfaat Menggunakan CAPTCHA Di WordPress yang mungkin harus Anda periksa.
5. Sering Ubah HTML
Ini dapat mengacaukan pengikis konten yang mengandalkan markup HTML yang dapat diprediksi untuk mengidentifikasi bagian situs web Anda. Anda dapat memasukkan kunci pas ke dalam proses ini dengan menambahkan elemen yang tidak terduga. Facebook dulu melakukan ini dengan membuat ID elemen acak, dan Anda juga bisa. Ini dapat membuat pengikis konten frustrasi sampai rusak. Ingatlah bahwa metode ini dapat menyebabkan masalah dengan hal-hal seperti pembaruan dan caching.
6. Kebingungan
Anda dapat mengaburkan data Anda untuk membuatnya kurang dapat diakses dengan memodifikasi file situs Anda. Saya telah menemukan beberapa situs web yang menyajikan teks sebagai gambar, yang membuat lebih sulit bagi manusia untuk mencoba menyalin dan menempelkan teks Anda secara manual. Anda juga dapat menggunakan sprite CSS untuk menyembunyikan nama gambar.
7. Jangan Posting!
Dunia nyata adalah taruhan terbaik Anda dalam hal enkripsi. Jika Anda memiliki informasi yang benar-benar Anda perlukan untuk dirahasiakan, jangan simpan di internet. Tidak menempatkan informasi di internet benar-benar satu-satunya cara untuk menjaga konten Anda tetap aman. Meskipun metode yang kami sebutkan di sini adalah semua cara efektif untuk mencegah pengikis konten mencuri data Anda – tidak ada jaminan. Metode ini membuatnya lebih sulit, tetapi bukan tidak mungkin.
Membungkus
Beberapa tindakan keamanan memengaruhi pengalaman pengguna. Ingatlah bahwa Anda mungkin harus membuat kompromi antara keamanan dan aksesibilitas. Yang terbaik adalah mengejar buah yang menggantung rendah terlebih dahulu. Dalam banyak kasus, Anda dapat menemukan plugin untuk membantu. Plugin keamanan seperti WordFence, dan Sucuri dapat mengotomatiskan pembatasan dan pemblokiran tarif, antara lain. Metode paling efektif yang pernah saya temui melibatkan:
- Menggunakan honeypot
- Mengaburkan kode
- Pembatasan tingkat dan bentuk deteksi lainnya
Tidak ada solusi antipeluru untuk melindungi situs Anda dari pengikis konten. Evolusi pencakar konten yang lebih canggih muncul sebagai respons terhadap webmaster yang cerdas. Ini adalah pertempuran bolak-balik yang telah berlangsung sejak awal 1990-an. Scraper dapat memalsukan hampir setiap aspek dari pengguna manusia, yang dapat menyulitkan untuk mengetahui siapa orang jahat itu. Meskipun ini menakutkan, sebagian besar pengikis konten yang akan Anda tangani akan cukup mendasar untuk dihentikan dengan mudah.
Apakah Anda memiliki pengalaman dengan scraper konten berbahaya? Apa yang Anda lakukan untuk menghentikan mereka? Jangan ragu untuk berbagi di bagian komentar di bawah.
Gambar thumbnail artikel oleh Lucky clover / shutterstock.com
