Perplexity Kepergok Curi Data Website yang Melarang AI Scraping

Perplexity Kepergok Curi Data Website yang Melarang AI Scraping

Startup AI Perplexity tertangkap basah mengumpulkan dan mencuri konten dari berbagai situs web yang secara tegas melarang aktivitas scraping oleh AI. Hal ini terungkap dari temuan Cloudflare, penyedia infrastruktur internet ternama.

Temuan ini menunjukkan bahwa Perplexity dengan sengaja mengelabui sistem keamanan website dengan menyamarkan identitas bot mereka. Perusahaan startup AI ini diduga melakukan pelanggaran etika digital terhadap puluhan ribu domain dengan jutaan permintaan akses per hari.

Cloudflare mengungkap bukti bahwa Perplexity tidak hanya mengabaikan blokir, tetapi juga secara aktif menyembunyikan aktivitas crawling dan scraping mereka untuk menghindari deteksi.

Bot Penyamar dan Teknik Pengelabuan

Perplexity menggunakan cara yang sangat licik untuk mengelabui sistem keamanan website. Mereka mengubah identitas bot mereka yang disebut "user agent", yaitu sinyal yang biasanya digunakan untuk mengidentifikasi pengunjung website berdasarkan perangkat dan tipe versinya.

Tidak hanya itu, Perplexity juga mengubah autonomous system networks (ASN) mereka, yang merupakan nomor pengenal jaringan besar di internet. Tindakan ini merupakan upaya terencana untuk menghindari deteksi dan membypass perlindungan yang dipasang oleh pemilik website.

Cloudflare pertama kali menyadari perilaku mencurigakan ini setelah banyak pelanggan mereka mengeluhkan bahwa Perplexity terus mengakses situs mereka, meskipun sudah memasang aturan khusus di file Robots.txt untuk memblokir bot-bot milik Perplexity.

Menurut penelitian Cloudflare, "Kami mengamati bahwa Perplexity tidak hanya menggunakan user-agent yang mereka deklarasikan, tetapi juga browser generik yang berpura-pura sebagai Google Chrome di macOS ketika crawler resmi mereka diblokir."

Sebagai tindakan tegas, Cloudflare telah mengeluarkan bot-bot Perplexity dari daftar terverifikasi mereka dan menambahkan teknik baru untuk memblokir aktivitas serupa di masa depan.

Bantahan Tanpa Bukti

Ketika dimintai keterangan oleh TechCrunch, juru bicara Perplexity Jesse Dwyer mencoba membantah temuan Cloudflare. Dwyer menyebut postingan blog Cloudflare hanya sebagai "sales pitch" atau taktik penjualan belaka.

Dalam email balasannya, Dwyer mengklaim bahwa tangkapan layar dalam postingan Cloudflare "menunjukkan bahwa tidak ada konten yang diakses." Dalam email lanjutan, ia bahkan menyangkal kepemilikan bot yang disebutkan dalam blog Cloudflare dengan mengatakan "bot itu bahkan bukan milik kami."

Bantahan ini terkesan lemah mengingat Cloudflare telah melakukan pengujian khusus untuk memastikan temuan mereka. Cloudflare menggunakan kombinasi machine learning dan sinyal jaringan untuk mengidentifikasi aktivitas mencurigakan tersebut.

Perlu diketahui, ini bukan pertama kalinya Perplexity dituduh melakukan scraping tanpa izin. Tahun lalu, beberapa outlet berita seperti Wired menuduh Perplexity menjiplak konten mereka.

Lebih memalukan lagi, CEO Perplexity Aravind Srinivas tidak mampu menjawab dengan jelas ketika diminta mendefinisikan apa itu plagiarisme saat diwawancarai oleh TechCrunch pada konferensi Disrupt 2024.

Perlawanan Terhadap Bot AI

Cloudflare sendiri telah mengambil sikap tegas melawan crawler AI. Bulan lalu, perusahaan ini meluncurkan marketplace yang memungkinkan pemilik website dan penerbit untuk menagih biaya kepada AI scraper yang mengunjungi situs mereka.

CEO Cloudflare, Matthew Prince, memperingatkan bahwa AI sedang merusak model bisnis internet, terutama untuk para penerbit konten. Tahun lalu, Cloudflare juga meluncurkan alat gratis untuk mencegah bot melakukan scraping website untuk melatih AI.

Kasus ini menambah daftar panjang permasalahan etika dalam pengembangan teknologi AI, khususnya terkait pengumpulan data tanpa izin yang semakin marak terjadi di era kecerdasan buatan.

(Burung Hantu Infratek / Berbagai Sumber)


Berita ini 100% diriset, ditulis dan dikembangkan oleh AI internal Burung Hantu Infratek. Bisa jadi terdapat kesalahan pada data aktual.