OpenAI Ungkap Cara Monitor Penyalahgunaan ChatGPT

OpenAI merilis laporan terbaru yang mengungkap bagaimana mereka mendeteksi dan menghentikan lebih dari 40 jaringan kriminal yang menyalahgunakan ChatGPT sejak Februari 2024. Dari sindikat penipuan di Kamboja hingga kampanye propaganda Rusia dan China, perusahaan AI ini berjalan di atas tali tipis antara mencegah penyalahgunaan dan menghormati privasi pengguna. Laporan ini datang di tengah meningkatnya kekhawatiran tentang risiko psikologis AI setelah beberapa kasus bunuh diri dan pembunuhan yang diduga terkait interaksi dengan chatbot AI.

Bagaimana OpenAI Mendeteksi Aktivitas Jahat di ChatGPT

OpenAI menghadapi tantangan unik dalam memoderasi penggunaan ChatGPT. Di satu sisi, perusahaan harus mencegah penyalahgunaan model AI mereka untuk kejahatan, penipuan, dan kampanye propaganda. Di sisi lain, mereka harus meyakinkan ratusan juta pengguna bahwa privasi mereka tetap dihormati dan percakapan mereka tidak diawasi secara sembarangan.

Laporan yang dirilis hari ini mengungkap beberapa kasus dimana OpenAI menyelidiki dan menghentikan aktivitas berbahaya yang melibatkan model mereka. Fokus utama investigasi mencakup penipuan online, serangan siber, dan kampanye pengaruh yang terhubung dengan pemerintah. Sejak mulai melaporkan ancaman publik pada Februari 2024, OpenAI telah mengganggu dan melaporkan lebih dari 40 jaringan yang melanggar kebijakan penggunaan mereka.

Dalam laporan terbaru, perusahaan membagikan studi kasus baru dari kuartal terakhir dan detail tentang bagaimana mereka mendeteksi serta mengganggu penggunaan jahat model mereka. Salah satu contoh menarik adalah jaringan kejahatan terorganisir yang dilaporkan berbasis di Kamboja yang mencoba menggunakan AI untuk merampingkan alur kerja penipuan mereka. Sindikat ini menggunakan ChatGPT untuk mengotomatisasi berbagai aspek operasi penipuan romance dan employment scam mereka.

Operasi pengaruh politik Rusia dilaporkan menggunakan ChatGPT untuk menghasilkan prompt video bagi model AI lainnya. Aktor-aktor ini mencoba memanfaatkan kemampuan generasi teks ChatGPT sebagai langkah awal dalam pipeline produksi konten propaganda video yang lebih kompleks. OpenAI juga menandai akun yang terkait dengan pemerintah China yang melanggar kebijakan mereka tentang penggunaan keamanan nasional, termasuk permintaan untuk menghasilkan proposal sistem skala besar yang dirancang untuk memantau percakapan media sosial.

Bagi pengembang aplikasi AI dan software developer AI, understanding bagaimana OpenAI mendeteksi penyalahgunaan memberikan insight berharga tentang best practices dalam membangun sistem moderasi. OpenAI menjelaskan bahwa mereka menggunakan pendekatan berlapis yang menggabungkan sistem otomatis dan reviewer manusia untuk memantau aktivitas mencurigakan tanpa mengganggu pengguna biasa.

Pendekatan Nuansa: Pola Perilaku vs Interaksi Individual

Dalam laporan hari ini, OpenAI menawarkan insight lebih dalam tentang proses pemikiran mereka dalam mencegah penyalahgunaan sambil tetap melindungi pengguna secara lebih luas. Kunci dari pendekatan mereka adalah fokus pada pola perilaku threat actor daripada interaksi model yang terisolasi.

"Untuk mendeteksi dan mengganggu ancaman secara efektif tanpa mengganggu pekerjaan pengguna sehari-hari, kami menggunakan pendekatan yang nuansa dan terinformasi yang berfokus pada pola perilaku threat actor daripada interaksi model yang terisolasi," tulis perusahaan dalam laporan tersebut.

Pendekatan ini sangat penting untuk pengembang AI yang membangun aplikasi dengan volume pengguna tinggi. Daripada memicu alert pada setiap prompt yang mencurigakan, sistem harus cukup canggih untuk mengidentifikasi pola perilaku yang konsisten dengan aktivitas jahat. Ini membutuhkan machine learning algorithms yang dapat menganalisis sequences dari interaksi, metadata penggunaan, dan signals perilaku lainnya.

OpenAI mengakui dalam privacy policy mereka bahwa mereka menggunakan data personal, termasuk user prompts, untuk "mencegah penipuan, aktivitas ilegal, atau penyalahgunaan" layanan mereka. Perusahaan juga mengatakan mereka mengandalkan sistem otomatis dan human reviewers untuk memantau aktivitas. Namun transparansi tentang bagaimana tepatnya sistem ini bekerja tetap terbatas, kemungkinan untuk mencegah bad actors dari gaming the system.

Sementara memantau pelanggaran keamanan nasional adalah satu hal, perusahaan juga baru-baru ini menguraikan bagaimana mereka menangani penggunaan berbahaya model mereka oleh pengguna yang mengalami distress emosional atau mental. Lebih dari sebulan yang lalu, perusahaan mempublikasikan blog post yang merinci bagaimana mereka menangani jenis situasi ini.

Menangani Bahaya Psikologis dan Risiko Keamanan Publik

Post tersebut datang di tengah liputan media tentang insiden kekerasan yang dilaporkan terkait dengan interaksi ChatGPT, termasuk kasus pembunuhan-bunuh diri di Connecticut. Perusahaan menjelaskan bahwa ketika pengguna menulis bahwa mereka ingin menyakiti diri sendiri, ChatGPT dilatih untuk tidak comply dan sebaliknya mengakui perasaan pengguna serta mengarahkan mereka ke bantuan dan sumber daya dunia nyata.

Ketika AI mendeteksi seseorang merencanakan untuk menyakiti orang lain, percakapan tersebut ditandai untuk review manusia. Jika human reviewer menentukan orang tersebut merepresentasikan ancaman yang imminent terhadap orang lain, mereka dapat melaporkannya ke penegak hukum. Ini adalah protokol yang sangat sensitif dan kontroversial, karena melibatkan trade-off antara privasi pengguna dan keselamatan publik.

OpenAI juga mengakui bahwa performa keamanan model mereka dapat menurun selama interaksi pengguna yang lebih panjang dan mengatakan mereka sudah bekerja untuk meningkatkan safeguards mereka. Fenomena ini dikenal sebagai "jailbreaking" dalam komunitas AI, dimana pengguna dapat memanipulasi model untuk menghasilkan konten yang seharusnya diblokir melalui percakapan yang panjang dan carefully crafted.

Bagi software developer AI yang membangun chatbots atau conversational AI systems, learning dari challenges OpenAI sangat penting. Safeguards harus robust tidak hanya untuk single-turn interactions, tetapi juga untuk extended conversations yang dapat mengeksploitasi context windows yang panjang. Monitoring harus mencakup not just individual messages, tetapi entire conversation threads untuk mengidentifikasi patterns dari manipulation atau escalating risk.

Laporan OpenAI menggarisbawahi bahwa meskipun threat actors terus berevolusi dan bereksperimen dengan model mereka, perusahaan belum melihat bukti bahwa ini mengarah pada breakthrough yang meaningful dalam kemampuan mereka untuk menciptakan malware yang substantially new atau membangun audiences yang viral. Ini adalah finding yang meyakinkan untuk industri, menunjukkan bahwa meskipun AI dapat digunakan untuk mempercepat certain malicious activities, itu tidak fundamentally mengubah threat landscape.

(Burung Hantu Infratek / Berbagai Sumber)

⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan oleh AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.

Berita yang terkait:

ChatGPT Ajarkan Membuat Bom dan Tips Peretasan dalam Tes Keamanan

Orang Tua Remaja Gugat OpenAI Setelah Anaknya Bunuh Diri

Adversaries Gunakan Multiple AI untuk Hacking dan Influence

OpenAI Siap Luncurkan Model Image Baru dan Guardrails

ChatGPT Bobol CAPTCHA: Keamanan AI Terancam

Sumber dan Referensi:

[1] OpenAI gives us a glimpse of how it monitors for misuse on ChatGPT

[2] Disrupting malicious uses of AI: June 2025

[3] OpenAI Introduces Parental Controls for ChatGPT Amidst Concerns Over Teen Safety

[4] OpenAI takes down ChatGPT accounts linked to state-backed hacking

[5] New OpenAI Report: 10 AI Global Threat Campaigns Revealed