ChatGPT Dikritik Terlalu Ketat, User Ramai Keluhkan Sensor Berlebihan

OpenAI kembali menjadi sorotan, kali ini bukan karena kemajuan teknologi, melainkan gelombang keluhan dari pengguna ChatGPT yang frustrasi dengan sistem sensor yang dianggap terlalu ketat hingga membuat AI ini nyaris tidak bisa digunakan. Dari forum komunitas OpenAI hingga Reddit, ribuan pengguna melaporkan pengalaman serupa dimana ChatGPT menolak menjawab pertanyaan yang sebenarnya tidak berbahaya sama sekali. Fenomena ini bahkan sudah mendapat perhatian dari peneliti akademis yang menciptakan benchmark khusus untuk mengukur masalah over-refusal pada model AI.

Pengguna Ramai Protes di Forum OpenAI

Keluhan terhadap ChatGPT yang terlalu ketat semakin marak di berbagai platform online. Di forum komunitas OpenAI sendiri, sebuah thread berjudul "ChatGPT has become incredibly restrictive, to the point it's unusable" telah menarik perhatian ribuan pengguna dengan lebih dari 15.900 views dan puluhan komentar senada.

Para pengguna mengeluhkan bahwa ChatGPT kini sering menolak permintaan yang sebenarnya tidak berbahaya. Seorang pengguna bernama wiktoriabenerat44 menulis bahwa ia kesulitan menggunakan ChatGPT untuk menulis cerita fiksi. "ChatGPT sekarang tidak lebih dari kekacauan sensor yang menyebalkan sampai membuatnya tidak berguna," tulisnya.

Keluhan serupa juga muncul di thread lain dengan judul "Restrictions are too much! Please, Bring back the pre-April 28 model". Pengguna meminta OpenAI mengembalikan model lama yang dianggap lebih fleksibel. Mereka merasa bahwa setiap update justru membuat ChatGPT semakin kaku dan sulit diajak berkreasi.

Laporan dari Tom's Guide juga mengkonfirmasi tren ini. Menurut artikel mereka, percakapan online tentang GPT-5 telah bergeser ke jenis ketidakpuasan baru, dimana respons terasa steril tanpa kedalaman, dan prompt yang dulunya berfungsi kini memicu penolakan canggung atau balasan generik.

Riset Akademis Ungkap Masalah Over-Refusal

Masalah ini tidak hanya dirasakan pengguna biasa, tetapi juga sudah menjadi perhatian serius di kalangan peneliti AI. Sebuah tim dari UCLA dan UC Berkeley menciptakan OR-Bench, benchmark pertama berskala besar untuk mengukur fenomena over-refusal pada Large Language Models.

Penelitian yang dipublikasikan di arXiv ini menguji 25 model AI dari 8 keluarga model berbeda. Hasilnya mengejutkan, ditemukan korelasi kuat antara keamanan dan over-refusal dengan nilai Spearman rank correlation mencapai 0.878. Artinya, semakin aman sebuah model AI, semakin besar kemungkinan ia menolak prompt yang sebenarnya tidak berbahaya.

OR-Bench terdiri dari 80.000 prompt yang tampak berbahaya tetapi sebenarnya aman, subset 1.000 prompt yang sangat menantang, serta 600 prompt benar-benar berbahaya sebagai pembanding. Benchmark ini mengungkap bahwa model Claude menunjukkan tingkat keamanan tertinggi sekaligus over-refusal tertinggi, sementara model Mistral berada di sisi berlawanan.

Yang menarik, penelitian ini menemukan bahwa GPT-3.5-turbo versi lama (0301) memiliki tingkat over-refusal mencapai 57% pada dataset OR-Bench-Hard-1K. Meskipun versi terbaru sudah diperbaiki, perbaikan tersebut datang dengan trade-off dimana model jadi lebih sering menerima prompt berbahaya.

Sensor Ketat Jadi Pedang Bermata Dua

Perbandingan antara ChatGPT dan Claude mengungkap pendekatan yang sangat berbeda dalam menangani keamanan AI. ChatGPT menggunakan metode Reinforcement Learning from Human Feedback (RLHF) yang menyesuaikan perilaku berdasarkan umpan balik pengguna. Sementara Claude menggunakan pendekatan Constitutional AI dengan aturan etis yang sudah ditetapkan sejak awal.

Kedua pendekatan memiliki kekurangan masing-masing. ChatGPT yang dulunya terlalu ramah dan suka memuji kini bergeser menjadi terlalu hati-hati. Claude di sisi lain memiliki aturan ketat yang melarang AI memuji pengguna sama sekali, membuat interaksi terasa lebih kaku.

Fenomena ini mencerminkan dilema fundamental dalam pengembangan AI. Para developer harus menyeimbangkan antara keamanan untuk mencegah penyalahgunaan dan kegunaan agar AI tetap membantu pengguna. Sayangnya, seperti yang ditunjukkan penelitian OR-Bench, kebanyakan model saat ini hanya menukar over-refusal dengan keamanan tanpa berhasil mencapai keduanya secara optimal.

Bagi software developer dan pengembang aplikasi AI yang mengandalkan ChatGPT untuk pekerjaan kreatif atau teknis, situasi ini tentu mengkhawatirkan. Mereka harus mencari workaround atau beralih ke model alternatif yang lebih fleksibel sambil menunggu OpenAI menemukan keseimbangan yang lebih baik antara keamanan dan kegunaan.

(Burung Hantu Infratek / Berbagai Sumber)

⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan dengan bantuan AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.

Berita Terkait ChatGPT dan OpenAI

🤖 GPT-5.2 Kalahkan Gemini 3 Pro di ARC AGI 2 dan Spekulasi Gemini 3.1 Mulai Beredar

🔥 OpenAI Diam-Diam Tunda Adult Mode dan Malah Sibuk Rilis GPT-5.2

⚡ OpenAI Resmi Rilis GPT-5.2 Sebagai Jawaban Code Red Lawan Gemini 3

💡 Gemini 3 Dikomplain Habis: Kualitas Anjlok Gara-Gara Eksodus ChatGPT?

Sumber dan Referensi

[1] ChatGPT has become incredibly restrictive, to the point it's unusable - OpenAI Developer Community

[2] OR-Bench: An Over-Refusal Benchmark for Large Language Models - arXiv

[3] What happened to ChatGPT-5? Users say it's 'not the same anymore' - Tom's Guide

[4] GPT vs Claude: The Secret Scripts and Censorship Behind Every AI Reply - Fello AI

[5] Restrictions are too much! Please, Bring back the pre-April 28 model - OpenAI Developer Community