ChatGPT Tingkatkan Keamanan Percakapan Sensitif

ChatGPT Tingkatkan Keamanan Percakapan Sensitif

OpenAI mengumumkan pembaruan signifikan pada ChatGPT untuk menangani percakapan sensitif dengan lebih baik, mengurangi respons yang tidak diinginkan hingga 65 sampai 80 persen. Bekerja sama dengan lebih dari 170 ahli kesehatan mental dari 60 negara, model GPT-5 terbaru kini dapat mengenali tanda-tanda tekanan psikologis, merespons dengan empati, dan memandu pengguna menuju dukungan profesional. Pembaruan ini fokus pada tiga area kritis yaitu kondisi kesehatan mental seperti psikosis dan mania, pencegahan bunuh diri dan menyakiti diri sendiri, serta ketergantungan emosional pada AI, menjadikan ChatGPT lebih aman untuk pengembang aplikasi AI yang mengintegrasikan teknologi ini.


Kolaborasi dengan Ahli Kesehatan Mental Global

OpenAI membangun Global Physician Network yang terdiri dari hampir 300 dokter dan psikolog yang telah berpraktik di 60 negara untuk menginformasikan riset keamanan mereka. Lebih dari 170 klinisi, khususnya psikiater, psikolog, dan praktisi perawatan primer, mendukung penelitian ini selama beberapa bulan terakhir dengan menulis respons ideal untuk prompt terkait kesehatan mental, membuat analisis khusus secara klinis terhadap respons model, menilai keamanan respons dari berbagai model, serta memberikan panduan tingkat tinggi dan umpan balik tentang pendekatan OpenAI.

Proses pengembangan mengikuti lima langkah sistematis. Pertama, mendefinisikan masalah dengan memetakan berbagai jenis potensi bahaya. Kedua, mulai mengukurnya menggunakan alat seperti evaluasi, data dari percakapan dunia nyata, dan riset pengguna untuk memahami di mana dan bagaimana risiko muncul. Ketiga, memvalidasi pendekatan dengan meninjau definisi dan kebijakan bersama ahli kesehatan mental dan keamanan eksternal. Keempat, memitigasi risiko dengan melatih model dan memperbarui intervensi produk untuk mengurangi hasil yang tidak aman. Kelima, terus mengukur dan beriterasi dengan memvalidasi bahwa mitigasi meningkatkan keamanan.

Dalam evaluasi yang melibatkan lebih dari 1.800 respons model tentang situasi kesehatan mental serius, para ahli menemukan bahwa model GPT-5 baru secara substansial lebih baik dibanding GPT-4o, dengan penurunan 39 hingga 52 persen dalam respons yang tidak diinginkan di semua kategori. Tingkat kesepakatan antar penilai antara klinisi ahli berkisar 71 hingga 77 persen, menunjukkan bahwa meskipun ada variasi pendapat profesional, ada konsensus yang cukup kuat tentang penilaian keamanan respons model.

OpenAI juga mengembangkan taksonomi detail yang menjelaskan properti percakapan sensitif dan seperti apa perilaku model yang ideal dan tidak diinginkan. Taksonomi ini membantu melatih model untuk merespons dengan lebih tepat dan melacak kinerjanya sebelum dan sesudah deployment. Hasilnya adalah model yang lebih andal dalam merespons pengguna yang menunjukkan tanda-tanda psikosis, mania, pikiran bunuh diri dan menyakiti diri sendiri, atau keterikatan emosional yang tidak sehat pada model.

Tiga Area Fokus Peningkatan Keamanan

Area pertama adalah kesehatan mental seperti psikosis dan mania. OpenAI memperkirakan bahwa pembaruan terbaru pada GPT-5 mengurangi tingkat respons yang tidak sepenuhnya sesuai dengan perilaku yang diinginkan sebesar 65 persen dalam lalu lintas produksi terkini. Meskipun percakapan ini sulit dideteksi dan diukur karena sangat jarang, analisis awal memperkirakan bahwa sekitar 0,07 persen pengguna aktif dalam seminggu tertentu dan 0,01 persen pesan menunjukkan kemungkinan tanda-tanda darurat kesehatan mental terkait psikosis atau mania. Pada evaluasi model yang terdiri dari lebih dari 1.000 percakapan menantang terkait kesehatan mental, evaluasi otomatis baru mencetak model GPT-5 baru pada 92 persen sesuai dengan perilaku yang diinginkan, dibandingkan 27 persen untuk model GPT-5 sebelumnya.

Area kedua adalah pencegahan bunuh diri dan menyakiti diri sendiri. OpenAI melatih model mereka untuk merespons dengan aman, termasuk dengan mengarahkan orang ke sumber daya profesional seperti saluran bantuan krisis. Dengan peluncuran perlindungan tambahan dan model yang ditingkatkan, mereka mengamati perkiraan pengurangan 65 persen dalam tingkat model memberikan respons yang tidak sepenuhnya sesuai dengan perilaku yang diinginkan. Analisis awal memperkirakan bahwa sekitar 0,15 persen pengguna aktif dalam seminggu memiliki percakapan yang mencakup indikator eksplisit potensi perencanaan atau niat bunuh diri, dan 0,05 persen pesan mengandung indikator eksplisit atau implisit dari ide atau niat bunuh diri. Model baru mengurangi jawaban yang tidak diinginkan sebesar 52 persen dibanding GPT-4o dalam percakapan menantang tentang menyakiti diri sendiri dan bunuh diri.

Area ketiga adalah ketergantungan emosional pada AI. Taksonomi ketergantungan emosional OpenAI membedakan antara keterlibatan yang sehat dan pola penggunaan yang mengkhawatirkan, seperti ketika seseorang menunjukkan tanda-tanda keterikatan eksklusif pada model dengan mengorbankan hubungan dunia nyata, kesejahteraan, atau kewajiban mereka. Pembaruan terbaru mengurangi tingkat respons model yang tidak sepenuhnya sesuai dengan taksonomi ketergantungan emosional sekitar 80 persen dalam lalu lintas produksi terkini. Analisis awal memperkirakan bahwa sekitar 0,15 persen pengguna aktif dalam seminggu dan 0,03 persen pesan menunjukkan tingkat keterikatan emosional yang berpotensi meningkat pada ChatGPT. Pada evaluasi model yang terdiri dari lebih dari 1.000 percakapan menantang yang menunjukkan ketergantungan emosional, evaluasi otomatis mencetak model GPT-5 baru pada 97 persen sesuai dengan perilaku yang diinginkan, dibandingkan 50 persen untuk model GPT-5 sebelumnya.

Implikasi untuk Software Developer AI dan Kesehatan Mental

Peningkatan keamanan ChatGPT ini memiliki implikasi penting bagi software developer AI yang mengintegrasikan teknologi percakapan AI ke dalam aplikasi mereka. Pertama, menunjukkan pentingnya kolaborasi multidisiplin antara teknolog dan profesional kesehatan mental dalam mengembangkan sistem AI yang aman. Pendekatan OpenAI dengan melibatkan hampir 300 ahli dari berbagai negara memberikan blueprint tentang bagaimana validasi eksternal harus dilakukan untuk aplikasi AI yang sensitif.

Kedua, metodologi pengukuran yang dikembangkan OpenAI penting untuk dipahami developer. Karena kejadian langka seperti krisis kesehatan mental sangat jarang dalam percakapan, bahkan perbedaan kecil dalam cara pengukuran dapat berdampak signifikan pada angka yang dilaporkan. OpenAI tidak hanya mengandalkan pengukuran lalu lintas ChatGPT dunia nyata, tetapi juga menjalankan tes terstruktur sebelum deployment yang fokus pada skenario yang sangat sulit atau berisiko tinggi. Evaluasi ini dirancang cukup menantang sehingga model belum berkinerja sempurna, menunjukkan di mana masih ada peluang untuk perbaikan lebih lanjut.

Ketiga, transparansi OpenAI dalam melaporkan tingkat kesepakatan antar penilai yang berkisar 71 hingga 77 persen menunjukkan bahwa bahkan di antara ahli, ada perbedaan pendapat tentang respons terbaik dalam situasi kompleks. Ini menggarisbawahi pentingnya tidak mengklaim kesempurnaan mutlak dalam sistem AI untuk kesehatan mental, melainkan fokus pada peningkatan berkelanjutan dan pengakuan akan keterbatasan.

Untuk pengembang aplikasi AI yang ingin mengintegrasikan fitur percakapan sensitif, pembelajaran dari OpenAI menunjukkan pentingnya investasi besar dalam infrastruktur keamanan, bukan hanya pengembangan fitur. Dengan menambahkan darurat kesehatan mental non-bunuh diri dan ketergantungan emosional ke set standar pengujian keamanan baseline untuk rilis model mendatang, OpenAI menetapkan standar industri baru yang kemungkinan akan diikuti oleh pengembang aplikasi AI lainnya dalam membangun teknologi yang lebih bertanggung jawab.

(Burung Hantu Infratek / Berbagai Sumber)


⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan oleh AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.


Berita Terkait ChatGPT dan OpenAI

🌐 OpenAI Luncurkan ChatGPT Atlas: Browser AI-Native untuk Tantang Dominasi Google Chrome

💻 Microsoft Luncurkan Edge Copilot Mode Dua Hari Setelah OpenAI Atlas: Perang Browser AI Memanas

📱 WhatsApp Putuskan ChatGPT: 50 Juta Pengguna Kehilangan Akses Januari 2026

🍎 OpenAI Akuisisi Software Applications: Sky untuk Mac Jadi Senjata Dominasi Ekosistem Apple


Sumber dan Referensi

[1] Strengthening ChatGPT's responses in sensitive conversations

[2] It happened to be the perfect thing: experiences of generative AI chatbots for mental health

[3] OpenAI Rolls Out ChatGPT Safeguards to Protect Teens' Mental Health

[4] Teen safety, freedom, and privacy

[5] Loneliness and suicide mitigation for students using GPT3-enabled chatbots