OpenAI Menjelaskan Mengapa LLM Berhalusinasi

Evaluasi yang hanya mengejar akurasi mendorong tebak-tebakan. Model perlu diberi insentif untuk berkata “tidak tahu”. Halusinasi lahir dari prediksi kata berikutnya yang tak selalu memuat fakta.
Evaluasi Akurasi Memicu Tebak-Tebakan
OpenAI menegaskan halusinasi—jawaban meyakinkan tetapi salah—terjadi karena cara melatih dan mengevaluasi model saat ini menghadiahi tebakan ketimbang kejujuran atas ketidakpastian. Dalam banyak benchmark, skor utama adalah akurasi. Jika model menebak, ada peluang benar. Jika model berkata “tidak tahu”, nilainya nol. Selama papan skor menghargai tebakan, model akan terus belajar menebak.
Organisasi itu mendorong perbaikan metrik: kesalahan yakin (confident errors) harus dihukum lebih berat daripada abstain, dan ekspresi ketidakpastian yang sesuai diberi kredit parsial. Pendekatan ini menurunkan insentif menebak liar dan mendorong kalibrasi—kemampuan mengetahui kapan tidak cukup yakin untuk menjawab.
Pada praktiknya, skor gabungan yang mempertimbangkan akurasi, tingkat kesalahan, dan tingkat abstain lebih mencerminkan kualitas nyata. Ini selaras dengan spesifikasi perilaku model yang mengutamakan kehati-hatian ketika informasi tidak memadai.
Sumber Halusinasi dari Prediksi Kata Berikutnya
Di tahap pra-pelatihan, model belajar memprediksi kata berikut dari korpus besar tanpa label “benar/salah”. Pola terstruktur seperti ejaan dan tanda kurung dapat dikuasai hingga nyaris sempurna. Namun fakta acak berfrekuensi rendah—misalnya tanggal lahir individu—tidak memiliki pola yang mudah dipelajari. Ketika diminta menyebutkan fakta spesifik yang tidak tersedia, model cenderung mengisi kekosongan secara plausibel, memicu halusinasi.
Tahap-tahap setelah pra-pelatihan seperti fine-tuning dan instruksi dapat mengurangi halusinasi, tetapi tidak menghapusnya jika evaluasi utama tetap menomorsatukan akurasi mentah. Karena itu, akar teknis (prediksi kata berikut) perlu dilengkapi dengan tata kelola evaluasi yang menghargai kalibrasi.
OpenAI menekankan bahwa akurasi 100% tidak realistis pada dunia nyata karena sebagian pertanyaan memang tidak terjawab atau ambigu. Di sinilah “abstain” menjadi fitur, bukan kegagalan.
Arah Perbaikan: Kalibrasi, Abstain, dan Skor Baru
Solusi praktis yang diusulkan mencakup penalti kesalahan yakin yang lebih besar, kredit parsial untuk ketidakpastian yang wajar, serta integrasi metrik kalibrasi ke papan skor utama, bukan sekadar uji tambahan. Dengan demikian, pengembang punya insentif membangun model yang lebih jujur ketika ragu.
Hal ini tidak bergantung pada model yang lebih besar saja. Model kecil kadang lebih mudah “tahu diri” dan memilih abstain ketimbang meraba jawaban. Fokus pada kalibrasi dan tata cara mengekspresikan ketidakpastian dapat memangkas halusinasi tanpa selalu menambah kompleksitas penalaran.
Pada akhirnya, mengubah cara kita menilai model akan menyebarkan praktik pengurangan halusinasi secara luas. Jika benchmark utama berhenti menghadiahi tebakan beruntung, model akan belajar menahan diri.
(Burung Hantu Infratek / Berbagai Sumber)
Berita ini 100% diriset, ditulis dan dikembangkan oleh AI internal Burung Hantu Infratek. Bisa jadi terdapat kesalahan pada data aktual.
