Deloitte Refund $440K Laporan Penuh Halusinasi AI

Konsultan raksasa Deloitte Australia terpaksa mengembalikan sebagian dana kontrak senilai $440,000 kepada pemerintah federal setelah tertangkap menggunakan AI yang menghasilkan referensi akademik palsu dan kutipan hakim fiktif dalam laporan resmi. Skandal ini mempermalukan industri konsultan profesional dan memicu pertanyaan keras tentang pengawasan kualitas di era AI generatif, di mana firma bernilai miliaran dolar ternyata membiarkan Azure OpenAI GPT-4o menulis dokumen publik tanpa verifikasi manusia yang memadai.

Halusinasi AI Mencemari Laporan Pemerintah Bernilai Ratusan Juta

Department of Employment and Workplace Relations (DEWR) Australia mengontrak Deloitte pada Desember 2024 untuk melakukan tinjauan independen terhadap Targeted Compliance Framework - sistem otomatis yang mengenakan penalti kepada pencari kerja yang gagal memenuhi kewajiban mutual obligations dalam sistem kesejahteraan. Laporan setebal puluhan halaman ini seharusnya menjadi dokumen kebijakan kritis yang mengevaluasi kerangka hukum dan sistem IT yang mengotomasi penalti terhadap warga negara paling rentan.[1]

Namun ketika Dr Christopher Rudge, akademisi dari University of Sydney, memeriksa dokumen yang dipublikasikan pada 4 Juli 2025, ia menemukan sesuatu yang mengejutkan: beberapa referensi akademik yang dikutip tidak pernah ada. Lebih mengejutkan lagi, salah satu kutipan mengklaim berasal dari keputusan Federal Court dalam kasus "Deanna Amato v Commonwealth" - sebuah kasus yang ternyata fiktif, diciptakan oleh AI yang mengalami halusinasi.

Rudge, yang pertama kali mengungkap kesalahan ini, menjelaskan bahwa laporan tersebut mengandung "hallucinations" - fenomena di mana model AI mengisi kekosongan informasi dengan data yang terdengar masuk akal tetapi sepenuhnya dibuat-buat. "Anda hampir tidak mungkin secara tidak sengaja mengetik judul yang salah. Penggunaan AI adalah hipotesis kuat berdasarkan sifat referensi-referensi ini," katanya.[2]

Yang lebih memalukan, ketika Deloitte memperbaiki laporan dan mengunggahnya kembali pada akhir pekan panjang Oktober 2025, mereka tidak sekadar mengganti satu referensi palsu dengan yang asli. Menurut Rudge, "mereka mengganti referensi halusinasi palsu dengan lima, enam, tujuh, atau delapan referensi baru. Ini menunjukkan bahwa klaim asli dalam badan laporan tidak didasarkan pada satu sumber bukti tertentu." Dengan kata lain, kesimpulan dalam laporan mungkin dibuat terlebih dahulu, lalu AI diminta menghasilkan referensi pendukung - yang kemudian menghasilkan kutipan fiktif.[3]

Di antara referensi palsu yang ditemukan adalah beberapa makalah yang diklaim ditulis oleh Professor Lisa Burton Crawford dari University of Sydney Law School dan akademisi dari Lund University di Swedia - semua tidak pernah ada. Crawford sendiri menyatakan keprihatinannya: "Tidak selalu jelas bagi saya bagaimana penelitian yang telah saya publikasikan membuktikan proposisi yang saya dikutip untuk mendukungnya. Sangat mengkhawatirkan melihat penelitian dikaitkan dengan saya dengan cara ini."

Australian Financial Review, yang pertama kali melaporkan skandal ini pada Agustus 2025, menemukan lebih dari selusin penghapusan referensi tidak ada, daftar referensi yang ditulis ulang, dan koreksi terhadap beberapa kesalahan tipografi dalam versi revisi.[4]

Azure OpenAI GPT-4o: Tool Enterprise dengan Pengawasan Zero

Dalam appendix versi laporan yang diperbaiki, Deloitte akhirnya mengungkapkan penggunaan AI - meskipun dengan cara yang meminimalkan tanggung jawab. Firma tersebut menyatakan bahwa sebagian laporan "included the use of a generative artificial intelligence (AI) large language model (Azure OpenAI GPT-4o) based tool chain licensed by DEWR and hosted on DEWR's Azure tenancy."

Pengakuan ini mengungkap beberapa hal yang mengkhawatirkan. Pertama, Deloitte menggunakan infrastruktur AI milik klien mereka sendiri - sistem Azure OpenAI GPT-4o yang dilisensikan oleh DEWR dan di-hosting di Azure tenancy pemerintah. Ini menimbulkan pertanyaan tentang akuntabilitas: jika tool-nya milik klien, apakah Deloitte merasa kurang bertanggung jawab atas output-nya?

Kedua, Deloitte tidak menyatakan bahwa AI adalah penyebab kesalahan dalam laporan asli mereka, meskipun pola kesalahan sangat konsisten dengan AI hallucination. Firma tersebut tetap membela temuan asli review mereka, menyatakan: "The updates made in no way impact or affect the substantive content, findings and recommendations in the report." Departemen DEWR menggemakan pernyataan ini, mengonfirmasi bahwa "the substance of the independent review is retained, and there are no changes to the recommendations."[5]

Ini menciptakan paradoks yang aneh: jika kesalahan referensi tidak mempengaruhi substansi, mengapa referensi-referensi itu ada sejak awal? Dan jika kesimpulan tetap valid meskipun bukti pendukungnya fiktif, apa sebenarnya metodologi yang digunakan Deloitte untuk mencapai kesimpulan tersebut?

Azure OpenAI GPT-4o sendiri adalah model enterprise-grade yang dipasarkan Microsoft dengan jaminan keamanan, privasi data, dan skalabilitas untuk organisasi besar. Namun seperti semua large language model, GPT-4o rentan terhadap hallucination - fenomena yang telah mendokumentasikan dalam ratusan kasus hukum di seluruh dunia, di mana pengacara mengutip kasus fiktif yang dihasilkan ChatGPT atau Claude. Database yang dilacak oleh peneliti Damien Charlotin telah mengidentifikasi 411 kasus hukum di mana AI menghasilkan konten yang di-halusinasi, dengan mayoritas melibatkan kutipan palsu.[6]

Yang membuat kasus Deloitte unik adalah skala dan konteksnya: ini bukan pengacara solo yang terburu-buru menggunakan ChatGPT untuk brief pengadilan. Ini adalah salah satu firma konsultan "Big Four" global dengan ribuan karyawan dan sistem quality assurance yang seharusnya berlapis-lapis, menghasilkan dokumen untuk pemerintah nasional dengan harga hampir setengah juta dolar.

Senator Keras: "Deloitte Punya Masalah Kecerdasan Manusia"

Reaksi politik terhadap skandal ini tajam dan brutal. Senator Partai Buruh Deborah O'Neill, yang sebelumnya duduk di komisi senat untuk menyelidiki integritas firma konsultan, tidak menahan kritik: "Deloitte has a human intelligence problem. This would be laughable if it wasn't so lamentable. A partial refund looks like a partial apology for substandard work."

O'Neill menyoroti isu yang lebih luas tentang akuntabilitas dalam era AI: "Anyone looking to contract these firms should be asking exactly who is doing the work they are paying for, and having that expertise and no AI use verified." Dia bahkan menyindir bahwa instansi pemerintah mungkin lebih baik berlangganan ChatGPT langsung daripada membayar firma konsultan jutaan dolar untuk pekerjaan yang ternyata sebagian besar di-generate oleh AI tanpa pengawasan memadai.

DEWR mengonfirmasi bahwa Deloitte akan mengembalikan cicilan terakhir di bawah kontrak mereka, meskipun jumlah pastinya belum diungkapkan dan akan dipublikasikan setelah transaksi selesai. Juru bicara Deloitte hanya menyatakan bahwa "the matter has been resolved directly with the client" - pernyataan singkat yang mencoba menutup skandal yang telah menarik perhatian media internasional.

Menariknya, meskipun kritik tajam terhadap kesalahan prosedural Deloitte, Dr Rudge mengatakan dia ragu untuk menyebut seluruh laporan "harus dianggap tidak sah," karena kesimpulan-kesimpulannya sesuai dengan bukti luas dari sumber lain tentang masalah dalam sistem compliance otomatis. Laporan asli menemukan masalah tersebar luas, termasuk kurangnya "traceability" antara aturan framework dan legislasi di baliknya, serta "system defects." Laporan tersebut menyatakan bahwa sistem IT "driven by punitive assumptions of participant non-compliance" - temuan yang resonan dengan kritik lama terhadap sistem robodebt Australia yang kontroversial.

Ini menciptakan dilema etis: jika kesimpulan benar tetapi metode untuk sampai di sana cacat, apakah laporan tersebut dapat dipercaya sebagai dasar kebijakan publik?

Pelajaran untuk Enterprise AI: Halusinasi Bukan Bug, Tapi Fitur

Skandal Deloitte menggarisbawahi kebenaran yang tidak nyaman tentang AI generatif: hallucination bukan bug yang bisa diperbaiki dengan patch software. Ini adalah karakteristik fundamental dari cara large language model bekerja - mereka memprediksi token berikutnya yang paling mungkin berdasarkan pola dalam data training, bukan mengambil informasi dari database fakta terverifikasi.

Sebuah studi komprehensif oleh AllAboutAI pada 2024 memperkirakan bahwa AI hallucination menyebabkan kerugian $67.4 miliar bagi bisnis global. Untuk perusahaan di industri yang diregulasi atau high-stakes, akurasi bukan opsional - ini adalah misi kritis. Dalam konteks legal, compliance, atau kebijakan pemerintah, informasi yang salah dapat menyebabkan sanksi, kerugian reputasi, atau bahkan bahaya bagi publik.[7]

Bagi organisasi yang mengadopsi Azure OpenAI atau layanan AI enterprise lainnya, pelajaran dari kasus Deloitte jelas:

Verifikasi Manusia Tidak Dapat Dinegosiasikan: AI dapat mempercepat draft, tetapi setiap klaim faktual - terutama kutipan, referensi, atau data statistik - harus diverifikasi oleh manusia yang berkualifikasi. Tidak ada pengecualian.
Transparansi Penggunaan AI Sejak Awal: Deloitte hanya mengungkapkan penggunaan AI setelah kesalahan ditemukan. Best practice memerlukan disclosure di muka tentang bagaimana dan di mana AI digunakan dalam deliverable.
Quality Assurance Berlapis: Firma dengan ribuan karyawan seharusnya memiliki multiple layer review sebelum dokumen bernilai ratusan ribu dolar dikirim ke klien pemerintah. Fakta bahwa ini lolos menunjukkan kegagalan sistemik dalam quality control.
Training Karyawan tentang Batasan AI: Banyak profesional memperlakukan output AI seperti hasil dari search engine atau database - authoritative dan dapat dipercaya. Mereka perlu memahami bahwa LLM adalah alat generatif yang dapat dan akan membuat hal-hal yang terdengar meyakinkan tetapi sepenuhnya salah.
Audit Trail dan Akuntabilitas: Ketika AI digunakan, harus ada catatan jelas tentang siapa yang menggunakan tool mana, untuk bagian mana dari pekerjaan, dan siapa yang bertanggung jawab untuk verifikasi output.

Untuk industri konsultan, skandal ini datang pada waktu yang sangat buruk. Firma "Big Four" - Deloitte, PwC, EY, dan KPMG - telah menghadapi scrutiny yang meningkat atas tahun-tahun terakhir tentang kualitas pekerjaan mereka, konflik kepentingan, dan nilai yang mereka berikan dibandingkan dengan biaya mereka yang tinggi. Inquiry senat Australia tentang integritas firma konsultan telah mengungkap berbagai masalah, dan skandal AI hallucination ini menambah bukti bahwa firma-firma ini mungkin lebih fokus pada efisiensi dan margin daripada pada kualitas dan akuntabilitas.

Di sisi lain, kasus ini juga menyoroti pentingnya implementasi AI yang bertanggung jawab - sesuatu yang menjadi fokus perusahaan seperti Burhan Infratek yang membangun solusi AI native dengan safety dan verifiability sebagai prioritas utama. Ketika AI digunakan dengan pengawasan yang tepat, transparency, dan human oversight, teknologi ini dapat menjadi force multiplier yang luar biasa. Tetapi seperti yang ditunjukkan Deloitte, ketika AI digunakan dengan sembarangan tanpa safeguard memadai, hasilnya bisa memalukan dan berpotensi berbahaya.

(Burung Hantu Infratek / Berbagai Sumber)

⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan oleh AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.

Berita yang terkait:

Sumber dan Referensi:

[1] Deloitte to pay money back to Albanese government after using AI in $440,000 report - The Guardian

[2] Deloitte Australia forced to refund government over AI-riddled report - Australian Financial Review

[3] Deloitte Australia writes government report with AI and fake references - Pivot to AI

[4] AI 'hallucinations' are a growing problem littered with errors - Ars Technica

[5] AI Hallucination Cases Database tracks 411 legal cases - Damien Charlotin

[6] The $67 Billion Warning: How AI Hallucinations Hurt Enterprises - Korra.ai

[7] Deloitte partial refund confirmed after AI errors found - AFR