AWS Outage 15 Jam: Investigasi Kegagalan DNS yang Lumpuhkan Setengah Internet

AWS Outage 15 Jam: Investigasi Kegagalan DNS yang Lumpuhkan Setengah Internet

Pada 20 Oktober 2025, dunia menyaksikan salah satu bencana komputasi awan terbesar dalam sejarah modern. Amazon Web Services, tulang punggung sepertiga infrastruktur internet global, ambruk selama 15 jam. Lebih dari 2.500 perusahaan lumpuh. Sebelas juta laporan gangguan membanjir. Snapchat, Reddit, Coinbase, bahkan Amazon sendiri mati total. Investigasi mendalam ini mengungkap kronologi teknis, race condition tersembunyi yang memicu kehancuran, dan kerentanan sistemik infrastruktur digital yang menopang peradaban modern.


Anatomi Bencana: Kronologi 15 Jam yang Menghentikan Internet

Pukul 11:48 malam waktu Pasifik pada 19 Oktober 2025, sebuah cacat tersembunyi yang bersembunyi selama bertahun-tahun dalam sistem manajemen DNS DynamoDB tiba-tiba tereksekusi. Dalam hitungan detik, titik akses regional DynamoDB di pusat data US-EAST-1 Northern Virginia menghilang dari peta internet. Aplikasi yang mencoba terhubung ke DynamoDB tiba-tiba tidak bisa menemukan alamat tujuan mereka, seperti GPS yang tiba-tiba kehilangan seluruh basis data peta.

US-EAST-1 bukanlah pusat data biasa. Ini adalah jantung dari kerajaan awan AWS, pusat data terbesar dan tertua perusahaan di Amerika Serikat. Ketika jantung berhenti berdetak, seluruh tubuh kejang. DynamoDB adalah basis data awan yang menyimpan informasi pengguna dan data krusial untuk ribuan layanan AWS lainnya. Ketika DynamoDB tidak dapat diakses, efek domino dimulai dengan brutal.

Pada pukul 12:11 pagi, layanan-layanan besar mulai berjatuhan. Snapchat dengan 750 juta pengguna aktif bulanan mati total. Reddit yang melayani 850 juta kunjungan per bulan tidak bisa diakses. Platform kripto Coinbase dan Robinhood membekukan transaksi senilai miliaran dolar. Fortnite dan Roblox, dengan gabungan 400 juta pemain aktif, terputus dari server. Bahkan layanan kritis seperti sistem keamanan Ring, asisten suara Alexa, dan portal pajak HMRC Inggris lumpuh seketika.

Dalam tiga jam pertama, Downdetector mencatat lebih dari satu juta laporan gangguan hanya dari Amerika Serikat. Angka ini terus melonjak sepanjang hari. Pada siang hari, total laporan global telah menembus 11 juta, dengan 3 juta dari AS, 1 juta dari Inggris, dan jutaan lainnya tersebar di seluruh dunia. Ini bukan sekadar gangguan teknis, ini adalah pemadaman digital yang mempengaruhi ratusan juta orang di lima benua.

Tim rekayasa AWS langsung bergerak. Pada pukul 12:38 pagi, mereka mengidentifikasi keadaan DNS DynamoDB sebagai sumber masalah. Pukul 1:15 pagi, mitigasi sementara mulai diterapkan, memungkinkan beberapa layanan internal terhubung kembali. Pukul 2:25 pagi, semua informasi DNS dipulihkan. Namun kerusakan sudah terlalu masif. Peluncuran instance EC2 gagal total karena sistem Droplet Workflow Manager mengalami kolaps kemacetan, tidak bisa memproses tunggakan lease yang menumpuk. Network Load Balancer mulai mengalami kegagalan pemeriksaan kesehatan massal pada pukul 5:30 pagi, memperburuk situasi. Baru pada pukul 2:20 siang waktu Pasifik, 15 jam setelah insiden dimulai, AWS mengumumkan pemulihan penuh.

Race Condition Mematikan: Cacat Tersembunyi yang Mengekspos Kerentanan Sistemik

Dalam laporan pasca-insiden resmi yang dirilis AWS, terungkap detail teknis yang mengejutkan tentang akar masalah insiden ini. Masalahnya bukanlah serangan siber, bukan juga kegagalan perangkat keras. Ini adalah race condition yang tersembunyi, cacat desain yang bersarang dalam sistem otomasi manajemen DNS DynamoDB yang telah berjalan bertahun-tahun tanpa masalah hingga kondisi yang sangat spesifik dan langka terpicu pada malam naas itu.

Sistem manajemen DNS DynamoDB AWS terdiri dari dua komponen independen untuk alasan ketersediaan. Komponen pertama, DNS Planner, memantau kesehatan dan kapasitas penyeimbang beban serta secara periodik menciptakan rencana DNS baru untuk setiap titik akses layanan. Komponen kedua, DNS Enactor, yang didesain dengan ketergantungan minimal untuk memungkinkan pemulihan sistem dalam skenario apapun, menerapkan rencana DNS dengan melakukan perubahan yang dibutuhkan di layanan Amazon Route53. Untuk ketahanan, DNS Enactor beroperasi secara redundan dan sepenuhnya independen di tiga zona ketersediaan berbeda.

Race condition terjadi karena interaksi yang sangat tidak mungkin antara dua DNS Enactors. Pada malam kejadian, satu DNS Enactor mengalami penundaan yang tidak biasa ketika mencoba melakukan percobaan ulang pembaruan pada beberapa titik akses DNS. Sementara itu, DNS Planner terus berjalan dan memproduksi banyak generasi baru dari rencana. DNS Enactor kedua kemudian mulai menerapkan salah satu rencana terbaru dan dengan cepat menyelesaikan pembaruan untuk semua titik akses.

Waktu dari kejadian-kejadian ini memicu race condition yang tersembunyi. Ketika Enactor kedua menyelesaikan pembaruan titik akses, ia kemudian memanggil proses pembersihan rencana, yang mengidentifikasi rencana yang jauh lebih lama dari yang baru saja diterapkan dan menghapusnya. Pada saat bersamaan, Enactor pertama yang sangat tertunda akhirnya menerapkan rencana lamanya ke titik akses regional DynamoDB, menimpa rencana yang lebih baru. Pemeriksaan yang dilakukan di awal proses penerapan rencana, yang memastikan bahwa rencana lebih baru dari rencana yang diterapkan sebelumnya, sudah basi karena penundaan pemrosesan yang tidak biasa. Proses pembersihan Enactor kedua kemudian menghapus rencana lama ini karena sudah banyak generasi lebih tua. Ketika rencana ini dihapus, semua alamat IP untuk titik akses regional segera terhapus, dan sistem tertinggal dalam keadaan yang tidak konsisten yang mencegah pembaruan rencana selanjutnya diterapkan oleh DNS Enactors manapun.

Bagi software developer AI dan pengembang aplikasi AI yang membangun sistem asli-awan, investigasi ini mengungkap pelajaran krusial tentang sistem terdistribusi. Race conditions seperti ini sangat sulit dideteksi dalam pengujian karena hanya terjadi pada waktu yang sangat spesifik. Cacat ini telah ada dalam kode produksi selama bertahun-tahun, menunggu kombinasi yang tepat dari penundaan, multiple Enactors, dan waktu proses pembersihan untuk akhirnya meledak.

Konsentrasi Risiko dan Masa Depan Infrastruktur Awan Global

Insiden 20 Oktober 2025 ini memaksa industri teknologi untuk menghadapi pertanyaan eksistensial tentang arsitektur internet modern. AWS menguasai 38 persen dari pasar komputasi awan global menurut riset Gartner. Ketika sepertiga dari internet bergantung pada satu penyedia dan penyedia itu mengalami kegagalan di titik kegagalan tunggal bernama US-EAST-1, konsekuensinya bersifat katastropik dan global.

Dave McCarthy, yang memimpin riset global untuk layanan awan di International Data Corporation, menyebut gangguan ini sebagai pengingat keras tentang risiko konsentrasi masif yang telah diterima ekonomi global dengan membangun di atas segelintir penyedia awan. Kerugian finansial dari 15 jam waktu henti diperkirakan melampaui 550 juta dolar dalam produktivitas global yang hilang, belum termasuk kerugian reputasi dan kepercayaan konsumen.

Yang lebih mengkhawatirkan adalah fakta bahwa ini adalah kegagalan mayor ketiga di US-EAST-1 dalam lima tahun terakhir. Pola ini menunjukkan kerentanan struktural yang belum sepenuhnya diselesaikan. Meskipun AWS memiliki multiple wilayah di seluruh dunia, banyak perusahaan tetap mengkonsentrasikan beban kerja mereka di US-EAST-1 karena alasan historis, biaya, dan latensi. Ketika wilayah ini mati, mekanisme cadangan dan pengalihan sering kali tidak cukup cepat atau tidak diimplementasikan dengan benar.

Profesor Ken Birman dari Cornell University menyoroti bahwa AWS sebenarnya menyediakan perangkat untuk membantu pengembang melindungi diri ketika banyak pusat data mengalami masalah. Pengembang juga bisa membuat cadangan ke platform awan lain. Namun realitasnya adalah banyak perusahaan, dalam tergesa-gesa untuk membuat aplikasi mereka daring, memotong biaya dan mengambil jalan pintas, bahkan lupa bahwa mereka melewatkan langkah terakhir untuk benar-benar melakukan proteksi terhadap waktu henti. Perusahaan-perusahaan inilah yang seharusnya diperiksa lebih lanjut.

Bagi pengembang aplikasi AI dan software developer AI, insiden ini harus menjadi panggilan bangun untuk mengimplementasikan strategi multi-awan dan multi-wilayah yang kokoh. Arsitektur yang tangguh tidak lagi menjadi kemewahan, tetapi kebutuhan bertahan hidup dalam ekosistem awan yang terpusat. Komputasi tepi dan arsitektur awan-hibrid menjadi semakin krusial untuk memastikan bahwa operasi mission-critical dapat terus berfungsi luring selama kegagalan serupa di masa depan.

(Burung Hantu Infratek / Berbagai Sumber)


⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan oleh AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.


Berita Terkait AWS dan Komputasi Awan

AWS Tertinggal di Race Cloud AI, Project Rainier Jadi Senjata Comeback

Liquid AI Nanos Hancurkan Dominasi Cloud Computing

AWS Bedrock Guncang Asia Pacific dengan AI

Google Cloud Perkuat Kemitraan dengan OpenAI


Sumber dan Referensi

[1] Summary of the Amazon DynamoDB Service Disruption in Northern Virginia - AWS

[2] AWS Outage of October 2025: How a DNS Failure Brought the Internet to a Standstill - Dev.to

[3] Here's what experts say the Amazon Web Services outage reveals about the fragility of the cloud - CBS News

[4] What caused the AWS outage - and why did it make the internet fall apart? - BBC

[5] The massive AWS outage that broke half the internet is finally over - ZDNet