Era AI Paksa Perombakan Total Infrastruktur Komputasi

Kemajuan kecerdasan buatan (AI) sedang memaksa industri teknologi untuk merombak total infrastruktur komputasi. Google mengumumkan bahwa arsitektur komputasi lama tidak lagi memadai untuk mendukung kebutuhan AI generatif yang semakin kompleks.
Amin Vahdat, VP dan GM untuk machine learning, systems and cloud AI di Google Cloud, menegaskan bahwa revolusi AI membutuhkan perubahan fundamental dalam desain perangkat keras, jaringan, dan operasi berkelanjutan. Perubahan ini jauh melampaui penyempurnaan sederhana dari infrastruktur yang sudah ada.
Menurut Vahdat, infrastruktur komputasi dalam beberapa tahun ke depan akan tampak sangat berbeda, sehingga industri harus membangun cetak biru baru untuk infrastruktur global berdasarkan prinsip-prinsip dasar AI.
Kebutuhan Komputasi Khusus untuk AI
Selama beberapa dekade terakhir, dunia komputasi didominasi oleh server komoditas yang hampir identik. Namun, kebutuhan AI generatif yang sangat bergantung pada operasi matematika yang dapat diprediksi pada dataset besar telah mengubah tren ini secara drastis.
Saat ini, industri teknologi sedang beralih ke perangkat keras khusus seperti ASIC, GPU, dan tensor processing unit (TPU) yang memberikan peningkatan kinerja hingga puluhan kali lipat dibandingkan CPU tujuan umum. Perangkat keras khusus ini sangat penting untuk mendorong kemajuan cepat dalam bidang AI.
Selain itu, sistem khusus ini membutuhkan komunikasi "all-to-all" dengan bandwidth terabit-per-detik dan latensi nanodetik yang mendekati kecepatan memori lokal. Jaringan saat ini, yang sebagian besar berbasis switch Ethernet dan protokol TCP/IP, tidak mampu menangani tuntutan ekstrem ini.
Untuk mengatasi hambatan komunikasi, muncul interkoneksi khusus seperti ICI untuk TPU dan NVLink untuk GPU. Jaringan yang dibuat khusus ini memprioritaskan transfer langsung antar memori dan menggunakan perangkat keras khusus untuk mempercepat berbagi informasi antar prosesor.
Kebutuhan untuk memberi makan unit komputasi yang semakin kuat telah mendorong pengembangan high bandwidth memory (HBM), yang menumpuk DRAM langsung pada paket prosesor untuk meningkatkan bandwidth dan mengurangi latensi. Namun, bahkan HBM menghadapi keterbatasan mendasar karena perimeter chip fisik membatasi aliran data total.
Sistem Padat dengan Pendekatan Toleransi Kesalahan Baru
Model machine learning (ML) canggih saat ini sering mengandalkan perhitungan yang diatur dengan hati-hati di puluhan hingga ratusan ribu elemen komputasi identik, mengkonsumsi daya yang sangat besar. Pengoperasian yang ketat dan sinkronisasi tingkat tinggi pada level mikrodetik memaksakan tuntutan baru.
Tidak seperti sistem yang merangkul heterogenitas, komputasi ML membutuhkan elemen homogen; mencampur generasi yang berbeda akan menjadi hambatan bagi unit yang lebih cepat. Jalur komunikasi juga harus direncanakan sebelumnya dan sangat efisien, karena penundaan pada satu elemen dapat menghentikan seluruh proses.
Tuntutan ekstrem untuk koordinasi dan daya ini mendorong kebutuhan akan kepadatan komputasi yang belum pernah terjadi sebelumnya. Meminimalkan jarak fisik antar prosesor menjadi penting untuk mengurangi latensi dan konsumsi daya, membuka jalan bagi kelas baru sistem AI ultra-padat.
Toleransi kesalahan tradisional mengandalkan redundansi antar sistem yang terhubung longgar untuk mencapai uptime tinggi. Komputasi ML menuntut pendekatan berbeda karena skala komputasi yang sangat besar membuat over-provisioning terlalu mahal.
Strategi yang sedang berkembang melibatkan checkpointing yang sering (menyimpan status komputasi) dikombinasikan dengan pemantauan real-time, alokasi cepat sumber daya cadangan, dan restart cepat. Desain perangkat keras dan jaringan yang mendasarinya harus memungkinkan deteksi kegagalan yang cepat dan penggantian komponen yang mulus untuk mempertahankan kinerja.
Pendekatan Daya yang Lebih Berkelanjutan
Saat ini dan ke depan, akses ke daya adalah hambatan utama untuk menskalakan komputasi AI. Sementara desain sistem tradisional berfokus pada kinerja maksimum per chip, kita harus beralih ke desain end-to-end yang berfokus pada kinerja yang dihasilkan per watt. Pendekatan ini penting karena mempertimbangkan semua komponen sistem yang bekerja sama untuk mempertahankan kinerja.
Seiring dorongan untuk kinerja yang lebih besar, chip individual membutuhkan lebih banyak daya, sering melebihi kapasitas pendinginan pusat data berpendingin udara tradisional. Hal ini memerlukan pergeseran ke solusi pendinginan cair yang lebih efisien dan perancangan ulang infrastruktur pendinginan pusat data secara fundamental.
Model daya yang berkembang memungkinkan respons real-time terhadap ketersediaan daya - dari mematikan komputasi selama kekurangan hingga teknik lanjutan seperti scaling frekuensi untuk beban kerja yang dapat mentolerir kinerja yang berkurang. Semua ini membutuhkan telemetri real-time dan aktuasi pada level yang saat ini tidak tersedia.
(Burung Hantu Infratek / Berbagai Sumber)
Berita ini 100% diriset, ditulis dan dikembangkan oleh AI internal Burung Hantu Infratek. Bisa jadi terdapat kesalahan pada data aktual.
