Microsoft Azure Pecahkan Rekor Inference AI: 865 Ribu Token per Detik

Microsoft Azure Pecahkan Rekor Inference AI: 865 Ribu Token per Detik

Microsoft Azure baru saja mengumumkan pencapaian fenomenal dalam dunia komputasi AI dengan meluncurkan klaster produksi skala superkomputer pertama di industri yang menggunakan sistem NVIDIA GB300 NVL72, mencatatkan rekor throughput inference hingga 865.000 token per detik pada satu rack NVL72, atau rata-rata 48.088 token per detik per virtual machine ketika dijalankan secara paralel di 18 VM dalam satu rack. Infrastruktur revolusioner ini, yang menghubungkan lebih dari 4.600 GPU NVIDIA Blackwell Ultra melalui jaringan InfiniBand generasi terbaru, dirancang khusus untuk menangani beban kerja AI inference paling berat dari OpenAI, menandai lompatan kuantum dalam arsitektur hardware dan infrastruktur yang akan memberikan peningkatan performa aplikasi AI yang belum pernah terjadi sebelumnya untuk pelatihan dan inferensi model dengan ratusan triliun parameter.


Arsitektur Rack-Scale yang Mengubah Paradigma Komputasi AI

Microsoft Azure memperkenalkan seri NDv6 GB300 VM yang memanfaatkan sistem NVIDIA GB300 NVL72 dalam konfigurasi rack-scale yang revolusioner. Setiap rack mengintegrasikan 72 GPU NVIDIA Blackwell Ultra dan 36 CPU NVIDIA Grace berbasis Arm dalam satu domain NVLink tunggal, menciptakan bandwidth agregat mencapai 130 TB/s untuk komunikasi GPU ke GPU. Arsitektur ini memungkinkan seluruh rack beroperasi seperti satu akselerator raksasa dengan total memori sekitar 21 TB HBM3e, atau hingga 40 TB jika menghitung memori koheren CPU-GPU.

Nidhi Chappell, Corporate Vice President of Microsoft Azure AI Infrastructure, menyatakan dalam pengumuman resmi, "Delivering the industry's first at-scale NVIDIA GB300 NVL72 production cluster for frontier AI is an achievement that goes beyond powerful silicon. It reflects Microsoft Azure and NVIDIA's shared commitment to optimize all parts of the modern AI data center." Pernyataan ini menegaskan bahwa pencapaian ini bukan sekadar tentang hardware canggih, tetapi hasil dari kerja sama bertahun-tahun antara Microsoft dan NVIDIA dalam membangun infrastruktur AI untuk beban kerja paling berat di dunia.

Klaster berskala superkomputer ini menghubungkan lebih dari 4.600 GPU (tepatnya 4.608 GPU, setara 64 sistem NVL72) melalui platform jaringan NVIDIA Quantum-X800 InfiniBand, memberikan setiap GPU bandwidth interkoneksi hingga 800 Gb/s. Microsoft menerapkan rekayasa radikal terhadap memori dan jaringan untuk menyediakan skala komputasi masif yang diperlukan mencapai throughput inference dan pelatihan tinggi untuk model reasoning dan sistem AI agentic. Sistem berpendingin cair ini mengoptimalkan performa dan kepadatan rack di pusat data, memungkinkan deployment infrastruktur generasi berikutnya dengan skala dan kecepatan yang belum pernah ada sebelumnya.

Performa Benchmark yang Memecahkan Rekor Industri

Dalam benchmark MLPerf Inference v4.1 menggunakan model LLAMA 2 70B yang telah menjadi standar industri untuk deployment AI berskala besar, sistem NVIDIA GB300 NVL72 di Azure mencatatkan throughput mencengangkan 865.000 token per detik pada satu rack NVL72 sebagai submission yang belum diverifikasi. Angka ini merupakan performa berkelanjutan yang diukur secara aktual, bukan puncak teoretis, menunjukkan kemampuan nyata sistem untuk beban kerja inference enterprise.

Untuk lebih mencerminkan kasus penggunaan pelanggan di dunia nyata, Microsoft melakukan deployment model LLAMA 2 70B secara paralel pada 18 virtual machine ND GB200 v6 dalam satu rack NVL72, mensimulasikan interaksi manusia dengan sistem AI. Pengujian benchmark mencapai throughput rata-rata 48.088 token per detik (dengan varians ±2%) per VM, yang ditranslasikan menjadi 12.022 token per detik per GPU NVIDIA GB200 Blackwell. Konsistensi performa ini sangat penting untuk deployment produksi di mana prediktabilitas sama pentingnya dengan kecepatan mentah.

Pencapaian ini merepresentasikan lompatan kuantum dari generasi sebelumnya. NVIDIA GB300 NVL72 baru-baru ini menetapkan rekor dalam pengujian reasoning baru MLPerf Inference v5.1, termasuk throughput DeepSeek-R1 yang lebih tinggi dibandingkan klaster berbasis Blackwell generasi sebelumnya. Platform ini juga disetel untuk format FP4 (seperti NVFP4) dan serving terdisagregasi gaya Dynamo, memberikan fleksibilitas maksimal untuk berbagai pola beban kerja AI. Ian Buck, Vice President of Hyperscale and High-performance Computing di NVIDIA, mengonfirmasi bahwa "This co-engineered system delivers the world's first at-scale GB300 production cluster, providing the supercomputing engine needed for OpenAI to serve multitrillion-parameter models. This sets the definitive new standard for accelerated computing."

Implikasi untuk Ekosistem Developer AI dan Rencana Masa Depan

Peluncuran Azure NDv6 GB300 series membuka kemungkinan baru bagi pengembang perangkat lunak AI dan pengembang aplikasi AI untuk membangun model reasoning generasi berikutnya dan sistem AI agentic. Dengan akses ke infrastruktur yang mampu melatih model dalam hitungan minggu alih-alih bulan dan memberikan throughput tinggi untuk beban kerja inference berskala besar, pengembang dapat membuka model yang lebih besar dan lebih kuat. Microsoft mengklaim sebagai penyedia cloud pertama yang akan mendukung pelatihan model dengan ratusan triliun parameter, besaran yang sebelumnya dianggap tidak praktis.

Untuk inference AI produksi terutama yang melibatkan sistem retrieval-augmented generation (RAG) yang menggabungkan LLM dengan pencarian, infrastruktur ini menyediakan pencarian dan respons real-time dengan jaringan berkecepatan tinggi dan throughput tinggi. Dalam lingkungan cloud dengan inference multi-tenant, sistem ini mempertahankan beban kerja dari pelanggan berbeda berjalan dengan lancar tanpa gangguan, berkat isolasi ketat antara pengguna yang dijamin oleh jaringan NVIDIA Quantum InfiniBand dengan teknologi Scalable Hierarchical Aggregation and Reduction Protocol (SHARP).

Microsoft menegaskan komitmen untuk meningkatkan deployment ini ke ratusan ribu GPU Blackwell Ultra di seluruh pusat data AI Azure secara global. Klaster produksi pertama dengan 4.600+ GPU ini hanya permulaan dari banyak klaster lainnya yang akan dideploy, mencerminkan komitmen berkelanjutan untuk mendefinisikan ulang infrastruktur AI. Pencapaian ini merupakan hasil dari kolaborasi lintas hardware, sistem, rantai pasokan, fasilitas, dan berbagai disiplin lainnya, serta kemitraan erat dengan NVIDIA. Bagi Indonesia dan pasar regional, ketersediaan infrastruktur semacam ini melalui platform cloud Azure memberikan akses ke kapabilitas komputasi AI terdepan tanpa perlu investasi awal yang masif dalam pengadaan hardware dan pembangunan pusat data.

(Burung Hantu Infratek / Berbagai Sumber)


⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan oleh AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.


Berita Terkait Microsoft Azure dan AI Infrastructure

🚀 Microsoft Dapat 100.000 Chip Nvidia GB300

💻 Microsoft Bangun Data Center AI Terbesar Dunia

🏢 Microsoft Fairwater Datacenter AI Terkuat Dunia

Nvidia Speculative Decoding Percepat AI Inference


Sumber dan Referensi

[1] Microsoft Azure delivers the first large scale cluster with NVIDIA GB300 NVL72 for OpenAI workloads

[2] Azure's ND GB200 v6 Delivers Record Performance for Inference Workloads - Microsoft Tech Community

[3] Microsoft Azure Unveils World's First NVIDIA GB300 NVL72 Supercomputing Cluster for OpenAI - NVIDIA Blog

[4] ND GB200-v6 size series - Azure Virtual Machines - Microsoft Learn

[5] MLPerf Inference v4.1 Results - MLCommons