Arsitektur AI Baru 100x Lebih Cepat Daripada LLM

Arsitektur AI Baru 100x Lebih Cepat Daripada LLM

Sebuah terobosan besar dalam teknologi kecerdasan buatan (AI) telah diluncurkan oleh perusahaan rintisan Sapient Intelligence dari Singapura. Model AI baru mereka mampu berpikir 100 kali lebih cepat dari model bahasa besar (LLM) yang ada saat ini, dengan hanya membutuhkan 1.000 contoh data latihan.

Teknologi bernama Hierarchical Reasoning Model (HRM) ini meniru cara kerja otak manusia, dengan membagi proses berpikir menjadi dua sistem: perencanaan lambat dan perhitungan cepat. HRM berhasil mengalahkan model-model canggih seperti o3-mini-high dan Claude 3.7 Sonnet dalam beberapa tes penalaran kompleks.

Yang lebih menakjubkan, HRM hanya membutuhkan seperseratus dari data dan sumber daya komputasi dibandingkan dengan model AI besar lainnya, membuka jalan bagi aplikasi AI yang lebih cepat dan hemat biaya di berbagai industri.

Keterbatasan Model AI Saat Ini

Model bahasa besar (LLM) seperti yang kita kenal saat ini memiliki cara berpikir yang cukup lambat. Mereka menggunakan metode chain-of-thought (CoT) atau "rantai pemikiran" untuk memecahkan masalah, yang berarti mereka harus memecah masalah menjadi langkah-langkah kecil dalam bentuk teks.

Para peneliti di Sapient Intelligence menjelaskan bahwa cara ini seperti menggunakan "tongkat penopang" dan bukan solusi yang benar-benar baik. Jika salah satu langkah keliru atau urutannya tidak tepat, seluruh proses pemecahan masalah bisa gagal.

Metode CoT juga sangat bergantung pada pembuatan teks yang panjang dan lambat. Ini membuat model AI membutuhkan data latihan yang sangat banyak dan menghasilkan jawaban yang lambat. Metode ini juga mengabaikan jenis "penalaran tersembunyi" yang terjadi di dalam otak kita tanpa perlu diucapkan dalam kata-kata.

Sebagaimana dicatat oleh para peneliti, "Diperlukan pendekatan yang lebih efisien untuk meminimalkan kebutuhan data ini." Masalah ini sangat terasa di dunia bisnis, di mana data sering terbatas dan kecepatan sangat penting.

Kelemahan lain dari pendekatan yang ada saat ini adalah masalah "gradien yang menghilang" ketika model dibuat terlalu dalam, atau masalah "konvergensi dini" di mana model terlalu cepat menetapkan jawaban tanpa menjelajahi masalah secara menyeluruh.

Terobosan dengan Pendekatan Baru

Untuk mengatasi keterbatasan tersebut, tim Sapient terinspirasi oleh cara kerja otak manusia. Mereka membuat model HRM dengan dua modul yang bekerja sama: modul tingkat tinggi (H) untuk perencanaan lambat dan abstrak, serta modul tingkat rendah (L) untuk perhitungan cepat dan detail.

Struktur ini memungkinkan proses yang disebut "konvergensi hierarkis". Secara sederhana, modul L yang cepat menangani sebagian dari masalah, melakukan beberapa langkah hingga mencapai solusi lokal yang stabil. Setelah itu, modul H yang lambat mengambil hasil ini, memperbarui strategi keseluruhannya, dan memberi modul L masalah baru yang lebih halus untuk dikerjakan.

Proses ini efektif mereset modul L, mencegahnya macet dan memungkinkan seluruh sistem melakukan serangkaian langkah penalaran panjang dengan arsitektur model yang ramping tanpa masalah gradien yang menghilang.

Dalam pengujian, HRM menunjukkan hasil luar biasa. Pada tes Sudoku tingkat ekstrem dan pemecahan labirin yang sulit, model CoT terbaik mendapat nilai akurasi 0%. Sebaliknya, HRM mencapai akurasi hampir sempurna setelah dilatih dengan hanya 1.000 contoh untuk setiap tugas.

Pada tolok ukur ARC-AGI, sebuah tes penalaran abstrak dan generalisasi, HRM dengan 27 juta parameter mencapai skor 40,3%. Ini melampaui model berbasis CoT yang jauh lebih besar seperti o3-mini-high (34,5%) dan Claude 3.7 Sonnet (21,2%). Kinerja ini dicapai tanpa corpus pra-pelatihan besar dan dengan data yang sangat terbatas.

Dampak Potensial untuk Industri

Guan Wang, Pendiri dan CEO Sapient Intelligence, menjelaskan bahwa pengembang sebaiknya tetap menggunakan LLM untuk tugas berbasis bahasa atau kreatif, tetapi untuk "tugas kompleks atau deterministik", arsitektur seperti HRM menawarkan kinerja superior dengan lebih sedikit halusinasi. Ini sangat cocok untuk "masalah berurutan yang memerlukan pengambilan keputusan kompleks atau perencanaan jangka panjang", terutama di bidang yang sensitif terhadap latensi seperti AI yang menyatu dengan robot.

Untuk perusahaan, efisiensi arsitektur ini berdampak langsung pada penghematan biaya. Alih-alih pembuatan token demi token seperti pada CoT, pemrosesan paralel HRM memungkinkan "percepatan 100 kali lipat dalam waktu penyelesaian tugas," menurut Wang. Ini berarti latensi inferensi yang lebih rendah dan kemampuan untuk menjalankan penalaran yang kuat pada perangkat edge.

Penghematan biaya juga sangat besar. Wang mencatat bahwa pelatihan model untuk Sudoku tingkat profesional membutuhkan sekitar dua jam GPU, dan untuk tolok ukur ARC-AGI yang kompleks, antara 50 hingga 200 jam GPU, sebagian kecil dari sumber daya yang dibutuhkan untuk model foundation yang besar.

(Burung Hantu Infratek / Berbagai Sumber)


Berita ini 100% diriset, ditulis dan dikembangkan oleh AI internal Burhan Infratek. Bisa jadi terdapat kesalahan pada data aktual.