DeepMind Bikin AI yang Bisa 'Lihat' Seperti Manusia

DeepMind Bikin AI yang Bisa 'Lihat' Seperti Manusia

Google DeepMind mempublikasikan penelitian terobosan di jurnal Nature pada 11 November 2025 yang menganalisis perbedaan mendasar cara sistem AI dan manusia mengorganisasi dunia visual. Dengan metode alignment baru yang memanfaatkan dataset THINGS berisi jutaan human judgements, para peneliti berhasil mengatur ulang representasi visual model AI agar lebih selaras dengan hierarki pengetahuan konseptual manusia. Model yang telah diselaraskan ini tidak hanya lebih akurat dalam memprediksi perilaku manusia, tetapi juga menunjukkan peningkatan signifikan dalam keandalan dan kemampuan generalisasi pada berbagai tugas AI standar, membuka jalan menuju sistem AI yang lebih intuitif dan dapat dipercaya.


Perbedaan Fundamental dalam Persepsi Visual AI dan Manusia

Sistem AI visual ada di mana-mana dalam kehidupan modern. Kita menggunakannya untuk menyortir foto, mengidentifikasi bunga yang tidak dikenal, dan mengemudikan mobil. Namun sistem yang powerful ini tidak selalu melihat dunia seperti yang kita lakukan, dan mereka kadang berperilaku dengan cara yang mengejutkan. Sebagai contoh, sistem AI yang dapat mengidentifikasi ratusan produsen dan model mobil mungkin masih gagal menangkap kesamaan antara mobil dan pesawat, yaitu bahwa keduanya adalah kendaraan besar yang terutama terbuat dari logam.

Untuk lebih memahami perbedaan ini, Google DeepMind mempublikasikan paper baru di Nature yang menganalisis cara penting sistem AI mengorganisasi dunia visual secara berbeda dari manusia. Mereka mempresentasikan metode untuk menyelaraskan sistem ini dengan pengetahuan manusia dengan lebih baik, dan menunjukkan bahwa mengatasi perbedaan ini meningkatkan keandalan dan kemampuan mereka untuk generalisasi. Pekerjaan ini merupakan langkah menuju membangun sistem AI yang lebih intuitif dan dapat dipercaya.

Ketika seseorang melihat kucing, otak menciptakan representasi mental yang menangkap segala sesuatu tentang kucing, dari konsep dasar seperti warna dan kebuluannya hingga konsep tingkat tinggi seperti sifat kucingnya. Model AI vision juga menghasilkan representasi, dengan memetakan gambar ke titik dalam ruang berdimensi tinggi di mana item serupa seperti dua domba ditempatkan berdekatan, dan yang berbeda seperti domba dan kue ditempatkan berjauhan. Untuk memahami perbedaan dalam cara representasi manusia dan model diorganisasi, para peneliti menggunakan tugas klasik odd-one-out dari cognitive science, meminta manusia dan model untuk memilih mana dari tiga gambar yang diberikan yang tidak cocok dengan yang lain. Tes ini mengungkapkan dua item mana yang mereka lihat sebagai paling mirip.

Metode Alignment Tiga Langkah untuk Model AI

Para peneliti cognitive science telah mengumpulkan dataset THINGS yang berisi jutaan human odd-one-out judgements, yang bisa digunakan untuk membantu menyelesaikan masalah visual alignment. Sayangnya, dataset ini hanya menggunakan beberapa ribu gambar, tidak cukup informasi untuk langsung melakukan fine-tune model vision yang powerful, yang akan segera overfit pada set gambar kecil ini dan melupakan banyak skill sebelumnya. Untuk mengatasi ini, Google DeepMind mengusulkan metode tiga langkah.

Pertama, mereka memulai dengan model vision pretrained yang powerful, SigLIP-SO400M, dan dengan hati-hati melatih adapter kecil di atasnya, menggunakan dataset THINGS. Dengan membekukan main model dan carefully regularizing adapter training, mereka menciptakan teacher model yang tidak melupakan training sebelumnya. Kedua, teacher model ini kemudian bertindak sebagai pengganti untuk human-like judgements, yang mereka gunakan untuk menghasilkan dataset baru yang masif, disebut AligNet, berisi jutaan keputusan odd-one-out seperti manusia menggunakan sejuta gambar berbeda, jauh lebih banyak daripada yang bisa mereka kumpulkan dari orang sungguhan. Ketiga, mereka menggunakan dataset baru ini untuk fine-tune model AI lain, yang disebut students. Karena keragaman dataset mereka, overfitting bukan lagi masalah dan students dapat dilatih sepenuhnya dan dapat lebih dalam merestrukturisasi internal maps mereka.

Seperti ditunjukkan dalam diagram mereka, representasi student berubah dari kekacauan tidak terstruktur menjadi organisasi yang jelas terstruktur di mana high-level concepts seperti hewan berwarna biru dan food items berwarna hijau dipisahkan dari jenis objek lain. Pengetahuan manusia diorganisasi menurut tingkat kesamaan yang berbeda. Ketika mereka menyelaraskan model dengan pengetahuan manusia, representasi model berubah menurut tingkat kesamaan ini. Reorganisasi ini mengikuti struktur hierarkis pengetahuan manusia yang dikenal dari cognitive science. Selama alignment, mereka melihat bahwa representasi bergerak menjauh atau bersama dalam proporsi dengan conceptual distance mereka dalam hierarki kategori manusia. Misalnya, dua anjing, kategori subordinate yang sama, akan bergerak lebih dekat bersama, sementara burung hantu dan truk, kategori superordinate yang berbeda, akan bergerak lebih jauh.

Hasil dan Implikasi untuk Pengembangan AI

Para peneliti menguji aligned models mereka pada banyak tugas cognitive science termasuk tugas seperti multi-arrangement, mengatur banyak gambar berdasarkan kesamaannya, dan dataset odd-one-out baru yang disebut Levels yang mereka kumpulkan. Dalam setiap kasus, aligned models mereka menunjukkan peningkatan dramatis dalam human alignment, lebih sering setuju dengan human judgements di berbagai tugas visual. Model mereka bahkan belajar bentuk ketidakpastian seperti manusia. Dalam pengujian, model-decision-uncertainty sangat berkorelasi dengan berapa lama waktu yang dibutuhkan manusia untuk membuat pilihan, ukuran proksi umum untuk ketidakpastian.

Mereka juga menemukan bahwa membuat model lebih human-aligned juga membuat mereka menjadi model vision yang lebih baik secara keseluruhan. Aligned models mereka berkinerja jauh lebih baik pada berbagai tugas menantang, seperti belajar kategori baru dari single image yang disebut few-shot learning, atau membuat keputusan yang dapat diandalkan, bahkan ketika jenis gambar yang diuji berubah, yang disebut distribution shift. Banyak existing vision models gagal menangkap struktur tingkat tinggi dari pengetahuan manusia. Penelitian ini mempresentasikan metode yang mungkin untuk mengatasi masalah ini, dan menunjukkan bahwa model dapat diselaraskan lebih baik dengan human judgements dan berkinerja lebih dapat diandalkan pada berbagai tugas AI standar. Sementara lebih banyak pekerjaan alignment masih perlu dilakukan, pekerjaan mereka mengilustrasikan langkah menuju sistem AI yang lebih robust dan dapat diandalkan.

(Burung Hantu Infratek / Berbagai Sumber)


⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan oleh AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.


Berita Terkait Google AI Research

🤖 Google Dark Launch Gemini 3 Pro Preview: Model AI 1 Triliun Parameter dengan Context Window 1 Juta Token

🔥 Nano Banana 2 Bocor: Google Guncang Industri dengan AI Image Generator Multi-Step

Google NotebookLM Chat Makin Cerdas: Context Window 8x Lipat, Memory 6x Lebih Panjang

💡 Google Photos Ekspansi AI Search ke 100 Negara


Sumber dan Referensi

[1] Teaching AI to see the world more like we do

[2] Aligning machine and human visual representations across abstraction levels

[3] Google DeepMind Researchers Propose Human-Centric Alignment for Vision Models to Boost AI Generalization and Interpretation

[4] High-level visual representations in the human brain are aligned with large language models

[5] Subtle adversarial image manipulations influence both human and machine perception