DeepMind Luncurkan Genie 3, Langkah Besar Menuju Kecerdasan Artifisial Umum

DeepMind Luncurkan Genie 3, Langkah Besar Menuju Kecerdasan Artifisial Umum

Google DeepMind baru saja mengungkap model dunia terbaru mereka, Genie 3, yang diklaim sebagai batu loncatan penting menuju Kecerdasan Artifisial Umum (AGI). Model ini mampu menciptakan lingkungan 3D interaktif hanya dengan perintah teks sederhana.

Genie 3 menjadi model dunia tujuan umum interaktif waktu nyata pertama yang dapat menghasilkan dunia foto-realistis maupun imajiner. Model ini memiliki kemampuan menakjubkan untuk mempertahankan konsistensi fisika selama beberapa menit, jauh melampaui pendahulunya.

Para peneliti DeepMind meyakini bahwa model dunia seperti Genie 3 adalah kunci untuk mencapai AGI, terutama untuk agen yang berinteraksi dengan lingkungan fisik, di mana simulasi skenario dunia nyata sangat menantang.

Genie 3: Revolusi dalam Simulasi Dunia Virtual

Genie 3 merupakan perkembangan signifikan dari pendahulunya, Genie 2, serta model generasi video terbaru DeepMind, Veo 3. Dengan kemampuan menghasilkan lingkungan interaktif 3D pada resolusi 720p dengan kecepatan 24 frame per detik, model ini jauh mengungguli Genie 2 yang hanya mampu menghasilkan simulasi 10-20 detik.

Shlomi Fruchter, direktur penelitian di DeepMind, menjelaskan bahwa Genie 3 melampaui model dunia sempit yang ada sebelumnya. Model ini tidak terbatas pada lingkungan tertentu dan dapat menghasilkan dunia foto-realistis maupun imajiner, serta segala sesuatu di antaranya.

Fitur unggulan Genie 3 adalah "peristiwa dunia yang dapat diprompt", yaitu kemampuan untuk mengubah dunia yang dihasilkan melalui prompt. Lebih menakjubkan lagi, simulasi Genie 3 tetap konsisten secara fisik seiring waktu karena model dapat mengingat apa yang sebelumnya dihasilkan - kemampuan yang tidak secara eksplisit diprogram oleh para peneliti.

Fruchter mengatakan kepada TechCrunch bahwa model ini bersifat auto-regresif, yang berarti menghasilkan satu frame pada satu waktu. Model ini harus melihat kembali apa yang dihasilkan sebelumnya untuk memutuskan apa yang akan terjadi selanjutnya, yang merupakan bagian kunci dari arsitekturnya.

Kemampuan memori ini memberikan konsistensi dalam dunia simulasi Genie 3, yang pada gilirannya memungkinkannya mengembangkan pemahaman tentang fisika. Misalnya, model ini dapat memahami bahwa gelas yang goyah di tepi meja akan jatuh, atau seseorang harus menunduk untuk menghindari benda jatuh - mirip dengan pemahaman manusia tentang dunia fisik.

Aplikasi Praktis dan Implikasi untuk AGI

Meskipun Genie 3 masih dalam tahap penelitian dan belum tersedia untuk umum, DeepMind telah menguji model dengan versi terbaru agen SIMA (Scalable Instructable Multiworld Agent). Dalam pengujian di lingkungan gudang, agen SIMA berhasil melakukan tugas seperti "mendekati kompaktor sampah hijau terang" atau "berjalan ke forklift merah yang dikemas".

Jack Parker-Holder, ilmuwan peneliti di tim open-endedness DeepMind, menekankan bahwa agen SIMA dapat mencapai tujuan karena Genie 3 tetap konsisten. Agen menerima tujuan, melihat dunia yang disimulasikan di sekitarnya, dan kemudian mengambil tindakan di dunia tersebut.

Fruchter menyebutkan bahwa selain implikasi untuk pengalaman pendidikan, gaming, atau pembuatan prototipe konsep kreatif, keunggulan sebenarnya dari Genie 3 akan terwujud dalam pelatihan agen untuk tugas-tugas tujuan umum, yang menurutnya penting untuk mencapai AGI.

DeepMind mengklaim model ini tidak bergantung pada mesin fisika yang dikodekan secara manual. Sebaliknya, model ini mengajarkan dirinya sendiri bagaimana dunia bekerja - bagaimana objek bergerak, jatuh, dan berinteraksi - dengan mengingat apa yang telah dihasilkan dan bernalar selama jangka waktu yang panjang.

Model ini juga berpotensi mendorong agen AI hingga batas kemampuannya - memaksa mereka belajar dari pengalaman mereka sendiri, mirip dengan cara manusia belajar di dunia nyata.

Tantangan dan Visi Masa Depan

Meskipun menjanjikan, Genie 3 masih memiliki keterbatasan. Meskipun peneliti mengklaim model ini dapat memahami fisika, demo yang menunjukkan pemain ski meluncur menuruni gunung tidak sepenuhnya mencerminkan bagaimana salju bergerak dalam kaitannya dengan pemain ski.

Selain itu, model ini hanya dapat mendukung beberapa menit interaksi berkelanjutan, padahal pelatihan yang tepat membutuhkan waktu berjam-jam. Rentang tindakan yang dapat dilakukan agen juga terbatas, dan masih sulit untuk memodelkan interaksi kompleks antara beberapa agen independen dalam lingkungan bersama.

Namun, Parker-Holder tetap optimis, mengatakan bahwa Genie 3 berpotensi mengawali era baru dalam AI. Ia merujuk pada momen legendaris "Move 37" dalam pertandingan Go 2016 antara AlphaGo dan juara dunia Lee Sedol, di mana AlphaGo memainkan langkah yang tidak konvensional namun brilian. Parker-Holder berpendapat bahwa kita belum benar-benar memiliki momen semacam itu untuk agen-agen yang berinteraksi dengan dunia fisik, tetapi Genie 3 mungkin mengubah hal tersebut.

(Burung Hantu Infratek / Berbagai Sumber)


Berita ini 100% diriset, ditulis dan dikembangkan oleh AI internal Burung Hantu Infratek. Bisa jadi terdapat kesalahan pada data aktual.