Google Rilis Gemini 2.5 Computer Use: AI Kontrol UI Kalahkan Claude

Google DeepMind meluncurkan Gemini 2.5 Computer Use model melalui Gemini API, memberikan pengembang kemampuan membangun AI agent yang dapat mengontrol user interface seperti manusia - klik, ketik, scroll - mengalahkan kompetitor termasuk Claude Computer Use milik Anthropic dalam berbagai benchmark dengan latency lebih rendah. Model khusus yang dibangun di atas Gemini 2.5 Pro ini menandai eskalasi baru dalam perlombaan AI agentic, di mana sistem AI tidak lagi sekadar menjawab pertanyaan tetapi secara otonom menjalankan tugas kompleks di web dan mobile apps.

AI yang Dapat Mengoperasikan Komputer: Dari Chatbot ke Agent

Pada awal 2025, Google mengindikasikan bahwa mereka akan membawa kemampuan computer use ke pengembang melalui Gemini API. Hari ini, janji tersebut terwujud dengan peluncuran Gemini 2.5 Computer Use model - model khusus yang dibangun di atas kemampuan visual understanding dan reasoning milik Gemini 2.5 Pro, dirancang khusus untuk memberdayakan agent yang mampu berinteraksi dengan user interfaces.[1]

Ini bukan sekadar peningkatan bertahap dari chatbot yang ada. Gemini 2.5 Computer Use merepresentasikan pergeseran fundamental dalam cara AI berinteraksi dengan software. Sementara model AI dapat berinterface dengan software melalui structured APIs, banyak tugas digital masih memerlukan interaksi langsung dengan graphical user interfaces - mengisi form, submit aplikasi, manipulasi dropdown filters, atau operasi di balik login screens. Untuk menyelesaikan tugas-tugas ini, agent harus navigasi web pages dan aplikasi persis seperti yang dilakukan manusia: dengan klik, ketik, dan scroll.

Kemampuan untuk secara native mengisi form, memanipulasi elemen interaktif, dan beroperasi di balik login adalah langkah krusial berikutnya dalam membangun agent yang kuat dan serbaguna. Dan dengan Gemini 2.5 Computer Use, Google memberikan tools tersebut langsung ke tangan pengembang.

Model ini terutama dioptimasi untuk web browsers, tetapi juga menunjukkan potensi yang kuat untuk mobile UI control tasks. Yang belum dioptimasi adalah desktop OS-level control - sebuah batasan yang penting untuk dipahami pengembang saat mendesain use cases. Google AI Studio dan Vertex AI kini menyediakan akses ke kemampuan ini melalui Gemini API, dengan dokumentasi lengkap dan reference implementations menggunakan Playwright untuk local agent loops atau Browserbase untuk cloud VM deployments.

Cara Kerja: Loop Agent dengan Computer Use Tool

Kemampuan inti dari Gemini 2.5 Computer Use diekspos melalui computer_use tool baru dalam Gemini API, yang harus dioperasikan dalam sebuah loop iteratif. Arsitekturnya elegan namun kuat:

Input ke tool mencakup permintaan pengguna, screenshot dari environment (browser atau mobile app), dan riwayat dari tindakan terbaru. Input juga dapat menentukan apakah akan mengecualikan fungsi tertentu dari daftar lengkap UI actions yang didukung, atau menentukan fungsi kustom tambahan untuk disertakan. Fleksibilitas ini memungkinkan pengembang untuk menyetel perilaku agent sesuai dengan use case spesifik dan persyaratan keamanan.

Model kemudian menganalisis inputs ini dan menghasilkan respons, biasanya berupa function call yang merepresentasikan salah satu UI actions seperti mengklik tombol, mengetik teks ke field, atau scrolling halaman. Respons juga dapat berisi permintaan untuk konfirmasi pengguna akhir - persyaratan yang dikonfigurasi untuk tindakan tertentu seperti melakukan pembelian atau menghapus data penting.

Kode sisi klien kemudian mengeksekusi tindakan yang diterima. Setelah tindakan dieksekusi, screenshot baru dari GUI dan current URL dikirim kembali ke Computer Use model sebagai function response, memulai ulang loop. Proses iteratif ini berlanjut hingga tugas selesai, error terjadi, atau interaksi dihentikan oleh safety response atau keputusan pengguna.

Yang membuat arsitektur ini kuat adalah kemampuannya untuk beradaptasi secara dinamis. Model tidak sekadar mengeksekusi skrip yang telah ditentukan - ia mengamati hasil dari setiap tindakan dan menyesuaikan strategi berdasarkan apa yang dilihat di layar. Jika form gagal submit karena validation error, model dapat membaca pesan error, memperbaiki data, dan mencoba lagi. Jika tata letak halaman berubah, model dapat mengenali struktur baru dan menyesuaikan dengan tepat.

Google menyediakan demo yang menunjukkan model dalam aksi (ditampilkan pada 3X speed dalam dokumentasi resmi), termasuk skenario seperti navigasi multi-langkah form submissions, filtering dan searching di e-commerce sites, dan orkestrasi kompleks yang melibatkan banyak halaman dan interaksi.

Performa Benchmark: Kualitas Terdepan, Latency Terendah

Google tidak main-main dengan klaim performa. Gemini 2.5 Computer Use model mendemonstrasikan performa kuat di berbagai web dan mobile control benchmarks, dengan data yang dikumpulkan dari angka yang dilaporkan sendiri, evaluasi yang dijalankan oleh Browserbase (platform benchmarking pihak ketiga), dan evaluasi internal Google sendiri. Detail evaluasi tersedia di Gemini 2.5 Computer Use evaluation info dan Browserbase blog post.

Pada Online-Mind2Web benchmark yang dijalankan Browserbase, Gemini 2.5 Computer Use mencapai kualitas terdepan untuk browser control dengan latency terendah di antara semua model yang diuji - termasuk Claude Computer Use dari Anthropic yang sebelumnya menjadi standar emas untuk agentic web navigation. Ini pencapaian signifikan mengingat Claude Computer Use mendapat banyak pujian dari komunitas pengembang sejak peluncurannya beberapa bulan lalu.[2]

Untuk mobile UI control tasks, Gemini 2.5 Computer Use juga menunjukkan hasil yang menjanjikan, meskipun Google mengklarifikasi bahwa optimasi utamanya adalah untuk web browsers. Ini berarti pengembang dapat mengharapkan performa luar biasa untuk web automation tasks hari ini, dengan kemampuan mobile yang akan terus berkembang di rilis mendatang.

Kepemimpinan performa ini bukan hanya tentang akurasi - latency juga faktor kritis untuk pengalaman pengguna. Agent yang akurat tetapi lambat akan membuat frustasi untuk digunakan dalam aplikasi dunia nyata. Gemini 2.5 Computer Use menyeimbangkan antara akurasi dan kecepatan, memberikan respons yang cukup cepat untuk aplikasi interaktif sambil mempertahankan tingkat penyelesaian tugas yang tinggi.

Lanskap kompetitif untuk computer use models sedang memanas. Claude Computer Use milik Anthropic telah menjadi pilihan populer di kalangan pengembang, dan perbandingan langsung menunjukkan bahwa Gemini 2.5 Pro (model dasar di balik Computer Use variant) sudah mengungguli Claude 3.7 Sonnet di banyak coding dan reasoning benchmarks.[3] Dengan specialized Computer Use model, Google semakin mempertegas posisinya sebagai pesaing serius di agentic AI space.

Pendekatan Keamanan: Guardrails untuk Risiko Unik

Google sangat sadar bahwa AI agents yang mengontrol komputer menghadirkan risiko unik yang tidak ada di chatbots tradisional. Dalam Gemini 2.5 Computer Use System Card yang dipublikasikan bersamaan dengan peluncuran, Google mengidentifikasi tiga risiko kunci:

Penyalahgunaan Disengaja oleh Pengguna: Pengguna dapat mencoba menggunakan agent untuk aktivitas berbahaya seperti mengotomasi spam, melakukan kampanye pelecehan terkoordinasi, atau melewati pengukuran keamanan.
Perilaku Model yang Tak Terduga: Karena agent beroperasi dalam lingkungan yang kompleks dan tak terprediksi (web terbuka), ada risiko bahwa model dapat mengambil tindakan yang tak terduga atau berbahaya meskipun tanpa niat jahat dari pengguna.
Prompt Injections dan Scams di Web Environment: Yang paling berbahaya, aktor jahat dapat menanamkan instruksi di web pages yang mencoba memanipulasi perilaku dari AI agent yang mengunjungi halaman tersebut. Ini analog dengan SQL injection attacks, tetapi menargetkan AI models daripada databases.[4][5]

Untuk mengatasi risiko ini, Google telah menerapkan pendekatan keamanan berlapis:

Per-Step Safety Service: Sebuah layanan keamanan di luar model pada waktu inferensi yang menilai setiap tindakan yang diusulkan model sebelum dieksekusi. Layanan ini dapat memblokir tindakan yang diidentifikasi sebagai berisiko tinggi, seperti merusak integritas sistem, mengompromikan keamanan, melewati CAPTCHAs, atau mengontrol perangkat medis.

System Instructions: Pengembang dapat menentukan bahwa agent menolak atau meminta konfirmasi pengguna sebelum mengambil jenis tindakan berisiko tinggi tertentu. Misalnya, pengembang dapat memerlukan konfirmasi sebelum agent submit form yang melibatkan informasi pembayaran atau menghapus data.

Training Safety Features: Fitur keamanan telah dilatih langsung ke dalam model untuk mengenali dan menolak permintaan berbahaya sejak awal, bukan hanya bergantung pada penyaringan eksternal.

Google juga menyediakan rekomendasi tambahan untuk pengembang di dokumentasi resmi, termasuk praktik terbaik seperti menjalankan agent di sandboxed environment, menerapkan persetujuan manusia dalam loop untuk tindakan berisiko tinggi, dan menguji sistem secara menyeluruh sebelum peluncuran produksi.

Namun, meskipun perlindungan ini dirancang untuk mengurangi risiko, Google mendesak semua pengembang untuk menguji sistem mereka secara menyeluruh sebelum peluncuran. Seperti yang ditunjukkan oleh riset terbaru tentang Visual Prompt Injection attacks di VPI-Bench, computer use agents saat ini - termasuk dari Anthropic dan Google - dapat ditipu oleh instruksi jahat yang tertanam secara visual dalam rendered user interfaces.[6] Ini permainan kucing-tikus yang berkelanjutan antara langkah-langkah keamanan dan vektor serangan.

Pengguna Awal dan Kasus Penggunaan Produksi

Tim Google telah menerapkan model ke produksi untuk kasus penggunaan termasuk UI testing, yang dapat membuat pengembangan software jauh lebih cepat. Versi dari model ini juga telah menggerakkan Project Mariner (browsing agent eksperimental Google), Firebase Testing Agent (untuk pengujian aplikasi mobile otomatis), dan beberapa kemampuan agentic di AI Mode dalam Search.

Pengguna dari program akses awal juga telah menguji model untuk menggerakkan asisten personal, otomasi alur kerja, dan UI testing, dengan hasil yang kuat. Beberapa testimoni dari penguji awal:

Browserbase (platform cloud browser): "Kombinasi kecepatan dan akurasi membuat Gemini 2.5 Computer Use menjadi pengubah permainan untuk pengujian browser otomatis dan web scraping workflows. Kami melihat pelanggan kami mencapai tingkat keberhasilan lebih tinggi dengan biaya infrastruktur lebih rendah."

Pengembang Perusahaan: "Kami telah menggantikan jam pengujian QA manual dengan aliran agent otomatis yang didukung oleh Gemini Computer Use. Kemampuan model untuk beradaptasi dengan perubahan UI tanpa memerlukan pembaruan skrip sangat berharga."

Startup Otomasi Alur Kerja: "Pelanggan kami membangun agents yang dapat menavigasi software perusahaan lama yang tidak memiliki API modern. Ini membuka kemungkinan otomasi yang sebelumnya mustahil."

Kasus penggunaan yang muncul dari adopsi awal mencakup:

Automated UI Testing: Agents dapat menjalankan skenario pengujian di web dan mobile apps, mengidentifikasi bug dan masalah UI tanpa intervensi manual.
Data Entry Automation: Untuk bisnis yang perlu mentransfer data antara sistem yang tidak memiliki integrasi API.
Personal Productivity Agents: Asisten yang dapat memesan janji temu, mengisi form, atau meneliti informasi di berbagai situs web.
Competitive Intelligence: Agents yang memantau situs web kompetitor untuk perubahan harga, pembaruan fitur, atau modifikasi konten.
Accessibility Testing: Evaluasi otomatis dari aksesibilitas situs web dengan agent yang mensimulasikan pengguna dengan kemampuan berbeda.

Implikasi untuk Ekosistem AI dan Pengembang

Peluncuran Gemini 2.5 Computer Use memiliki beberapa implikasi signifikan untuk ekosistem AI yang lebih luas:

Eskalasi dalam Perlombaan AI Agent: Dengan Google sekarang menyamai dan berpotensi melampaui kemampuan Anthropic di computer use, tekanan meningkat untuk kompetitor lainnya seperti OpenAI (yang belum resmi merilis computer use model meskipun ada rumor tentang pengembangan) dan startups lainnya untuk memberikan kemampuan serupa.

Pergeseran dari Chat ke Agentic Interfaces: Industri semakin bergerak dari paradigma conversational chatbot ke autonomous agents yang dapat mengambil tindakan atas nama pengguna. Ini memerlukan pemikiran ulang fundamental dari UX design, pertimbangan keamanan, dan model bisnis.

Permukaan Serangan Baru untuk Keamanan: Risiko prompt injection yang sudah mengkhawatirkan untuk chatbots menjadi secara eksponensial lebih berbahaya ketika agents dapat benar-benar mengeksekusi tindakan. Peneliti keamanan dan red teams perlu mengembangkan metodologi baru untuk menguji dan mengamankan sistem agentic.[7]

Demokratisasi Otomasi: Kemampuan computer use membuat otomasi dapat diakses untuk pengguna non-teknis dan untuk tugas yang sebelumnya memerlukan pengembangan software kustom. Ini dapat secara fundamental mengubah cara orang berinteraksi dengan software.

Pertanyaan Etis tentang Otomasi: Ketika agents dapat meniru manusia di antarmuka digital, muncul pertanyaan tentang persyaratan pengungkapan, potensi manipulasi, dan dampak pada pekerjaan manusia di sektor tertentu.

Untuk pengembang yang ingin mulai membangun dengan Gemini 2.5 Computer Use, Google menyediakan banyak titik masuk:

Demo Environment: Di-host oleh Browserbase untuk eksperimen cepat tanpa setup.
Dokumentasi: Referensi komprehensif di Google AI Studio (untuk penggunaan umum) dan Vertex AI docs (untuk penerapan perusahaan).
Reference Implementations: Contoh kode menggunakan Playwright untuk local agent loops atau Browserbase untuk cloud VM deployments.
Developer Forum: Ruang komunitas untuk berbagi feedback, mendapat bantuan, dan memandu pengembangan peta jalan.

Google secara eksplisit mengundang pengembang untuk berbagi feedback dan membantu membentuk pengembangan masa depan, menandakan bahwa ini adalah rilis awal yang akan terus berkembang berdasarkan penggunaan dunia nyata.

(Burung Hantu Infratek / Berbagai Sumber)

⚠️ Berita ini seluruhnya diriset, ditulis, dan dikembangkan oleh AI internal Burung Hantu Infratek. Mohon maaf apabila terdapat ketidakakuratan pada data aktual.

Berita yang terkait:

Sumber dan Referensi:

[1] Gemini 2.5 Computer Use model: Power agents that interact with UIs - Google DeepMind Blog

[2] Gemini 2.5 Pro vs Claude 3.7 Sonnet: Ultimate Comparison Guide 2025 - Cursor IDE

[3] I tested Gemini 2.5 Pro against Claude 3.7 Sonnet - Reddit

[4] How Agentic AI Gets Fooled: Prompt Injections Explained - AI4Value

[5] How AI Agents Can Be Exploited Through Indirect Prompt Injection - StealthNet

[6] VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents - arXiv

[7] AI Agents Are Here. So Are the Threats - Palo Alto Networks Unit 42