Google Rilis Gemini 2.5 Flash Image, Revolusi Kemampuan Visual AI

Google baru saja merilis Gemini 2.5 Flash Image, model AI pembuat dan pengedit gambar terbaru yang mampu memahami konteks visual dengan kemampuan multi-modal yang belum pernah ada sebelumnya.

Google kembali mengguncang dunia kecerdasan buatan dengan meluncurkan Gemini 2.5 Flash Image, model AI pencipta gambar terbaru mereka. Kemampuannya yang revolusioner memungkinkan pengguna menggabungkan beberapa gambar menjadi satu, menjaga konsistensi karakter, dan melakukan pengeditan berbasis prompt yang presisi.

Berbeda dari model-model sebelumnya, Gemini 2.5 Flash Image dapat menganalisis gambar yang sudah ada dan melakukan modifikasi berdasarkan instruksi percakapan sederhana. Kemampuan ini menandai lompatan besar dalam teknologi AI visual yang semakin memudahkan pengguna tanpa keahlian desain khusus.

Dengan harga $30 per juta token (sekitar Rp0,039 per gambar), teknologi ini sudah tersedia melalui Gemini API dan Google AI Studio untuk para pengembang, serta Vertex AI untuk perusahaan. Peluncuran ini semakin memperketat persaingan di arena AI generatif, di mana OpenAI, Adobe, dan Midjourney juga tengah mengembangkan kemampuan serupa.

Konsistensi Karakter dan Fusi Multi-Gambar

Salah satu terobosan utama Gemini 2.5 Flash Image adalah kemampuannya mempertahankan tampilan karakter atau objek di berbagai prompt dan skenario pengeditan. Fitur ini memungkinkan pengguna menghadirkan karakter yang sama ke dalam berbagai lingkungan yang berbeda tanpa kehilangan ciri khas visualnya.

Google juga telah membuat aplikasi template di AI Studio mereka untuk mendemonstrasikan kemampuan model dalam menjaga konsistensi karakter. Para pengembang kini dapat mengeksplorasi area seperti pembuatan kartu real estat, badge karyawan seragam, atau mockup produk dinamis dari satu template desain.

Kemampuan fusi multi-gambar juga menjadi fitur unggulan, di mana model dapat memahami dan menggabungkan beberapa gambar input sekaligus. Pengguna dapat memasukkan objek ke dalam sebuah adegan, menata ulang ruangan dengan skema warna atau tekstur baru, serta menggabungkan beberapa gambar hanya dengan satu prompt sederhana.

Untuk menunjukkan kemampuan ini, Google menyediakan aplikasi template yang memungkinkan pengguna menarik produk ke dalam adegan baru untuk menciptakan gambar gabungan fotorealistik dengan cepat dan mudah.

Aspek penting lainnya adalah model ini memanfaatkan basis pengetahuan model bahasa besar Google, sehingga dapat mengintegrasikan pemahaman dunia nyata ke dalam tugas-tugas visual yang kompleks.

Pengeditan Berbasis Prompt dan Keamanan

Gemini 2.5 Flash Image memungkinkan transformasi tertarget dan pengeditan lokal yang akurat hanya dengan menggunakan bahasa natural. Pengguna dapat melakukan berbagai pengeditan kompleks seperti mengaburkan latar belakang, menghilangkan noda pada pakaian, menghapus seseorang dari foto, atau bahkan mengubah pose subjek hanya dengan memberikan perintah sederhana.

Google telah membuat aplikasi template pengeditan foto di AI Studio dengan kontrol berbasis UI dan prompt untuk mendemonstrasikan kemampuan ini. Pendekatan ini sangat memudahkan bahkan bagi pengguna yang tidak memiliki pengalaman pengeditan foto sebelumnya.

Aspek keamanan juga menjadi perhatian utama dalam pengembangan model ini. Google telah mengimplementasikan langkah-langkah pengaman, termasuk penyaringan konten otomatis dan watermarking digital wajib melalui teknologi SynthID mereka. Penanda air ini dirancang untuk mengatasi kekhawatiran yang berkembang tentang identifikasi konten buatan AI seiring dengan semakin maraknya media sintetis.

Persaingan AI Generatif Semakin Ketat

Peluncuran Gemini 2.5 Flash Image memperkuat posisi Google dalam kompetisi teknologi AI generatif. Para analis industri memandang pembuatan gambar sebagai medan pertempuran utama bagi perusahaan-perusahaan AI yang berusaha memperluas jangkauan mereka di luar aplikasi berbasis teks.

OpenRouter.ai telah bermitra dengan Google untuk membantu menghadirkan model ini kepada lebih dari 3 juta pengembangnya. Ini menjadi model pertama di OpenRouter, dari lebih dari 480 model yang tersedia saat ini, yang dapat menghasilkan gambar dengan kemampuan multi-modal.

(Burung Hantu Infratek / Berbagai Sumber)

Berita ini 100% diriset, ditulis dan dikembangkan oleh AI internal Burung Hantu Infratek. Bisa jadi terdapat kesalahan pada data aktual.