Gemini App Akhirnya Dukung File Audio

Google meluncurkan tiga update besar untuk produk berbasis Gemini dalam satu hari yang menggemparkan dunia AI. App Gemini kini bisa memproses file audio, Search mendukung lima bahasa baru, dan NotebookLM menciptakan laporan dalam berbagai format. Fitur audio menjadi request nomor satu yang akhirnya terwujud setelah penantian panjang pengguna.

Terobosan Audio Processing di Ekosistem Gemini

Google mengumumkan tiga update major untuk produk bertenaga Gemini pada hari Senin yang menandai evolusi signifikan dalam kemampuan AI mereka. Update paling ditunggu adalah dukungan file audio di app Gemini, yang menurut Josh Woodward, vice president Google Labs dan Gemini, merupakan "request nomor satu" dari pengguna aplikasi. Fitur ini memungkinkan pengguna untuk mengupload dan memproses berbagai jenis file audio langsung melalui aplikasi Gemini, membuka pintu untuk use cases baru yang sebelumnya tidak mungkin dilakukan.

Sistem pembatasan yang diterapkan Google cukup fair dengan memberikan akses berbeda berdasarkan tier subscription. Free Gemini users dibatasi maksimal 10 menit audio dan lima prompt gratis setiap hari, sementara AI Pro atau AI Ultra users dapat mengupload audio hingga tiga jam durasi. Semua prompt Gemini mengakomodasi hingga 10 files dalam berbagai format, termasuk dalam ZIP files, memberikan fleksibilitas maksimal bagi pengguna yang ingin memproses multiple audio files sekaligus.

Integrasi audio processing ini bukan sekadar penambahan fitur biasa, melainkan representasi dari kemajuan fundamental dalam multimodal AI capabilities. Kemampuan Gemini untuk memproses tidak hanya teks dan gambar, tetapi juga audio, menunjukkan bahwa Google serius mengembangkan truly universal AI assistant yang dapat berinteraksi dengan semua jenis media. Hal ini membuka peluang besar untuk aplikasi seperti transcription, audio analysis, podcast summarization, dan bahkan music understanding.

Update audio processing ini juga menunjukkan commitment Google untuk mendengarkan feedback pengguna dan mengimplementasikannya dengan cepat. Fakta bahwa ini adalah request nomor satu menunjukkan betapa besarnya demand untuk multimodal AI capabilities di kalangan pengguna. Google berhasil mengeksekusi fitur yang paling diinginkan pengguna, yang bisa menjadi competitive advantage signifikan melawan pesaing seperti ChatGPT dan Claude.

Timing peluncuran fitur ini juga sangat strategis, mengingat meningkatnya penggunaan content audio seperti podcast, audiobook, dan voice notes dalam kehidupan sehari-hari. Dengan kemampuan memproses audio, Gemini kini dapat menjadi tool yang lebih comprehensive untuk content creators, researchers, dan professionals yang bekerja dengan media audio secara regular.

Ekspansi Global dan Diversifikasi Format Output

Google Search's AI Mode telah menambahkan dukungan untuk lima bahasa baru: Hindi, Indonesia, Jepang, Korea, dan Brazilian Portuguese, berkat integrasi Gemini 2.5 dengan Search. Ekspansi ini memungkinkan lebih banyak orang menggunakan AI Mode untuk mengajukan pertanyaan kompleks dalam bahasa pilihan mereka sambil menjelajahi web lebih dalam. Langkah ini menunjukkan komitmen Google untuk democratizing AI access secara global, tidak hanya fokus pada English-speaking markets.

NotebookLM software yang ditenagai Gemini juga mendapat update dalam bentuk report styles baru dalam lebih dari 80 bahasa berdasarkan dokumen, files, dan media lain yang diupload pengguna. Format laporan standar meliputi study guides, briefing docs, dan blog posts, dengan tambahan flashcards dan quizzes dalam update terbaru. Users dapat memilih format yang dibuat sendiri dan menyesuaikan struktur, tone, dan style laporan sesuai kebutuhan mereka.

Fitur-fitur baru ini menunjukkan bagaimana Google mengambil pendekatan holistik dalam mengembangkan AI ecosystem mereka. Alih-alih hanya fokus pada satu produk, mereka mengintegrasikan improvement across multiple touchpoints dalam user journey. Dari search experience yang lebih natural, hingga content creation tools yang lebih sophisticated, Google mencoba menciptakan seamless AI-powered workflow untuk berbagai use cases.

Momentum Ekspansif Fitur AI Google

Google telah berada dalam spree yang menakjubkan untuk fitur-fitur terkait AI dalam sebulan terakhir. Gemini mulai secara otomatis mengingat detail dan preferensi pengguna dari percakapan masa lalu pada bulan Agustus, bulan yang sama ketika free users mendapat akses ke software video generation Vids dari Workspace. Pada bulan September, Photos upgrade ke software video generation terbaru Veo 3 dan memberikan free users kemampuan untuk membuat video silent 4-detik dari foto still pribadi mereka.

Akselerasi pengembangan fitur ini menunjukkan bahwa Google sedang dalam mode aggressive expansion untuk AI capabilities mereka. Strategi ini kemungkinan didorong oleh kompetisi ketat dengan OpenAI, Anthropic, dan player AI lainnya yang terus meluncurkan fitur-fitur innovative. Google tidak ingin tertinggal dalam AI race dan berusaha mempertahankan posisi mereka sebagai leader dalam AI innovation.

(Burung Hantu Infratek / Berbagai Sumber)

Berita ini 100% diriset, ditulis dan dikembangkan oleh AI internal Burung Hantu Infratek. Bisa jadi terdapat kesalahan pada data aktual.