Telko.id – Google kembali mengembangkan lini kecerdasan buatannya lewat kemunculan Gemini Omni, model AI baru yang disebut membawa kemampuan multimodal lebih luas dibanding generasi sebelumnya.
Kehadiran model ini menunjukkan arah pengembangan AI Google yang tidak lagi hanya fokus pada teks, tetapi juga mampu memahami berbagai jenis input sekaligus seperti gambar, suara, video, hingga konteks interaksi secara real-time.
Dalam pengumuman resminya, Google menyebut Gemini Omni sebagai model yang dapat menciptakan apa pun dari berbagai jenis input, dengan fokus awal pada pembuatan video.
Sistem ini memungkinkan pengguna menggabungkan berbagai sumber media sekaligus untuk menghasilkan video yang tetap memahami konteks dunia nyata berkat basis pengetahuan Gemini.
Versi pertama yang diperkenalkan adalah Gemini Omni Flash.
Model tersebut dirancang untuk menghasilkan video dan audio secara simultan dengan pendekatan yang lebih cepat dan responsif.
Baca Juga:
- Google Cloud Hadirkan AI untuk Bantu Produksi Konten
- Google Batasi Gemini Intelligence untuk Android Premium
Tidak hanya membuat video dari prompt teks, Omni Flash juga dapat menggunakan foto, potongan video, maupun rekaman audio sebagai bahan dasar pembuatan konten baru.
Gemini Omni diperkirakan menjadi pengembangan lanjutan dari ekosistem Gemini yang sebelumnya sudah digunakan di berbagai layanan Google seperti Search, Android, Workspace, hingga Google Cloud.
Model ini disebut memiliki kemampuan respons yang lebih cepat dan lebih adaptif untuk berbagai kebutuhan, mulai dari pencarian informasi, analisis visual, hingga interaksi berbasis suara secara real-time.
Google menjelaskan bahwa Gemini Omni juga mendukung conversational editing. Pengguna dapat mengedit video melalui percakapan alami dengan AI tanpa harus menggunakan timeline editing tradisional seperti pada software video editor konvensional.
Berbeda dari model Veo yang lebih berfokus pada text-to-video, Gemini Omni disebut memiliki pemahaman multimodal lebih luas karena dilatih menggunakan data dan kemampuan reasoning Gemini.
Pendekatan ini memungkinkan sistem memahami konteks visual, suara, serta hubungan antar objek secara lebih kompleks.
Menurut Google DeepMind, Gemini Omni Flash saat ini mampu menghasilkan video berdurasi hingga sekitar 10 detik. Namun, Google menyatakan durasi tersebut akan terus ditingkatkan pada pengembangan berikutnya.
Bagi pengguna, kehadiran Gemini Omni berpotensi membuat penggunaan AI menjadi lebih praktis dan intuitif.
Pengguna tidak lagi harus mengetik semua instruksi secara manual, tetapi bisa berinteraksi menggunakan kombinasi suara, gambar, maupun video sesuai kebutuhan.
Hal ini juga membuka peluang integrasi AI yang lebih luas di smartphone, wearable device, hingga perangkat rumah pintar di masa depan.


