Gemini Omni Flash dari Google hadir di API, mengubah produksi video perusahaan menjadi percakapan


Bagi sebagian besar perusahaan, video pelatihan berdurasi 90 detik atau penjelasan produk bukanlah hal yang mudah. Ini berarti ringkasan yang terencana dengan baik, kru film internal atau vendor luar, pengambilan gambar, pengeditan, dan serangkaian revisi. Ubah satu baris teks di layar karena tinjauan hukum dan seluruh rantai berjalan kembali. Persamaan itulah yang ingin ditulis ulang oleh Google dengan Gemini Omni Flash, model pertama dalam keluarga baru “Omni”, yang kini diluncurkan kepada pengembang dan pelanggan perusahaan melalui API setelah debut kepada konsumen di I/O 2026. Google membingkai ambisi keluarga ini sebagai menciptakan apa pun “dari masukan apa pun”, dimulai dengan video. Namun interaksi judul bukan sekadar perintah teks-ke-video yang lebih tajam. Ini adalah kemampuan untuk mengedit klip yang sudah selesai melalui percakapan. Ketika model ini diluncurkan pada bulan Mei, analisis perusahaan VentureBeat menandai adanya masalah: tanpa antarmuka terprogram, Omni adalah alat konsumen dan prosumer, bukan alat produksi. Peluncuran API ini mengubah hal tersebut. Hal ini menempatkan pengeditan percakapan di depan tim pemasaran dan pembelajaran dan pengembangan yang menghasilkan video terbanyak dalam sebuah organisasi. Pitch: lima alat yang digabungkan menjadi satu percakapan Hingga saat ini, banyak tim yang telah menyusun video AI dengan susah payah, menggabungkan LLM untuk sebuah skrip, model teks-ke-gambar, model gambar-ke-video, alat sinkronisasi bibir terpisah, dan generator suara, yang masing-masing memiliki kontrak, penagihan, dan jalur datanya sendiri. Argumen perusahaan Omni adalah penyatuan: satu model yang mengambil teks, gambar dan video dan mengembalikan klip jadi dengan audio yang disinkronkan. Faktor kesederhanaan adalah bagian yang harus dipertimbangkan terlebih dahulu oleh para pengambil keputusan. Menggabungkan beberapa alat titik menjadi satu model berarti lebih sedikit vendor dan satu tempat untuk memantau keluaran dan menegakkan aturan penanganan data. Bagi organisasi yang menghindari video generatif karena menggabungkan alat-alatnya tidak sepadan dengan biaya yang dikeluarkan, persamaannya pun berubah. Dengan pengeditan percakapan, setiap instruksi dibuat dari yang terakhir, sehingga pemasar dapat menghidupkan kembali hasil jepretan produk, membingkai ulang, atau mengganti lemari pakaian tanpa membuat ulang dari awal dan kehilangan bagian-bagian yang sudah berfungsi. Inilah perbedaan antara memesan pemotretan ulang dan mengirim catatan. Referensi multimodal dan mesin fisika untuk aset merekOmni menerima lebih dari sekadar perintah teks. Di samping kata-kata yang menggambarkan apa yang Anda inginkan, Anda dapat memberinya beberapa gambar referensi, dan klip video yang ada, dan hal tersebut membawa hal-hal spesifik tersebut ke dalam hasilnya. Berikan foto objek tertentu, minta model untuk menempatkan objek tersebut ke dalam sebuah adegan, dan model tersebut akan mereproduksi warna dan bentuk kasar objek aslinya alih-alih menciptakan stand-in yang umum. Meskipun kecocokannya mungkin tidak sempurna pikselnya, namun cukup dekat untuk dapat dikenali. Kontrol berdasarkan referensi itulah yang membuat fitur ini menarik secara komersial: foto produk, logo merek, atau lokasi tertentu dapat dimasukkan sebagai bahan, bukan dijelaskan dalam perintah dan diharapkan. Dua dari empat kekuatan Google yang disorot berhubungan langsung dengan pekerjaan perusahaan. Yang pertama adalah model dunia, yaitu pemahaman sistem tentang bagaimana adegan fisik berperilaku. Tambahkan sedikit hujan dan genangan air ke dalam gambar yang sudah ada dan itu akan menghasilkan pantulan orang dan objek di trotoar basah, semacam konsistensi fisik yang memisahkan rekaman nyata dari video AI yang jelas. Yang kedua adalah penyisipan teks dan logo. Arahkan ke pemandangan yang penuh dengan tanda dan Anda dapat meminta tanda tersebut ditulis ulang dalam bahasa lain, atau untuk merek pilihan Anda, dan bahkan masukkan logo perusahaan. Hasilnya bukannya tanpa cela: dalam pengujian, pelacakan tanda dalam adegan kompleks tidak selalu sempurna dan beberapa teks kembali ke bahasa aslinya di antara bingkai. Untuk video pelatihan yang memerlukan label di layar, atau iklan yang memerlukan logo ditempatkan di dalam adegan, ini adalah kemampuan yang patut dicermati, dan sebagai pengingat bahwa keluarannya masih memerlukan peninjauan manusia sebelum dikirimkan. API interaksi dan batasannya masih berlaku. Di balik terpal, ini berjalan pada API interaksi baru Google, antarmuka berstatus yang dibuat untuk tugas multi-putaran, bukan obrolan terbuka. Setiap giliran membawa video sebelumnya dan referensinya ke depan, yang memungkinkan pengeditan terakumulasi secara koheren. Pengembang dapat merangkai generasi. Mereka dapat membuat klip, mengedit kucing menjadi anak kucing puma, mengubah gaya video menjadi retro 8-bit dan kemudian menjadi tampilan cat air, dan menyimpan setiap versi untuk dicabangkan nanti. Kendala yang ada adalah nyata dan layak untuk dianggarkan. Klip saat ini dibatasi pada 10 detik, sesuai dengan kartu model yang diterbitkan oleh model tersebut. Untuk membuat sesuatu lebih panjang, Anda membuat potongan dan mengeditnya bersama-sama. Rekaman yang diunggah juga dapat diedit, selama durasinya 10 detik atau kurang dan pengguna memegang hak atasnya. Kartu model Google sendiri menyatakan dengan jujur ​​bahwa menjaga konsistensi dalam pengeditan dan rendering teks yang akurat tetap menjadi masalah yang terbuka. Pagar pembatas, tanda air, dan garis yang tidak akan dilintasi Google Bagi CISO, demo tidak terlalu penting dibandingkan asal pekerjaan yang dikirimkan bersama model. Setiap klip Omni membawa tanda air SynthID Google, Google memperluas Kredensial Konten C2PA di seluruh alat generatifnya, dan telah meluncurkan API Deteksi Konten AI yang menandai media yang dihasilkan AI, baik milik Google maupun vendor lainnya. Google juga telah menarik garis yang disengaja. Model tersebut tidak akan mengambil foto diam seseorang ditambah klip audio dan menyinkronkan bibir mereka ke dalam ucapan, sebuah langkah eksplisit untuk membatasi deepfake. Namun, sistem ini akan mengambil rekaman percakapan seseorang dan menerjemahkannya ke dalam bahasa lain, yang merupakan jalur yang berguna untuk melokalisasi konten pelatihan global. Bagi perusahaan-perusahaan yang teregulasi, kendala-kendala tersebut dan asal usulnya lebih merupakan sebuah fitur, bukan sebuah hambatan. Transformasi VB · 14-15 Juli · Menlo Park · Infrastruktur Inferensi & AI GM mendapat lonjakan 300% dalam PR gabungan dengan merancang ulang agen. Inilah yang mereka bangun. Jalur infrastruktur di Transform mencakup pembuatan video real-time, tumpukan pemikiran mesin-ke-mesin, dan apa yang sebenarnya diperlukan untuk menjalankan agen pada skala perusahaan. Lihat agenda selengkapnya → Angka-angka: murah, hanya 720p, dan (sebelumnya) berada di peringkat pertama. Penetapan harga tersebut sejalan dengan API, dan ini agresif. Omni Flash berharga $0,10 per detik untuk video 720p yang dihasilkan, yang berarti klip sepuluh detik berharga sekitar satu dolar. Cocok dengan Veo 3.1 Fast pada resolusi yang sama, menjalankan Veo 3.1 Lite ganda, dan memotong Veo 3.1 standar sebanyak tiga perempatnya. Per detik (USD)Gemini Omni FlashVeo 3.1 LiteVeo 3.1 FastVeo 3.1720p$0.10$0.05$0.10$0.401080pn/a$0.08$0.12$0.404Kn/an/a$0.30$0.60 Tabel ini juga memperlihatkan tangkapannya. Omni Flash hanya menghasilkan 720p. Tidak ada opsi 1080p atau 4K, sedangkan tingkat Veo ditingkatkan hingga 4K. Untuk pelatihan internal dan sebagian besar video sosial, 720p sudah cukup. Untuk pekerjaan merek premium yang dimaksudkan untuk layar besar, itu adalah batas tertinggi, dan alasan Veo 3.1 masih memiliki jobClips yang berjalan 3 hingga 10 detik pada resolusi asli 720p, dalam lanskap (16:9) atau potret (9:16). Sebagai input referensi, model menerima hingga tujuh gambar dan hingga tiga klip video berdurasi tiga detik atau kurang. Ia belum mengambil audio sebagai input, meskipun menghasilkan audio bersamaan dengan video yang dihasilkannya. Outputnya adalah MP4 standar, dan setiap klip dilengkapi dengan watermark SynthID dan kredensial C2PA. Dari segi kualitas, sinyal awalnya kuat. Di Text-to-Video Arena LMArena, sebuah papan peringkat di mana orang-orang memberikan suara untuk keluaran head-to-head dari model-model yang bersaing, Omni Flash duduk di nomor satu dengan skor 1527. Apa artinya bagi anggaran, dan apa yang masih belum ada Dengan adanya harga sebenarnya, kisah iterasi menjadi nyata. Setiap pengeditan percakapan adalah generasi baru yang Anda bayar, jadi sesi pengeditan yang berat tetap bertambah, kira-kira satu dolar untuk setiap sepuluh detik berlalu pada 720p. Yang diubah oleh model stateful bukanlah biaya pengeditannya, melainkan jumlah pengeditan yang sia-sia: karena konteksnya terus berubah, generasi-generasi tersebut berupaya menyempurnakan pengambilan gambar yang sebagian besar berhasil, alih-alih memulai ulang dari prompt kosong dan berharap percobaan berikutnya berhasil. Omni tidak sendirian dalam bidang ini. Veo 3.1 tetap menjadi pilihan tingkat produksi Google ketika Anda membutuhkan resolusi yang lebih tinggi, dan pesaing dari Bytedance, Alibaba, dan OpenAI semuanya mengejar anggaran yang sama. Apa yang ditambahkan Omni adalah kemampuan pengeditan itu sendiri: kemampuan untuk memperlakukan video sebagai dokumen hidup, bukan hanya render satu kali.


Diterbitkan : 2026-06-30 16:19:00

sumber : venturebeat.com