DiffusionGemma Google menghadirkan pembuatan teks 4x lebih cepat menggunakan decoding paralel

Google telah meluncurkan DiffusionGemma, model AI eksperimental baru yang menghasilkan teks menggunakan difusi, bukan pendekatan autoregresif yang digunakan oleh sebagian besar model bahasa besar saat ini. Perusahaan mengatakan model tersebut dapat menghasilkan pembuatan teks hingga empat kali lebih cepat pada GPU khusus saat dijalankan pada perangkat keras konsumen. Model ini dibangun berdasarkan penelitian keluarga Gemma 4 Google dan Difusi Gemini. Tidak seperti model bahasa tradisional yang menghasilkan teks satu per satu dari kiri ke kanan, DiffusionGemma membuat dan menyempurnakan blok teks secara paralel. Menurut Google, pendekatan ini memungkinkan kecepatan keluaran melebihi 1,000 token per detik pada GPU NVIDIA H100 dan lebih dari 700 token per detik pada NVIDIA GeForce RTX 5090. Perusahaan tersebut mengatakan DiffusionGemma ditujukan untuk pengembang yang mengerjakan aplikasi yang sensitif terhadap kecepatan seperti pengeditan interaktif, iterasi konten yang cepat, pengisian kode, dan alur kerja lain di mana latensi rendah lebih penting daripada kualitas keluaran maksimum. Mengatasi hambatan teks Sebagian besar model bahasa besar menghasilkan teks secara berurutan, memprediksi satu demi satu token. Meskipun efektif, proses ini dapat membuat perangkat keras lokal kurang dimanfaatkan saat melayani satu pengguna. DiffusionGemma mengambil pendekatan yang berbeda. Alih-alih menghasilkan teks kata demi kata, ini membuat blok 256 token sekaligus dan kemudian berulang kali menyempurnakannya melalui beberapa lintasan. Google membandingkan perbedaannya dengan berpindah dari mesin tik ke mesin cetak. Daripada menunggu setiap token dibuat sebelum memproduksi token berikutnya, model ini memproses seluruh bagian teks secara bersamaan. Perusahaan mengatakan hal ini mengalihkan hambatan dari bandwidth memori ke kinerja komputasi, memungkinkan GPU modern beroperasi lebih efisien selama inferensi lokal. Fitur penting lainnya adalah perhatian dua arah. Karena model menghasilkan teks secara paralel, setiap token dapat menangani setiap token lainnya selama pembuatan. Hal ini membuatnya lebih cocok untuk tugas-tugas yang memerlukan konteks masa depan, seperti penyelesaian kode, pengeditan sebaris, struktur matematika, dan urutan biologis. Google menyoroti demonstrasi di mana DiffusionGemma disempurnakan untuk memecahkan teka-teki Sudoku, sebuah tugas yang dapat menjadi tantangan bagi model autoregresif konvensional karena token selanjutnya memengaruhi keputusan sebelumnya. Dirancang untuk AI lokal Model ini menggunakan arsitektur gabungan pakar dengan 26 miliar parameter, namun hanya mengaktifkan 3,8 miliar parameter selama inferensi. Menurut Google, hal ini memungkinkan model untuk memuat VRAM sekitar 18 GB saat dikuantisasi, sehingga dapat diakses pada GPU konsumen kelas atas. DiffusionGemma juga menyertakan mekanisme koreksi diri berulang. Karena mengevaluasi seluruh blok teks selama penyempurnaan, ia dapat mengidentifikasi dan memperbaiki kesalahan seiring kemajuan pembuatan. Namun, Google mengakui bahwa model tersebut lebih mengutamakan kecepatan daripada kualitas. Perusahaan mengatakan model Gemma 4 standar tetap menjadi pilihan utama untuk lingkungan produksi di mana kualitas keluaran menjadi perhatian utama. Keunggulan kecepatan juga paling terlihat pada penerapan lokal dan lingkungan dengan konkurensi rendah. Dalam pengaturan cloud yang melayani sejumlah besar pengguna secara bersamaan, model autoregresif konvensional sering kali dapat memanfaatkan perangkat keras secara efisien melalui batching, sehingga mengurangi manfaat pembangkitan berbasis difusi. Google telah merilis DiffusionGemma di bawah lisensi Apache 2.0 melalui Hugging Face dan mendukung penerapan melalui alat termasuk MLX, vLLM, Hugging Face Transformers, NVIDIA NeMo, dan Unsloth.


Diterbitkan : 2026-06-10 23:53:00

sumber : interestingengineering.com