DiffusionGemma Google menghasilkan 256 token secara paralel dan melakukan koreksi sendiri seiring berjalannya waktu

Generator gambar GenAI seperti Stable Diffusion tidak menggambar piksel demi piksel dari kiri ke kanan. Mereka memulai dengan noise dan secara berulang menyempurnakan seluruh gambar secara paralel hingga menyatu, dalam proses yang dikenal sebagai difusi. Selama bertahun-tahun, penerapan prinsip yang sama pada pembuatan teks masih berada di luar jangkauan skala besar. Model bahasa standar bekerja seperti mesin tik: satu token pada satu waktu, dari kiri ke kanan, tanpa kemampuan untuk merevisi keluaran yang ditentukan. Pola tersebut berfungsi di cloud, di mana ukuran batch menjaga GPU tetap jenuh. Untuk inferensi lokal atau penerapan konkurensi rendah, GPU hampir selalu menganggur. DiffusionGemma Google, yang dirilis minggu ini, adalah model eksperimental sumber terbuka yang menerapkan difusi pada pembuatan teks pada skala produksi. Dibangun di atas tulang punggung Gemma 4 dan dirilis di bawah lisensi Apache 2.0, ini adalah model bahasa difusi pertama yang didukung secara asli di platform inferensi vLLM sumber terbuka. Ini menghasilkan blok 256 token secara paralel, bukan secara berurutan, dengan setiap posisi token saling memperhatikan satu sama lain. Google mengatakan DiffusionGemma menghasilkan teks hingga 4x lebih cepat dibandingkan model standar pada GPU. Pada ukuran batch 1 pada satu Nvidia H100, versi FP8 mencapai 1,008 token per detik. Pada H200, angkanya mencapai 1.288 — kira-kira enam kali lipat dari garis dasar autoregresif standar, menurut hasil benchmark vLLM yang diterbitkan hari ini. Meskipun ada peningkatan kecepatan, Google tidak menjual terlalu banyak pada rilis tersebut. Pos peluncuran perusahaan mengakui secara langsung bahwa kualitas keluaran DiffusionGemma secara keseluruhan lebih rendah daripada standar Gemma 4, menambahkan “Untuk aplikasi yang menuntut kualitas maksimum, kami merekomendasikan penerapan Gemma 4 standar.” Apa yang dilakukan DiffusionGemma DiffusionGemma tidak menghasilkan token secara berurutan. Ini dimulai dengan blok yang terdiri dari 256 token placeholder acak, yang secara efektif merupakan kanvas kosong, dan menjalankan beberapa proses penyempurnaan di seluruh blok sekaligus. Pada setiap lintasan, ia mengevaluasi setiap posisi dan mengunci posisi yang paling ia yakini. Posisi yang tidak pasti diacak dan dipertimbangkan kembali pada lintasan berikutnya, dengan model menggunakan apa yang diselesaikan pada putaran sebelumnya untuk menginformasikan upaya berikutnya. Blok tersebut menyatu secara progresif hingga cukup posisi stabil untuk menjangkar sisanya. Ada dua hal yang mengikuti arsitektur itu. Koreksi mandiri. Model autoregresif yang melakukan komitmen pada token yang salah akan terjebak di dalamnya, karena token berikutnya sudah dikondisikan pada kesalahan tersebut. DiffusionGemma dapat mengidentifikasi posisi dengan tingkat kepercayaan rendah dan mengevaluasinya kembali pada lintasan berikutnya. Konteks dua arah. Setiap posisi melayani setiap posisi lain di blok secara bersamaan, termasuk token yang muncul kemudian dalam urutan tersebut. Hal ini membuat model ini secara struktural lebih cocok untuk tugas-tugas pembangkitan terbatas ketika pembangkitan dari kiri ke kanan gagal. Google mendemonstrasikan kedua properti tersebut dengan pemecah Sudoku yang telah disempurnakan. Model dasar tidak memecahkan teka-teki apa pun. Setelah menyempurnakan kumpulan data Sudoku, tingkat keberhasilannya mencapai 80% dan menyatu dalam 12 langkah denoising, bukan 48 langkah. Peningkatan efisiensi datang langsung dari kemampuan model untuk mengoreksi sendiri dan berhenti lebih awal. Cara pembuatannya DiffusionGemma berjalan sebagai model Campuran Pakar 26B yang hanya mengaktifkan parameter 3,8B selama inferensi. Jika dihitung, cocok dengan VRAM 18 GB pada perangkat keras konsumen termasuk Nvidia RTX 4090 dan 5090. Google dan NVIDIA juga mengoptimalkan server Hopper dan Blackwell perusahaan yang menggunakan kernel NVFP4. Integrasi vLLM memerlukan perbaikan baru karena DiffusionGemma tidak sesuai dengan model penyajian standar. Batch vLLM tipikal menerapkan jenis perhatian yang sama untuk setiap permintaan. Permintaan DiffusionGemma bergantian antara perhatian kausal dan dua arah saat mereka berputar melalui pembacaan cepat, penyempurnaan kanvas, dan penerapan blok. Tim membuat peralihan perhatian per permintaan ke backend Triton dan FlashAttention 4 dan menggunakan kembali jalur decoding spekulatif yang ada untuk loop penyempurnaan. Antarmuka ModelState baru yang dibuat tim untuk integrasi ini dirancang untuk mendukung model difusi tambahan di vLLM saat model tersebut muncul. Jika kecepatan menang dan tidak, keunggulan kecepatan DiffusionGemma adalah nyata tetapi bersyarat. Penerapannya bergantung sepenuhnya pada konteks penerapan. Angka-angkanya. Pada ukuran batch 1 pada satu H100, tolok ukur yang dipublikasikan vLLM menempatkan model FP8 kira-kira lima kali lipat dari garis dasar autoregresif standar. Pada H200, kira-kira enam kali. Angka puncak tersebut mencerminkan kondisi optimal: pengguna tunggal, perangkat keras khusus, kuantisasi FP8. Di mana ia menang. Inferensi lokal, aplikasi pengguna tunggal, dan penyajian konkurensi rendah. Dalam kondisi seperti itu, GPU memiliki komputasi cadangan dan bandwidth memori menjadi penghambatnya. Pembuatan blok paralel DiffusionGemma mengisi kesenjangan itu, sedangkan yang tidak. Pelayanan cloud dengan throughput tinggi. Saat server mengumpulkan ratusan permintaan secara bersamaan, model autoregresif sudah memenuhi komputasi yang tersedia dan decoding paralel DiffusionGemma memberikan hasil yang semakin berkurang. Batasan kualitas. Guilherme O’Tina, seorang peneliti AI, menekankan hal ini pada X. “Artefak lokal vs halusinasi adalah masalah yang berbeda dan menentukan di mana hal ini benar-benar unggul,” tulis O’Tina. Bagaimana perbandingannya Model bahasa difusi bukanlah hal baru. Para peneliti telah membangunnya dalam skala yang lebih kecil selama beberapa tahun, dan Mercury Coder dari Inception Labs menerapkan pendekatan ini secara komersial untuk tugas-tugas pengkodean pada tahun 2025. Apa yang ditambahkan DiffusionGemma adalah skala — tulang punggung 26B MoE, penyajian vLLM asli, dan model yang disesuaikan dengan instruksi untuk tujuan umum, bukan model khusus domain. Perbandingan yang lebih berguna bagi para insinyur yang mengevaluasi hal ini terhadap alat inferensi yang ada adalah penguraian kode spekulatif, dan perbedaannya penting. Penguraian kode spekulatif mempertahankan model target autoregresif standar dan menggunakan model draf yang lebih kecil untuk menebak beberapa token ke depan. Model target memverifikasinya dalam satu kali proses. Jika pengambilan sampel benar, distribusi keluaran tetap sama dengan target. Arsitekturnya tidak berubah.Andrew Kuncevich, seorang peneliti ML dan AI yang berfokus pada sistem AI produksi, menaruhnya langsung di X. “DiffusionGemma berbeda. Ia tidak hanya menebak token masa depan. Ini menciptakan kanvas 256 token yang berisik dan berulang kali menolak seluruh blok secara paralel. Jadi ini bukan hanya trik decoding — ini adalah paradigma generasi yang berbeda,” tulis Kuncevich. Dibandingkan dengan Gemma 4 standar, pertukarannya adalah kecepatan demi kualitas. Data benchmark Google menunjukkan DiffusionGemma di bawah standar Gemma 4 pada metrik kualitas keluaran umum, dengan kesenjangan yang bervariasi berdasarkan tugas. Pada tugas dengan batasan terstruktur, termasuk pengisian kode, pembuatan templat, dan masalah yang memerlukan propagasi batasan dua arah, arsitektur memiliki keunggulan struktural sehingga penyesuaian dapat muncul, seperti yang ditunjukkan oleh hasil Sudoku. Pada generasi open-ended, Gemma 4 standar tetap menjadi pilihan yang lebih kuat. Artinya bagi perusahaan. DiffusionGemma melayani melalui titik akhir standar yang kompatibel dengan vLLM OpenAI tanpa memerlukan perubahan jalur pipa khusus difusi. Ini bukan peningkatan model untuk tujuan umum. Untuk tim yang menjalankan inferensi lokal atau konkurensi rendah, pilihan arsitekturnya semakin luas. Hingga saat ini, memotong latensi generasi pada perangkat keras GPU khusus berarti menggunakan model yang lebih kecil dan menerima pengorbanan kualitas. DiffusionGemma menawarkan jalur ketiga dengan jejak parameter yang sama, pada perangkat keras konsumen, dengan dukungan vLLM pada hari yang sama. Untuk beban kerja generasi terbatas, perhatian dua arah layak untuk dievaluasi. Pengisian kode, pembuatan data terstruktur, dan tugas-tugas dengan keluaran yang benar bergantung pada konteks yang belum dihasilkan adalah keunggulan arsitektur ini. Antarmuka ModelState yang dibuat untuk integrasi ini dirancang untuk menggeneralisasi seiring dengan munculnya model difusi tambahan. Pertukaran kualitas adalah hal yang nyata dan Google mengakuinya. Untuk tim yang menjalankan inferensi lokal pada perangkat keras GPU khusus, hal ini layak untuk diuji.
Diterbitkan : 2026-06-11 15:16:00
sumber : venturebeat.com



