Saya mencoba DiffusionGemma baru dari Google, dan melihatnya menghasilkan teks seperti gambar tidak seperti LLM lokal mana pun
Kebanyakan LLM lokal sekarang merasa mudah ditebak. Anda mengunduh model, mengarahkan runtime ke model tersebut, mengajukan pertanyaan, lalu melihat teks bergerak melintasi layar satu per satu. Modelnya mungkin lebih baik atau lebih buruk daripada yang Anda gunakan kemarin, namun pengalaman dasarnya biasanya sama. DiffusionGemma berbeda, setidaknya ketika Anda menjalankannya dalam mode visualnya. Model Gemma eksperimental baru Google tidak hanya mengetikkan jawabannya dari kiri ke kanan. Sebaliknya, ini bekerja pada satu blok teks sekaligus, secara bertahap mengganti dan menyempurnakan token hingga jawabannya ditetapkan. Efeknya mirip dengan menonton generator gambar menghilangkan kebisingan gambar, yang merupakan proses “difusi”. Ini adalah pengalaman yang sangat berbeda dibandingkan dengan LLM biasa yang menghasilkan token demi token. Saya mencobanya di M4 Pro MacBook Pro menggunakan GGUF 4-bit melalui garpu llama.cpp khusus yang dirinci oleh Unsloth. Bagi saya, hal ini tidak terasa lebih cepat dibandingkan menjalankan model reguler Google Gemma 4 26B-A4B, dan hal ini juga memberikan dampak buruk pada Mac saya dengan cara yang tidak biasanya dilakukan oleh LLM, sehingga menyebabkan perlambatan seluruh sistem. Tetap saja, ini adalah pengalaman yang aneh, tetapi juga menarik secara unik mengingat betapa berbedanya dibandingkan dengan model bahasa autoregresif pada umumnya. DiffusionGemma mengubah tampilan pembuatan teks Mode visual menunjukkan dengan tepat apa yang terjadi DiffusionGemma terasa aneh karena keluarannya tidak seperti teks biasa. Dengan mengaktifkan mode visual, Anda dapat melihat kanvas 256 token ditulis ulang saat model bekerja, dengan teks yang tampak seperti placeholder muncul terlebih dahulu sebelum bagiannya berubah dan jawabannya secara bertahap menjadi lebih koheren. Ini bukan hanya rangkaian kata yang muncul di akhir kata sebelumnya, dan itu saja membuatnya terasa seperti kategori model lokal yang berbeda. Kedengarannya menarik perhatian, dan dalam arti tertentu memang demikian. Anda tidak perlu melihat generasi terjadi agar model dapat berguna, dan banyak antarmuka LLM lokal lebih baik karena menyembunyikan bagian yang berantakan. Namun dalam kasus ini, visualisasi mampu menjelaskan dengan baik apa yang membuat DiffusionGemma berbeda. Anda dapat membaca tentang difusi teks sebanyak yang Anda inginkan, tetapi melihat teks berulang kali berubah tempat membuat konsepnya lebih mudah dipahami. Model autoregresif normal harus berkomitmen pada token berikutnya, lalu token berikutnya, lalu token berikutnya. Ia dapat merencanakan dalam arti yang longgar, dan model yang baik jelas melakukannya, tetapi token yang ditulisnya sekarang tidak dapat secara langsung mengkondisikan token yang tepat, ia akan menulis 50 token nanti karena token tersebut belum ada. DiffusionGemma malah bekerja pada satu blok, dengan perhatian dua arah di dalam kanvas itu. Ia dapat menggunakan bagian selanjutnya dari blok untuk menyempurnakan bagian sebelumnya, itulah sebabnya keluarannya terlihat seperti menjadi fokus dan bukannya diketik. Itulah manfaat konseptual model bahasa berbasis difusi, bahkan sebelum mencapai kecepatannya. Kanvas 256 token memberi model ruang konsep sementara di mana awal dan akhir blok dapat saling mempengaruhi sebelum blok diterapkan. Konsep itulah yang menyebabkan difusi sangat menarik untuk hal-hal seperti pengeditan sebaris, pengisian kode, teks terstruktur, dan kasus lain di mana jawaban terbaik tidak selalu paling mudah untuk dihasilkan dari kiri ke kanan. Itu juga mengapa DiffusionGemma terasa sangat berbeda dibandingkan model lokal yang biasa digunakan orang. Kita semua terbiasa melihat Qwen, Gemma, Llama, atau apa pun mengalirkan teks sedemikian rupa sehingga membuat modelnya terasa seperti sedang menulis. DiffusionGemma dalam mode visual terasa lebih seperti sedang mengedit draf di depan Anda, kecuali Anda dapat melihat setiap keadaan peralihan yang aneh dalam perjalanan ke sana. Klaim kecepatan Google memerlukan konteks Terutama jika Anda menjalankannya di Mac Kredit: Google Penawaran Google untuk DiffusionGemma adalah kecepatan. Dalam postingan peluncurannya, Google mengatakan bahwa model tersebut dapat menghasilkan pembuatan teks hingga 4x lebih cepat pada GPU khusus, dengan 1.000+ token per detik pada satu Nvidia H100 dan 700+ token per detik pada RTX 5090. Ia juga mengatakan bahwa model terkuantisasi dapat memuat VRAM sebesar 18 GB pada GPU konsumen kelas atas. Pengoperasian M4 Pro saya tidak terlihat seperti itu. Saya tidak mendapatkan pembacaan token per detik yang normal, tetapi footer yang saya ambil melaporkan total 137,9 detik, 123 langkah denoising, dan 9 blok, yang berarti 1,121 detik per langkah. Karena setiap blok adalah kanvas dengan 256 token, itu juga menghasilkan 2.304 posisi kanvas dalam 123 langkah, atau sekitar 18,7 posisi token per langkah denoising. Angka itulah yang saya yakin banyak orang lewatkan. Google telah berbicara tentang denoising paralel dan menghasilkan 15 hingga 20 token per forward pass, jadi angka utama seperti 700 token per detik tidak boleh dibaca dengan cara yang sama seperti 700 token autoregresif dari kiri ke kanan yang muncul dengan jelas di layar. Saya tidak berpikir Google hanya menghitung tebakan yang dibuang sebagai keluaran akhir, tetapi DiffusionGemma mencapai keluarannya secara berbeda: ia menyempurnakan banyak posisi token di dalam kanvas sebelum melakukan pemblokiran. Kecepatannya mungkin nyata, tetapi pengalamannya tidak sama dengan menonton model normal mengalirkan 700 token akhir setiap detik. Perangkat keras juga penting. Mac saya melambat di seluruh sistem saat sedang berjalan, dan tidak terasa lebih cepat daripada menjalankan Gemma 4 26B-A4B reguler Google secara lokal. Google memperingatkan bahwa Apple Silicon Mac mungkin tidak mengalami akselerasi yang sama karena sistem memori terpadu sering kali terikat pada bandwidth memori selama inferensi, sementara kecepatan DiffusionGemma bergantung pada pemberian beban kerja komputasi yang lebih besar kepada akselerator khusus. Itu tidak membuat klaim kecepatan salah, itu hanya berarti bagian menarik dari lari saya tidak akan pernah berupa hasil mentah. Bagian yang menarik adalah melihat model tersebut menggunakan proses pembuatan yang terlihat berbeda, dan melihat seberapa besar hal tersebut mengubah perasaan berinteraksi dengan LLM lokal. Menjalankannya secara lokal masih awal dan agak canggung Ini belum merupakan dukungan llama.cpp yang normal. Rute yang saya gunakan untuk menjalankannya adalah jalur GGUF Unsloth, yang bergantung pada cabang DiffusionGemma dari permintaan tarik llama.cpp yang terbuka. Instruksi Unsloth membuat runner llama-diffusion-cli khusus, karena jalur llama-cli atau llama-server standar belum dapat dihasilkan dari model. Anda dapat melihat seperti apa generasinya dalam video di atas. Perbedaan itu penting jika Anda terbiasa dengan Ollama atau llama.cpp sebagai default LLM lokal yang mudah. Ini bukan jenis model yang Anda gunakan dengan santai ke dalam pengaturan yang sudah ada dan perlakukan seperti GGUF lainnya. Dibutuhkan cabang yang tepat, runner yang tepat, dan bendera –diffusion-visual jika Anda menginginkan bagian yang membuatnya menarik secara visual. Perintah untuk menjalankannya dengan keluaran visual, setelah dikompilasi, adalah: ./llama-diffusion-cli -m ./diffusiongemma-26B-A4B-it-Q4_K_M.gguf -ngl 99 -cnv -n 4096 –diffusion-visual File terkuantisasi setidaknya realistis untuk perangkat keras konsumen. Unsloth mencantumkan file Q4KM 16 GB sebagai opsi terkecil, dengan varian lebih besar 18 GB, 21 GB, 25 GB, dan 47 GB di atasnya. Hal ini menempatkan model tersebut di dunia umum yang sama dengan model lokal besar lainnya yang mungkin Anda jalankan pada GPU dengan jumlah VRAM yang layak. Namun, ini masih merupakan pengaturan eksperimental. Dukungan model, pelari, dan keluaran visual adalah bagian dari poin saat ini, bukan sisi kasar dari model pengemudi harian yang membosankan. Jika Anda sudah lama mendengar tentang model difusi dan ingin mencobanya sendiri, itulah daya tariknya. DiffusionGemma bukanlah peningkatan langsung dari Gemma 4 Google mengatakan kualitas adalah trade-off. Nama tersebut membuat DiffusionGemma terdengar seperti anggota lain dari keluarga Gemma, tetapi modelnya memiliki tujuan yang sangat berbeda. Google mendeskripsikannya sebagai model terbuka eksperimental berdasarkan arsitektur Campuran Pakar Gemma 4 26B A4B, dengan total parameter sekitar 26 miliar dan parameter aktif sekitar 4 miliar. Bagian yang tidak biasa adalah pembangkitan berbasis difusi dan blok, bukan ide dasar model Kementerian Lingkungan Hidup setempat. Google sangat jelas bahwa model autoregresif Gemma 4 standarnya tetap menjadi rekomendasi untuk kualitas keluaran yang maksimal. DiffusionGemma memprioritaskan kecepatan dan pembuatan tata letak paralel, dan tabel benchmark yang dipublikasikan secara umum menunjukkan model tersebut tertinggal dari model Gemma 4 26B A4B standar dalam pengujian penalaran, pengkodean, visi, dan konteks panjang. Tes konkrit yang saya jalankan setidaknya berfungsi. Saya memintanya untuk membuat game bergaya Flappy Bird dengan Python, dirender di browser dan disajikan dengan Flask, dan proyek yang dihasilkan berfungsi saat saya mengujinya. Gravitasinya terlalu kuat, sehingga tidak terlalu menyenangkan untuk dimainkan, tetapi hal ini menghasilkan aplikasi Flask, HTML, CSS, dan JavaScript yang diperlukan agar game browser dapat ditampilkan di layar. Anda dapat melihatnya berjalan pada video di atas, saat saya menyalin dan menempelkan kode dari output ke file yang ditentukan. Anda juga dapat membaca keluaran lengkapnya di tautan Intisari ini. Tidak peduli apa yang saya minta untuk dihasilkan oleh model, dan Flappy Bird hanyalah salah satu dari sekian banyak perintah yang dapat saya gunakan, karena hasilnya tetap sama: model melakukan sesuatu yang normal sementara proses pembuatannya terlihat tidak normal. DiffusionGemma tidak menarik karena tiba-tiba membuat pengkodean lokal menjadi lebih baik; Hal ini menarik karena memaparkan cara berbeda dalam menyusun teks, yaitu keluaran yang disusun, disempurnakan, dan diterapkan dalam blok, bukan dialirkan satu token pada satu waktu. Pengalaman yang saya dapatkan di sini sejalan dengan contoh Google seputar pengeditan sebaris, struktur teks non-linier, pengisian kode, dan alur kerja lainnya di mana pembuatan dari kiri ke kanan tidak selalu merupakan bentuk yang paling alami. Saya tidak akan mengklaim DiffusionGemma siap mengubah alur kerja tersebut dari proses singkat saya, tetapi konsepnya masuk akal setelah Anda melihatnya terjadi. DiffusionGemma bersifat eksperimental, awal, dan bukan sesuatu yang bisa saya bandingkan dengan LLM lokal konvensional. Melihat jawaban yang tidak ditempatkan pada tempatnya adalah hal yang aneh, sedikit mengganggu, dan benar-benar berguna untuk memahami apa yang Google coba lakukan, sekaligus mempermudah siapa pun untuk memahami seperti apa sebenarnya model difusi dalam praktiknya.
Diterbitkan : 2026-06-17 10:00:00
sumber : www.xda-developers.com



