DiffusionGemma adalah AI tercepat Google, namun ia memiliki konsekuensi yang besar
TL;DR DiffusionGemma menulis seluruh bagian teks sekaligus dan kemudian terus memolesnya daripada menyusunnya kata demi kata. Google mengatakan ini bisa 4x lebih cepat, mencapai 1.000+ token per detik pada NVIDIA H100 dan sekitar 700 pada RTX 5090, berkat pemrosesan paralel. Kualitas keluarannya masih kalah dengan Gemma 4, sehingga lebih merupakan alat eksperimental daripada produk jadi. Google telah merilis DiffusionGemma, model AI eksperimental yang mengambil pendekatan yang sangat berbeda dengan cara kebanyakan chatbot menghasilkan teks saat ini. Alih-alih menulis kata demi kata dalam urutan yang ketat, ini menghasilkan seluruh blok teks sekaligus dan kemudian terus menyempurnakannya hingga dapat dibaca. Idenya adalah untuk mendorong kecepatan dan efisiensi perangkat keras, meskipun itu berarti harus mengorbankan beberapa penyempurnaan pada hasil akhirnya. Model AI baru ini bersumber terbuka di bawah lisensi Apache 2.0 dan ditujukan untuk pengembang dan peneliti, bukan untuk pengguna sehari-hari. Untuk memahami mengapa hal ini penting, ada baiknya jika kita melihat cara kerja sebagian besar model bahasa besar. Sistem seperti Gemma 4 Google menghasilkan teks selangkah demi selangkah, satu token dalam satu waktu. Setiap kata baru bergantung pada apa yang muncul sebelumnya, yang membuat prosesnya secara inheren berurutan dan lebih sulit untuk dipercepat. Sebaliknya, DiffusionGemma dimulai dengan kanvas penuh token acak, yang pada dasarnya berisik, teks yang tidak dapat dibaca, dan kemudian berulang kali membersihkannya dalam beberapa kali lintasan. Dengan setiap langkah, keluarannya menjadi lebih terstruktur dan koheren hingga menghasilkan respons akhir. Cara sederhana untuk menggambarkannya adalah model tradisional menulis, sementara DiffusionGemma menyusun dan mengedit semuanya sekaligus. Tidak ingin ketinggalan yang terbaik dari Android Authority? Pergeseran itu berdampak langsung pada kinerja. Sesuai klaim Google, DiffusionGemma bisa empat kali lebih cepat dibandingkan model autoregresif standar dalam skenario konkurensi rendah, di mana satu pengguna atau proses menggunakan GPU. Pada perangkat keras kelas atas, angkanya bahkan lebih agresif. Perusahaan mengklaim lebih dari 1.000 token per detik pada NVIDIA H100 dan lebih dari 700 token per detik pada RTX 5090. Di balik layarnya, DiffusionGemma adalah model Mixture-of-Experts dengan 26 miliar parameter, namun tidak mengaktifkan semuanya sekaligus. Hanya sekitar 3,8 miliar parameter yang digunakan selama inferensi, sehingga membantu menjaga persyaratan komputasi tetap dapat dikelola. Google mengatakan hal ini memungkinkan untuk menjalankan model pada GPU konsumen kelas atas ketika dikuantisasi, dengan jejak memori sekitar 18GB VRAM. Yang lebih menarik adalah bagaimana model sebenarnya menghasilkan teks. Ini dapat menghasilkan hingga 256 token secara paralel dalam satu langkah, dan setiap token dapat menangani setiap token lainnya di blok tersebut. Hal ini memberikan model pandangan global terhadap output, bukan linear. Hal ini membuatnya lebih cocok untuk tugas-tugas terstruktur atau berbasis aturan. Misalnya, ini dapat membantu mengisi bagian kode yang hilang, melengkapi format terstruktur seperti JSON, mengatasi masalah yang banyak logika seperti teka-teki gaya Sudoku, atau menangani pola matematika di mana konsistensi di seluruh keluaran lebih penting daripada alur kalimat demi kalimat. Karena ia melihat seluruh blok sekaligus, ia juga dapat memperbaiki kontradiksi dalam siklus pembangkitan yang sama, daripada menunggu token berikutnya untuk memperbaikinya. Tapi ada kendalanya, dan Google berterus terang tentang hal itu. DiffusionGemma tidak sesuai dengan kualitas keluaran model Gemma 4 standarnya. Tulisannya bisa jadi kurang stabil, kurang halus, dan tidak dapat diandalkan untuk tanggapan yang rumit atau bernuansa. Jadi, Anda mendapatkan kecepatan namun kehilangan sedikit kesempurnaan. Itulah sebabnya Google memposisikannya sebagai alat eksperimental — alat ini dirancang untuk skenario di mana daya tanggap lebih penting daripada kesempurnaan, seperti alat AI real-time, asisten penulisan atau pengkodean sebaris, dan alur kerja berulang yang cepat di mana pengguna lebih mementingkan umpan balik instan daripada teks berkualitas akhir. Oleh karena itu, DiffusionGemma tidak dimaksudkan untuk menggantikan model Gemini atau Gemma yang sudah ada. Ini adalah eksperimen yang mengutamakan kecepatan yang memperdagangkan kualitas keluaran demi efisiensi dan daya tanggap. Namun hal ini juga mengisyaratkan arah yang berbeda dalam pembuatan teks AI, di mana model tidak hanya memprediksi kata berikutnya, namun juga menghasilkan dan menyempurnakan seluruh blok teks secara bersamaan. Terima kasih telah menjadi bagian dari komunitas kami. Baca Kebijakan Komentar kami sebelum memposting.
Diterbitkan : 2026-06-11 06:16:00
sumber : www.androidauthority.com



