
- Engram DeepSeek memisahkan memori statis dari komputasi, meningkatkan efisiensi dalam model AI besar
- Metode ini mengurangi kebutuhan memori berkecepatan tinggi dengan mengaktifkan model DeepSeek untuk menggunakan pencarian
- Engram mendukung pengambilan awal asinkron di beberapa GPU dengan overhead kinerja minimal
DeepSeek, bekerja sama dengan Universitas Peking, memperkenalkan metode pelatihan baru yang disebut Engram, yang dirancang untuk memisahkan penyimpanan memori dari proses komputasi.
Tradisional model bahasa besar memerlukan memori bandwidth tinggi untuk pengambilan pengetahuan dan komputasi dasar, sehingga menimbulkan hambatan dalam kinerja dan biaya.
Kemacetan HBM ini diketahui secara luas sebagai alasan utama mengapa harga DRAM naik 5 kali lipat hanya dalam 10 minggu, karena permintaan perangkat keras melonjak untuk mendukung model AI besar.
Validasi dan pendekatan teknis
Para peneliti mengatakan model yang ada menyia-nyiakan kedalaman sekuensial pada operasi sepele, yang sebaliknya dapat mendukung penalaran tingkat tinggi.
Engram memungkinkan model untuk “mencari” informasi penting secara efisien tanpa membebani memori GPU secara berlebihan, sehingga membebaskan kapasitas untuk tugas penalaran yang lebih kompleks.
Sistem ini diuji pada model dengan 27 miliar parameter dan menunjukkan peningkatan terukur di seluruh tolok ukur standar industri.
Dengan melakukan pengambilan pengetahuan melalui hash N-gram, Engram menyediakan akses memori statis yang tidak bergantung pada konteks saat ini.
Informasi yang diambil kemudian disesuaikan menggunakan mekanisme gerbang sadar konteks untuk menyelaraskan dengan keadaan tersembunyi model.
Desain ini memungkinkan model menangani input konteks panjang dengan lebih efisien dan mendukung pengambilan awal tingkat sistem dengan overhead performa minimal.
Metode Engram melengkapi pendekatan hemat perangkat keras lainnya, termasuk solusi seperti akselerator inferensi AI Phison.
Engram meminimalkan jumlah memori berkecepatan tinggi yang diperlukan dengan menggunakan pencarian informasi statis, membuat penggunaan memori lebih efisien.
Phison menawarkan cara hemat biaya untuk memperluas total memori menggunakan SSD, mendukung model AI besar seperti sistem Engram atau Mixture-of-Experts.
Jika digabungkan, pendekatan-pendekatan ini memungkinkan sistem AI untuk mengoptimalkan penggunaan memori yang cepat sekaligus meningkatkan kapasitas memori secara keseluruhan dengan biaya yang terjangkau.
Teknologi ini juga berfungsi berdampingan dengan standar CXL (Compute Express Link) yang sedang berkembang, yang bertujuan untuk mengatasi hambatan memori GPU dalam beban kerja AI skala besar.
Metode ini memisahkan penyimpanan pola statis dari komputasi dinamis, meningkatkan tulang punggung Transformer tanpa meningkatkan FLOP atau jumlah parameter.
DeepSeek memformalkan aturan ekspansi berbentuk U untuk mengoptimalkan alokasi parameter antara modul komputasi bersyarat MoE dan modul memori Engram.
Pengujian menunjukkan bahwa realokasi sekitar 20–25% anggaran parameter sparse ke Engram menghasilkan kinerja yang lebih baik dibandingkan model MoE murni, sehingga mempertahankan perolehan yang stabil di berbagai skala.
Perluasan slot memori memberikan peningkatan yang dapat diprediksi tanpa biaya komputasi tambahan.
Hal ini menegaskan skalabilitas memori bersyarat sebagai sumbu independen untuk model renggang.
Mekanisme pengambilan deterministik Engram memungkinkan kapasitas memori untuk diskalakan secara linier di beberapa GPU sambil mendukung pengambilan awal asinkron selama inferensi.
Hal ini melepaskan beban rekonstruksi pengetahuan statis dari lapisan bawah, sehingga membebaskan mekanisme perhatian untuk fokus pada konteks global.
Caching hierarki dari penyematan yang sering digunakan meningkatkan efisiensi, dan modul berfungsi dengan yang sudah ada GPU dan arsitektur memori sistem, yang berpotensi menghindari peningkatan HBM yang mahal.
Teknik ini dapat mengurangi tekanan pada perangkat keras memori yang mahal, khususnya di wilayah seperti Tiongkok, di mana akses HBM tertinggal dibandingkan pesaing seperti SamsungSK Hynix, dan Mikron.
Validasi awal Engram menunjukkan bahwa model dapat memperluas skala parameter dan kapasitas penalaran sekaligus mengelola permintaan memori dengan lebih efisien.
Pendekatan ini dapat membantu meringankan kendala memori di seluruh infrastruktur AI, sehingga berpotensi mengurangi ketajaman DRAM DDR5 perubahan harga.
Melalui SCMP
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



