
- HBF menawarkan kapasitas HBM sepuluh kali lipat namun tetap lebih lambat dari DRAM
- GPU akan mengakses kumpulan data yang lebih besar melalui memori HBM-HBF berjenjang
- Penulisan di HBF terbatas, sehingga memerlukan perangkat lunak untuk fokus pada pembacaan
Ledakan beban kerja AI telah memberikan tekanan yang belum pernah terjadi sebelumnya pada sistem memori, sehingga memaksa perusahaan untuk memikirkan kembali cara mereka mengirimkan data ke akselerator.
Memori bandwidth tinggi (HBM) telah berfungsi sebagai cache cepat untuk GPU, sehingga memungkinkan alat AI untuk membaca dan memproses data nilai kunci (KV) secara efisien.
Namun, HBM mahal, cepat, dan kapasitasnya terbatas, sedangkan flash bandwidth tinggi (HBF) menawarkan volume yang jauh lebih besar pada kecepatan lebih lambat.
Bagaimana HBF melengkapi HBM
Desain HBF memungkinkan GPU untuk mengakses kumpulan data yang lebih luas sekaligus membatasi jumlah penulisan, sekitar 100.000 per modul, sehingga memerlukan perangkat lunak untuk memprioritaskan pembacaan daripada penulisan.
HBF akan berintegrasi bersama HBM di dekat akselerator AI, membentuk arsitektur memori berjenjang.
Profesor Kim Joungho dari KAIST membandingkan HBM dengan rak buku di rumah untuk belajar cepat, sementara HBF berfungsi seperti perpustakaan dengan konten yang jauh lebih banyak tetapi aksesnya lebih lambat.
“Agar GPU dapat melakukan inferensi AI, ia harus membaca data variabel yang disebut cache KV dari HBM. Kemudian, ia menafsirkannya dan mengeluarkan kata demi kata, dan menurut saya ia akan memanfaatkan HBF untuk tugas ini,” kata Profesor Kim.
“HBM cepat, HBF lambat, tapi kapasitasnya sekitar 10 kali lebih besar. Namun, meskipun HBF tidak membatasi jumlah pembacaan, HBF mempunyai batasan jumlah penulisan, sekitar 100.000. Oleh karena itu, ketika OpenAI atau Google menulis program, mereka perlu menyusun perangkat lunaknya agar fokus pada pembacaan.”
HBF diharapkan dapat memulai debutnya dengan HBM6, di mana beberapa tumpukan HBM saling terhubung dalam suatu jaringan, sehingga meningkatkan bandwidth dan kapasitas.
Konsep ini membayangkan iterasi masa depan seperti HBM7 yang berfungsi sebagai “pabrik memori”, di mana data dapat diproses langsung dari HBF tanpa menyimpang melalui jaringan penyimpanan tradisional.
HBF menumpuk beberapa cetakan NAND 3D secara vertikal, mirip dengan DRAM penumpukan HBM, dan menghubungkannya dengan through-silicon vias (TSVs).
Satu unit HBF dapat mencapai kapasitas 512GB dan mencapai bandwidth hingga 1,638TBps, jauh melebihi kecepatan standar SSD NVMe PCIe 4.0.
SK Hynix dan Sandisk telah mendemonstrasikan diagram yang menunjukkan lapisan NAND atas terhubung melalui TSV ke cetakan logika dasar, membentuk tumpukan fungsional.
Prototipe chip HBF memerlukan fabrikasi yang cermat untuk menghindari lengkungan pada lapisan bawah, dan tumpukan NAND tambahan akan semakin meningkatkan kompleksitas koneksi TSV.
Samsung Electronics dan Sandisk berencana memasang HBF Nvidia, AMDdan produk Google AI dalam 24 bulan ke depan.
SK Hynix akan merilis prototipenya akhir bulan ini, sementara perusahaan juga sedang mengerjakan standardisasi melalui konsorsium.
Adopsi HBF diperkirakan akan meningkat di era HBM6, dan Kioxia telah membuat prototipe modul HBF 5TB menggunakan PCIe Gen 6 x8 pada 64Gbps. Profesor Kim memperkirakan bahwa pasar HBF dapat melampaui HBM pada tahun 2038.
Melalui Sisa jurnal (aslinya dalam bahasa Korea)
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



