AI telah mencapai batas memori — sekarang dibutuhkan tingkat konteks baru


Disajikan oleh beban kerja inferensi Solidigm yang berevolusi dari pertukaran tanya jawab yang terpisah menjadi sistem agen multi-langkah yang persisten, ketersediaan GPU tidak lagi menjadi penghambat AI yang paling kritis. Sebaliknya, hambatan tersebut telah berpindah dari komputasi ke konteks, kata Jeff Harthorn, pimpinan penelitian terapan AI di Solidigm. “Mengapa manajemen konteks menjadi hambatan utama, lebih dari sekedar ketersediaan GPU atau efisiensi komputasi, adalah pertanyaan pada tahun 2026,” kata Harthorn. “GPU menjadi jauh lebih murah per FLOP. Arsitektur model dan mesin layanan inferensi menjadi jauh lebih efisien. Namun hal yang berkembang lebih cepat dari keduanya adalah konteks. Status persisten yang harus ada di antara sesi telah berkembang lebih cepat daripada konteks itu sendiri.” Hal ini terjadi ketika jendela konteks berkembang secara dramatis, membuat masukan individu jauh lebih besar dibandingkan sebelumnya. Sistem AI agen menyatukan lusinan atau ratusan panggilan model, masing-masing menghasilkan status yang harus dilacak, dan perusahaan mengharuskan status inferensi tetap ada di seluruh sesi untuk audit, tata kelola, dan penggunaan kembali. Tren-tren ini saling menggabungkan satu sama lain, mendorong volume konteks melampaui apa yang dirancang untuk ditangani oleh tingkat memori yang ada. “Ketiga hal tersebut terjadi pada saat yang sama, yang semuanya mendorong data konteks dan memori konteks ke stratosfer jauh lebih cepat daripada yang biasa kita lihat,” tambah Ace Stryker, direktur AI dan pemasaran ekosistem di Solidigm. Solusinya adalah tingkat konteks khusus yang muncul antara memori GPU dan penyimpanan jaringan massal: lapisan flash berperforma tinggi dan berdensitas tinggi yang dirancang khusus untuk menyimpan dan melayani Nilai Kunci (KV) cache, data inferensi yang memungkinkan model menyimpan dan menggunakan kembali konteks, dan mengambil data dengan kecepatan inferensi. Nvidia telah meresmikan arsitektur ini dengan istilah CMX. Perusahaan penyimpanan termasuk Solidigm sedang membangun produk SSD yang dioptimalkan untuk beban kerja ini. “Penyimpanan bukanlah hal pertama yang dipikirkan orang ketika mereka merencanakan pembangunan infrastruktur perusahaan mereka,” kata Stryker. “Dalam banyak hal, ini merupakan biaya yang relatif kecil dibandingkan dengan komputasi, dan merupakan sebuah komoditas. Anda baru saja berbelanja untuk mendapatkan harga terendah per gigabyte dan menyebutnya bagus. Namun sekarang, jika penyimpanan Anda tidak mencukupi, ROI Anda akan menurun, dan hal ini secara langsung berdampak pada keuntungan Anda.” Mengapa inferensi AI memerlukan arsitektur penyimpanan yang berbeda dari pelatihanArsitektur penyimpanan yang diandalkan sistem AI saat ini sebagian besar diwarisi dari alur kerja pelatihan. Pelatihan bersifat berurutan dan didominasi penulisan, dengan data dipindahkan dalam blok besar ke dan dari penyimpanan objek massal. Struktur tingkat, dengan memori bandwidth tinggi pada GPU, NVMe cepat di server, dan penyimpanan massal melalui jaringan, melayani kasus penggunaan tersebut dengan cukup baik. Namun, inferensi adalah hal yang berbeda. Tanda tangan I/O-nya sangat detail, sensitif terhadap latensi, dan semakin stateful. Data cache KV dan data pengambilan masing-masing memiliki pola akses yang berbeda, namun keduanya perlu disajikan dengan cepat dan digunakan kembali di seluruh interaksi. Keduanya tidak cocok dengan memori GPU bandwidth tinggi, yang mahal dan terbatas secara fisik, maupun dalam penyimpanan massal tradisional, yang tidak pernah dirancang untuk beban kerja inferensi aktif. “Kesenjangan arsitektur yang menarik bagi saya saat ini bukanlah di bagian atas tumpukan atau di bagian bawah, melainkan tepat di tengah-tengah,” kata Harthon. “Banyak hal yang berada di bawah GPU HBM diminta untuk melakukan hal-hal yang sebenarnya tidak dirancang untuknya, dan di sinilah sistem paling menarik bekerja saat ini terjadi.” Salah satu gejala yang paling terlihat dari kesenjangan ini adalah penghitungan ulang. Kesimpulannya, tahap pra-pengisian memproses semua konteks yang relevan dengan sesi tertentu sebelum pembuatan token dapat dimulai. Ketika status cache KV tidak tersedia dalam tingkat yang cepat dan dapat diakses, sistem akan menghitungnya ulang — membakar siklus GPU yang tidak menghasilkan nilai baru. “Sebagian besar siklus GPU berakhir dengan pra-pengisian ulang,” jelas Harthon. “Dalam seluruh konteks yang dihitung tersebut, komputasi berpotensi digunakan untuk mereproduksi keadaan, dibandingkan melakukan pekerjaan baru. Ketika Anda mulai melihat masalah dengan cara seperti itu, pemanfaatan GPU mulai terlihat seperti sebagian merupakan masalah penyimpanan.” Tingkatan baru muncul antara memori GPU dan penyimpanan jaringan tradisional, yang dirancang khusus untuk menyimpan dan menyajikan konteks inferensi, sebuah lapisan yang berbeda dari drive di dalam server GPU (G3) dan server penyimpanan melalui jaringan (G4), yang dirancang untuk menyajikan data konteks kembali ke akselerator secepat mungkin. “Penyimpanan harus berada di setidaknya tiga tempat untuk menangani tingkat memori konteks, dan hal ini kemungkinan akan menjadi perlengkapan permanen dalam cara infrastruktur dibangun ke depannya.” Hal ini analog dengan munculnya penyimpanan objek sebagai sebuah kategori, yang tidak akan ada hingga cukup banyak beban kerja yang membutuhkannya. Dan setelah hal itu terjadi, mereka mengembangkan primitifnya sendiri, SLA, model biaya, dan ekosistem vendor. “Tingkat konteksnya sepertinya berada pada alur yang sama,” kata Harthorn. “Tekanan volumetrik inilah yang menyebabkan terbentuknya kategori tersebut, bukan peta jalan vendor mana pun.” Bagi para pemimpin infrastruktur, hal ini berarti secara aktif merencanakan tingkatan baru dan bukan menganggapnya sebagai pilihan. Menerapkan NAND tambahan pada lapisan ini mengurangi ketergantungan pada DRAM, yang jauh lebih mahal per gigabyte dan terbatas pada ketersediaan dan ruang termal. “Dalam hal efektivitas investasi, Anda mengeluarkan lebih sedikit uang untuk melakukannya jika Anda mengandalkan lapisan SSD seperti yang kini direkomendasikan dan ditentukan oleh Nvidia untuk banyak kasus penggunaan,” tambah Stryker. Apa yang dibutuhkan flash untuk mendukung inferensi AI Berpartisipasi secara bermakna dalam tumpukan inferensi memberikan tuntutan baru pada teknologi SSD. Latensi ekor, yang merupakan performa terburuk dari sebuah hard disk, harus dapat diprediksi, bukan hanya rata-rata cepat. Sistem orkestrasi yang mengalokasikan sumber daya GPU berdasarkan waktu respons penyimpanan yang diharapkan tidak dapat mentolerir penundaan beberapa detik yang tidak terduga. Performa yang konsisten dan dapat diamati lebih penting di sini dibandingkan throughput puncak. Selain latensi, kepadatan menjadi perhatian penting, terutama pada skala hiper. Di pusat data yang kendala utamanya adalah daya, bukan biaya, maka watt per petabyte menjadi metrik operasionalnya. Gerbang terapung NAND, pendekatan manufaktur yang menjadi inti produk Solidigm, cocok untuk perhitungan tersebut. Integrasi jaringan melalui NVMe melalui Fabrics, RDMA, dan dukungan CXL juga penting, mengingat ketatnya anggaran latensi dari pipeline inferensi aktif. “Drive harus memiliki karakteristik kinerja yang andal, di luar sisi throughput dan mampu mentransfer data sebanyak mungkin secepat mungkin, sesuai dengan kebutuhan pelatihan,” kata Harthon. “Sekarang yang terpenting adalah kemampuan untuk melakukannya secara konsisten, dengan cara yang dapat diamati oleh orang-orang yang mengoperasikan dan mengatur sistem ini.” Bagaimana para pemimpin AI perusahaan harus merencanakan tingkat konteks. Standar, perangkat lunak primitif, dan praktik terbaik yang ditetapkan saat ini akan menentukan cara infrastruktur inferensi AI beroperasi di tahun-tahun mendatang. Solidigm terlibat dalam proses tersebut melalui badan standar, kolaborasi laboratorium mitra, dan penelitian yang dipublikasikan, yang sangat penting karena kategori ini masih dalam tahap pembentukan. “Pertanyaan menarik untuk beberapa tahun ke depan bukanlah apakah infrastruktur AI memerlukan lebih banyak komputasi,” kata Harthorn. “Yang penting adalah apakah mereka dapat menggunakan apa yang dimilikinya dengan lebih efisien. Banyak dari jawabannya berjalan melalui tingkatan yang sedang dibangun saat ini.” Artikel bersponsor adalah konten yang diproduksi oleh perusahaan yang membayar untuk postingan tersebut atau memiliki hubungan bisnis dengan VentureBeat, dan artikel tersebut selalu ditandai dengan jelas. Untuk informasi lebih lanjut, hubungi sales@venturebeat.com.


Diterbitkan : 2026-06-22 07:00:00

sumber : venturebeat.com