
Industri teknologi semakin sering membicarakan bahwa GPU adalah inti dari infrastruktur AI, namun faktor pembatas yang menentukan model apa yang dapat Anda jalankan sebenarnya adalah memori.
Dalam sebuah wawancara luas, CEO Phison Pua Khein Seng, yang menemukan USB flash drive chip tunggal pertama di dunia, mengatakan TechRadar Pro fokus pada komputasi telah teralihkan dari kendala yang lebih mendasar yang muncul di mana-mana, mulai dari laptop yang menjalankan inferensi lokal hingga hyperscaler yang membangun pusat data AI.
“Dalam model AI, hambatan sebenarnya bukanlah pada daya komputasi, melainkan memori,” kata Pua. “Jika Anda tidak memiliki cukup memori, sistem akan crash.”
Mengkompensasi batas DRAM
Inilah yang melatarbelakangi karya aiDAPTIV+ Phison, yang didiskusikan secara publik oleh perusahaan tersebut CES 2026dan pada dasarnya adalah cara untuk memperluas pemrosesan AI ke sistem GPU terintegrasi dengan menggunakan flash NAND sebagai kumpulan memori.
Pua menggambarkannya sebagai menggunakan SSD kapasitas untuk mengimbangi batas DRAM dan menjaga GPU tetap fokus pada komputasi alih-alih menunggu memori.
“Penemuan kami menggunakan SSD sebagai pelengkap memori DRAM,” katanya. “Kami menggunakan ini sebagai perluasan memori.”
Tujuan praktisnya adalah meningkatkan daya tanggap selama inferensi, khususnya Time to First Token, penundaan antara mengirimkan perintah dan melihat keluaran pertama. Pua berpendapat bahwa TTFT yang panjang membuat AI lokal terasa rusak, bahkan ketika model tersebut akhirnya menyelesaikan tugasnya.
“Jika Anda menanyakan sesuatu pada perangkat Anda dan harus menunggu 60 detik untuk kata pertama, apakah Anda akan menunggu?” katanya. “Saat saya menanyakan sesuatu, saya bisa menunggu dua detik. Tapi jika 10 detik, pengguna akan mengira itu sampah.”
Pua menghubungkan peningkatan TTFT dengan penggunaan kembali data inferensi yang banyak memorinya, khususnya cache KV, dengan lebih baik, membandingkannya dengan dokter yang mengulangi instruksi yang sama kepada setiap pasien karena tidak ada yang disimpan di antara kunjungan.
“Dalam inferensi AI, ada sesuatu yang disebut cache KV – seperti cookie dalam penjelajahan web,” jelasnya. “Sebagian besar sistem tidak memiliki cukup DRAM, jadi setiap kali Anda menanyakan pertanyaan yang sama, sistem harus menghitung ulang semuanya.”
Pendekatan Phison, tambah Pua, adalah “menyimpan cache yang sering digunakan di penyimpanan” sehingga sistem dapat mengambilnya dengan cepat ketika pengguna mengulangi atau mengunjungi kembali kueri.
Pembingkaian yang mengutamakan memori ini tidak hanya mencakup laptop, tetapi juga cara perusahaan membangun server GPU, karena Pua mencatat bahwa banyak organisasi membeli GPU tambahan bukan untuk throughput komputasi, namun untuk mengumpulkan lebih banyak VRAM, sehingga menyebabkan terbuangnya silikon.
“Tanpa solusi kami, orang-orang membeli beberapa kartu GPU terutama untuk mengumpulkan memori, bukan untuk daya komputasi,” tambahnya. “Sebagian besar GPU mahal tersebut akhirnya menganggur karena hanya digunakan untuk memorinya.”
Jika SSD dapat menyediakan kumpulan memori yang lebih besar, kata Pua, GPU dapat dibeli dan ditingkatkan skalanya untuk komputasi. “Setelah Anda memiliki cukup memori, maka Anda dapat fokus pada kecepatan komputasi,” ujarnya, “jika satu GPU lambat, Anda dapat menambahkan dua, empat, atau delapan GPU untuk meningkatkan daya komputasi.”
SSD 244TB
Dari sana, Pua memperluas pandangannya ke bidang ekonomi hyperscaler dan infrastruktur AI, dengan menggambarkan gelombang belanja GPU saat ini sebagai hal yang diperlukan namun belum lengkap, karena kasus bisnis untuk AI bergantung pada inferensi, dan inferensi bergantung pada penyimpanan data.
“CSP telah menginvestasikan lebih dari $200 miliar pada GPU,” katanya. “Mereka tidak menghasilkan uang secara langsung dari GPU. Pendapatannya berasal dari inferensi, yang memerlukan penyimpanan data dalam jumlah besar.”
Dia merangkum situasi tersebut dengan sebuah kalimat yang berulang kali dia ucapkan: “Keuntungan CSP sama dengan kapasitas penyimpanan.”
Argumen itu juga menjadi masukan Dorongan Phison menuju SSD perusahaan berkapasitas ekstrim. Perusahaan telah mengumumkan model 244 TB, dan Pua memberi tahu kami, “Drive 122 TB kami saat ini menggunakan pengontrol X2 dengan penumpukan NAND 16 lapis. Untuk mencapai 244 TB, kami hanya memerlukan penumpukan 32 lapis. Desainnya sudah selesai, namun tantangannya adalah hasil produksi.”
Dia juga menguraikan rute alternatif yang menarik: NAND dengan kepadatan lebih tinggi mati. “Kami menunggu hingga 4 TB NAND mati, dengan itu, kami dapat mencapai 244 TB hanya dengan 16 lapisan,” katanya, seraya menambahkan bahwa waktunya akan bergantung pada kematangan manufaktur.
Di PLC NAND, Pua menjelaskan dengan jelas bahwa Phison tidak mengontrol kapan produk tersebut tiba, namun dia mengatakan kepada kami bahwa dia bermaksud untuk mendukungnya setelah produsen dapat mengirimkannya dengan andal.
“PLC adalah NAND lima-bit, itu terutama merupakan keputusan pabrikan NAND, bukan keputusan kami,” katanya. “Saat perusahaan NAND mematangkan teknologi PLC mereka, desain SSD kami akan siap mendukungnya.”
Dia lebih skeptis tentang tren penyimpanan yang berbeda: mengikat flash langsung ke tumpukan memori bergaya GPU, terkadang dibahas dengan label seperti flash bandwidth tinggi. Pua berpendapat ketidakcocokan ketahanan menciptakan mode kegagalan yang buruk.
“Tantangan dalam mengintegrasikan NAND secara langsung dengan GPU adalah keterbatasan siklus tulis,” katanya. “NAND memiliki siklus program/penghapusan yang terbatas. Jika Anda mengintegrasikannya, ketika NAND mencapai akhir masa pakainya, Anda harus membuang seluruh kartu GPU yang mahal.”
Model pilihan Phison adalah modular: “menjaga SSD sebagai komponen plug-and-play yang dapat diganti. Ketika SSD rusak, Anda cukup menggantinya sambil tetap mempertahankan GPU yang mahal.”
Secara keseluruhan, pandangan Pua terhadap masa depan perangkat keras AI bukanlah tentang mengejar GPU yang semakin besar, melainkan tentang membangun sistem yang kapasitas memorinya murah, terukur, dan dapat diganti.
Baik targetnya adalah inferensi lokal pada GPU terintegrasi atau inferensi skala rak di hyperscaler, perusahaan yakin bahwa kepadatan penyimpanan dan perluasan memori akan menentukan apa yang praktis jauh sebelum lonjakan komputasi lainnya terjadi.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



