Microsoft meluncurkan Surface RTX Spark Dev Box untuk menjalankan model AI besar tanpa biaya cloud

Microsoft pada hari Senin meluncurkan Surface RTX Spark Dev Box, komputer desktop ringkas yang dirancang untuk memungkinkan pengembang perangkat lunak menjalankan model AI besar di meja mereka alih-alih membayar untuk komputasi awan — sebuah langkah yang secara langsung menantang model penetapan harga per token yang telah menentukan perekonomian industri AI sejak ChatGPT diluncurkan tiga setengah tahun lalu. Perangkat tersebut, yang diumumkan di Microsoft Build 2026, mengemas prosesor RTX Spark berarsitektur Blackwell baru dari Nvidia dan memori terpadu sebesar 128 gigabyte ke dalam sebuah sasis dengan faktor bentuk kecil, memberikan performa yang setara dengan Nvidia dalam satu petaflop komputasi AI. Secara praktis, hal ini berarti pengembang dapat memuat, menjalankan, dan berinteraksi dengan model AI yang melebihi 120 miliar parameter tanpa mengirimkan satu panggilan API pun ke cloud. “Perangkat kelas ini, menurut kami, akan menjalankan sekitar 100 miliar model parameter,” kata Pavan Davuluri, wakil presiden eksekutif Microsoft untuk Windows dan Perangkat, dalam konferensi pers menjelang acara tersebut. Dia menekankan bahwa ukuran model mentah hanyalah sebagian dari persamaan: “Ukuran model adalah satu hal, namun agar model menjadi efektif, model tersebut harus memiliki konteks yang cukup, karena dengan model yang lebih besar, Anda memberinya konteks yang lebih besar.” Dengan 100.000 token konteks, katanya, cache nilai kunci saja dapat menghabiskan 40 hingga 50 gigabyte memori — itulah sebabnya Microsoft dan Nvidia merancang perangkat ini dengan kumpulan memori terpadu sebesar 128 gigabyte yang digunakan bersama secara dinamis antara CPU dan GPU. Mesin ini akan tersedia akhir tahun ini di Amerika Serikat, dijual secara eksklusif melalui Microsoft.com. Perusahaan tidak mengungkapkan harganya. Mengapa Microsoft bertaruh bahwa masa depan AI bergantung pada biaya tetap, bukan meteran cloud Surface RTX Spark Dev Box hadir pada saat keekonomian pengembangan AI telah menjadi perhatian di tingkat dewan direksi. Perusahaan besar dan kecil bergulat dengan tagihan GPU cloud yang skalanya tidak dapat diprediksi: setiap proses penyesuaian, setiap panggilan inferensi, setiap alur kerja agen yang melewati model frontier akan mengakumulasi biaya. Bagi pengembang yang melakukan iterasi cepat pada sebuah prototipe — menjalankan model yang sama puluhan atau ratusan kali sehari — biaya tersebut akan bertambah dengan cepat. Microsoft membingkai Dev Box sebagai katup pelepas untuk tekanan tersebut. Andrew Hill, wakil presiden perusahaan Surface, menulis dalam posting blog pengumuman bahwa perangkat tersebut “mengubah persamaan itu” dengan membiarkan pengembang “mencadangkan panggilan model terdepan untuk masalah yang benar-benar terdepan dan menangani sisanya pada perangkat keras mereka sendiri.” Intinya bukanlah bahwa komputasi awan sudah ketinggalan zaman, namun sebagian besar pekerjaan yang saat ini dikirim ke pusat data jarak jauh tidak memerlukan model yang canggih dan akan lebih baik dilayani oleh perangkat keras lokal yang mumpuni dengan biaya tetap yang dapat diprediksi. Ini adalah perubahan strategis yang signifikan bagi Microsoft, sebuah perusahaan yang memperoleh pendapatan tahunan sebesar puluhan miliar dolar dari layanan awan Azure. Dengan menjual perangkat keras yang secara eksplisit mengurangi ketergantungan pelanggan terhadap cloud, Microsoft menyadari adanya ketegangan yang sedang terjadi di seluruh industri: biaya marjinal dari inferensi AI dalam skala besar tidak dapat berkelanjutan bagi banyak tim, dan pasar menuntut adanya alternatif lain. Taruhannya adalah bahwa pengembang yang membuat prototipe secara lokal akan tetap menerapkan ke Azure ketika mereka perlu melakukan penskalaan — dan memiliki kedua ujung alur kerja tersebut lebih berharga daripada hanya memiliki cloud. Di dalam arsitektur memori terpadu 128GB yang memungkinkan AI lokal. Arsitektur teknis Dev Box mencerminkan serangkaian pilihan rekayasa yang disengaja yang ditujukan untuk kinerja yang berkelanjutan, bukan kinerja puncak — sebuah perbedaan yang sangat penting untuk beban kerja AI yang dapat berjalan berjam-jam. Yang menjadi pusatnya adalah sistem-on-chip RTX Spark milik Nvidia, yang menggabungkan CPU berbasis ARM yang sangat efisien dengan GPU RTX generasi Blackwell. Pada PC Windows tradisional, Davuluri menjelaskan saat pengarahan, konfigurasi ini memerlukan empat komponen terpisah: CPU, GPU diskrit, memori grafis khusus, dan RAM sistem. RTX Spark menyatukan semua itu menjadi satu chip yang dipasangkan dengan satu kumpulan memori terpadu. Penyatuan tersebut adalah keputusan desain yang penting. Laptop gaming konvensional dengan GPU Nvidia kelas atas memiliki memori yang dapat diakses GPU sekitar 24 gigabyte. Memori terpadu sebesar 128 gigabyte pada Dev Box — dapat diakses oleh CPU dan GPU melalui apa yang disebut Nvidia sebagai arsitektur Unified Memory Access — memungkinkan untuk memuat model yang memerlukan instance GPU cloud dengan konfigurasi memori bandwidth tinggi khusus. Microsoft melakukan pekerjaan besar pada tingkat sistem operasi untuk mengeksploitasi arsitektur ini. Perusahaan menerapkan logika manajemen memori baru di Windows yang meningkatkan batasan jumlah memori sistem yang dapat ditangani oleh GPU, memperkenalkan alokasi ukuran halaman yang lebih cerdas untuk wilayah memori bersama, dan memastikan bahwa beban kerja GPU yang berat tidak membuat CPU kekurangan sumber daya yang diperlukan untuk multitasking. Penjadwal Windows juga dioptimalkan untuk tata letak inti RTX Spark yang heterogen, merutekan beban kerja yang menuntut ke inti kinerja sekaligus menjaga inti efisiensi tersedia untuk tugas-tugas di latar belakang. Bagaimana sasis aluminium cetak 3D berfungsi ganda sebagai heatsinkDesain termal juga disengaja. Dev Box beroperasi dalam selubung termal berkelanjutan sekitar 100 watt — sederhana menurut standar desktop, namun bermakna untuk perangkat yang dimaksudkan untuk menjalankan tugas pelatihan dan beban kerja inferensi secara terus-menerus. Sasis aluminiumnya sendiri dirancang untuk berfungsi sebagai heatsink pasif, dan metode yang digunakan Microsoft untuk membuatnya adalah salah satu detail paling mencolok dari mesin ini. Panel atas diproduksi menggunakan pencetakan 3D logam, sebuah proses yang memungkinkan geometri internal menjadi terlalu rumit untuk pemesinan CNC konvensional atau cetakan injeksi. Perforasinya bukanlah lubang sederhana; mereka dimiringkan ke berbagai arah di sekitar kipas internal untuk mengoptimalkan aliran udara dari asupan udara dingin melalui pembuangan panas. Selama konferensi pers, Harry, seorang desainer industri Surface, menjelaskan alasannya: “Kompleksitas adalah sesuatu yang tidak dapat dilakukan oleh produsen lain, seperti CNC, atau cetakan lainnya, karena kerumitan bentuknya.” Ketika ditanya apakah pencetakan 3D akan membatasi produksi massal, sang desainer mengakui tantangan tersebut tetapi menyarankan Microsoft telah mengembangkan proses yang cukup kuat untuk diukur. Hasilnya adalah mesin yang berjalan cukup senyap untuk kantor terbuka sambil mempertahankan beban kerja GPU berkelanjutan yang akan membatasi sebagian besar desktop konvensional dengan ukuran serupa. Untuk perangkat yang Microsoft perkirakan akan dibiarkan berjalan oleh pengembang semalaman untuk melakukan pekerjaan penyempurnaan, performa berkelanjutan yang tenang bukanlah sebuah kemewahan — ini adalah suatu keharusan. Penyiapan yang mengutamakan pengembang yang menghilangkan berjam-jam konfigurasiMicrosoft mengirimkan Dev Box dengan Windows 11 Pro yang telah dikonfigurasi sebelumnya pada tingkat gambar untuk pekerjaan pengembangan — sebuah detail yang terdengar kecil namun mencerminkan pengakuan yang semakin besar bahwa pengalaman out-of-box untuk perangkat keras pengembang secara historis buruk. Mesin melakukan booting ke tema gelap dengan bilah tugas yang disederhanakan, widget dihapus, dan Jangan Gangguan diaktifkan. Mode Pengembang diaktifkan. PowerShell 7 adalah cangkang default. WSL 2 — Subsistem Windows untuk Linux — sudah diinstal sebelumnya dengan passthrough GPU dan dukungan CUDA yang sudah dikonfigurasi. Visual Studio Code, GitHub Copilot, Git, Python, dan Node.js semuanya sudah terinstal dan siap. “Kami telah berkata, ‘Hei, Anda tahu, kami mengerti, Anda ingin melakukannya dengan cepat,'” seorang insinyur Microsoft yang mendemonstrasikan konfigurasi selama pengarahan mengatakan kepada VentureBeat. Filosofinya, jelasnya, adalah bahwa pengembang akan tetap menginstal semua alat ini — hambatannya terjadi pada jam-jam penyiapan dan konfigurasi yang terjadi antara membuka kotak mesin dan menulis baris kode pertama. Dev Box juga dilengkapi dengan titik integrasi di seluruh tumpukan AI Microsoft: AI Toolkit untuk VS Code untuk konversi dan penyempurnaan model, Windows ML dan Windows Copilot Runtime untuk inferensi lokal, dan Microsoft Foundry untuk menghubungkan prototipe lokal ke jalur penerapan cloud. Untuk perusahaan, perangkat ini terintegrasi dengan Entra ID dan Intune untuk manajemen identitas dan perangkat, serta mencakup arsitektur PC Secure-core, enkripsi BitLocker, dan Microsoft Defender. Alasan mengapa Mac Mini dari Apple mungkin tidak lagi menjadi pesaing sebenarnya Perbandingan kompetitif yang paling nyata adalah Mac Mini dari Apple, yang telah mendominasi kategori desktop kompak dan telah diadopsi secara luas oleh para pengembang yang tertarik pada arsitektur memori terpadu dan efisiensi daya Apple Silicon. Davuluri membahas perbandingan tersebut secara langsung selama pengarahan, dengan mengatakan bahwa Dev Box “berada dalam kelas kinerja yang berbeda daripada Mac Mini, dengan sengaja.” Dia menolak untuk membagikan tolok ukur spesifiknya, dan menyatakan bahwa spesifikasi rinci dan target kinerja akan mendekati peluncuran musim gugur. Namun keunggulan arsitektur yang diklaim Microsoft sudah jelas: meskipun Mac Mini saat ini dengan M4 Pro memiliki memori terpadu sebesar 48 gigabyte dan konfigurasi M4 Max mencapai 128 gigabyte, RTX Spark Dev Box memasangkan 128 gigabyte tersebut dengan GPU kelas Blackwell yang memiliki model komputasi berbasis CUDA yang berbeda secara fundamental — yang merupakan model komputasi yang dimiliki sebagian besar perangkat ekosistem AI/ML (PyTorch, TensorRT, llama.cpp, kerangka Hugging Face) sudah dioptimalkan. Keunggulan ekosistem CUDA sulit untuk dilebih-lebihkan. Meskipun kerangka Metal Apple telah mengalami kemajuan, sebagian besar pelatihan AI dan kerangka inferensi dibuat dan diuji terlebih dahulu terhadap tumpukan CUDA Nvidia. Pengembang yang menjalankan model di Dev Box dapat menggunakan kode yang sama, pustaka yang sama, dan alur kerja yang sama dengan yang mereka gunakan pada instance GPU cloud — tingkat portabilitas yang saat ini tidak dapat ditandingi oleh Apple Silicon. Dari laptop hingga superkomputer: rencana tiga tingkat Microsoft untuk perangkat keras AI lokal Dev Box adalah salah satu bagian dari strategi perangkat keras tiga tingkat yang dikembangkan Microsoft di Build. Surface Laptop Ultra, yang diumumkan beberapa hari sebelumnya di Computex, menghadirkan silikon RTX Spark yang sama ke dalam faktor bentuk laptop 15 inci untuk pengembang dan pembuat konten yang membutuhkan portabilitas. Di ujung lain spektrum, Stasiun DGX untuk Windows — dibangun di atas GB300 Grace Blackwell Ultra Superchip Nvidia — menargetkan organisasi yang perlu menjalankan model frontier hingga satu triliun parameter pada sistem desktop. Mesin tersebut diharapkan tersedia pada kuartal keempat tahun ini. Ketiga perangkat tersebut dipetakan ke model komputasi berjenjang yang disebut Microsoft sebagai “kecerdasan tak terukur”: model bahasa kecil pada perangkat (keluarga Aion 1.0 baru perusahaan) menangani tugas-tugas ringan dengan biaya marjinal nol; Perangkat keras kelas RTX Spark menjalankan model kelas menengah secara lokal untuk sebagian besar pekerjaan pengembangan; dan sumber daya cloud dicadangkan untuk masalah yang benar-benar berskala frontier. GitHub Copilot CLI mendapatkan implementasi konkrit dari model ini dengan fitur baru yang disebut /fleet, yang memungkinkan agen utama berbasis cloud untuk membuat rencana, menilai kompleksitas setiap tugas, dan merutekan subtugas yang sesuai ke model lokal yang berjalan pada perangkat keras pengembang. Agen cloud menangani apa yang memerlukan kemampuan frontier; model lokal menangani apa yang tidak. Secara teori, hasilnya adalah biaya yang lebih rendah tanpa kualitas yang lebih rendah. Pertanyaan sebenarnya adalah apakah AI hibrid dapat beralih dari kata kunci ke model bisnis. Apakah taruhan Microsoft akan membuahkan hasil tergantung pada pertanyaan yang memerlukan waktu berbulan-bulan untuk menjawabnya. Bagaimana sebenarnya kinerja Dev Box di bawah beban kerja dunia nyata yang berkelanjutan? Berapa biayanya? Seberapa cepat ekosistem model sumber terbuka akan terus menghasilkan model berkemampuan dalam kisaran 70 hingga 120 miliar parameter yang sesuai dengan memorinya? Dan mungkin yang paling penting: akankah tim pengadaan perusahaan, yang dilatih untuk menganggap AI sebagai produk cloud, akan menerima belanja modal untuk perangkat keras desktop sebagai alternatifnya? Namun, logika strategis ini sulit untuk diabaikan. Selama tiga tahun, industri AI telah beroperasi dengan asumsi implisit: pekerjaan AI yang serius terjadi di cloud, dan keekonomian dari pengaturan tersebut hanyalah biaya dalam menjalankan bisnis. Microsoft, sebuah perusahaan dengan segala insentif untuk memperkuat asumsi tersebut, kini menjual mesin yang melemahkan asumsi tersebut. Hal ini bukanlah suatu kontradiksi — ini adalah pengakuan bahwa pasar sedang bergerak, dan bahwa perusahaan yang mengendalikan lingkungan lokal pengembang dan cloud tempat mereka menerapkannya memiliki keunggulan yang lebih tahan lama dibandingkan perusahaan yang hanya mengendalikan cloud. Setiap dolar yang tidak dikeluarkan oleh pengembang untuk inferensi cloud adalah dolar yang dapat mendanai eksperimen lain, iterasi lain, prototipe lain. Selama bertahun-tahun, industri AI memberi tahu para pengembang bahwa mereka perlu menyewakan kecerdasan mereka. Microsoft kini mengajukan pertanyaan berbeda: bagaimana jika Anda bisa membelinya saja?
Diterbitkan : 2026-06-02 16:30:00
sumber : venturebeat.com



