Agen AI pada perangkat mencapai batas memori keras. Arsitektur baru Apple mengitarinya.

Model AI pada perangkat tetap kecil karena seluruh bobot yang ditetapkan harus berada di DRAM, sehingga membatasi jumlah parameter praktis jauh di bawah yang digunakan penerapan sisi server. Arsitek perusahaan yang mengevaluasi beban kerja agen harus memilih antara model yang bergantung pada cloud dan model yang terbatas pada perangkat. Model dasar generasi ketiga Apple, yang diumumkan di WWDC26, memecahkan kendala tersebut dengan memindahkan seluruh DRAM yang menjadi beban. Keluarga AFM 3 dikembangkan bekerja sama dengan Google dan mencakup lima model: dua pada perangkat dan tiga berbasis server, semuanya berjalan dalam batasan Private Cloud Compute milik Apple. Model sisi server, termasuk AFM 3 Cloud Pro untuk penggunaan alat agen dan penalaran kompleks, dijalankan pada GPU Nvidia di Google Cloud. Arsitektur pada perangkat adalah milik Apple. AFM 3 Core Advanced adalah model 20 miliar parameter yang menyimpan bobot dalam flash NAND, bukan DRAM. “Daripada memaksakan seluruh model ke DRAM, model lengkap disimpan dalam memori flash,” tulis tim peneliti Apple. “Karena bandwidth NAND-ke-DRAM terlalu lambat untuk menukar bobot token demi token, seperti yang dibutuhkan oleh model MoE standar, AFM 3 Core Advanced membuat keputusan perutean per prompt.” “Anda tidak dapat memasukkan parameter 20B ke dalam RAM dengan presisi yang masuk akal,” Awni Hannun, seorang peneliti di Anthropic dan mantan ilmuwan riset Apple, menulis di X. “Untuk membuatnya bekerja, mereka menggunakan arsitektur yang cukup eksotik menurut standar saat ini. Sebuah model kecil memprediksi dari kueri (atau perintah) pakar mana yang akan memuat dari NAND ke dalam RAM.” DRAM. AFM 3 Core Advanced menyimpan seluruh parameter yang disetel dalam flash NAND, bukan memori aktif. Penerapan standar pada perangkat memerlukan model lengkap agar sesuai dengan DRAM, yang membatasi jumlah parameternya. Pendekatan Apple, yang disebut sebagai Pemangkasan Mengikuti Instruksi (IFP) dan dikembangkan bersama para penelitinya sendiri, memperlakukan flash sebagai rumah permanen model dan DRAM sebagai buffer kerja untuk pakar mana pun yang diperlukan oleh prompt tertentu. Perutean pakar terjadi satu kali per prompt, bukan per token. Dalam model Campuran Pakar konvensional, router memilih pakar yang berbeda untuk setiap token yang dihasilkan — yang memerlukan pergerakan bobot terus menerus antara flash dan DRAM pada kecepatan inferensi. Bandwidth NAND-ke-DRAM tidak dapat mendukung hal itu. AFM 3 Core Advanced merutekan sekali pada waktu yang cepat, memilih kumpulan pakar tetap, memuatnya ke dalam DRAM bersama pakar bersama yang selalu aktif, dan menghasilkan semua token dari konfigurasi yang sama. “Perbedaan utama dari MoE pada umumnya adalah Anda melakukan ini sekali per kueri dan kemudian menghasilkan semua token dengan pakar yang sama,” tulis Hannun. Sumber: Apple Machine Learning Research, 8 Juni 2026. Jumlah parameter aktif berskala dari 1B hingga 4B bergantung pada kompleksitas tugas. Daripada menjalankan ukuran model tetap untuk setiap permintaan, AFM 3 Core Advanced menyesuaikan berapa banyak parameter yang diaktifkan berdasarkan kebutuhan tugas — 1 miliar untuk operasi yang lebih sederhana, hingga 4 miliar untuk operasi yang lebih sulit, semuanya diambil dari kumpulan 20 miliar parameter dalam sekejap. Apa yang dimiliki dan belum diungkapkan AppleMakalah arsitektur merinci desain memori dan mekanisme aktivasi yang jarang. Hal ini kurang terbuka dalam hal kendala penerapan praktis. Alat pembuatan profil Apple mengungkap waktu, namun tidak mengungkap metrik yang menentukan kelayakan produksi. “Energi, bandwidth memori, termal? Tidak ada dalam dokumen,” Marco Abis, yang membuat Ziraph, profiler untuk AI lokal pada silikon Apple, memposting di X. “Kesenjangan yang mencolok, mengingat hal tersebut menentukan sebagian besar kinerja pada perangkat.” Abis juga tidak menemukan pernyataan dalam dokumentasi Apple — di seluruh dokumen Core AI, dokumen Foundation Models, atau pos keamanan Private Cloud Compute — mengenai kapan permintaan pada perangkat diturunkan secara transparan, atau apakah perutean tersebut dapat dilihat oleh pengembang atau pengguna. Bagi perusahaan yang perlu mendokumentasikan tempat inferensi dijalankan, hal ini merupakan masalah kepatuhan langsung. Saat ini tidak semua informasi tersedia. Apple telah mengindikasikan bahwa laporan teknis lengkap dengan tolok ukur akan dirilis akhir musim panas ini. Apa artinya ini bagi arsitek perusahaan? Industri yang teregulasi yang mengevaluasi penerapan AI agen kini harus mengambil keputusan arsitektural yang konkret. Dinding DRAM untuk agen di perangkat baru saja dipindahkan. Perusahaan yang mengevaluasi agen yang perlu berjalan tanpa cloud pulang pergi kini memiliki opsi lokal dengan 20 miliar parameter untuk dievaluasi. Kendalanya berpindah dari kemampuan model ke perangkat keras. Batasan privat/cloud kini menjadi keputusan arsitektur, bukan default. Permintaan yang lebih sederhana tetap ada di perangkat; tugas agen yang kompleks dirutekan ke AFM 3 Cloud Pro di Private Cloud Compute. Apple belum menentukan secara publik kapan permintaan diturunkan atau apakah perutean tersebut dapat dilihat oleh pengembang — sebuah celah yang mempersulit keputusan kebijakan bagi organisasi yang perlu mendokumentasikan tempat inferensi dijalankan. Tingkat server agen bergantung pada Google Cloud. AFM 3 Cloud Pro berjalan pada GPU Nvidia di Google Cloud. Jaminan Private Cloud Compute mencakup privasi data. Ini tidak menghilangkan ketergantungan Google Cloud untuk inferensi sisi server. AFM 3 Core Advanced memberi perusahaan opsi 20 miliar parameter pada perangkat yang tidak ada sebelum WWDC26. Apakah ini dapat diterapkan dalam skala besar bergantung pada jawaban yang belum dipublikasikan oleh Apple. Rincian tersebut akan dijelaskan dalam laporan teknis musim panas.
Diterbitkan : 2026-06-09 17:49:00
sumber : venturebeat.com



