Kompresi konteks akhirnya berhasil dalam produksi: penelitian baru memotong input LLM 16x tanpa mencapai akurasi

Jendela konteks menjadi hambatan komputasi. Semakin lama agen berjalan, semakin banyak token yang terakumulasi dari dokumen yang diambil, jejak penalaran, dan riwayat percakapan, serta semakin banyak memori dan komputasi yang dibutuhkan oleh konteks yang berkembang. Sebagian besar solusi yang ada akan menurunkan keakuratan model, memerlukan konteks penuh untuk dimuat sebelum kompresi dimulai, atau menghasilkan penghematan memori yang tidak menghasilkan percepatan nyata dalam infrastruktur layanan standar. Tim peneliti dari NYU, Columbia, Princeton, Universitas Maryland, Harvard, dan Laboratorium Nasional Lawrence Livermore menerbitkan makalah minggu ini yang mengusulkan perbaikan baru. Para peneliti memperkenalkan konsep Latent Context Language Models, atau LCLMs, sebuah keluarga model kompresi encoder-decoder yang memampatkan konteks input sebelum mencapai decoder. Model-model tersebut bersumber terbuka di HuggingFace. Tidak seperti metode kompresi cache KV — pendekatan dominan di lapangan, yang masih mewujudkan cache KV penuh sebelum mengeluarkan entri — LCLM mengompresi urutan token masukan sebelum pengisian awal dekoder, sehingga rasio kompresi yang lebih tinggi secara langsung mengurangi komputasi dan memori sisi dekoder. Makalah ini melaporkan bahwa LCLM dengan kompresi 16x menghasilkan output 8,8 kali lebih cepat dibandingkan baseline cache KV pada benchmark konteks panjang RULER. “Tujuan kami adalah untuk melatih model bahasa end-to-end yang dapat menangani konteks yang sangat panjang secara efisien dan akurat. Jika Anda dapat membuat model bahasa seperti itu, semuanya menjadi lebih murah dan cepat.” Apa yang dapat dilakukan LCLM adalah bahwa LCLM memungkinkan model memproses konteks yang jauh lebih lama daripada yang seharusnya dilakukan, dengan biaya memori dan komputasi yang lebih sedikit, tanpa penurunan akurasi yang membuat sebagian besar metode kompresi menjadi tradeoff yang buruk dalam produksi. Pada kompresi 4x, makalah ini melaporkan akurasi sebesar 91,76% pada tolok ukur RULER, dibandingkan dengan 94,41% tanpa kompresi sama sekali. Itu kurang dari penurunan 3 poin untuk memotong konteks menjadi seperempat dari ukuran aslinya. Pada kompresi 16x, ketika 93,75% token input dihapus, akurasi turun menjadi 75,06%. Setiap metode cache KV yang diuji pada rasio kompresi yang sama mendapat skor lebih rendah. Keuntungannya juga berlaku pada input yang lebih pendek. Pada soal kata matematika GSM8K, di mana prompt penuh dikompresi dan bukan hanya dokumen yang diambil, LCLM mengungguli setiap metode lain yang diuji terlepas dari rasio kompresi. Kredit: Makalah penelitian Kompresi Konteks End-to-End pada Skala https://arxiv.org/pdf/2606.09659Cara pembuatannyaArsitektur memasangkan encoder 0,6B dengan decoder 4B. Pembuat enkode memampatkan blok token masukan menjadi rangkaian penyematan laten yang lebih pendek. Decoder memprosesnya sebagai pengganti token asli. Pelatihan berjalan pada lebih dari 350 miliar token. Resep pelatihan menggabungkan tiga jenis data: Data pra-pelatihan berkelanjutan dengan rentang terkompresi dan tidak terkompresi yang disisipkan di seluruh Data penyempurnaan yang diawasi mencakup tugas-tugas penalaran dan konteks panjang Tugas rekonstruksi tambahan yang mendorong pembuat enkode untuk mempertahankan detail yang sangat halus Kombinasi tersebut mengatasi trade-off yang membatasi pekerjaan kompresi sebelumnya, di mana menjaga keakuratan rekonstruksi mengorbankan kinerja tugas secara umum. Penelusuran arsitektur mengidentifikasi konfigurasi optimal. Makalah ini menemukan bahwa penskalaan dekoder lebih penting daripada penskalaan encoder. Jika cocok dengan tumpukan agen, LCLM bukanlah konsep penelitian abstrak. Ini dirancang untuk bekerja dengan tumpukan yang ada. “Anda cukup menukar LCLM dengan LLM yang ada,” kata Goldblum. “Setiap kali Anda mengambil data seperti dokumen dan ingin membuangnya ke dalam konteks model Anda, cukup jalankan dokumen tersebut melalui kompresor LCLM terlebih dahulu.” Dia mencatat bahwa dalam makalah penelitian, para peneliti mendemonstrasikan cara membangun agen yang secara selektif mendekompresi teks yang berguna. Goldblum juga memperingatkan bahwa tim yang mengintegrasikan pendekatan ini ke dalam jalur agen yang ada perlu menyesuaikan sistem RAG mereka. Kami juga belum mengerjakan kompresi jejak penalaran secara online, katanya. “Pendekatan naif yang hanya sesekali mengompresi jejak sambil menghasilkannya mungkin berhasil, namun hal ini masih harus ditentukan.” Apa artinya ini bagi perusahaan Jendela konteks tumbuh lebih cepat daripada yang dapat ditampung oleh infrastruktur inferensi, dan perusahaan sudah mengeluarkan biaya untuk memperbaikinya. Data survei VB Pulse Q1 tahun 2026 dari 100 lebih organisasi karyawan menunjukkan niat adopsi hybrid retrieval meningkat tiga kali lipat dari 10,3% di bulan Januari menjadi 33,3% di bulan Maret. Pengoptimalan pengambilan mengambil alih evaluasi sebagai prioritas investasi utama pada bulan Maret, dengan menjangkau 28,9% responden yang memenuhi syarat. Tiga hal yang menonjol bagi tim yang mengevaluasi kesesuaian produksi: Inferensi skala biaya dengan panjang konteks. Dengan 1 juta token, inferensi tidak terkompresi dengan metode cache KV standar akan kehabisan memori pada satu GPU H200. Makalah ini melaporkan LCLM pada kompresi 16x tetap berada dalam batas memori pada panjang konteks tersebut. Integrasi saluran pipa RAG memerlukan penyetelan. Tim yang memiliki pipeline RAG perlu memvalidasi perilaku kompresi terhadap metrik kualitas pengambilan sebelum menerapkannya dalam skala besar. Alasan kompresi jejak belum terpecahkan. Bagi agen yang menjalankan rantai penalaran yang panjang, pertumbuhan konteks dari penelusuran merupakan masalah yang terpisah dari pengambilan dokumen. Goldblum mengakui kesenjangan tersebut secara langsung: pendekatan naif kompresi jejak periodik mungkin berhasil namun belum pernah diuji. Model tersedia di huggingface.co/latent-context dan kode di github.com/LeonLixyz/LCLM. “Hal terbesar yang dilakukan arsitektur kami adalah memberikan model Anda akses ke konteks yang jauh lebih besar, namun model tersebut juga membuka pendekatan multiskala di mana model Anda dapat membaca teks atau kode dalam jumlah besar dengan sangat cepat dan kemudian hanya memperbesar dan membaca sebagian kecil teks yang paling berguna.” kata Goldblum.
Diterbitkan : 2026-06-11 17:23:00
sumber : venturebeat.com



