Model memori MeMo memungkinkan tim meningkatkan LLM mereka tanpa melatihnya kembali — dan kinerja melonjak 26%

Memungkinkan LLM memperoleh pengetahuan baru setelah pelatihan tetap menjadi tantangan besar bagi AI perusahaan — solusi yang ada saat ini mungkin terlalu mahal, terlalu lambat, atau terkendala oleh batasan jendela konteks. MeMo, sebuah kerangka kerja dari para peneliti di beberapa universitas, mengkodekan pengetahuan baru ke dalam model memori khusus yang lebih kecil dan beroperasi secara terpisah dari LLM utama. Arsitektur modular bekerja dengan model sumber terbuka dan tertutup serta menghindari kompleksitas saluran RAG dan pelatihan ulang model penuh. Eksperimen menunjukkan bahwa MeMo menangani kueri kompleks dengan andal bahkan ketika saluran pipa pengambilan berisik. Hal ini menghindari bencana lupa yang terkait dengan penyesuaian langsung dan menyediakan jalur hemat biaya untuk pembaruan pengetahuan berkelanjutan. Tantangan memperbarui memori LLM Model bahasa besar dibekukan setelah pelatihan dan pengetahuan internalnya tetap statis hingga model tersebut menjalani pembaruan besar-besaran secara komputasi berikutnya. Perbandingan kerangka memori LLM yang berbeda (sumber: arXiv)Saat ini, pengembang mengandalkan tiga pendekatan utama untuk mengintegrasikan pengetahuan eksternal ke dalam LLM, masing-masing memiliki kelemahan berbeda:Metode non-parametrik, seperti retrieval-augmented generation (RAG) dan pembelajaran dalam konteks, mengambil dokumen yang relevan dari database eksternal dan memasukkannya langsung ke dalam prompt model. Meskipun populer, metode ini dibatasi oleh ukuran jendela konteks. Seperti yang dikatakan Armando Solar-Lezama, salah satu penulis makalah tersebut, kepada VentureBeat, “Basis data vektor memiliki tugas yang sangat sulit dalam menyandikan semantik penuh dari sebuah potongan teks dalam satu vektor, dan kemudian mencocokkan vektor tersebut dengan sebuah kueri, bahkan ketika relevansi dari potongan tersebut… mungkin hanya terlihat dalam konteks potongan lainnya.” Para peneliti mencatat bahwa kesamaan semantik dari penyematan sering kali tidak sesuai dengan apa yang sebenarnya dibutuhkan oleh kueri pengguna. Memproses ribuan token yang diambil juga menimbulkan overhead komputasi dan latensi inferensi yang besar. Yang paling bermasalah, sistem RAG sangat sensitif terhadap kebisingan. Bagian yang tidak relevan atau diambil dengan buruk sering kali menurunkan respons akhir model. Metode parametrik, seperti pelatihan awal yang berkelanjutan atau penyesuaian yang diawasi, berupaya untuk menginternalisasi pengetahuan baru secara langsung ke dalam bobot LLM. Memperbarui LLM yang modern dan masif sangatlah mahal dan biasanya tidak mungkin dilakukan untuk model sumber tertutup dan berpemilik yang tersembunyi di balik API. Penyempurnaan juga rentan menyebabkan bencana lupa. Memaksa model untuk beradaptasi dengan data perusahaan baru sering kali mengikis kemampuan penalaran dan batasan keamanan yang diperoleh sebelumnya. Metode memori laten, seperti kompresi konteks, menawarkan jalan tengah. Mereka memampatkan pengetahuan menjadi “token lunak” atau representasi kompak yang ditambahkan ke konteks model selama inferensi. Cacat fatal di sini adalah “penggandengan representasi”. Memori terkompresi terikat erat pada arsitektur model yang memproduksinya; Anda tidak dapat mentransfer memori laten yang dilatih pada model sumber terbuka ke model sumber tertutup. Cara kerja MeMo Kerangka kerja MeMo (Memori sebagai Model) memperkenalkan arsitektur modular yang menampilkan dua komponen terpisah. Model MEMORY adalah model bahasa kecil yang dilatih secara khusus untuk mengkodekan pengetahuan baru ke dalam parameternya. Model EKSEKUTIF adalah LLM beku yang berfungsi sebagai mesin penalaran. Saat pengguna mengajukan pertanyaan, model EKSEKUTIF memperlakukan model MEMORY sebagai ramalan eksternal, mengeluarkan sub-kueri yang ditargetkan untuk mengumpulkan fakta dan mensintesis fakta tersebut menjadi jawaban akhir. Prinsip desain inti yang mendorong MeMo adalah konsep “refleksi”. Refleksi adalah pasangan tanya jawab (QA) yang ditargetkan yang dirancang untuk menangkap setiap sudut yang mungkin dari korpus pengetahuan. Daripada memaksa AI untuk memproses kumpulan dokumen yang besar dan tidak terstruktur selama pelatihan, MeMo menggunakan model GENERATOR untuk menyaring teks mentah menjadi ribuan pasangan QA yang ditargetkan. Model MEMORY kemudian disempurnakan pada kumpulan data ini untuk menjawab pertanyaan hanya dengan menggunakan pengetahuan parametriknya tanpa perlu membaca konteks yang diambil. Kerangka kerja MeMo (sumber: arXiv)Pada waktu inferensi, interaksi antara kedua model mengikuti protokol tiga tahap yang terstruktur:1. Model EKSEKUTIF menguraikan kueri kompleks pengguna menjadi serangkaian sub-pertanyaan atom. Model MEMORY menjawab masing-masing secara independen untuk menetapkan fakta-fakta dasar.2. Dengan menggunakan petunjuk awal tersebut, model EKSEKUTIF mengeluarkan pertanyaan tindak lanjut untuk mempersempit kandidat entitas hingga entitas tersebut dengan yakin menyatu pada target tertentu. 3. Terakhir, model EKSEKUTIF menanyakan model MEMORY untuk mengetahui fakta pendukung tentang entitas target tersebut dan mensintesis cuplikan yang diambil menjadi jawaban yang kohesif. Arsitektur ini menggabungkan kekuatan dari tiga paradigma memori AI yang ada sambil melewati kelemahannya. Ini memanfaatkan model frontier siap pakai dengan memisahkan penyimpanan memori dari logika, menjamin kompatibilitas dengan model API terbuka dan tertutup. Ini menginternalisasi pengetahuan langsung ke dalam parameter, tetapi mengisolasi pembaruan ke model MEMORY yang lebih kecil dan khusus untuk melindungi mesin penalaran. Terakhir, hal ini menciptakan artefak memori yang dapat dikueri yang tidak terikat dengan model spesifik apa pun dan dapat digunakan dengan kelompok LLM yang berbeda. Menangani pembaruan pengetahuan berkelanjutan Mengelola memori AI memerlukan pembaruan berkelanjutan seiring perubahan kebijakan perusahaan dan laporan baru diterbitkan. Biasanya, memperbarui parameter model memerlukan pelatihan ulang dari awal pada gabungan data lama dan baru. Seiring berkembangnya basis pengetahuan, biaya pelatihan ulang kumulatif ini menjadi tidak dapat dikelola. Untuk menangani pembaruan berkelanjutan secara efisien, MeMo mengandalkan teknik yang disebut “penggabungan model”. Daripada melakukan fase pelatihan ulang bersama secara besar-besaran, MeMo melatih model MEMORY baru yang independen secara eksklusif pada dokumen yang baru ditambahkan. Sistem memperoleh “vektor tugas” yang mewakili perubahan parameter yang dipelajari dari data baru. Pembaruan ini kemudian digabungkan secara matematis ke dalam bobot model MEMORY asli. Pendekatan ini mengurangi jam komputasi yang diperlukan untuk menjaga sistem tetap terkini sekaligus menghindari gangguan yang menyebabkan bencana lupa. Efisiensi ini disertai dengan trade-off: penggabungan model menyebabkan penurunan akurasi sebesar 11% hingga 19% dibandingkan dengan pelatihan ulang penuh, bergantung pada model penalaran yang digunakan. Tindakan MeMo Untuk mengukur efektivitas dunia nyata, tim peneliti mengevaluasi MeMo berdasarkan beberapa tolok ukur industri yang memerlukan penalaran multi-hop yang kompleks di beberapa dokumen. Para peneliti menggunakan Qwen2.5-32B-Instruct sebagai model GENERATOR untuk menyaring teks mentah menjadi refleksi. Untuk model MEMORY utama, mereka menerapkan Qwen2.5-14B-Instruct. Mereka juga memvalidasi pendekatan pada model parameter 1-2B yang lebih kecil di berbagai arsitektur, termasuk Gemma3-1B. Untuk model penalaran EKSEKUTIF, mereka menguji Qwen2.5-32B berbobot terbuka dan Flash Gemini 3 milik Google. Mereka membandingkan MeMo dengan batas atas “Pengambilan Sempurna” (di mana dokumen yang benar dan tepat disediakan secara manual) dan beberapa sistem pengambilan lanjutan, termasuk penelusuran BM25 tradisional, pengambilan vektor padat, dan RAG berbasis grafik yang canggih (HippoRAG2). Mereka juga menguji “Kartrid”, sebuah metode terbaru yang memuat cache KV terlatih ke dalam model selama inferensi. Performa MeMo pada tolok ukur industri dibandingkan dengan baseline lainnya (sumber: arXiv)MeMo mendominasi penalaran dokumen panjang. Pada benchmark NarrativeQA, MeMo mencapai akurasi 53,58% jika dipasangkan dengan Gemini 3 Flash, menurut para peneliti. HippoRAG2 mencapai maksimal 23,21%. Sistem perusahaan sering kali perlu menyatukan jawaban yang kompleks, seperti melintasi kerangka peraturan yang tumpang tindih yang ditulis secara independen oleh badan-badan berbeda, atau mengkonsolidasikan wawasan di seluruh basis kode yang besar dan dokumentasi eksternal. Sistem RAG tradisional gagal di sini karena mencapai batas jendela konteks dan gagal menghubungkan konsep yang mencakup ratusan halaman. MeMo berhasil karena koneksi tersebut dipetakan dan diinternalisasikan ke dalam model MEMORY selama pelatihan. Hal ini “seperti memiliki Malcolm Gladwell Anda sendiri yang dapat menghubungkan kisah The Beatles dengan kisah Bill Gates untuk membuat argumen tentang sifat keahlian,” kata Solar-Lezama. Eksperimen tersebut mengungkapkan keuntungan besar lainnya: meningkatkan mesin penalaran tidak memerlukan pelatihan ulang. Cukup mengalihkan model EKSEKUTIF dari Qwen sumber terbuka ke Gemini 3 Flash yang dipatenkan akan meningkatkan kinerja MeMo sebesar 26,73% pada NarrativeQA dan 11,90% pada benchmark MuSiQue. Bagi praktisi, ini berarti Anda dapat melatih model MEMORY dengan aman pada data pribadi Anda dan langsung menyambungkannya ke API komersial terbaru, terus meningkatkan kecerdasan sistem tanpa menimbulkan biaya pelatihan baru. Tim peneliti menggambarkan integrasi tersebut sebagai tidak memerlukan penyiapan tambahan: “LLM dasar (atau Eksekutif) yang sudah digunakan tim di RAG dapat dikonfigurasi untuk menanyakan model Memori secara langsung. Kueri ini dilakukan dalam bahasa alami, mirip dengan mengirim permintaan pesan ke API, tanpa memerlukan penyiapan tambahan.” MeMo juga menangani data berisik dengan sangat baik. Ketika peneliti sengaja membanjiri kumpulan data dengan dokumen yang tidak relevan (hingga dua kali lipat jumlah informasi berguna), kinerja HippoRAG2 turun sebesar 11,55%. Kinerja MeMo relatif stabil, turun kurang dari 2%. Basis pengetahuan perusahaan biasanya berantakan, penuh dengan dokumen duplikat dan kebijakan yang ketinggalan jaman. Sistem RAG standar berjuang dengan kebisingan ini, memasukkan paragraf yang salah ke dalam prompt dan menyebabkan halusinasi. Karena model EKSEKUTIF MeMo berinteraksi dengan oracle yang disintesis dan bukan potongan dokumen mentah, model ini tetap sangat kuat terhadap data perusahaan yang tidak terorganisir. Keterbatasan dan trade-off Bagi tim teknik yang ingin menerapkan MeMo, ada beberapa batasan utama yang perlu dipertimbangkan. Berbeda dengan sistem RAG tradisional yang dengan cepat mengindeks dokumen mentah ke dalam database vektor, MeMo memerlukan biaya pelatihan di muka untuk setiap korpus baru. Pipeline pembangkitan data yang digunakan untuk mensintesis refleksi pelatihan mahal secara komputasi. Misalnya, tim mencatat bahwa “membuat kumpulan data QA refleksi penuh memerlukan waktu sekitar 240 jam GPU pada NVIDIA H200”, sementara melatih model MEMORY dengan parameter 14B “membutuhkan waktu sekitar 180 jam GPU H200”. Seperti yang dikatakan Solar-Lezama, “Mengurangi biaya pelatihan adalah salah satu masalah penelitian terbuka yang paling signifikan untuk menjadikannya teknik yang sulit dilakukan.” Karena model MEMORY adalah jaringan saraf berukuran tetap, kemampuannya untuk menginternalisasi pengetahuan dibatasi oleh kapasitas representasionalnya. Meskipun para peneliti tidak mencapai batasan yang ketat selama melakukan benchmarking, mereka berhipotesis bahwa “korpora yang cukup besar atau padat informasi akan melebihi apa yang dapat dikompres dan direpresentasikan dengan benar oleh model MEMORY berukuran tetap.” Terakhir, karena MeMo mensintesis jawaban dari memori parametrik daripada mengambil cuplikan teks yang tepat, hal ini mengaburkan sumber informasi. Hal ini mempersulit pengaitan klaim spesifik ke dokumen sumber asli, yang menimbulkan masalah kepatuhan penting untuk aplikasi perusahaan yang memerlukan jalur audit yang ketat. Memutuskan antara MeMo dan RAG tradisional bergantung pada heuristik “pencarian vs. sintesis”, di samping volatilitas data. Para peneliti menyarankan bahwa “RAG tradisional akan lebih disukai ketika jawaban ada dalam satu dokumen atau ketika ada sumber yang jelas… MeMo akan lebih disukai ketika tugas beralih dari pencarian ke mensintesis jawaban dari informasi yang tersebar di beberapa bagian.” Jika kumpulan pengetahuan Anda berubah dengan cepat (misalnya, feed harian) dan Anda memerlukan kutipan sumber yang tepat, RAG tetap menjadi pilihan yang lebih baik karena biaya pelatihan MeMo di muka. Jika korpus Anda terdiri dari pengetahuan domain umum yang berkembang perlahan dibandingkan volumenya, MeMo menawarkan alasan yang jauh lebih unggul. Tim juga dapat mengadopsi arsitektur perutean hibrid dalam produksi: mengirimkan kueri “pencarian” ke database vektor standar dan kueri “sintesis” ke model MEMORY. “Melihat lebih jauh, saya berharap model memori menjadi komponen arsitektur standar bersamaan dengan pengambilan,” Daniela Rus, salah satu penulis makalah dan direktur MIT Computer Science and Artificial Intelligence Lab (CSAIL), mengatakan kepada VentureBeat, “sama seperti caching dan pengindeksan yang merupakan komponen standar dari setiap sistem data serius saat ini.”
Diterbitkan : 2026-05-29 19:28:00
sumber : venturebeat.com



