DeLM Stanford memangkas biaya tugas multi-agen sebesar 50% — tanpa orkestrator pusat

Salah satu asumsi di balik kerangka kerja AI saat ini adalah bahwa agen memerlukan “bos” sebagai pusatnya; orkestrator ini menjalankan pertunjukan, mengarahkan permintaan, dan memastikan seluruh sistem tidak mengalami kekacauan. Asumsi tersebut mungkin salah, dan biaya untuk melaksanakannya dapat diukur dalam dolar inferensi dan latensi koordinasi. Kerangka kerja Stanford baru yang disebut model bahasa terdesentralisasi, atau DeLM, dibangun dengan premis bahwa agen dapat berkoordinasi secara langsung, tanpa mengarahkan setiap pembaruan melalui pengontrol pusat. Basis pengetahuan bersama DeLM berfungsi sebagai “substrat komunikasi umum” sehingga agen dapat membangun kemajuan terverifikasi satu sama lain tanpa harus mengarahkan setiap interaksi melalui agen utama untuk “menggabungkan, memfilter, dan menyiarkan ulang,” Yuzhen Mao dan Azalia Mirhoseini, salah satu pengembang kerangka kerja tersebut, menjelaskan dalam makalah penelitian. Ini adalah sistem yang tidak hanya mungkin, namun juga diinginkan dalam kondisi tertentu. “Agen dapat mengembangkan temuan sebelumnya, menghindari kegagalan berulang, menjaga kendala, dan memulihkan bukti terperinci hanya jika diperlukan.” Tantangan sistem multi-agen tradisional Dalam sistem multi-agen terpusat, agen utama membagi tugas menjadi beberapa subtugas, menugaskannya ke beberapa sub-agen secara paralel, menunggu respons, menggabungkan dan merangkum kemajuan perantara, lalu meluncurkan gelombang pesanan berikutnya berdasarkan konteks yang dikumpulkan. Meskipun ini adalah cara alami untuk menskalakan penalaran LLM, para peneliti Stanford berpendapat bahwa skalanya buruk. Setiap temuan berguna, temuan parsial, dan kegagalan harus dilaporkan kembali ke agen utama, yang kemudian menentukan informasi apa yang akan digabungkan dan disiarkan ulang ke agen di bawahnya. “Seiring bertambahnya jumlah subtugas, pengontrol ini menjadi hambatan komunikasi dan integrasi,” tulis Mao dan Mirhoseini. Lebih jauh lagi, orkestrator utama mungkin “mencairkan, menghilangkan, atau mendistorsi” informasi yang berguna, sehingga menyebabkan hilangnya kemajuan. Kemacetan ini juga terjadi dalam skenario penalaran konteks panjang. Setelah menerima laporan kembali dari subagen, agen utama biasanya akan mengelompokkan konsep terkait, titik data, dan materi lainnya bersama-sama dalam putaran pembelajaran tanpa pengawasan. Mereka kemudian dapat menugaskan ‘kelompok bukti’ ini ke sub-agen sebelum mengetahui materi apa yang benar-benar relevan atau apakah materi tersebut digabungkan dengan benar. Ketika subagen menerima konteks yang tidak mencukupi ini, subagen akan menjadi bingung dan kembali ke agen utama, memulai putaran pengambilan atau delegasi lainnya. “Hal ini membuat koordinasi menjadi lebih lambat, lebih berulang, dan semakin dibatasi oleh satu agen utama yang kelebihan beban,” tulis para peneliti. Transformasi VB · 14–15 Juli · Menlo Park · Orkestrasi agen Intuit membangun kembali sistem multi-agennya dalam 60 hari. Apa yang mereka ubah – dan mengapa? Di Transform, para pemimpin teknik dari Intuit, Target, dan Instacart menguraikan cara mereka mendesain ulang arsitektur orkestrasi untuk keandalan, skala, dan pelanggan nyata. Lihat agenda selengkapnya → Alamat DeLM dan cara kerjanyaDeLM, sebaliknya, dibangun berdasarkan agen paralel, konteks bersama, dan antrian tugas. Konteks bersama pada dasarnya adalah kumpulan “inti” atau ringkasan informasi yang mungkin berguna bagi agen lain. Hal ini mencakup temuan yang terverifikasi dan berdasarkan bukti serta temuan parsial dan kegagalan yang terdokumentasi; mereka juga menunjukkan bukti terperinci yang dapat diambil oleh agen berdasarkan tugas spesifik mereka. Antrean tugas kemudian merupakan serangkaian subtugas tertunda berikutnya yang dapat diklaim oleh agen secara independen. “Agen menulis pembaruan yang ringkas dan terverifikasi ke dalam konteks bersama yang nantinya dapat dibaca langsung oleh agen,” tulis para peneliti. Temuan-temuan yang berguna, kegagalan-kegagalan, dan kendala-kendala diakumulasikan sebagai “keadaan permasalahan bersama,” dan bukan melewati sebuah pengontrol pusat. Alurnya terlihat seperti ini: Inisialisasi: Input dipecah menjadi beberapa unit kerja yang berbeda dan ditambahkan ke dalam antrian; Eksekusi paralel: Agen bekerja secara mandiri dan bersama-sama, melakukan tugas dan membaca konteks bersama seiring kemajuannya. Kompresi dan verifikasi: Hasil dikompres menjadi “inti” yang dapat digunakan kembali dan diperiksa berdasarkan bukti pendukung. Hanya intisari yang terverifikasi sepenuhnya yang dibagikan ke grup. Pekerjaan tambahan (jika diperlukan): Ketika antrian dikosongkan, agen terakhir yang mengembalikan jawaban akan memeriksa semua konteks bersama untuk menentukan apakah pekerjaan lebih lanjut diperlukan. Langkah terakhir: Agen terakhir menentukan bahwa tidak diperlukan langkah lagi dan mengembalikan jawaban akhir. Agen “menukar kemajuan melalui status bersama, mengklaim tugas yang sudah siap secara asinkron, dan melakukan penskalaan yang lebih adaptif seiring bertambahnya jumlah subtugas,” jelas para peneliti. Bagaimana kinerja DeLM di alam liarDengan DeLM, agen dapat menghindari eksplorasi yang berlebihan; menggunakan kembali dan membangun penemuan dan kegagalan masing-masing; dan fokus pada masalah yang belum terselesaikan. Kerangka kerja ini dapat sangat berguna dalam penskalaan waktu pengujian rekayasa perangkat lunak, ketika model diberi waktu untuk “berpikir” guna meningkatkan penalaran dan kemampuan pemecahan masalah. Agen yang berbeda dapat mengeksplorasi hipotesis mereka sendiri atau mengikuti jalur penalaran secara paralel, sambil tetap berbagi kemajuan antara. Salah satu contohnya adalah debug secara bersamaan. DeLM juga cocok untuk penalaran konteks panjang dan menjawab pertanyaan multi-dokumen; agen dapat secara bersamaan memeriksa kelompok bukti mereka sendiri (kumpulan makalah, kode, atau materi lainnya) pada saat yang sama, sambil mempertahankan “pandangan kompak global” atas akumulasi bukti. Para peneliti berpendapat bahwa hal ini membuat tugas agen menjadi lebih akurat dan jauh lebih murah. Hal ini didukung oleh kinerjanya pada tolok ukur dunia nyata: Di SWE-bench Verified — yang mengevaluasi seberapa baik model dan agen AI memecahkan masalah rekayasa perangkat lunak di dunia nyata — kinerjanya 10,5% lebih baik dibandingkan baseline terkuat dan mengurangi biaya per tugas sekitar 50%. Namun hal ini bisa lebih dari sekadar pengkodean: Pada LongBench‑v2 Multi‑Doc QA — yang menilai kemampuan LLM untuk menangani masalah dunia nyata dalam konteks panjang — DeLM memiliki akurasi tertinggi di empat rangkaian model, termasuk GPT‑5.4, Claude Sonnet, Gemini Flash, dan DeepSeek‑V4‑Pro. DeLM mengungguli model lain di SWE-Bench karena sejumlah alasan, seperti yang dirinci Mao di X. Pertama, para agen berbagi kegagalan. Dalam proses paralel biasa, ketika salah satu agen mengikuti jalur yang salah, kegagalan tersebut tetap bersifat pribadi, dan agen berikutnya mungkin membuang-buang waktu (dan uang) untuk mengejar jalan buntu yang sama. Namun dengan DeLM, hipotesis yang gagal ditulis ke dalam konteks bersama. “Agen-agen selanjutnya dapat menganggapnya sebagai kendala, menghindari eksplorasi berulang, dan mengarahkan pencarian mereka ke arah perbaikan yang lebih menjanjikan,” kata Mao. Selain itu, batasan, setelah diverifikasi, segera ditambahkan ke konteks bersama agen. Artinya mereka menjadi negara bersama yang mengikat. “Agen-agen selanjutnya mewarisi hal-hal tersebut, mengembangkannya, dan menghindari pengulangan penyederhanaan yang tidak valid secara global,” kata Mao. Yang terpenting, DeLM menjaga kemajuan yang dibagikan cukup ringkas untuk digunakan kembali. Hal ini tidak dapat diungkapkan, artinya agen melihat intisari singkat secara default, namun dapat memilih untuk menguraikannya menjadi ringkasan yang lebih rinci dan bukti mentah. Sebagaimana dicatat oleh para peneliti, menyediakan semua dokumen dan jejak mentah akan memberikan agen informasi dalam jumlah maksimum, namun hal ini dapat membebani jendela konteks mereka dan pada akhirnya meningkatkan biaya. “Jika agen membagikan jejak lengkapnya, setiap pekerja perlu membaca riwayat perintah yang panjang, file dump, pengeditan yang gagal, dan penalaran yang tidak jelas, menjadikan koordinasi itu sendiri menjadi hambatan dalam konteks yang panjang,” kata Mao. Di sisi lain, meskipun berbagi ringkasan ringkas lebih murah, rincian dan bukti penting bisa hilang, sehingga menghasilkan alasan yang kurang dapat diandalkan. Oleh karena itu, Unfolding memberikan akses keikutsertaan “kasar hingga halus”. Hal ini dapat meningkatkan akurasi dan biaya. Pada akhirnya, dengan kerangka kerja seperti DeLM, agen dapat lebih efisien karena mereka dicegah untuk berulang kali membaca dokumen yang sama atau menjalankan kembali analisis gagal yang sama; lebih efektif karena temuan-temuan yang bermanfaat disebarkan ke seluruh alur paralel; dan lebih kuat karena mereka hanya membagikan klaim yang terverifikasi. Bagi para pembangun perusahaan, DeLM menantang asumsi inti: bahwa setiap alur kerja multi-agen memerlukan pengontrol pusat. Hasil SWE-bench dan LongBench-v2 menunjukkan bahwa model desentralisasi tidak hanya secara teoritis lebih bersih — namun juga lebih cepat, lebih akurat, dan kira-kira separuh biayanya.
Diterbitkan : 2026-06-16 17:47:00
sumber : venturebeat.com



