Para peneliti memperkenalkan Self-Harness, sebuah kerangka kerja yang memungkinkan agen AI menulis ulang aturan mereka sendiri, sehingga meningkatkan kinerja hingga 60%

Tidak semua perusahaan dapat atau harus membangun model bahasa AI frontier mereka sendiri. Namun, pemanfaatan yang mengendalikan model adalah sesuatu yang dapat dan harus disesuaikan oleh sebagian besar perusahaan untuk tujuan spesifik mereka. Tentu saja, hal ini lebih mudah diucapkan daripada dilakukan. Pengikatan agen sebagian besar masih disetel melalui debugging manual dan ad hoc — sebuah proses yang sangat bergantung pada intuisi dibandingkan putaran umpan balik sistematis, sehingga sulit untuk mengimbangi LLM yang berkembang pesat. Untuk mengatasi tantangan ini, para peneliti di Laboratorium Kecerdasan Buatan Shanghai telah memperkenalkan “Self-Harness,” sebuah paradigma baru di mana agen berbasis LLM secara sistematis meningkatkan aturan operasinya sendiri. Dengan memeriksa jejak eksekusinya sendiri untuk menerapkan pengeditan, sistem menukar dugaan manual dengan bukti empiris. Harness yang dapat ditingkatkan secara mandiri dapat memungkinkan tim pengembangan untuk menyebarkan agen kustom yang kuat yang terus mengadaptasi protokol eksekusi mereka sendiri untuk mengatasi kelemahan spesifik model. Tantangan rekayasa harness Kinerja agen berbasis LLM tidak hanya ditentukan oleh model dasar yang mendasarinya, namun juga oleh harnessnya: sistem di sekitarnya yang memberikan konteks dan memungkinkan model untuk berinteraksi dengan lingkungan. Harness mencakup komponen seperti perintah sistem, alat, memori, aturan verifikasi, kebijakan runtime, logika orkestrasi, dan prosedur pemulihan kegagalan. Lapisan ini sangat penting karena banyak kegagalan agen yang umum berasal dari harness, bukan model. Misalnya, agen mungkin melaporkan keberhasilan tanpa memeriksa respons model (misalnya, menjalankan kode untuk melihat apakah kode lolos pengujian), atau mungkin mencoba kembali tindakan yang gagal berulang kali. Harness juga bertanggung jawab untuk mencegah pembusukan konteks atau kelebihan beban ketika riwayat interaksi agen bertambah sangat besar. Contoh dari harness yang populer adalah SWE-agent, Claude Code, Codex, dan OpenHands. Rekayasa harness tetap menjadi tantangan yang signifikan, namun hambatannya bukan berarti manusia terlalu lambat atau tidak mampu. Faktanya, Hangfan Zhang, penulis utama makalah Self-Harness, mengatakan kepada VentureBeat bahwa “dalam banyak kasus, seorang insinyur berpengalaman dengan pengetahuan domain yang mendalam masih dapat mengusulkan perubahan yang lebih baik daripada yang dapat dilakukan oleh LLM saat ini.” “Masalah yang lebih mendalam adalah bahwa paradigma rekayasa harness saat ini sering kali tidak memiliki umpan balik yang sistematis,” jelas Zhang. “Banyak pengeditan dilakukan berdasarkan intuisi, beberapa kegagalan yang diamati, atau proses debug yang bersifat ad hoc.” Dengan dirilisnya model-model baru dalam waktu yang sangat cepat, bergantung pada intuisi manusia untuk secara manual menyetel rangkaian produk khusus model menjadi semakin mahal dan tidak dapat dipertahankan. Meskipun beberapa pendekatan menggunakan model yang lebih kuat untuk meningkatkan pemanfaatan agen target yang lebih lemah, ketergantungan pada panduan eksternal ini memiliki tantangannya sendiri, karena model ini mungkin mahal, tidak tersedia untuk model frontier, atau tidak cocok dengan mode kegagalan model target. Cara Kerja Self-Harness Paradigma Self-Harness memungkinkan agen berbasis LLM untuk meningkatkan pemanfaatannya sendiri tanpa bergantung pada insinyur manusia atau model eksternal yang lebih kuat. Evolusi diri yang berkelanjutan ini didorong oleh putaran berulang tiga tahap yang mengubah bukti perilaku menjadi pembaruan pemanfaatan: penambangan: Dimulai dari pemanfaatan awal, agen menjalankan serangkaian tugas, menghasilkan jejak eksekusi dengan hasil yang dapat diverifikasi. Agen mengkategorikan jejak yang gagal dan mencoba mendeteksi pola kegagalan spesifik model. Proposal Harness: Berdasarkan pola kegagalan ini, agen menggunakan peran “pengusul” untuk menghasilkan serangkaian modifikasi harness yang beragam namun minimal, masing-masing terkait dengan mekanisme kegagalan tertentu untuk menghindari koreksi yang terlalu umum. Validasi proposal: Sistem mengevaluasi kandidat modifikasi melalui uji regresi. Pengeditan dipromosikan hanya jika pengeditan tersebut meningkatkan kinerja tanpa menyebabkan penurunan yang dapat diukur pada tugas-tugas yang ditunda. Jika beberapa kandidat modifikasi lolos uji regresi, mereka akan digabungkan ke dalam versi harness berikutnya, yang kemudian berfungsi sebagai titik awal untuk iterasi berikutnya. Kerangka kerja self-harness (sumber: arXiv) Untuk memvisualisasikan mengapa perusahaan memerlukan ini, bayangkan agen perbaikan masalah otomatis yang membaca dokumentasi internal, menulis patch, dan membuka permintaan penarikan. Jika perusahaan memperbarui gaya dokumentasinya, agen mungkin tiba-tiba gagal, mengambil konteks yang salah, atau menulis patch yang buruk. Di permukaan, agen tersebut terlihat rusak. Namun Self-Harness mengubah kegagalan ambigu ini menjadi masalah yang bisa dipecahkan. “Jejak kegagalan mengungkap di mana agen menyalahgunakan format dokumentasi baru; pengusul dapat menghasilkan pengeditan harness yang ditargetkan… dan evaluator dapat memutuskan apakah pengeditan tersebut memperbaiki kasus yang gagal tanpa membuat kemunduran pada kasus lainnya,” kata Zhang. Self-Harness dalam tindakanPara peneliti mengevaluasi Self-Harness di Terminal-Bench-2.0, sebuah tolok ukur yang menguji eksekusi berbasis alat umum, termasuk manajemen artefak, penggunaan perintah, perilaku verifikasi, dan pemulihan dari kesalahan eksekusi. Mereka menerapkan Self-Harness dengan MiniMax M2.5, Qwen3.5-35B-A3B, dan GLM-5. Untuk mengisolasi dampak dari self-evolving harness, mereka memulai dengan harness minimal yang dibangun di atas DeepAgent SDK, yang hanya berisi prompt sistem yang menghadap benchmark, dan sistem file default serta alat shell. Backend model, kumpulan alat, lingkungan tolok ukur, dan evaluator tidak diubah, sementara hanya harness yang diizinkan untuk bervariasi. Hasil kuantitatif menunjukkan bahwa agen meningkatkan kinerja mereka melalui pengeditan harness otomatis. Pada tugas-tugas yang ditunda, kinerja melonjak secara signifikan, berkisar antara 33 hingga 60 persen peningkatan relatif untuk model yang berbeda. Self-harness memungkinkan agen untuk meningkatkan kode mereka sendiri dan menyesuaikannya dengan model yang mendasarinya (sumber: arXiv) Yang penting, aturan penerimaan eksplisit hanya mendukung pengeditan yang meningkatkan kinerja tanpa menimbulkan regresi yang tidak dapat diterima. Apa yang membuat Self-Harness ampuh untuk aplikasi perusahaan adalah ia tidak hanya membuat perintah menjadi lebih panjang atau menambahkan instruksi umum. Sebaliknya, ini memperkenalkan perubahan yang ditargetkan yang mencerminkan masalah berulang yang dihadapi setiap model selama eksekusi. Misalnya, di bawah baseline harness, MiniMax M2.5 akan terjebak tanpa henti dalam mengeksplorasi konfigurasi set data hingga lingkungan eksekusi habis waktunya, sehingga gagal menghasilkan hasil apa pun. Melalui Self-Harness, sistem mengidentifikasi kelemahan spesifik ini dan menulis “loop breaker” ke dalam kebijakan runtime, memaksa agen untuk menghentikan dan mengalihkan pendekatannya setelah 50 panggilan alat. Itu juga menambahkan aturan untuk membuat versi awal artefak yang diperlukan sedini mungkin. Di sisi lain, Qwen-3.5 memiliki kebiasaan mengalami kesalahan penimpaan file dan kemudian mencoba lagi perintah yang sama secara membabi buta berulang kali, akhirnya menghapus file yang diperlukan karena kebingungan sebelum berhenti. Self-harness memperbaikinya dengan memperkenalkan disiplin perintah-coba ulang yang ketat (melarang perintah duplikat yang sama persis) dan mekanisme yang memaksa agen untuk segera membuat ulang artefak yang hilang jika terjadi kesalahan file. GLM-5 kesulitan mempertahankan perubahan lingkungan di berbagai perintah, dan sering kali membuang waktu untuk mengunduh secara besar-besaran atau menyelesaikan tugas bahkan ketika pemeriksaan kewarasan gagal. Harness yang dihasilkan sendiri memperkenalkan aturan yang menginstruksikan agen untuk mempertahankan variabel PATH di seluruh sesi shell, membatasi komputasi eksternal, dan memperbaiki pemeriksaan kewarasan yang gagal sebelum menyelesaikan pengoperasiannya. Biaya tersembunyi dari harness otomatis Meskipun Self-Harness mengotomatiskan pekerjaan yang membosankan dalam melacak kegagalan model yang unik, pengambil keputusan harus realistis mengenai trade-off. Mengganti rekayasa manusia dengan uji coba otomatis memerlukan overhead komputasi yang signifikan. “Self-Harness menggantikan sebagian beban rekayasa manusia dengan pembuatan proposal berulang, evaluasi kandidat paralel, dan pengujian regresi,” kata Zhang. “Hal ini berarti lebih banyak token API, lebih banyak latensi selama pengoptimalan, dan lebih banyak infrastruktur untuk menjalankan tugas evaluasi.” Selain itu, sistem ini bergantung pada keakuratan jalur evaluasinya. Selama percobaan mereka di Terminal-Bench-2.0, para peneliti mengandalkan verifikasi deterministik yang ketat untuk memastikan hasil edit yang dilakukan agen benar-benar bermanfaat. Tanpa kebenaran mendasar yang tepat ini, sistem otomatis berisiko menghasilkan pembaruan yang buruk. “Sistem evaluasi bukanlah komponen opsional; sistem ini memungkinkan kita menukar intuisi manusia dengan bukti empiris,” kata Zhang. Ketergantungan pada verifikasi yang ketat juga menentukan di mana Self-Harness harus diterapkan. “Target penerapan terbaik saat ini adalah lingkungan di mana kegagalan dapat diukur dan di mana uji coba relatif aman,” kata Zhang, sambil menunjuk pada pengkodean, otomatisasi alur kerja internal, dan saluran data DevOps sebagai kasus penggunaan yang ideal. Sebaliknya, perusahaan harus menghindari otomatisasi pemanfaatan sepenuhnya dalam bidang yang berisiko tinggi atau subjektif. “Tanda bahaya yang paling jelas adalah bidang-bidang yang evaluasinya bersifat subjektif, tertunda, non-deterministik, atau menimbulkan kesalahan yang merugikan, seperti pengambilan keputusan medis, infrastruktur yang penting bagi keselamatan, atau keputusan hukum.” Kualitas kolaborasi antara insinyur manusia dan AI masih sangat penting dan sulit dicapai dengan tolok ukur otomatis. Sebaliknya, profesi teknik naik ke lapisan abstraksi. “Peran insinyur perusahaan akan beralih dari melakukan patching secara manual terhadap perintah individu atau panggilan alat ke arah merancang sistem umpan balik yang memungkinkan peningkatan agen,” prediksi Zhang. Ke depan, “insinyur menjadi tidak terlalu cepat berubah dan lebih menjadi arsitek umpan balik.” Seiring dengan semakin mumpuninya model dasar, model tersebut secara alami akan menyerap banyak kemampuan yang saat ini memerlukan rekayasa harness manual. “Tetapi ketika hal ini terjadi, manfaatnya tidak akan hilang; ruang lingkupnya akan diperluas untuk menghubungkan model ini dengan lingkungan eksternal yang lebih kaya,” kata Zhang. “Sampai batasan tersebut melampaui apa yang dapat dievaluasi oleh manusia, manusia akan tetap menjadi penyedia umpan balik yang penting.”
Diterbitkan : 2026-06-22 14:23:00
sumber : venturebeat.com



