Kerangka kerja pengoptimalan AI baru mengalahkan Claude Code dan Codex sebesar 2,5x pada anggaran komputasi yang sama


Bayangkan tim teknik Anda baru saja mengerahkan agen AI untuk menelusuri dokumen internal perusahaan dan menjawab pertanyaan karyawan. Ia bekerja dengan sempurna dalam pengembangan, namun dalam produksi, ia secara konsisten berhalusinasi atau melewatkan batasan utama. Memperbaiki masalah ini jarang sekali merupakan perbaikan yang sederhana. Hal ini memerlukan proses trial-and-error yang membosankan dalam mengubah strategi chunking, metode pengambilan, dan perintah sistem secara bersamaan. Karena penyesuaian ini saling terkait, hampir tidak mungkin untuk menentukan penyesuaian mana yang benar-benar memecahkan masalah. Untuk mengatasi tantangan ini, para peneliti di Renmin University of China dan Microsoft Research memperkenalkan Arbor, sebuah kerangka kerja yang meningkatkan penelitian dan optimalisasi berbasis AI dari serangkaian tebakan coba-coba menjadi proses pembelajaran kumulatif. Arbor mengatur hipotesis, eksperimen, dan wawasan ke dalam sebuah pohon yang membantu sistem belajar dari kegagalan sebelumnya untuk membuat perbaikan yang lebih cerdas dan terverifikasi dari waktu ke waktu. Dalam pengujian praktis, Arbor menghasilkan lebih dari 2,5 kali peningkatan kinerja yang dapat diverifikasi dari agen pengkodean AI standar di seluruh tugas teknik dunia nyata sambil beroperasi dengan anggaran sumber daya yang sama. Untuk AI perusahaan, teknik ini secara langsung berarti mengotomatisasi perbaikan berkelanjutan dari sistem rekayasa dunia nyata yang kompleks. Memahami hambatan dalam optimasi otonom Ketika model bahasa besar dan sistem AI menjadi lebih mampu, mereka diharapkan untuk melakukan operasi yang lebih kompleks seperti optimasi otonom (AO) pada sistem perangkat lunak seperti memanfaatkan agen atau algoritma pelatihan model. AO menangkap lingkaran mendasar dari penelitian otonom. Agen AI memulai dengan artefak awal yang dapat diubah, seperti basis kode pembelajaran mesin atau saluran data, dan tujuan tertentu. Tujuan agen adalah untuk meningkatkan artefak ini secara berulang melalui umpan balik eksperimental tanpa pengawasan manusia selangkah demi selangkah. Tantangan utama AO sering kali disalahpahami. Banyak tim teknik menemukan bahwa memberikan lebih banyak waktu atau komputasi kepada agen pengkode untuk mengoptimalkan basis kode tidak akan memberikan hasil yang lebih baik. “Otomasi dapat membuat AI tetap bekerja untuk waktu yang sangat lama – namun loop tidak sama dengan kemajuan,” kata Jiajie Jin, salah satu penulis makalah tersebut, kepada VentureBeat. “Jika tujuannya tidak jelas, atau metriknya mudah diretas, otomatisasi yang berjalan lama sering kali hanya menghasilkan ‘perbaikan’ lebih cepat yang tidak diinginkan oleh siapa pun.” Jin menjelaskan bahwa tugas kompleks memerlukan banyak upaya untuk memperbaikinya, dan arsitektur agen standar tidak memiliki struktur data penting untuk mempertahankan status. “Bagaimana Anda memastikan wawasan dan pengalaman dari setiap upaya benar-benar terakumulasi, dan bukannya hilang dalam buffer scrollback?” katanya. Tanpa struktur ini, agen akan mengulangi kesalahan yang sama. Sistem agen saat ini dapat menjalankan eksperimen selama berjam-jam terhadap tujuan yang telah ditentukan dengan baik: mengedit kode, memanggil alat, menjalankan pengujian secara mandiri. Namun mereka memperlakukan setiap upaya secara terpisah, kehilangan mekanisme struktural yang memungkinkan upaya tersebut terakumulasi dan bertindak berdasarkan apa yang telah mereka pelajari. Mereka tidak memiliki kapasitas untuk secara bersamaan mempertahankan dan membandingkan berbagai arah penelitian yang bersaing. Tanpa hal ini, mereka tidak dapat menafsirkan keberhasilan dan kegagalan untuk membentuk kembali eksplorasi masa depan mereka, yang merupakan mekanisme inti yang menjadikan penelitian manusia bersifat kumulatif. Agen pengkodean umum biasanya mengandalkan transkrip percakapan untuk ingatan mereka. Karena tugas AO mencakup ratusan putaran dan dengan mudah melampaui batas jendela konteks, agen-agen ini kesulitan untuk melestarikan dan menggunakan kembali bukti faktual dalam sejarah yang panjang. Akibatnya, mereka kehilangan struktur menyeluruh dari proses penelitian dan cenderung terhenti pada kegagalan awal atau mengejar perubahan evaluasi yang bising. Sistem ini memerlukan memori terstruktur dan tahan lama yang mencatat arah apa yang telah dicoba, bukti faktual apa yang dihasilkan, dan bagaimana setiap hasil mengubah ruang hipotesis di masa depan. Kerangka kerja yang ada juga rentan terhadap peretasan dan penyesuaian yang berlebihan terhadap metrik pembangunan. Hal ini membuat mereka menciptakan ilusi kemajuan tanpa menghasilkan peningkatan yang dapat ditransfer ke kinerja dunia nyata. Terakhir, agen pengkodean tujuan umum biasanya merangkai panggilan alat mereka pada satu pohon kerja bersama. Keterbatasan arsitektur ini mencegah mereka menguji hipotesis paralel di lingkungan yang terisolasi tanpa merusak basis kode utama atau mengaburkan hipotesis mana yang menyebabkan hasil tertentu. Kerangka kerja ArborArbor memecahkan tantangan AO dengan kerangka kerja yang mengotomatiskan putaran cakrawala panjang eksplorasi, eksperimen, dan abstraksi yang menjadi ciri penelitian manusia. Arbor memisahkan arah strategis penelitian dari tugas pengkodean tingkat dasar dengan dua komponen utama: Koordinator: Agen AI berumur panjang yang bertindak seperti penyelidik utama. Itu tidak pernah secara langsung mengedit basis kode target. Sebaliknya, ia memiliki keadaan umum penelitian pengoptimalan, mengamati akumulasi bukti, menghasilkan hipotesis dan arahan baru untuk dieksplorasi, dan memutuskan apa yang harus dilakukan dengan hasil eksperimen. Pelaksana: Agen AI yang berumur pendek dan sangat fokus. Ketika koordinator ingin menguji sebuah ide, ia akan memutar eksekutor dan menempatkannya di lingkungan yang terisolasi, yang pada dasarnya merupakan pohon kerja git yang baru. Setiap pelaksana diberikan satu hipotesis. Ini mengimplementasikan ide yang ditugaskan, menjalankan evaluasi, men-debug kesalahan, dan melaporkan kembali ke koordinator dengan hasil dan artefak yang dibuat. Kerangka kerja arbor dengan penyempurnaan pohon hipotesis (HTR) (sumber: arXiv) Kedua komponen ini berkolaborasi melalui mekanisme yang disebut peneliti sebagai “Penyempurnaan Pohon Hipotesis” (HTR). HTR merepresentasikan seluruh proses penelitian sebagai sebuah pohon yang bercabang dan persisten, di mana setiap simpul mengikat empat hal: hipotesis, artefak yang dapat dijalankan, bukti faktual yang dihasilkan, dan wawasan yang disaring. Ini berarti koordinator dapat mengeksplorasi berbagai arah yang bersaing pada saat yang sama tanpa kehilangan tempatnya. Koordinator membangun pohon dengan menempatkan ide-ide luas di dekat akar, sementara perbaikan konkret bercabang menjadi daun. Hal ini memungkinkan Arbor untuk dengan aman mengeksplorasi beberapa hipotesis yang bersaing secara bersamaan. Jika eksperimen eksekutor gagal, pohon mencatat alasan kegagalannya sebagai batasan negatif, sehingga memastikan sistem tidak mengulangi kesalahan yang sama tanpa henti. Untuk memahami mengapa isolasi Arbor penting, pertimbangkan skenario umum perusahaan: mengoptimalkan pipeline Retrieval-Augmented Generation (RAG) untuk asisten AI internal. “Saat Anda meminta agen tunggal seperti Claude Code atau Codex untuk ‘meningkatkan akurasi’, biasanya hal tersebut akan mengubah banyak hal dalam satu proses — pemotongan, prompt, metode pengambilan,” kata Jin. Hal ini melibatkan perubahan, sehingga tidak mungkin untuk menentukan mana yang benar-benar membantu. Itu juga secara langsung memutasi repositori tanpa isolasi. Arbour memecahkan masalah ini dengan memperlakukan setiap tuas sebagai hipotesis terpisah. Pemotongan menjadi satu cabang, pengambilan cabang lainnya, dan prompt menjadi cabang lainnya — masing-masing diimplementasikan dan dievaluasi dalam pohon kerja gitnya yang terisolasi. “Jadi, Anda mendapatkan atribusi yang bersih: ‘dekomposisi batasan pada sisi pengambilan menghasilkan +X; penelusuran luas-pertama benar-benar merugikan,'” kata Jin. Saat pelaksana mengembalikan laporan, koordinator menulis bukti ke pohon dan menyebarkan wawasan ke atas ke simpul induk. Artinya, pengamatan lokal menjadi kendala umum yang membentuk pemikiran koordinator di masa depan. Untuk mencegah peretasan hadiah atau penyesuaian yang berlebihan pada data pengembangan, HTR menerapkan “gerbang penggabungan” yang ketat. Bahkan jika seorang pelaksana melaporkan skor pengembangan yang fantastis, koordinator akan membuat pohon kerja yang terisolasi untuk menguji kandidat tersebut terhadap evaluator tes yang sudah ada. Artefak hanya digabungkan ke dalam bagasi terbaik saat ini jika terbukti meningkatkan skor tes, memverifikasi bahwa kemajuannya nyata. Arbor umumnya berada di bawah konsep “rekayasa loop”, yang dipopulerkan oleh tokoh industri seperti pencipta OpenClaw Peter Steinberger dan pimpinan Claude Code Boris Cherny. Idenya adalah untuk melampaui permintaan tunggal untuk merancang siklus berulang (mengamati, menalar, bertindak, memverifikasi) yang menggerakkan agen otonom. Namun, seperti yang dikatakan Jin, “Suatu lingkaran dapat diisi dengan upaya-upaya yang berantakan dan tidak dapat dilacak, dan Anda tidak akan mendapatkan apa pun untuk ditunjukkan dan tidak ada cara untuk merekonstruksi apa yang telah berubah.” Arbor beraksiPara peneliti mengevaluasi Arbor pada rangkaian tugas pengoptimalan otonom yang dibangun dari pengaturan penelitian dunia nyata dan tolok ukur teknik pembelajaran mesin MLE-Bench Lite. Rangkaian AO menampilkan tugas-tugas dari berbagai bidang pengembangan AI, termasuk pelatihan model, rekayasa harness, dan sintesis data. Para peneliti menggunakan model tulang punggung yang berbeda untuk koordinator dan agen pelaksana, termasuk Claude Opus 4.6, GPT-5.5, dan Gemini-3-Flash. Mereka menguji Arbour melawan agen coding terkuat, Codex dan Claude Code. Arbour dan baseline diberi sumber daya yang sama. Untuk tugas MLE-Bench Lite, Arbor juga dibandingkan dengan sistem penelitian agen tingkat atas seperti AI-Scientist, ML-Master, dan AIDE. Arbor secara konsisten mengungguli kinerja dasar. Ini mencapai hasil tes terbaik pada semua tugas, mencapai lebih dari 2,5 kali lipat perolehan relatif rata-rata Codex dan Claude Code. Pada tugas BrowserComp, yang melibatkan pengoptimalan agen pencarian, Arbor meningkatkan akurasi sistem dari garis dasar 45,33% menjadi 67,67%. Sedangkan Codex dan Claude Code terhenti masing-masing di level 50% dan 53,33%. Pada MLE-Bench Lite, ketika dilengkapi dengan GPT-5.5, Arbor mencapai hasil terkuat di antara semua sistem yang dijadikan tolok ukur. Arbor melakukan generalisasi pada seluruh model backbone dan harness (sumber: arXiv) Arbor terbukti tahan terhadap overfitting. Misalnya, selama eksperimen tugas Terminal-Bench 2.0, Claude Code mencapai skor pengembangan yang tinggi yaitu 75 namun skornya turun menjadi 71 pada data yang disimpan. Arbor memiliki skor pengembangan yang lebih rendah yaitu 72,22 tetapi mencapai skor tertinggi yang pernah ada yaitu 77,36, memastikan hasilnya ditransfer ke aplikasi dunia nyata. Arbor juga menunjukkan generalisasi dalam eksperimen transfer lintas tugas. Setelah Arbor selesai mengoptimalkan pemanfaatan pencarian untuk tugas BrowserComp, peneliti mengambil basis kode yang dioptimalkan dan mengujinya pada dua tugas agen pencarian yang tidak terkait, HLE dan DeepSearchQA. Basis kode Arbor yang dioptimalkan juga secara signifikan meningkatkan kinerja pada tugas-tugas yang tidak terlihat tersebut. Menerapkan Arbor: Sweet spot dan biaya tersembunyi Bagi pimpinan teknik yang ingin memasukkan Arbor ke dalam tumpukan teknologi yang ada, kerangka kerja ini dirancang untuk berada di atas alur kerja Git yang ada, bukan menggantikannya. “Outputnya adalah cabang git biasa yang dapat diperiksa secara langsung oleh tinjauan kode, CI, dan tinjauan manusia Anda,” kata Jin. Hanya perolehan terverifikasi yang digabungkan ke dalam trunk per proses, sehingga repositori utama tidak tersentuh hingga pengembang secara manual memilih untuk mempromosikan kodenya. Namun, penerapan Arbor memiliki konsekuensi tertentu. Jin menunjukkan bahwa hambatan terbesar adalah biaya token, karena mempertahankan koordinator berumur panjang yang terus-menerus mengelola pohon dan mengirimkan eksekutor adalah biaya yang dominan. Menjalankan beberapa pohon kerja terisolasi secara bersamaan juga memerlukan sumber daya komputasi dan disk asli untuk memproses eksperimen nyata. Jadi, di manakah titik terbaik Arbor? Menurut Jin, ia unggul dalam tugas-tugas dengan metrik yang jelas dan dapat dipercaya, toleransi untuk jangka waktu yang lama, dan ruang pencarian nyata dengan beberapa arah yang masuk akal, seperti pengoptimalan saluran, kualitas sintesis data, dan penyetelan resep pelatihan model. Sebaliknya, tim harus secara eksplisit menghindari penggunaan Arbor untuk tugas latensi real-time, perbaikan satu baris yang jelas, atau ketika metrik evaluasi yang mendasarinya memiliki kelemahan. Batasan kualitas keseluruhan proses dibatasi secara ketat oleh kualitas evaluator. “Jika metriknya tidak dapat dipercaya, Arbor hanya akan mengoptimalkan hasil yang tidak dapat dipercaya dengan lebih cepat,” kata Jin. Jin melihat evolusi berikutnya melampaui metrik skalar tunggal. “Evolusi alaminya adalah membuat setiap artefak node membawa vektor – akurasi, latensi, biaya – alih-alih skor tunggal,” kata Jin. “Beralih dari pencarian skalar tunggal ke pencarian Pareto multi-objektif adalah perluasan kerangka kerja yang sangat alami.”


Diterbitkan : 2026-06-18 18:13:00

sumber : venturebeat.com