Para peneliti melatih agen pencarian AI sumber terbuka, Harness-1, yang kinerjanya mengungguli GPT-5.4 dalam mengingat informasi yang relevan


Kolaborasi penelitian bersama antara para peneliti di University of Illinois di Urbana-Champaign (UIUC), UC Berkeley, dan platform database vektor asli AI open source Chroma meluncurkan Harness-1, agen pencarian sumber terbuka dengan parameter 20 miliar yang dibangun di atas model sumber terbuka gpt-oss-20B OpenAI yang secara mendasar mendesain ulang cara AI menjalankan tugas pengambilan yang kompleks. Harness-1 mencapai lompatan besar dalam performa, dengan skor rata-rata 73% pada kemampuannya mengingat informasi relevan dengan benar dari kumpulan data yang dikurasi, bahkan mengungguli GPT-5.4 (70,9%) dan agen penelusuran sumber terbuka paling akurat berikutnya, Tongyi DeepResearch 30B, sebesar 11,4 poin persentase. (Meskipun GPT-5.5 juga telah diluncurkan selama lebih dari sebulan, para peneliti tidak melakukan pengujian terhadap model ini karena model tersebut tidak tersedia saat mereka membuat model mereka.) Performa tolok ukur akurasi Harness-1 dibandingkan dengan agen dan model penelusuran AI terkemuka lainnya. Kredit: University of Illinois di Urbana-Champaign, UC Berkeley, ChromaYang penting bagi pengembang, model dan lingkungannya segera tersedia di bawah lisensi Apache 2.0 yang sangat permisif dan kode model/bobot pada Hugging Face. Harness-1 juga berfungsi sebagai bukti kemanjuran upaya lain, Tinker, pelatihan model AI berbasis web yang terdistribusi dan API penyempurnaan yang dikembangkan oleh Thinking Machines. Tinker digunakan secara khusus untuk melatih dan menjalankan inferensi untuk Harness-1, menyoroti bagaimana infrastruktur interaktif secara aktif memungkinkan model otonom generasi berikutnya. Jadi, bagaimana para peneliti melakukannya?Benchmarks Decoded (dan Mengapa Harness-1 Dapat Sangat Membantu Perusahaan) Untuk benar-benar menguji model ini, para peneliti mengevaluasi Harness-1 dan pesaingnya berdasarkan delapan tolok ukur pencarian yang sangat kompleks. Daripada menanyakan pertanyaan-pertanyaan sepele yang sederhana, pengujian ini mengharuskan AI untuk bertindak seperti peneliti sungguhan yang memilah-milah sumber data yang beragam dan padat. Tolok ukurnya mencakup beberapa domain berbeda, termasuk penelusuran web terbuka, pengajuan keuangan kompleks dari SEC, basis data paten teknis dari USPTO, dan tugas menjawab pertanyaan “multi-hop” di mana AI harus secara logis mengumpulkan petunjuk yang tersebar dari berbagai dokumen berbeda untuk sampai pada jawaban yang benar. Ketika hasilnya keluar, Harness-1 mendominasi kompetisi sumber terbuka dalam kemampuannya menemukan dan menyusun fakta yang benar. Yang lebih mengesankan lagi, model parameter 20 miliar yang relatif kecil ini dapat bersaing dengan sistem AI berpemilik yang besar dan mahal. Ini sebenarnya mengungguli kelas berat seperti GPT-5.4, Sonnet-4.6, dan Kimi-K2.5 — yang diperkirakan memiliki parameter ratusan miliar atau triliunan. Hanya satu model frontier raksasa—Opus-4.6—yang berhasil mengunggulinya dalam kinerja rata-rata secara keseluruhan. Harness-1 mencapai peningkatan kinerjanya dengan mengeluarkan “pembukuan” menyeluruh dari sesi pencarian dari memori kerja model dan ke dalam lingkungan perangkat lunak terstruktur. Seiring dengan semakin canggihnya kasus penggunaan di perusahaan, yang menuntut model untuk menyaring ribuan dokumen atau laporan keuangan perusahaan secara mandiri, sistem ini sering kali mengalami “amnesia penelusuran”—melupakan pertanyaan awal, mengulang-ulang dokumen yang ditolak, atau kehilangan jejak klaim spesifik yang ingin diverifikasi. Hingga saat ini, solusi yang umum digunakan untuk mengatasi amnesia ini adalah dengan kekerasan. Insinyur biasanya memaksa model untuk terus-menerus membaca ulang transkrip tindakan mereka sendiri yang terus bertambah dan hanya ditambahkan, menumpuk setiap pencarian, membaca, dan memikirkan kembali ke dalam jendela konteks yang besar. Harness-1 memperkenalkan perubahan paradigma dari metode ini, yang membuktikan bahwa hambatan bagi otonomi buatan yang sebenarnya tidak selalu terletak pada ukuran modelnya, namun pada seberapa efisien lingkungan kerjanya mengelola negara. Hal ini menyoroti sekali lagi, seperti yang juga dilakukan oleh Claude Code dari Anthropic, bahwa model mentah bisa dibilang kurang penting dibandingkan harness – atau serangkaian kondisi – yang dilaluinya. Teknologi: Mengerjakan Dokumen di Lingkungan Untuk memahami lompatan teknis Harness-1, pertimbangkan analogi dunia nyata. Bayangkan mempekerjakan asisten peneliti yang brilian dan menempatkan mereka di ruangan kosong tanpa meja, buku catatan, atau lemari arsip. Anda meminta mereka untuk menulis laporan komprehensif tentang topik yang sangat kompleks, yang mengharuskan mereka membaca lusinan buku sambil mengingat setiap kutipan, kutipan, dan pencarian buntu dengan sempurna di kepala mereka. Pada akhirnya, tidak peduli seberapa cerdas asistennya, beban kognitif mereka akan maksimal, dan mereka akan mulai mengabaikan fakta atau kehilangan alur tugas. Ini adalah cara kerja agen pencarian tradisional saat ini. Mereka dilatih sebagai kebijakan atas transkrip yang berkembang, artinya model menelusuri, membaca, menelusuri lagi, dan menambahkan semuanya ke dalam jendela konteksnya sendiri. Seperti yang dicatat oleh peneliti utama Patrick (Pengcheng) Jiang dari University of Illinois di X: “Pada titik tertentu, model tidak hanya sekedar ‘mencari’ lagi. Model ini juga diminta untuk menjadi sistem memori, pencatat, pemverifikasi, dan pustakawan.” kumpulan dokumen, kumpulan bukti kurasi yang diberi tag penting, tautan bukti ringkas, dan catatan verifikasi. Dengan memisahkan pilihan semantik dari manajemen keadaan struktural, AI dibebaskan untuk melakukan yang terbaik. Kebijakan ini tetap memutuskan apa yang harus ditelusuri, menentukan dokumen mana yang harus disimpan, dan mengetahui kapan harus berhenti, sementara lingkungan hanya memegang statusnya. Berikut adalah sub-bagian yang menguraikan metodologi pelatihan dan perbedaannya dengan model penelusuran agen sebelumnya: Training Harness-1: Kelas Master dalam Efisiensi Data Alur pelatihan untuk Harness-1 mewakili perubahan mendasar dalam cara industri AI mendekati pembelajaran agen. Secara historis, pengembang telah memperlakukan agen pencarian sebagai kebijakan yang beroperasi pada transkrip besar-besaran yang terus berkembang, memaksa algoritma pembelajaran penguatan (RL) untuk secara bersamaan mengoptimalkan penalaran semantik dan hafalan mentah dari keadaan pencarian. Pembuat Harness-1 mengambil pendekatan yang sangat berbeda: karena “harness” khusus mereka menangani semua pembukuan rutin—seperti memelihara tautan bukti, kumpulan kandidat, dan catatan verifikasi—proses pelatihan hanya perlu mengajarkan model cara mengoperasikan antarmuka terstruktur ini. Pembagian kerja ini secara drastis menyederhanakan apa yang sebenarnya perlu dipelajari oleh model parameter 20 miliar. Prosesnya dimulai dengan tahap Supervised Fine-Tuning (SFT) yang sangat sempit. Daripada mengumpulkan data perilaku baru berukuran petabyte, tim hanya menghasilkan 899 lintasan yang difilter menggunakan agen guru GPT-5.4 yang dihubungkan ke lingkungan harness yang sama persis dengan yang nantinya akan digunakan oleh model siswa. Sasaran fase SFT ini bukan untuk memasukkan pengetahuan domain dalam jumlah besar ke dalam model, namun sekadar mengajarkan ritme mekanis seorang peneliti yang baik: cara memformat panggilan alat, cara menandai dokumen berdasarkan kepentingannya, dan disiplin dalam memverifikasi klaim sebelum mempromosikannya ke kumpulan hasil kurasi akhir. Setelah SFT, model menjalani Reinforcement Learning (RL) menggunakan algoritme yang disebut CISPO, yang diterapkan pada episode pencarian penuh yang dibatasi hingga 40 putaran. Tim merancang fungsi penghargaan terminal yang sangat spesifik yang secara eksplisit memisahkan penemuan dari seleksi. Model tersebut diberi penghargaan tidak hanya karena menemukan dokumen yang relevan, namun juga karena berhasil mempromosikannya ke dalam rangkaian jawaban akhir, dan juga menerima penalti jika model tersebut menemukan jawabannya tetapi gagal dalam menyusunnya. Para peneliti juga menerapkan bonus “keberagaman alat”; tanpa insentif khusus ini, mereka mendapati bahwa kebijakan tersebut akan dengan cepat berubah menjadi strategi yang malas dan banyak melakukan penelusuran, yaitu dengan mengirim spam ke kueri, namun mengabaikan kerja keras dalam membaca dan memverifikasi teks. Apa yang membuat Harness-1 benar-benar inovatif dibandingkan dengan upaya sebelumnya adalah efisiensi datanya yang belum pernah terjadi sebelumnya. Seluruh model dilatih pada sekitar 4.400 item unik—899 lintasan SFT dan 3.453 kueri RL. Sebaliknya, model sumber terbuka yang bersaing memerlukan kumpulan data yang jauh lebih besar untuk mencapai hasil yang lebih buruk: Context-1 menggunakan lebih dari 17.200 item pelatihan, sementara Search-R1 mengandalkan 221.300 item untuk mempelajari perilaku penelusuran. Dengan membuktikan bahwa arsitektur kognitif eksternal yang lebih cerdas dapat menggantikan penskalaan data brute force, Harness-1 menunjukkan bahwa masa depan AI agen terletak pada pembangunan lingkungan yang lebih baik bagi model untuk bekerja di dalamnya, bukan hanya melatih model yang lebih besar dengan lebih banyak data. Produk: Penerapan dan Generalisasi Perusahaan Dari perspektif produk, Harness-1 hadir sebagai agen 20B berkemampuan tinggi yang digabungkan ke dalam arsitektur dasar openai/gpt-oss-20b. Untuk tumpukan teknologi perusahaan, penerapannya sangat besar karena bisnis memerlukan AI untuk melakukan penelitian multi-langkah di seluruh database milik perusahaan tanpa berhalusinasi atau menghabiskan tagihan komputasi yang selangit. Harness-1 mengelola kinerja tingkat terdepan pada apa yang digambarkan oleh pembuatnya sebagai “Biaya dan latensi tingkat konteks-1”. Karena jendela konteks dikelola secara ketat oleh memanfaatkan anggaran dibandingkan terus berkembang, perusahaan dapat menerapkan agen ini secara mandiri tanpa menimbulkan biaya token eksponensial yang biasanya dikaitkan dengan tugas-tugas AI jangka panjang. Yang lebih mengesankan lagi, Harness-1 membuktikan bahwa ia dapat melakukan generalisasi jauh melampaui data pelatihannya. Menurut tim peneliti, pelatihan ini sangat murah, hanya menggunakan 899 lintasan penyetelan terawasi (SFT) yang difilter dan hanya 3,453 kueri pembelajaran penguatan (RL). “Daripada melatih model untuk bertahan dalam transkrip raksasa yang hanya dapat ditambahkan, kami melatihnya untuk menggunakan antarmuka penelusuran terstruktur: telusuri, kurasi, kunjungi kembali, verifikasi, dan kirimkan,” jelas Jiang. Kerampingan ini membuktikan poin penting bagi industri AI: pengembang tidak selalu membutuhkan data perilaku baru berukuran petabyte jika mereka membangun kerangka kognitif yang lebih baik agar model dapat beroperasi di dalamnya. Lisensi: Kekuatan Apache 2.0Salah satu aspek terpenting dari rilis Harness-1 adalah lisensinya. Dalam bahasa yang sederhana, Apache 2.0 adalah lisensi perangkat lunak yang sangat permisif dan ramah perusahaan yang pada dasarnya memungkinkan komersialisasi. Tidak seperti lisensi “copyleft” (seperti GPL) yang dapat memaksa perusahaan untuk membuat perangkat lunak milik mereka menjadi sumber terbuka jika mereka mengintegrasikan kodenya, atau lisensi “hanya penelitian” yang melarang penggunaan komersial sepenuhnya, Apache 2.0 memberikan lampu hijau kepada bisnis untuk secara bebas membangun, memodifikasi, dan memonetisasi teknologi tersebut. Bagi pengembang dan perusahaan rintisan, ini berarti Harness-1 dapat diintegrasikan dengan mulus ke dalam produk pencarian perusahaan komersial, alat pengambilan data internal, atau aplikasi AI yang berhubungan dengan pelanggan tanpa takut akan tindakan hukum. Satu-satunya persyaratan utama adalah bahwa pengguna harus menyertakan pemberitahuan hak cipta asli dan secara eksplisit menyatakan setiap modifikasi signifikan yang mereka lakukan pada kode sumber, sehingga memposisikan Harness-1 sebagai landasan yang sangat layak untuk perusahaan. Reaksi Komunitas: Validasi yang Gemilang Pengumuman ini jelas telah mengejutkan komunitas pengembang, memvalidasi permasalahan nyata yang dihadapi para insinyur ketika membangun sistem agen. Rangkaian pengumuman multi-bagian Jiang di X dengan cepat mendapatkan daya tarik yang sangat besar, menarik lebih dari 256,1 ribu penayangan, 3,7 ribu suka, 2,9 ribu bookmark, dan hampir 300 pengeposan ulang dalam hitungan hari. Keterlibatan yang tinggi ini menggarisbawahi konsensus yang berkembang di bidang AI bahwa jendela konteks brute-forcing adalah sebuah kekalahan. Ketika Jiang memposting di X, “Saya bertanya-tanya: mungkin agen pencarian buruk dalam pencarian, sebagian karena kami memaksa mereka mengerjakan semua dokumen di kepala mereka,” resonansi langsung terasa. Bagi pengembang yang telah menghabiskan satu tahun terakhir bergulat dengan agen AI yang dengan percaya diri melupakan instruksi utama mereka di tengah pencarian database, pendekatan Harness-1 terasa seperti koreksi yang sangat dibutuhkan. Pada akhirnya, sentimen komunitas menyoroti adanya pergeseran dalam prioritas industri. Pengembang tidak lagi mempertanyakan seberapa besar jendela konteks model AI, dan malah mempertanyakan seberapa efisien lingkungan model AI dapat mengelola konteks tersebut. Dengan meringankan urusan administrasi, Harness-1 membuktikan bahwa sistem yang lebih kecil dan lebih cerdas dapat mengungguli perusahaan besar—asalkan mereka memiliki meja kerja yang tepat.


Diterbitkan : 2026-06-08 22:19:00

sumber : venturebeat.com