Kejutan yang mengejutkan: GPT-5.5 mengalahkan Claude Fable 5 pada benchmark Ujian Terakhir Agen baru yang brutal

Para peneliti dari Center for Responsible, Decentralized Intelligence (RDI) di University of California, Berkeley, bersama dengan komite penasihat yang terdiri dari lebih dari 300 pakar domain, telah meluncurkan Ujian Terakhir Agen (ALE)—sebuah tolok ukur baru yang sangat melelahkan yang dibuat untuk mengukur apakah kecerdasan buatan benar-benar dapat menjalankan alur kerja profesional jangka panjang yang bernilai ekonomis. Dalam kekecewaan yang mengejutkan, GPT-5.5 OpenAI mulai bulan April, yang beroperasi melalui memanfaatkan Codex, mengamankan posisi teratas mutlak di Papan Peringkat ALE yang baru dengan tingkat kelulusan 24,0%, mengalahkan model baru Claude Fable 5 kelas Mythos dari Anthropic yang sangat dinanti-nantikan, yang dirilis kemarin, dan berada di posisi ketiga dengan skor 22,0%. Daripada menguji model pada teka-teki pengkodean terisolasi, ALE secara eksplisit dirancang sebagai instrumen untuk menjembatani kesenjangan antara benchmark akademik yang berlebihan dan dampak nyata terhadap PDB terhadap tenaga kerja. Dan saat ini, data membuktikan bahwa model paling canggih di dunia pada dasarnya gagal dalam ujian. Bagan lengkap Papan Peringkat ALE. Kredit: Ujian Terakhir Agen/Papan Peringkat UC Berkeley RDIALE. Kredit: Ujian Terakhir Agen/UC Berkeley RDMengakhiri Era ‘Kecurangan’ dan Pelajar yang RapuhPergeseran mendasar dalam ALE terletak pada arsitektur evaluasinya dan tuntutan yang diberikan pada agen. Secara historis, tolok ukur AI mengandalkan penjawab pertanyaan statis atau lingkungan terminal berbasis teks yang sempit. Evaluasi agen yang lebih baru memperkenalkan interaksi multi-langkah tetapi mengalami masalah penilaian yang parah. Sebagaimana dicatat dalam audit independen baru-baru ini terhadap papan peringkat lama seperti SWE-Bench Pro, pemverifikasi otomatis sering kali menolak solusi yang benar, dan model tertentu—khususnya keluarga Claude Opus—telah ketahuan melakukan “kecurangan” dengan membaca kunci jawaban tersembunyi di riwayat Git sebuah container, alih-alih memecahkan masalah mendasarnya. ALE menetralisir celah ini dengan memaksa model ke dalam kerangka Generalist Computer-Use Agent (GCUA) yang ketat. Untuk lulus, agen tidak bisa hanya menjalankan perintah terminal. Tolok ukur ini memetakan kemampuan pada lima lapisan fungsional: Otak (penalaran), Mata (persepsi visual), Tubuh (orkestrasi), Tangan (pemanggilan alat), dan Kaki (substrat runtime). Agen harus menggunakan “Mata” dan “Tangan” untuk menavigasi mesin virtual Linux atau Windows, menyisipkan skrip shell dengan operasi tunjuk-dan-klik di dalam perangkat lunak desktop yang berat. Yang terpenting, ALE hampir seluruhnya menolak paradigma penilaian “LLM-sebagai-hakim” yang tidak dapat diprediksi, dan mengandalkannya untuk hanya 6,8% dari alur kerjanya. Jika suatu tugas melibatkan pembuatan jaring 3D atau penguraian pengajuan SEC, tolok ukurnya menggunakan evaluasi berbasis kode deterministik untuk membandingkan artefak agen dengan referensi kebenaran dasar dari pakar. Mengukur Kinerja Tugas di 55 IndustriALE diluncurkan dengan 1.490 contoh tugas dan ditingkatkan menuju target 5.000 tugas yang sangat besar. Yang membuat produk ini luar biasa adalah keasliannya. Tugas-tugas tersebut secara ketat didasarkan pada taksonomi pekerjaan federal AS (O*NET / SOC 2018), yang mencakup 55 sub-domain industri non-fisik. Alur kerja bersumber langsung dari sejarah profesional para praktisi industri. Agen diminta untuk melakukan pembuatan model 3D di Siemens NX, pengaturan adegan di Unreal Engine, analisis neuroimaging di FSLeyes, dan pengomposisian efek visual di Adobe After Effects. Saat dihadapkan dengan alur kerja autentik dan cakrawala panjang ini, keterbatasan AI saat ini sangat mencolok. ALE membagi tugasnya menjadi tiga tingkat kesulitan: Jangka Pendek, Spektrum Penuh, dan Ujian Terakhir. 5 Agen Memanfaatkan Teratas di Papan Peringkat ALE Memanfaatkan Peringkat Agen Model Dasar Tingkat Lulus Skor Rata-Rata 1 Codexgpt-5-524.0% 42.8% 2 Ale Clawgpt-5-523.0% 45.8% 3 Claude Codeclaude-fable-522.0%40.5%4OpenClawgpt-5-521.1%41.0%5Cursor CLIcomposer-2-520.4%38.5%Kemenangan GPT-5.5 sejalan dengan analisis pihak ketiga baru-baru ini yang menunjukkan bahwa model OpenAI saat ini lebih unggul dalam mematuhi perintah multi-bagian dan kompleks. Sebaliknya, para pengguna melaporkan bahwa arsitektur Claude Anthropic terkadang bisa “pelupa” dengan instruksi multi-bagian, mengabaikan langkah-langkah yang diperlukan di tengah alur kerja — sebuah kelemahan fatal dalam alur kerja ALE yang ketat. Dan meskipun mencapai tingkat kelulusan 24,0% sudah cukup untuk mengklaim mahkota, batas atas kinerja absolut tetap sangat rendah. Pada tingkat “Ujian Terakhir” yang paling sulit — mewakili batas kesulitan profesional — sebagian besar konfigurasi, termasuk Claude Opus 4.8 lama dari Anthropic dan Gemini CLI dari Google, mencatat tingkat kelulusan yang sangat buruk sebesar 0,0%. Mengatasi Kontaminasi Tolok Ukur Kerentanan inti dalam evaluasi AI modern adalah “kontaminasi tolok ukur”—fenomena di mana pertanyaan pengujian mau tidak mau bocor ke dalam danau data besar yang digunakan untuk melatih model generasi berikutnya. Setelah model mengingat tolok ukurnya, evaluasi menjadi tidak berguna sama sekali. ALE menyelesaikan masalah ini melalui strategi penerapan penggunaan ganda. Proyek ini beroperasi sebagai inisiatif penelitian sumber terbuka, namun tetap menjaga data evaluasinya. Hanya sekitar 10% dari kumpulan data (sekitar 150 tugas) yang dirilis secara publik di platform seperti GitHub dan Hugging Face. Sisanya yang berjumlah 1.300+ tugas dijaga kerahasiaannya. Bagi pengembang dan evaluator perusahaan, ini berarti ALE berfungsi sebagai “patokan hidup”. Tugas-tugas pribadi secara sistematis dirotasi ke dalam kelompok publik seiring berjalannya waktu, sementara tugas-tugas publik yang sudah pensiun ditukar. Rilis bergulir ini memastikan bahwa permukaan evaluasi tetap tidak terkontaminasi di seluruh generasi model berturut-turut, memberikan keyakinan kepada pembeli perusahaan bahwa skor tinggi seorang agen diperoleh, bukan diingat. Selain itu, ALE memberikan transparansi dengan melacak skor “Penuh” dan “Tidak Berlisensi”. Karena pekerjaan profesional sejati sering kali memerlukan perangkat lunak berpemilik berbayar, papan peringkat “Penuh” mencakup tugas-tugas yang mengandalkan alat CAD komersial, API berbayar, atau kumpulan data berlisensi. Tingkat “Tidak Berlisensi” menghilangkan tugas-tugas yang dibatasi lisensi ini untuk memberikan perbandingan yang bersih dan serupa hanya dengan menggunakan alat yang tersedia secara gratis, memastikan model tidak hanya dihargai karena memiliki akses ke perangkat lunak perusahaan berbayar. Intinya: ALE Menunjukkan Bahkan Model dan Harness Berkinerja Tertinggi Memiliki Ruang untuk Peningkatan Bagi pengembang yang frustrasi dengan kesenjangan antara klaim pemasaran dan kinerja produksi aktual, kurva penilaian brutal ALE sangat tervalidasi. Zengyi Qin, seorang peneliti PhD MIT dan kontributor data untuk proyek tersebut, melalui X mengumumkan peluncuran tersebut, membagikan gambar makalah tersebut dan daftar kontributor 100+ institusi yang mengejutkan. “Memperkenalkan Ujian Terakhir Agen (ALE),” tulis Qin. “Dibangun oleh 300+ pakar domain dari 100+ institusi. Mencakup 55 domain industri. Claude Opus 4.8 memiliki tingkat kelulusan 0,0% pada subset yang paling sulit. Senang telah berkontribusi pada tolok ukur ini”. @BerkeleyRDI”. Saat bisnis mengerahkan miliaran modal untuk bertaruh pada agen AI, mereka sangat membutuhkan kompas yang menunjukkan arah yang benar. Jika seorang agen pada akhirnya dapat mengatasi tantangan Ujian Terakhir Agen, hal tersebut tidak hanya berarti lulus ujian—tetapi juga akan membuktikan bahwa ia siap untuk bergabung dengan dunia kerja. Sampai saat itu tiba, tingkat kelulusan yang tinggi di papan peringkat berfungsi sebagai bukti realitas yang diperlukan untuk seluruh ekosistem AI.
Diterbitkan : 2026-06-10 23:16:00
sumber : venturebeat.com



