Fable 5 baru saja mencetak rekor kinerja AI freelance baru – namun belum bisa menggantikan manusia
Samuel Boivin/NurPhoto via Getty ImagesIkuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google. Poin-poin penting dari ZDNET Fable 5 mempercepat tingkat keberhasilan AI pada tugas-tugas jarak jauh hingga 16%. Kemampuan AI masih ada di mana-mana. Namun, keterampilan agen telah “meningkat empat kali lipat dalam waktu kurang dari delapan bulan,” kata CAIS. Setelah jeda singkat, model Fable 5 yang dipuji dari Anthropic hadir kembali, dan mengatur ulang standar untuk mengotomatisasi pekerjaan. Pemerintah AS mengizinkan kembali model tersebut – yang menurut Anthropic memiliki kesamaan kemampuan dengan Mythos 5, dan masih hanya tersedia untuk penggunaan organisasi tertentu – pada tanggal 30 Juni. Namun sebelum model tersebut ditarik, Pusat Keamanan AI (CAIS) menguji Fable 5 pada Indeks Tenaga Kerja Jarak Jauh (RLI), yang dirilis pada bulan Oktober 2025. Hal ini mengalahkan Opus 4.8 dari Anthropic dan GPT-5.5 dari OpenAI, yang masing-masing relatif baru dan dianggap mengesankan, dari daftar model tersebut. air.Juga: Cara mengalahkan algoritme AI dan mendapatkan pekerjaan impian Anda RLI mengukur “seberapa sering agen AI dapat menyelesaikan proyek lepas yang nyata dan bernilai ekonomi (…) dengan kualitas yang benar-benar diterima oleh klien yang membayar,” jelas CAIS dalam penelitian tersebut. Ini dapat mencakup desain grafis dan bantuan komputer, analisis data, pekerjaan video, dan banyak lagi. Seperti dalam tes kemampuan manusia serupa lainnya, setiap hasil yang dihasilkan model dievaluasi oleh manusia berdasarkan hasil standar profesional. Tingkat otomatisasi yang dihasilkan mencerminkan distribusi proyek di mana evaluator menemukan bahwa apa yang dihasilkan AI sama baiknya atau bahkan lebih baik daripada pekerjaan profesional manusia. CAIS meminta Fable 5, GPT-5.5, dan Opus 4.8 untuk merancang maket 3D cincin pertunangan, membuat iklan video, memetakan denah lantai, dan pengujian lainnya. Para peneliti memberikan masing-masing model file masukan yang dihasilkan manusia untuk memulai, serupa dengan cara Anda mempersiapkan manusia pekerja lepas dengan dokumen dan informasi yang relevan untuk suatu pekerjaan. Selain itu: Anthropic’s Mythos berkembang lebih cepat dari perkiraan, menurut laporan badan keamanan AI Fable 5 mencapai tingkat otomatisasi sebesar 16,1%, sebuah rekor untuk benchmark — dan dua kali lipat Opus 4.8, yang memperoleh skor 8,3%. GPT‑5.5 menempati posisi ketiga dengan skor 6,3%, namun CAIS mencatat bahwa ketiga model tersebut mendapat skor lebih tinggi dibandingkan model mana pun yang dievaluasi sejauh ini. “Untuk konteksnya, pemimpin yang diterbitkan sebelumnya mendapat 4,17% (Opus 4.6 dengan perancah Claude Cowork), dan bidang tersebut mencapai 2,5% ketika RLI dirilis,” kata CAIS. “Perbatasan telah meningkat lebih dari empat kali lipat dalam waktu kurang dari delapan bulan, sebuah sinyal nyata tentang betapa cepatnya kemajuan agen AI yang mampu secara ekonomi.” Tingkat otomatisasi diukur oleh CAIS terhadap tolok ukur RLI-nya. CAISCAIS mencatat bahwa pengujiannya dipersingkat karena pemerintah menutup Fable 5 pada pertengahan Juni, namun hasil parsial ini pun membuat model tersebut berbeda. “Bahkan dengan asumsi terburuk bahwa Fable 5 gagal dalam setiap proyek yang hilang, tingkat otomatisasinya masih sebesar 14,6%, lebih tinggi dibandingkan model lainnya,” kata para peneliti. Artinya bagi pekerja lepas Meskipun tingkat percepatan model AI signifikan hanya dalam beberapa bulan, hal ini tidak secara otomatis berarti penggantian atau kehilangan pekerjaan secara menyeluruh. Enam belas persen masih belum mendekati 100%. Selain itu, meskipun terdapat kemajuan yang dapat dibuktikan, AI bukanlah solusi yang menarik bagi setiap organisasi; masalah keamanan dan hambatan adopsi lainnya sering kali membuat pengintegrasian alat AI menjadi lambat, proses multi-langkah bagi sebagian besar perusahaan, setidaknya pada awalnya. Untuk sepenuhnya menggantikan manusia pekerja lepas, organisasi mungkin memerlukan jaringan agen untuk memeriksa elemen-elemen seperti kualitas pekerjaan, anggaran, dan jadwal; pengorbanannya bukan satu lawan satu. Juga: Saya meminta Gemini dan Claude menulis balasan email saya – tetapi hanya satu yang terdengar seperti meCAIS mencoba mengganti evaluator manusia dengan “hakim LLM”, yang seolah-olah untuk melihat seberapa jauh eksperimen ini bisa dilakukan secara wajar, tetapi modelnya gagal. “Mengevaluasi hasil RLI itu sendiri merupakan tugas yang berat dan bersifat agen,” jelas CAIS. “Melakukannya dengan benar berarti membuka file proyek dalam aplikasi profesional yang tepat, mengoperasikan aplikasi tersebut dengan kompeten, dan membuat penilaian seperti yang dilakukan klien, keterampilan menggunakan komputer yang masih menjadi kelemahan agen saat ini.” Juga: Bagaimana saya menetapkan batas penggunaan OpenAI API untuk menghentikan pengeluaran agen yang berlebihan dan mimpi buruk penagihan AI lainnya. Meskipun demikian, peningkatan kemampuan dapat mengurangi beberapa peluang freelance bagi perusahaan tertentu yang sudah berhasil mengintegrasikan AI. Selain itu, jika keterampilan penggunaan komputer menjadi batasan saat ini dan siap untuk ditingkatkan berdasarkan investasi industri dalam model yang semakin agenik, hambatan tersebut pada akhirnya akan hilang. Mengingat model telah mengalami peningkatan dibandingkan dengan tolok ukur lain yang mengukur keterampilan agen, hal ini mungkin terjadi lebih cepat dari yang dapat kita bayangkan. Bicara soal waktu: CAIS juga menemukan bahwa jika suatu tugas memakan waktu lebih lama bagi manusia, bukan berarti AI akan lebih sulit menyelesaikannya. Analisis cakrawala waktu tersebut berlaku untuk pengkodean, misalnya, tetapi tidak berlaku untuk rangkaian tugas jarak jauh yang lebih luas yang diukur oleh RLI. Saat ini, sulit untuk menarik kesimpulan dari hal tersebut untuk masa depan. “Beberapa pekerjaan yang cepat bagi seorang profesional yang terampil tetap berada di luar jangkauan (untuk AI), seperti menyalin musik atau menguji permainan secara real-time, sementara pekerjaan lain yang membutuhkan waktu berjam-jam, seperti seni digital atau coding, diselesaikan oleh model saat ini dalam hitungan menit,” tulis CAIS.
Diterbitkan : 2026-07-02 20:29:00
sumber : www.zdnet.com



