Claude Fable 5 dari Anthropic memainkannya terlalu aman dalam hal keamanan, kata pengembang

Anthropic pada hari Selasa meluncurkan Claude Fable 5, model publiknya yang paling mumpuni. Namun dalam dua hari, pengguna mulai melaporkan bahwa sistem keamanannya memblokir perintah yang tidak berbahaya atau sah. Fable 5 adalah model publik pertama yang diturunkan dari keluarga Mythos Anthropic, yang iterasi aslinya menunjukkan keterampilan yang tidak biasa selama pelatihan dalam menemukan bug perangkat lunak dan mengeksploitasinya untuk mengganggu atau mengambil kendali sistem. Hal ini cukup menimbulkan kekhawatiran di dalam Anthropic sehingga perusahaan tersebut mengelompokkan keamanan siber dengan domain berisiko tinggi lainnya, termasuk biologi dan kimia, ketika menetapkan batasan pada model publik yang diturunkan dari Mythos. Untuk Fable 5, hal ini berarti perintah yang ditandai sebagai sensitif di area tersebut akan dialihkan ke Claude Opus 4.8, model yang kurang mampu dan memiliki pagar pembatasnya sendiri. Anthropic mengatakan fallback mempengaruhi sekitar 0,05% kueri dan memberi tahu pengguna ketika hal itu terjadi. Namun laporan positif palsu dengan cepat meningkat. Hal ini terjadi karena Anthropic melakukan kesalahan dalam hal kehati-hatian saat merancang pengklasifikasi yang digunakan untuk mendeteksi dan menurunkan versi penggunaan modelnya yang berpotensi membahayakan. Perusahaan juga ditantang untuk menyeimbangkan akurasi dan transparansi. Coba sampaikan hal tersebut kepada pengembang. Di media sosial, orang-orang mengeluh tentang Claude Fable 5 yang menolak pertanyaan tentang segala hal mulai dari data pengurutan RNA untuk domba hingga pengeditan resume, hingga daftar belanjaan. “Kata ‘kanker’ ditandai sebagai risiko biosekuriti oleh Claude Fable 5!” kata ilmuwan Derya Unutmazon X. “Tuan Anthropic kami memutuskan mana yang boleh digunakan oleh para petani.,” tambah pendiri dan pengembang Bojan Tunguz di X.Anthropic sekarang mengatakan bahwa mereka sedang mengatasi masalah tersebut. “Perlindungan tersembunyi lebih sulit untuk diselidiki dan diatasi,” kata Anthropic dalam sebuah pernyataan yang dikirim melalui email ke Fast Company. “Ini berarti upaya perlindungan dapat ditargetkan secara lebih sempit. Perlindungan yang terlihat perlu memberikan jaring yang lebih luas agar lebih kuat, sehingga mengakibatkan lebih banyak permintaan yang salah ditandai.”
Diterbitkan : 2026-06-11 21:16:00
sumber : www.fastcompany.com



