• Gemini Pro 2.5 sering kali menghasilkan keluaran yang tidak aman dengan penyamaran sederhana
  • Model ChatGPT sering kali memberikan kepatuhan parsial yang dibingkai sebagai penjelasan sosiologis
  • Claude Opus dan Soneta menolak sebagian besar permintaan yang merugikan tetapi memiliki kelemahan

Sistem AI modern sering kali dipercaya untuk mengikuti peraturan keselamatan, dan orang-orang mengandalkannya untuk pembelajaran dan dukungan sehari-hari, sering kali berasumsi bahwa pagar pembatas yang kuat akan beroperasi setiap saat.

Peneliti dari berita siber menjalankan serangkaian tes permusuhan terstruktur untuk melihat apakah memimpin alat AI dapat didorong ke hasil yang berbahaya atau ilegal.





Tautan sumber