
- Gemini Pro 2.5 sering kali menghasilkan keluaran yang tidak aman dengan penyamaran sederhana
- Model ChatGPT sering kali memberikan kepatuhan parsial yang dibingkai sebagai penjelasan sosiologis
- Claude Opus dan Soneta menolak sebagian besar permintaan yang merugikan tetapi memiliki kelemahan
Sistem AI modern sering kali dipercaya untuk mengikuti peraturan keselamatan, dan orang-orang mengandalkannya untuk pembelajaran dan dukungan sehari-hari, sering kali berasumsi bahwa pagar pembatas yang kuat akan beroperasi setiap saat.
Peneliti dari berita siber menjalankan serangkaian tes permusuhan terstruktur untuk melihat apakah memimpin alat AI dapat didorong ke hasil yang berbahaya atau ilegal.
Prosesnya menggunakan jendela interaksi sederhana satu menit untuk setiap uji coba, sehingga hanya memberikan ruang untuk beberapa pertukaran.
Pola kepatuhan sebagian dan penuh
Tes tersebut mencakup kategori seperti stereotip, perkataan yang mendorong kebencian, tindakan menyakiti diri sendiri, kekejaman, konten seksual, dan beberapa bentuk kejahatan.
Setiap respons disimpan dalam direktori terpisah, menggunakan aturan penamaan file yang tetap untuk memungkinkan perbandingan yang bersih, dengan sistem penilaian yang konsisten yang melacak ketika model sepenuhnya mematuhi, mematuhi sebagian, atau menolak perintah.
Di semua kategori, hasilnya sangat bervariasi. Penolakan tegas adalah hal biasa, namun banyak model menunjukkan kelemahan ketika petunjuknya diperlunak, dibingkai ulang, atau disamarkan sebagai analisis.
ChatGPT-5 dan ChatGPT-4o sering kali menghasilkan penjelasan yang bersifat lindung nilai atau sosiologis alih-alih menolaknya, yang dianggap sebagai kepatuhan parsial.
Gemini Pro 2.5 menonjol karena alasan negatifnya karena sering kali memberikan tanggapan langsung bahkan ketika framing yang merugikan terlihat jelas.
Claude Opus dan Claude Sonnet, sementara itu, tegas dalam tes stereotip tetapi kurang konsisten dalam kasus-kasus yang dibingkai sebagai pertanyaan akademis.
Uji coba ujaran kebencian menunjukkan pola yang sama – model Claude memiliki kinerja terbaik, sementara Gemini Pro 2.5 kembali menunjukkan kerentanan tertinggi.
Model ChatGPT cenderung memberikan jawaban yang sopan atau tidak langsung namun tetap selaras dengan perintah.
Bahasa yang lebih lembut terbukti jauh lebih efektif dibandingkan hinaan eksplisit dalam mengabaikan kebijakan pengamanan.
Kelemahan serupa juga muncul dalam tes menyakiti diri sendiri, di mana pertanyaan tidak langsung atau pertanyaan bergaya penelitian sering kali lolos dari filter dan menghasilkan konten yang tidak aman.
Kategori terkait kejahatan menunjukkan perbedaan besar antar model, karena beberapa model memberikan penjelasan rinci mengenai pembajakan, penipuan finansial, peretasan, atau penyelundupan ketika tujuannya disamarkan sebagai investigasi atau observasi.
Tes terkait narkoba menghasilkan pola penolakan yang lebih ketat, meskipun ChatGPT-4o masih memberikan hasil yang tidak aman lebih sering dibandingkan yang lain, dan penguntitan adalah kategori dengan risiko keseluruhan paling rendah, dengan hampir semua model menolak perintah.
Temuan ini mengungkapkan bahwa alat AI masih dapat merespons permintaan berbahaya jika diungkapkan dengan cara yang benar.
Kemampuan untuk melewati filter dengan penyusunan ulang yang sederhana berarti sistem ini masih dapat membocorkan informasi berbahaya.
Bahkan kepatuhan sebagian pun menjadi berisiko ketika informasi yang bocor berkaitan dengan tugas ilegal atau situasi di mana orang biasanya bergantung pada alat seperti itu perlindungan pencurian identitas atau a firewall untuk tetap aman.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



