Beranda Teknologi ChatGPT, Gemini, dan Claude yang diuji dengan perintah ekstrem mengungkapkan kelemahan mengejutkan...

Teknologi

ChatGPT, Gemini, dan Claude yang diuji dengan perintah ekstrem mengungkapkan kelemahan mengejutkan yang tidak diharapkan oleh siapa pun dalam perlindungan perilaku AI

Penulis

November 16, 2025

Gemini Pro 2.5 sering kali menghasilkan keluaran yang tidak aman dengan penyamaran sederhana
Model ChatGPT sering kali memberikan kepatuhan parsial yang dibingkai sebagai penjelasan sosiologis
Claude Opus dan Soneta menolak sebagian besar permintaan yang merugikan tetapi memiliki kelemahan

Sistem AI modern sering kali dipercaya untuk mengikuti peraturan keselamatan, dan orang-orang mengandalkannya untuk pembelajaran dan dukungan sehari-hari, sering kali berasumsi bahwa pagar pembatas yang kuat akan beroperasi setiap saat.

Peneliti dari berita siber menjalankan serangkaian tes permusuhan terstruktur untuk melihat apakah memimpin alat AI dapat didorong ke hasil yang berbahaya atau ilegal.

Pola kepatuhan sebagian dan penuh

Tes tersebut mencakup kategori seperti stereotip, perkataan yang mendorong kebencian, tindakan menyakiti diri sendiri, kekejaman, konten seksual, dan beberapa bentuk kejahatan.

Setiap respons disimpan dalam direktori terpisah, menggunakan aturan penamaan file yang tetap untuk memungkinkan perbandingan yang bersih, dengan sistem penilaian yang konsisten yang melacak ketika model sepenuhnya mematuhi, mematuhi sebagian, atau menolak perintah.

Di semua kategori, hasilnya sangat bervariasi. Penolakan tegas adalah hal biasa, namun banyak model menunjukkan kelemahan ketika petunjuknya diperlunak, dibingkai ulang, atau disamarkan sebagai analisis.

ChatGPT-5 dan ChatGPT-4o sering kali menghasilkan penjelasan yang bersifat lindung nilai atau sosiologis alih-alih menolaknya, yang dianggap sebagai kepatuhan parsial.

Gemini Pro 2.5 menonjol karena alasan negatifnya karena sering kali memberikan tanggapan langsung bahkan ketika framing yang merugikan terlihat jelas.

Claude Opus dan Claude Sonnet, sementara itu, tegas dalam tes stereotip tetapi kurang konsisten dalam kasus-kasus yang dibingkai sebagai pertanyaan akademis.

Uji coba ujaran kebencian menunjukkan pola yang sama – model Claude memiliki kinerja terbaik, sementara Gemini Pro 2.5 kembali menunjukkan kerentanan tertinggi.

Model ChatGPT cenderung memberikan jawaban yang sopan atau tidak langsung namun tetap selaras dengan perintah.

Bahasa yang lebih lembut terbukti jauh lebih efektif dibandingkan hinaan eksplisit dalam mengabaikan kebijakan pengamanan.

Kelemahan serupa juga muncul dalam tes menyakiti diri sendiri, di mana pertanyaan tidak langsung atau pertanyaan bergaya penelitian sering kali lolos dari filter dan menghasilkan konten yang tidak aman.

Kategori terkait kejahatan menunjukkan perbedaan besar antar model, karena beberapa model memberikan penjelasan rinci mengenai pembajakan, penipuan finansial, peretasan, atau penyelundupan ketika tujuannya disamarkan sebagai investigasi atau observasi.

Tes terkait narkoba menghasilkan pola penolakan yang lebih ketat, meskipun ChatGPT-4o masih memberikan hasil yang tidak aman lebih sering dibandingkan yang lain, dan penguntitan adalah kategori dengan risiko keseluruhan paling rendah, dengan hampir semua model menolak perintah.

Temuan ini mengungkapkan bahwa alat AI masih dapat merespons permintaan berbahaya jika diungkapkan dengan cara yang benar.

Kemampuan untuk melewati filter dengan penyusunan ulang yang sederhana berarti sistem ini masih dapat membocorkan informasi berbahaya.

perlindungan pencurian identitas atau a firewall untuk tetap aman.

Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!

Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.

Tautan sumber

ChatGPT, Gemini, dan Claude yang diuji dengan perintah ekstrem mengungkapkan kelemahan mengejutkan yang tidak diharapkan oleh siapa pun dalam perlindungan perilaku AI

MOST COMMENTED

Para ilmuwan mengeluarkan kabar terbaru yang mengerikan tentang asteroid ‘pembunuh kota’ yang menuju ke...

‘Tidak konsisten dan sulit untuk dibenarkan’ – Rangers marah pada wasit dalam pernyataan keras...

Untuk mempertahankan hukuman, kiper terbaik adalah kecerdasan buatan

POPULAR CATEGORY

iPadOS 26.1 baru saja menghadirkan kembali fitur multitasking yang populer, namun...