
- Laporan menemukan malware yang dihasilkan LLM masih gagal dalam pengujian dasar di lingkungan dunia nyata
- GPT-3.5 langsung menghasilkan skrip berbahaya, sehingga memperlihatkan inkonsistensi keamanan yang besar
- Pagar pembatas yang ditingkatkan di GPT-5 mengubah keluaran menjadi alternatif yang lebih aman dan tidak berbahaya
Meski ketakutan semakin meningkat LLM yang dipersenjataieksperimen baru telah mengungkapkan bahwa potensi keluaran berbahaya jauh dari dapat diandalkan.
Peneliti dari Netskope diuji apakah model bahasa modern dapat mendukung gelombang serangan siber otonom berikutnya, yang bertujuan untuk menentukan apakah sistem ini dapat menghasilkan kode berbahaya yang berfungsi tanpa bergantung pada logika hardcode.
Eksperimen ini berfokus pada kemampuan inti yang terkait dengan penghindaran, eksploitasi, dan keandalan operasional – dan menghasilkan beberapa hasil yang mengejutkan.
Masalah keandalan di lingkungan nyata
Tahap pertama melibatkan meyakinkan GPT-3.5-Turbo dan GPT-4 untuk menghasilkan skrip Python yang mencoba melakukan injeksi proses dan penghentian alat keamanan.
GPT-3.5-Turbo segera menghasilkan keluaran yang diminta, sementara GPT-4 menolak hingga perintah persona sederhana menurunkan kewaspadaannya.
Pengujian tersebut menunjukkan bahwa mengabaikan pengamanan masih mungkin dilakukan, bahkan ketika model menambahkan lebih banyak batasan.
Setelah memastikan bahwa pembuatan kode secara teknis memungkinkan, tim beralih ke pengujian operasional – meminta kedua model untuk membuat skrip yang dirancang untuk mendeteksi mesin virtual dan meresponsnya dengan tepat.
Skrip ini kemudian diuji pada VMware Workstation, VDI AWS Workspace, dan mesin fisik standar, namun sering mengalami error, lingkungan salah teridentifikasi, atau gagal dijalankan secara konsisten.
Di host fisik, logikanya bekerja dengan baik, tetapi skrip yang sama gagal di dalam ruang virtual berbasis cloud.
Temuan ini melemahkan gagasan bahwa alat AI dapat segera mendukung malware otomatis yang mampu beradaptasi dengan beragam sistem tanpa campur tangan manusia.
Keterbatasan tersebut juga memperkuat nilai pertahanan tradisional, seperti a firewall atau sebuah anti Viruskarena kode yang tidak dapat diandalkan kurang mampu melewatinya.
Pada GPT-5, Netskope mengamati peningkatan besar dalam kualitas kode, terutama di lingkungan cloud tempat model lama mengalami kesulitan.
Namun, pagar pembatas yang ditingkatkan menciptakan kesulitan baru bagi siapa pun yang mencoba penggunaan jahat, karena model tersebut tidak lagi menolak permintaan, namun mengalihkan output ke fungsi yang lebih aman, yang membuat kode yang dihasilkan tidak dapat digunakan untuk serangan multi-langkah.
Tim harus menerapkan perintah yang lebih kompleks dan masih menerima keluaran yang bertentangan dengan perilaku yang diminta.
Pergeseran ini menunjukkan bahwa keandalan yang lebih tinggi disertai dengan kontrol bawaan yang lebih kuat, karena pengujian menunjukkan model besar dapat menghasilkan logika berbahaya dalam pengaturan terkontrol, namun kodenya tetap tidak konsisten dan sering kali tidak efektif.
Serangan yang sepenuhnya otonom belum banyak terjadi saat ini, dan insiden di dunia nyata masih memerlukan pengawasan manusia.
Masih ada kemungkinan bahwa sistem di masa depan akan menutup kesenjangan keandalan lebih cepat daripada yang bisa dikompensasi oleh pagar pembatas, terutama seiring dengan eksperimen pengembang malware.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



