
- Microsoft meluncurkan pemindai untuk mendeteksi model bahasa beracun sebelum diterapkan
- LLM pintu belakang dapat menyembunyikan perilaku jahat hingga frasa pemicu tertentu muncul
- Pemindai mengidentifikasi pola perhatian abnormal yang terkait dengan pemicu pintu belakang yang tersembunyi
Microsoft telah mengumumkan pengembangan pemindai baru yang dirancang untuk mendeteksi pintu belakang tersembunyi dalam model bahasa besar terbuka yang digunakan di lingkungan perusahaan.
Perusahaan mengatakan alatnya bertujuan untuk mengidentifikasi contoh keracunan model, suatu bentuk gangguan di mana perilaku jahat tertanam langsung ke dalam bobot model selama pelatihan.
Pintu belakang ini bisa tetap tidak aktif, sehingga terpengaruh LLM untuk berperilaku normal sampai kondisi pemicu yang ditentukan secara sempit mengaktifkan respons yang tidak diinginkan.
Bagaimana pemindai mendeteksi model yang diracuni
“Seiring dengan meningkatnya adopsi, kepercayaan terhadap upaya perlindungan harus meningkat: meskipun pengujian terhadap perilaku yang diketahui relatif mudah, tantangan yang lebih penting adalah membangun jaminan terhadap manipulasi yang tidak diketahui atau terus berkembang,” kata Microsoft dalam sebuah pernyataan. postingan blog.
Tim Keamanan AI perusahaan mencatat bahwa pemindai tersebut mengandalkan tiga sinyal yang dapat diamati yang menunjukkan keberadaan model beracun.
Sinyal pertama muncul ketika frase pemicu disertakan dalam prompt, menyebabkan mekanisme perhatian model mengisolasi pemicu sekaligus mengurangi keacakan keluaran.
Sinyal kedua melibatkan perilaku menghafal, di mana model pintu belakang membocorkan elemen data keracunannya sendiri, termasuk frasa pemicu, dibandingkan mengandalkan informasi pelatihan umum.
Sinyal ketiga menunjukkan bahwa satu pintu belakang seringkali dapat diaktifkan oleh beberapa pemicu fuzzy yang menyerupai, namun tidak sama persis, dengan input keracunan aslinya.
“Pendekatan kami bergantung pada dua temuan utama,” kata Microsoft dalam makalah penelitian yang menyertainya.
“Pertama, agen tidur cenderung menghafal data keracunan, sehingga memungkinkan untuk membocorkan contoh pintu belakang menggunakan teknik ekstraksi memori. Kedua, LLM yang diracuni menunjukkan pola yang berbeda dalam distribusi keluaran dan perhatiannya ketika pemicu pintu belakang ada dalam masukan.”
Microsoft menjelaskan bahwa pemindai mengekstraksi konten yang diingat dari suatu model, menganalisisnya untuk mengisolasi substring yang mencurigakan, dan kemudian menilai substring tersebut menggunakan fungsi kerugian formal yang terkait dengan tiga sinyal yang diidentifikasi.
Metode ini menghasilkan daftar peringkat kandidat pemicu tanpa memerlukan pelatihan tambahan atau pengetahuan sebelumnya dan berfungsi di seluruh model umum bergaya GPT.
Namun, pemindai ini memiliki keterbatasan karena memerlukan akses ke file model, sehingga tidak dapat diterapkan pada sistem berpemilik.
Ia juga bekerja paling baik pada pintu belakang berbasis pemicu yang menghasilkan keluaran deterministik. Perusahaan mengatakan alat tersebut tidak boleh diperlakukan sebagai solusi universal.
“Tidak seperti sistem tradisional dengan jalur yang dapat diprediksi, sistem AI menciptakan banyak titik masuk untuk masukan yang tidak aman,” kata Yonatan Zunger, Wakil Presiden Perusahaan dan Wakil Kepala Keamanan Informasi untuk Kecerdasan Buatan.
“Titik masuk ini dapat membawa konten berbahaya atau memicu perilaku yang tidak terduga.”
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



