Beranda Teknologi Tim keamanan AI Microsoft mengungkap bagaimana pintu belakang pelatihan tersembunyi dapat bertahan...

Teknologi

Tim keamanan AI Microsoft mengungkap bagaimana pintu belakang pelatihan tersembunyi dapat bertahan dengan tenang di dalam model bahasa perusahaan

Penulis

Februari 10, 2026

Microsoft meluncurkan pemindai untuk mendeteksi model bahasa beracun sebelum diterapkan
LLM pintu belakang dapat menyembunyikan perilaku jahat hingga frasa pemicu tertentu muncul
Pemindai mengidentifikasi pola perhatian abnormal yang terkait dengan pemicu pintu belakang yang tersembunyi

Microsoft telah mengumumkan pengembangan pemindai baru yang dirancang untuk mendeteksi pintu belakang tersembunyi dalam model bahasa besar terbuka yang digunakan di lingkungan perusahaan.

Perusahaan mengatakan alatnya bertujuan untuk mengidentifikasi contoh keracunan model, suatu bentuk gangguan di mana perilaku jahat tertanam langsung ke dalam bobot model selama pelatihan.

LLM untuk berperilaku normal sampai kondisi pemicu yang ditentukan secara sempit mengaktifkan respons yang tidak diinginkan.

postingan blog.

Tim Keamanan AI perusahaan mencatat bahwa pemindai tersebut mengandalkan tiga sinyal yang dapat diamati yang menunjukkan keberadaan model beracun.

Sinyal pertama muncul ketika frase pemicu disertakan dalam prompt, menyebabkan mekanisme perhatian model mengisolasi pemicu sekaligus mengurangi keacakan keluaran.

Sinyal kedua melibatkan perilaku menghafal, di mana model pintu belakang membocorkan elemen data keracunannya sendiri, termasuk frasa pemicu, dibandingkan mengandalkan informasi pelatihan umum.

Sinyal ketiga menunjukkan bahwa satu pintu belakang seringkali dapat diaktifkan oleh beberapa pemicu fuzzy yang menyerupai, namun tidak sama persis, dengan input keracunan aslinya.

“Pendekatan kami bergantung pada dua temuan utama,” kata Microsoft dalam makalah penelitian yang menyertainya.

“Pertama, agen tidur cenderung menghafal data keracunan, sehingga memungkinkan untuk membocorkan contoh pintu belakang menggunakan teknik ekstraksi memori. Kedua, LLM yang diracuni menunjukkan pola yang berbeda dalam distribusi keluaran dan perhatiannya ketika pemicu pintu belakang ada dalam masukan.”

Microsoft menjelaskan bahwa pemindai mengekstraksi konten yang diingat dari suatu model, menganalisisnya untuk mengisolasi substring yang mencurigakan, dan kemudian menilai substring tersebut menggunakan fungsi kerugian formal yang terkait dengan tiga sinyal yang diidentifikasi.

Metode ini menghasilkan daftar peringkat kandidat pemicu tanpa memerlukan pelatihan tambahan atau pengetahuan sebelumnya dan berfungsi di seluruh model umum bergaya GPT.

Namun, pemindai ini memiliki keterbatasan karena memerlukan akses ke file model, sehingga tidak dapat diterapkan pada sistem berpemilik.

Ia juga bekerja paling baik pada pintu belakang berbasis pemicu yang menghasilkan keluaran deterministik. Perusahaan mengatakan alat tersebut tidak boleh diperlakukan sebagai solusi universal.

“Tidak seperti sistem tradisional dengan jalur yang dapat diprediksi, sistem AI menciptakan banyak titik masuk untuk masukan yang tidak aman,” kata Yonatan Zunger, Wakil Presiden Perusahaan dan Wakil Kepala Keamanan Informasi untuk Kecerdasan Buatan.

“Titik masuk ini dapat membawa konten berbahaya atau memicu perilaku yang tidak terduga.”

Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!

Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.

Tautan sumber

Tim keamanan AI Microsoft mengungkap bagaimana pintu belakang pelatihan tersembunyi dapat bertahan dengan tenang di dalam model bahasa perusahaan

MOST COMMENTED

Saya mengikuti tantangan peregangan sentuhan sentuhan selama 30 hari – inilah cara saya melakukannya

Ingrid: hujan salju terbesar dalam dekade ini, satu orang tewas di dalam mobil, 21...

Samsung menggunakan Sonos Arc Ultra dengan soundbar Dolby Atmos all-in-one yang bertenaga — dan...

POPULAR CATEGORY

Efek Kardashian: Wanita dengan rambut lurus dan berkilau terlihat lebih muda,...