• Microsoft meluncurkan pemindai untuk mendeteksi model bahasa beracun sebelum diterapkan
  • LLM pintu belakang dapat menyembunyikan perilaku jahat hingga frasa pemicu tertentu muncul
  • Pemindai mengidentifikasi pola perhatian abnormal yang terkait dengan pemicu pintu belakang yang tersembunyi

Microsoft telah mengumumkan pengembangan pemindai baru yang dirancang untuk mendeteksi pintu belakang tersembunyi dalam model bahasa besar terbuka yang digunakan di lingkungan perusahaan.

Perusahaan mengatakan alatnya bertujuan untuk mengidentifikasi contoh keracunan model, suatu bentuk gangguan di mana perilaku jahat tertanam langsung ke dalam bobot model selama pelatihan.





Tautan sumber