
- Para peneliti dapat memberi penghargaan kepada LLM atas hasil yang merugikan melalui model ‘hakim’
- Beberapa iterasi dapat semakin mengikis pagar pengaman yang ada di dalamnya
- Mereka yakin bahwa masalahnya adalah masalah siklus hidup, bukan masalah LLM
Microsoft peneliti punya terungkap bahwa pagar pengaman yang digunakan oleh LLM sebenarnya bisa lebih rapuh dari perkiraan umum, menyusul penggunaan teknik yang mereka sebut GRP-Obliteration.
Para peneliti menemukan bahwa Group Relative Policy Optimization (GRPO), sebuah teknik yang biasanya digunakan untuk meningkatkan keselamatan, juga dapat digunakan untuk menurunkan keselamatan: “Ketika kita mengubah model yang diberi penghargaan, teknik yang sama dapat mendorongnya ke arah yang berlawanan.”
GRP-Obliteration bekerja dengan memulai model yang selaras dengan keamanan, kemudian memicunya dengan permintaan yang berbahaya namun tidak berlabel. Model juri terpisah kemudian memberikan penghargaan atas tanggapan yang memenuhi permintaan yang merugikan.
Pagar pengaman LLM dapat diabaikan atau dibalik
Peneliti Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines, dan Ahmed Salem menjelaskan bahwa, melalui pengulangan yang berulang-ulang, model tersebut secara bertahap meninggalkan pagar pengaman aslinya dan menjadi lebih bersedia menghasilkan keluaran yang berbahaya.
Meskipun beberapa iterasi tampaknya mengikis pagar pengaman yang ada di dalamnya, para peneliti Microsoft juga mencatat bahwa hanya satu kali sejak perintah yang tidak diberi label sudah cukup untuk mengubah perilaku keselamatan model.
Mereka yang bertanggung jawab atas penelitian ini menekankan bahwa mereka tidak menyebut sistem yang ada saat ini tidak efektif, namun mereka menyoroti potensi risiko yang ada “di hilir dan di bawah tekanan permusuhan pasca penerapan.”
“Penyelarasan keselamatan tidak bersifat statis selama penyesuaian, dan sejumlah kecil data dapat menyebabkan perubahan yang berarti dalam perilaku keselamatan tanpa merugikan kegunaan model,” mereka menambahkan, dan mendesak tim untuk memasukkan evaluasi keselamatan di samping tolok ukur yang biasa.
Secara keseluruhan, mereka menyimpulkan bahwa penelitian ini menyoroti “kerapuhan” mekanisme yang ada saat ini, namun penting juga bagi Microsoft untuk mempublikasikan informasi ini di situsnya sendiri. Hal ini mengubah keselamatan sebagai masalah siklus hidup, bukan masalah model yang melekat.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



