• Para peneliti dapat memberi penghargaan kepada LLM atas hasil yang merugikan melalui model ‘hakim’
  • Beberapa iterasi dapat semakin mengikis pagar pengaman yang ada di dalamnya
  • Mereka yakin bahwa masalahnya adalah masalah siklus hidup, bukan masalah LLM

Microsoft peneliti punya terungkap bahwa pagar pengaman yang digunakan oleh LLM sebenarnya bisa lebih rapuh dari perkiraan umum, menyusul penggunaan teknik yang mereka sebut GRP-Obliteration.

Para peneliti menemukan bahwa Group Relative Policy Optimization (GRPO), sebuah teknik yang biasanya digunakan untuk meningkatkan keselamatan, juga dapat digunakan untuk menurunkan keselamatan: “Ketika kita mengubah model yang diberi penghargaan, teknik yang sama dapat mendorongnya ke arah yang berlawanan.”





Tautan sumber