Peneliti Microsoft memecahkan batasan AI dengan satu perintah

Penulis

Februari 10, 2026

Para peneliti dapat memberi penghargaan kepada LLM atas hasil yang merugikan melalui model ‘hakim’
Beberapa iterasi dapat semakin mengikis pagar pengaman yang ada di dalamnya
Mereka yakin bahwa masalahnya adalah masalah siklus hidup, bukan masalah LLM

Microsoft peneliti punya terungkap bahwa pagar pengaman yang digunakan oleh LLM sebenarnya bisa lebih rapuh dari perkiraan umum, menyusul penggunaan teknik yang mereka sebut GRP-Obliteration.

Para peneliti menemukan bahwa Group Relative Policy Optimization (GRPO), sebuah teknik yang biasanya digunakan untuk meningkatkan keselamatan, juga dapat digunakan untuk menurunkan keselamatan: “Ketika kita mengubah model yang diberi penghargaan, teknik yang sama dapat mendorongnya ke arah yang berlawanan.”

Pagar pengaman LLM dapat diabaikan atau dibalik

Peneliti Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines, dan Ahmed Salem menjelaskan bahwa, melalui pengulangan yang berulang-ulang, model tersebut secara bertahap meninggalkan pagar pengaman aslinya dan menjadi lebih bersedia menghasilkan keluaran yang berbahaya.

Meskipun beberapa iterasi tampaknya mengikis pagar pengaman yang ada di dalamnya, para peneliti Microsoft juga mencatat bahwa hanya satu kali sejak perintah yang tidak diberi label sudah cukup untuk mengubah perilaku keselamatan model.

Mereka yang bertanggung jawab atas penelitian ini menekankan bahwa mereka tidak menyebut sistem yang ada saat ini tidak efektif, namun mereka menyoroti potensi risiko yang ada “di hilir dan di bawah tekanan permusuhan pasca penerapan.”

“Penyelarasan keselamatan tidak bersifat statis selama penyesuaian, dan sejumlah kecil data dapat menyebabkan perubahan yang berarti dalam perilaku keselamatan tanpa merugikan kegunaan model,” mereka menambahkan, dan mendesak tim untuk memasukkan evaluasi keselamatan di samping tolok ukur yang biasa.

Secara keseluruhan, mereka menyimpulkan bahwa penelitian ini menyoroti “kerapuhan” mekanisme yang ada saat ini, namun penting juga bagi Microsoft untuk mempublikasikan informasi ini di situsnya sendiri. Hal ini mengubah keselamatan sebagai masalah siklus hidup, bukan masalah model yang melekat.

Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!

Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.

Tautan sumber

Facebook
Twitter
Pinterest
WhatsApp

Artikulli paraprakDeontay Wilder mengonfirmasi pelatih untuk pertarungan Derek Chisora dan membuka diri tentang perpecahan Malik Scott
Artikulli tjetërPrediksi dan tip taruhan Nottingham Forest v Wolves – Pembuat taruhan Lucca dan Gibbs-White

Yatsen Chuanli
https://anlikhaberler.com

ARTIKEL TERKAIT DARI PENULIS

Anthropic meluncurkan alat peninjauan kode baru untuk memeriksa konten yang dihasilkan AI – tetapi biayanya mungkin lebih mahal dari yang Anda harapkan

Penjualan Musim Semi Amazon di Inggris memangkas gadget teknologi terlarisnya — berikut adalah 12 penawaran yang akan saya beli dari Blink, Ring, Kindle, Echo,...

DJI Mini 4K adalah ‘drone pertama terbaik’ bagi kebanyakan orang — dan sekarang harganya bahkan lebih murah daripada Black Friday

MOST COMMENTED

Inilah cara saya mengoptimalkan masa pakai baterai iPhone saya agar bertahan lebih lama

Yatsen Chuanli - Februari 8, 2026

Penawaran taruhan Inggris v Serbia: Dapatkan 60/1 untuk satu gol yang akan dicetak dengan...

Yatsen Chuanli - November 13, 2025

Penawaran taruhan Newcastle vs Spurs: peningkatan keuntungan 100% di BetMGM

Yatsen Chuanli - Desember 2, 2025

POPULAR CATEGORY
Olahraga12466
Teknologi9671
Berita6665
Gaya Hidup3
Kecantikan1
Bisnis0