Peneliti Microsoft memecahkan batasan AI dengan satu perintah

Penulis

Februari 10, 2026

Para peneliti dapat memberi penghargaan kepada LLM atas hasil yang merugikan melalui model ‘hakim’
Beberapa iterasi dapat semakin mengikis pagar pengaman yang ada di dalamnya
Mereka yakin bahwa masalahnya adalah masalah siklus hidup, bukan masalah LLM

Microsoft peneliti punya terungkap bahwa pagar pengaman yang digunakan oleh LLM sebenarnya bisa lebih rapuh dari perkiraan umum, menyusul penggunaan teknik yang mereka sebut GRP-Obliteration.

Para peneliti menemukan bahwa Group Relative Policy Optimization (GRPO), sebuah teknik yang biasanya digunakan untuk meningkatkan keselamatan, juga dapat digunakan untuk menurunkan keselamatan: “Ketika kita mengubah model yang diberi penghargaan, teknik yang sama dapat mendorongnya ke arah yang berlawanan.”

Pagar pengaman LLM dapat diabaikan atau dibalik

Peneliti Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines, dan Ahmed Salem menjelaskan bahwa, melalui pengulangan yang berulang-ulang, model tersebut secara bertahap meninggalkan pagar pengaman aslinya dan menjadi lebih bersedia menghasilkan keluaran yang berbahaya.

Meskipun beberapa iterasi tampaknya mengikis pagar pengaman yang ada di dalamnya, para peneliti Microsoft juga mencatat bahwa hanya satu kali sejak perintah yang tidak diberi label sudah cukup untuk mengubah perilaku keselamatan model.

Mereka yang bertanggung jawab atas penelitian ini menekankan bahwa mereka tidak menyebut sistem yang ada saat ini tidak efektif, namun mereka menyoroti potensi risiko yang ada “di hilir dan di bawah tekanan permusuhan pasca penerapan.”

“Penyelarasan keselamatan tidak bersifat statis selama penyesuaian, dan sejumlah kecil data dapat menyebabkan perubahan yang berarti dalam perilaku keselamatan tanpa merugikan kegunaan model,” mereka menambahkan, dan mendesak tim untuk memasukkan evaluasi keselamatan di samping tolok ukur yang biasa.

Secara keseluruhan, mereka menyimpulkan bahwa penelitian ini menyoroti “kerapuhan” mekanisme yang ada saat ini, namun penting juga bagi Microsoft untuk mempublikasikan informasi ini di situsnya sendiri. Hal ini mengubah keselamatan sebagai masalah siklus hidup, bukan masalah model yang melekat.

Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!

Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.

Tautan sumber

Facebook
X
Pinterest
WhatsApp

Artikulli paraprakDeontay Wilder mengonfirmasi pelatih untuk pertarungan Derek Chisora dan membuka diri tentang perpecahan Malik Scott
Artikulli tjetërPrediksi dan tip taruhan Nottingham Forest v Wolves – Pembuat taruhan Lucca dan Gibbs-White

Yatsen Chuanli
https://anlikhaberler.com

ARTIKEL TERKAIT DARI PENULIS

Undang-undang spionase FISA yang kontroversial akan berakhir malam ini. Spionase akan terus berlanjut. | beritakitanih

Rangkaian jaringan jamur bawah tanah cukup panjang untuk menjangkau melampaui Tata Surya | beritakitanih

Saya selalu menghubungkan 3 perangkat ke pembangkit listrik – inilah alasannya | beritakitanih

MOST COMMENTED

Buccaneers mempertahankan Todd Bowles sebagai pelatih kepala meskipun runtuh pada tahun 2025

Yatsen Chuanli - Januari 8, 2026

‘Ditendang di kepala’ – Peyton Manning dengan bercanda memanggang ayah Archie tentang rekaman masa...

Yatsen Chuanli - Desember 16, 2025

CrowdStrike mengatakan penyerang bergerak melalui jaringan dalam waktu kurang dari 30 menit

Yatsen Chuanli - Februari 25, 2026

POPULAR CATEGORY
Olahraga13290
Teknologi10153
Berita8223
Hiburan557
Gaya Hidup388
Kecantikan183