Agen browser Anthropic dibajak 31,5% sebelum pengamanan diterapkan

Di seluruh laboratorium terdepan, angka injeksi cepat tertinggi yang diterbitkan pada musim semi ini adalah milik Anthropic. Arahkan tim merah ke model terbarunya di browser, dan penyerang akan membajaknya 31,5% sebelum pengamanan diterapkan. OpenAI, Google, dan Meta tidak pernah memberikan angka yang sebanding kepada para pemimpin keamanan. Angka tersebut terlihat seperti sebuah liabilitas. Dalam perbandingan ini justru sebaliknya. Ini adalah satu-satunya bagian yang kokoh. Empat laboratorium perbatasan masing-masing mengirimkan pengungkapan injeksi cepat, dan tidak ada dua yang cocok. Anthropic meletakkan 244 halaman dan empat permukaan agen di atas meja pada 28 Mei. OpenAI melaporkan satu permukaan, konektor. Google memindahkan subjek dari kartu model ke kerangka keamanan terpisah. Meta tidak mengirimkan kartu model tertutup sama sekali. Kisi Pengungkapan Injeksi Cepat Lintas-Vendor di bawah ini memetakan hal-hal yang diuji di setiap laboratorium, apa yang diukur masing-masing laboratorium, dan empat tempat perbandingan berdampingan berantakan. Suntikan cepat menyembunyikan instruksi berbahaya dalam sesuatu yang dibaca agen, halaman web, dokumen, atau hasil alat. Satu jalur yang ditanam dapat mengambil alih catatan atau melakukan tindakan yang tidak disetujui oleh siapa pun, dan kartu-kartu ini adalah satu-satunya bukti pihak pertama bagi pembeli. Tidak ada standar industri untuk mengukur semua ini, dan itulah akar masalahnya. Carter Rees, VP AI di Reputation, mengatakan kepada VentureBeat bahwa injeksi cepat mematahkan asumsi yang mendasari setiap alat lama. “Ungkapan yang tidak berbahaya seperti, ‘abaikan instruksi sebelumnya’ dapat membawa muatan yang sama buruknya dengan buffer overflow, namun tidak memiliki kesamaan dengan tanda malware yang diketahui.” Karena tidak adanya tanda tangan bersama untuk dipindai, setiap laboratorium membuat tolok ukurnya sendiri, dan hasilnya tidak sesuai. Adam Meyers, Wakil Presiden Senior Operasi Counter Adversary di CrowdStrike, mengatakan bahwa eksposur kini menjadi tanggung jawab pembeli untuk dikelola. “Saat Anda menerapkan AI, hal ini meningkatkan permukaan serangan Anda, jadi sekarang Anda harus mampu melindungi model AI tersebut dari penyalahgunaan musuh, keracunan data, atau injeksi cepat.” Data garis depan CrowdStrike sendiri menunjukkan bahwa sisi ancaman tidak tinggal diam. Dalam Laporan Lanskap Ancaman Jasa Keuangan 2026, yang dirilis pada bulan Mei, perusahaan tersebut melaporkan bahwa musuh menggunakan AI untuk mempersingkat waktu dari akses awal hingga dampak lebih cepat daripada yang dapat ditanggapi oleh pertahanan lama. Anthropic mengukur empat permukaan. Angka-angkanya berubah menurut urutan besarnya, bergantung pada mana yang Anda baca. Kartu Opus 4.8 melakukan apa yang tidak dilakukan kartu lain: Kartu ini menghentikan injeksi cepat di permukaan, dan penyebarannya adalah ceritanya. Tempatkan model dalam lingkungan pengkodean, dan penyerang adaptif dari alat Shade Gray Swan berhasil menyelesaikan 7,03% upaya tunggal dengan berpikir. Perlindungan meningkatkannya menjadi 2,09%. Pindahkan kelas serangan yang sama ke dalam browser, permukaan di belakang Claude di Chrome dan Claude Cowork, dan lantai akan terbuka. Anthropic menempatkan tim merah profesional di 129 lingkungan web yang dikeluarkan dari pelatihan dan mencetak setiap hasil pada Tabel 5.2.2.4.A di halaman 81 kartu sistem. Per upaya adalah bagian dari semua upaya injeksi yang berhasil dilakukan di 129 lingkungan dengan masing-masing 10 percobaan. Per-skenario adalah pemotongan yang lebih sulit, yaitu bagian lingkungan di mana setidaknya satu percobaan dilakukan. Sumber: Kartu Sistem Antropik Claude Opus 4.8 28 Mei 2026Baca kolom per upaya tanpa pengamanan, pikirkan, dan tingkat mentah turun di setiap generasi, dari Sonnet 4.6 sebesar 50,7% ke Opus 4.8 sebesar 31,5%. Yang terendah dalam tabel, 5,9%, adalah milik Mythos Preview, yang belum dapat dibeli oleh siapa pun. Aktifkan pengamanan, dan Opus 4.8 turun menjadi 0,5%. Matikan pemikiran dan hal itu akan turun menjadi nol di 129 lingkungan. OpenAI mengukur satu permukaan, dengan serangan yang telah diketahuinya. Kartu GPT-5.5, diterbitkan pada tanggal 23 April dan diperbarui pada tanggal 24 April, menangani injeksi cepat di satu tempat, satu bagian tentang ketahanan terhadap serangan yang diketahui terhadap konektor. OpenAI melaporkannya sebagai skor ketahanan yang mana semakin tinggi semakin baik, kebalikan dari tingkat keberhasilan serangan. GPT-5.5 hadir pada 0,963, turun dari 0,998 untuk pemikiran GPT-5.4. Satu angka tersebut adalah keseluruhan pengungkapannya. Anthropic menguji empat permukaan terhadap penyerang adaptif yang menulis ulang pendekatannya berdasarkan apa yang dilakukan model tersebut, kemudian menjalankan bug bounty selama satu minggu di mana tim merah mencoba untuk menghancurkan model tersebut secara langsung. Ketika hasil pengkodean lebih buruk daripada Opus 4.7, kartu tersebut menyatakan demikian. Letakkan 0,963 di sebelah 31,5%, dan hasilnya tampak seperti berada di papan skor. Mereka tidak melakukannya. Salah satunya adalah skor ketahanan terhadap serangan yang diketahui pada satu permukaan. Yang lainnya adalah tingkat keberhasilan serangan per upaya di 129 lingkungan browser terhadap penyerang yang beradaptasi secara real time. Google dan Meta tidak pernah memasukkan nomor tersebut ke dalam kartu sama sekali. Injeksi cepat file Gemini 3 Google dalam mitigasi, dan materi peluncuran menggambarkan resistensi yang lebih kuat tanpa nomor yang dilampirkan. Laporan Frontier Safety Framework memang menjalankan tim merah, namun di seluruh domain kemampuannya, dan injeksi cepat bukan salah satunya. Tidak ada kartu model, tidak ada halaman kerangka kerja, tidak ada nomor per permukaan yang dapat diangkat oleh pembeli ke dalam tinjauan risiko. Meta mengirimkan bobot terbuka tanpa kartu model tertutup. Pertahanan injeksi yang cepat berada di tumpukan terpisah, LlamaFirewall Ungu Llama. Pengklasifikasi PromptGuard 2 dan auditor AlignmentCheck, dijalankan terhadap benchmark AgentDojo publik dan 97 tugasnya, mengurangi keberhasilan serangan dari 17,6% tanpa pertahanan menjadi 1,75% jika digabungkan. Bilangan nyata. Mereka menilai pagar pembatas berdasarkan tolok ukur publik, bukan model pada permukaan penerapan yang akan dikenali oleh tim keamanan. Kisi Pengungkapan Injeksi Cepat Lintas VendorKisi di bawah ini berfungsi pada model perbatasan apa pun yang ditimbang oleh tim keamanan. Setiap baris menandai tempat di mana keempat lab dipisahkan. Setiap pemisahan adalah tempat terputusnya perbandingan cepat. Angka Antropik berasal dari kartu sistem Opus 4.8. Segala sesuatu untuk tiga lainnya berasal dari dokumentasi keselamatan yang diterbitkan masing-masing vendor.DimensiAntropik, Opus 4.8OpenAI, GPT-5.5Google, Gemini 3.xMeta, tumpukan LlamaDokumen keselamatanKartu sistem, 28 Mei 2026, 244 halamanKartu sistem, 23 April 2026, diperbarui 24 AprilKartu model ditambah laporan Kerangka Kerja Keamanan Frontier terpisahTidak ada kartu model tertutup. Bobot terbuka ditambah tumpukan Llama UnguPatokan injeksi atau kumpulan dataART dari Gray Swan dan UK AISI, alat Shade, ditambah evaluasi browser internal, 129 lingkunganEvaluasi konektor internal, serangan yang diketahuiTidak ada untuk injeksiAgentDojo, 97 tugasPermukaan dengan eval injeksiEmpat. Penggunaan alat, coding, penggunaan komputer, browserOne. ConnectorsNone diterbitkan untuk injectionOne. AgenTugas agen DojoEskalasi multi-percobaan ditampilkanYa. Benchmark ART pada 1, 10, 100. Pengkodean dan penggunaan komputer pada 1 dan 200No. Metrik scoreNoNoHeadline tunggal dan tingkat keberhasilan unitAttack. Browser, dengan pemikiran, 31,5% mentah, 0,5% dilindungi Skor Kekokohan, lebih tinggi lebih baik. 0,963, turun dari 0,998 untuk GPT-5.4-thinkingNone diterbitkan. Peningkatan resistensi diklaim secara kualitatif Tingkat keberhasilan serangan pada AgentDojo. Gabungan 17,6% baseline hingga 1,75%Bounty eksternal langsungYa. Hadiah injeksi langsung satu minggu dengan tim merah eksternalTidak ada hadiah suntikan. Hanya bio bounty Tidak ada yang ditemukan Tidak ada yang ditemukan Regresi diungkapkan Ya, eksplisit, dengan angka Angka turun 0,998 menjadi 0,963, tidak dibingkai sebagai regresi Peningkatan resistensi yang diklaim, tidak ada angka Tidak berlaku Lima faktor yang perlu dipertimbangkan tim keamanan sekarang Anthropic menguji empat permukaan dan mencetak setiap angka. OpenAI mengujinya. Google tidak mencetak tarif per permukaan. Meta menilai pagar pembatasnya, bukan modelnya. Keempat pengungkapan tersebut tidak dapat dijadikan perbandingan. Kelima langkah ini membangun satu agen. Tarik setiap agen yang telah Anda sebarkan atau cakup dan tandai setiap agen berdasarkan permukaan yang disentuhnya, browser, kode, konektor, atau desktop. Tarif Anthropic untuk Opus 4.8 berjalan 2,09% pada pengkodean dan 0,5% pada browser. Nomor campuran tidak mencakup keduanya. Tarik tarif yang dipublikasikan vendor untuk permukaan spesifik Anda. Jika vendor tidak pernah menerbitkannya, perlakukan itu sebagai belum teruji. Kirimkan grid Lintas-Vendor ke setiap vendor yang sedang dievaluasi. Skor konektor 0,963 dan tingkat browser 31,5% tidak pernah berada pada skala yang sama. Menuntut tingkat keberhasilan serangan per permukaan, mentah dan terlindungi, dengan nama metodologi penyerang. Sel kosong adalah permukaan yang tidak memiliki bukti pihak pertama. Konfirmasikan secara tertulis nomor mana yang didapat integrasi Anda. 0,5% Anthropic berasal dari Claude di Chrome dan Cowork dengan tumpukan perlindungan penuh. Di API, model dikirimkan tanpa mereka. Jangan terima nomor produk untuk penerapan API. Tambahkan dua klausa ke RFP. Vendor menguji dengan penyerang adaptif yang menulis ulang payload terhadap model tersebut, dan seseorang di luar perusahaan mencoba memecahkannya. Anthropic menjalankan alat Shade adaptif Gray Swan dan hadiah berbayar selama satu minggu. OpenAI menguji serangan yang diketahui pada satu permukaan. Musuh tidak mengirimkan muatan yang diketahui. Jalankan uji injeksi Anda sendiri sebelum agen mana pun mengirimkannya. Nomor vendor berasal dari lingkungan vendor dengan petunjuk sistem vendor. Tumpukan Anda memiliki perintah, izin, dan akses datanya sendiri. Tetapkan ambang batas kelulusan. Apa pun di atasnya tidak akan ditayangkan. Intinya. Belum ada standar untuk hal ini. Nomor vendor memberi tahu Anda apa yang dipilih untuk diukur. Tim merah Anda sendiri memberi tahu Anda apa yang Anda hadapi.
Diterbitkan : 2026-06-01 15:50:00
sumber : venturebeat.com



