
- Kata-kata yang tercetak dapat mengesampingkan sensor dan konteks di dalam sistem keputusan otonom
- Model bahasa visi memperlakukan teks publik sebagai perintah tanpa memverifikasi maksudnya
- Rambu-rambu jalan menjadi vektor serangan ketika AI membaca bahasa terlalu harfiah
Kendaraan otonom dan drone mengandalkan sistem penglihatan yang menggabungkan pengenalan gambar dengan pemrosesan bahasa untuk menafsirkan lingkungan sekitarnya, membantu mereka membaca rambu, label, dan marka jalan sebagai informasi kontekstual yang mendukung navigasi dan identifikasi.
Para peneliti dari Universitas California, Santa Cruz, dan Johns Hopkins mulai menguji apakah asumsi tersebut berlaku ketika bahasa tertulis sengaja dimanipulasi.
Eksperimen tersebut berfokus pada apakah teks yang terlihat oleh kamera kendaraan otonom dapat salah dibaca sebagai instruksi, bukan sebagai data lingkungan sederhana, dan menemukan bahwa model bahasa penglihatan yang besar dapat dipaksa untuk mengikuti perintah yang tertanam dalam rambu-rambu jalan.
Apa yang terungkap dari eksperimen tersebut
Dalam skenario simulasi mengemudi, mobil self-driving pada awalnya berperilaku benar saat mendekati lampu lalu lintas dan penyeberangan aktif.
Ketika tanda yang dimodifikasi memasuki pandangan kamera, sistem yang sama menafsirkan teks tersebut sebagai arahan dan mencoba berbelok ke kiri meskipun ada pejalan kaki.
Pergeseran ini terjadi tanpa perubahan apa pun pada lampu lalu lintas, tata letak jalan, atau aktivitas manusia, yang menunjukkan bahwa bahasa tertulis saja yang memengaruhi keputusan tersebut.
Kelas serangan ini bergantung pada injeksi prompt tidak langsung, di mana data masukan diproses sebagai perintah.
Tim mengubah kata-kata seperti “lanjutkan” atau “belok kiri” menggunakan alat AI untuk meningkatkan kemungkinan kepatuhan.
Pilihan bahasa kurang penting dari yang diharapkan, karena perintah yang ditulis dalam bahasa Inggris, Cina, Spanyol, dan bahasa campuran semuanya efektif.
Presentasi visual juga berperan, dengan kontras warna, gaya font, dan penempatan yang memengaruhi hasil.
Dalam beberapa kasus, latar belakang hijau dengan teks kuning memberikan hasil yang konsisten di seluruh model.
Eksperimen tersebut membandingkan dua model bahasa penglihatan dalam skenario mengemudi dan drone.
Meskipun banyak hasil yang serupa, pengujian mobil self-driving menunjukkan kesenjangan besar dalam tingkat keberhasilan antar model.
Sistem drone terbukti lebih dapat diprediksi dalam responsnya.
Dalam satu pengujian, drone dengan tepat mengidentifikasi kendaraan polisi hanya berdasarkan penampilannya.
Menambahkan kata-kata tertentu ke kendaraan umum menyebabkan sistem salah mengidentifikasinya sebagai mobil polisi milik departemen tertentu, meskipun tidak ada indikator fisik yang mendukung klaim tersebut.
Semua pengujian dilakukan dalam lingkungan simulasi atau terkendali untuk menghindari bahaya di dunia nyata.
Meski begitu, temuan ini menimbulkan kekhawatiran tentang bagaimana sistem otonom memvalidasi masukan visual.
Perlindungan tradisional, seperti a firewall atau perlindungan titik akhirjangan mengatasi instruksi yang tertanam di ruang fisik.
Penghapusan perangkat lunak jahat tidak relevan ketika serangan hanya memerlukan teks cetak, sehingga tanggung jawab berada pada perancang sistem dan regulator, bukan pada pengguna akhir.
Produsen harus memastikan bahwa sistem otonom memperlakukan teks lingkungan sebagai informasi kontekstual, bukan instruksi yang dapat dijalankan.
Hingga kontrol tersebut ada, pengguna dapat melindungi diri mereka sendiri dengan membatasi ketergantungan pada fitur otonom dan mempertahankan pengawasan manual bila memungkinkan.
Melalui Daftar
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.


