Sebuah tim peneliti menggunakan sensor radar microwave untuk mengumpulkan percakapan dari getaran smartphone dan mengadaptasi model pengenalan suara skala besar yang terintegrasi dengan kecerdasan buatan untuk menuliskan getaran ini ke dalam pidato yang dapat dikenali.
Bentuk pengawasan yang muncul, dikenal sebagai “mengetuk nirkabel“mengeksplorasi kemungkinan decoding percakapan dari jarak jauh dari getaran huruf kecil yang diproduksi oleh altifier telinga ponsel.
Dengan tujuan Lindungi privasi pengguna terhadap agen berbahaya potensial, tim peneliti dari Penn State Ussity di AS, menunjukkan hal itu Dimungkinkan untuk menghasilkan transkrip panggilan telepon dari pengukuran radar yang dibuat hingga tiga meter dari telepon.
Meskipun Akurasi masih terbatas – Sekitar 60% untuk kosakata hingga 10.000 kata – Kesimpulan menimbulkan pertanyaan penting tentang risiko privasi di masa depan.
Hasil dari belajar disajikan dalam sebuah artikel yang baru -baru ini diterbitkan di Prosiding WISEC 2025.
Pekerjaan ini didasarkan pada proyek 2022 di mana tim menggunakan sensor radar dan perangkat lunak pengenalan suara yang memungkinkan Identifikasi dari jarak jauh 10 kata, huruf dan angka yang telah ditentukan, dengan presisi hingga 83%.
“Saat kita berbicara dengan ponsel, Kami cenderung mengabaikan getaran yang melewati altifalage telinga dan menggetarkan seluruh perangkat, ”jelas Suryoday BasakMahasiswa PhD dalam Ilmu Komputer di Penn State dan penulis artikel pertama, di komunikasi dari universitas.
“Jika kita menangkap getaran yang sama ini menggunakan radar dan resor jarak jauh Pembelajaran Mesin Untuk membantu kami memahami apa yang dikatakan, menggunakan petunjuk kontekstual, Kami berhasil menentukan seluruh percakapan. Ketika kami menyadari apa yang mungkin, kami dapat membantu masyarakat menyadari potensi risiko, ”tambah penyelidik.
Basak dan penasihatnya, Mahanth GowdaAssociate Professor Computer Engineering dan Co -Author dari artikel, menggunakan sensor radar gelombang milimeter untuk mengeksplorasi potensi perangkat yang kompak, berbasis radar, itu bisa miniatur Agar muat di dalam benda sehari -hari, seperti pena.
Sebagai Gelombang milimeter Mereka adalah jenis microwave dalam kisaran frekuensi antara 300 MHz dan 300 GHz (panjang gelombang 1 mm 1 mm), biasanya ada di perangkat yang digunakan dalam mobil otonom, detektor gerakan dan jaringan 5G.
Para peneliti menekankan bahwa sistem eksperimental mereka hanya memiliki tujuan penelitian, dan dikembangkan dengan cara pencegahanmengantisipasi apa yang bisa dibuat oleh agen jahat.
Dalam perjalanan penelitian, para peneliti kemudian mengadaptasi BerbisikModel pengenalan ucapan open source, yang diberi makan oleh kecerdasan buatan, untuk memecahkan kode getaran dalam transkrip ucapan yang dapat dikenali.
“Dalam tiga tahun terakhir, ada a Ledakan besar dalam kemampuan AI Dan dalam model pengenalan suara open source, “kata Basak.” Kita bisa menggunakan model ini, tetapi mereka Paling Berorientasi untuk Membersihkan Pidato Atau konteks sehari -hari, jadi kita perlu mengadaptasi mereka untuk mengenali data radar ‘berisik’ yang berkualitas rendah. “
Untuk mengubah data bising menjadi pidato yang dapat dikenali tanpa harus melatih seluruh model lagi, para peneliti menggunakan metode adaptasi yang disebut Adaptasi rendahyang memungkinkan mereka untuk mengkhususkan model untuk data radar melatih hanya 1% dari parameter Mengerjakan Berbisik.
Untuk merekam getaran, tim memposisikan sensor radar gelombang milimeter beberapa meter dari teleponmenangkap getaran halus di permukaan sementara ucapan direproduksi oleh telinga altifier.
Untuk menganalisis data, mereka memperkenalkan sinyal yang ditangkap oleh radar ke dalam versi kustom model mereka Berbisik, Memperoleh hingga 60% akurasi. Menurut penyelidik, keakuratan transkripsi bisa ditingkatkan Dengan koreksi manual berbasis konteks, menyesuaikan kata atau ekspresi tertentu, ketika ada pengetahuan sebelumnya tentang percakapan.
“Hasilnya adalah transkrip percakapandengan harapan beberapa kesalahan, yang sudah mewakili peningkatan yang signifikan Mengenai versi 2022, yang hanya menghasilkan beberapa kata, “kata Gowda.” Tetapi bahkan bisa menangkap korespondensi parsial, seperti kata kuncidapat berguna dalam konteks keamanan. “
Para peneliti membandingkan kemampuan model dengan Membaca bibir: Meskipun memungkinkannya untuk menangkap hanya sekitar 30% hingga 40% dari kata -kata yang diucapkan, banyak orang yang menggunakannya menggunakan trek kontekstual untuk menguraikan cukup untuk berpartisipasi dalam percakapan.
“Sama seperti pembaca bibir dapat menafsirkan percakapan dengan informasi terbatas, kepergian model kami, dikombinasikan dengan informasi kontekstual, dapat memungkinkan kami menyimpulkan bagian dari percakapan telepon Beberapa meter jauhnya, ”pungkas Basak.