
Kloning suara yang dihasilkan AI telah beralih dari pembuktian konsep ke produksi. Pada kuartal terakhir tahun 2024, sekitar satu dari tiga konsumen AS melaporkan mengalami beberapa bentuk penipuan suara sintetis, dan sebagian besar konsumen mengalami kerugian finansial.
Apa yang awalnya merupakan insiden terisolasi telah berkembang menjadi alur kerja industri, dengan data yang dilanggar, text-to-speech berbiaya rendah, dan panggilan bot otomatis yang secara konsisten mengalahkan pemeriksaan lama.
Alat AI generatif juga dapat mereplikasi pola bicara, irama, dan aksen seseorang hanya dari rekaman audio beberapa detik. Hambatan masuknya rendah, modelnya tersedia secara luas, dan pusat kontak tetap menjadi saluran di mana suara adalah satu-satunya pilihan yang layak untuk keamanan nyata dan meminimalkan gesekan.
Presiden, Chief Product Officer (CPO), dan anggota Dewan Direksi Daon.
Meskipun ada prediksi seperti itu otomatisasi akan membuat pusat panggilan menjadi usang, data menunjukkan sebaliknya. Layanan berbasis telepon tetap menjadi saluran pilihan untuk banyak transaksi bernilai tinggi atau berisiko tinggi, dan menurut Gartner, hanya sekitar 10% interaksi agen diperkirakan akan sepenuhnya terotomatisasi pada tahun 2026.
Kegigihan ini membuat pusat kontak menarik bagi penyerang – mereka menggabungkan interaksi sensitif dengan konsentrasi tinggi dengan proses verifikasi lama seperti otentikasi berbasis pengetahuan (KBA) dan pencocokan suara dasar.
Bahkan perusahaan yang menggunakan teknologi pencocokan suara sering kali menggunakan versi yang kurang canggih sehingga rentan terhadap teknik penipuan modern.
Penipu sekarang dapat mengumpulkan dokumen pribadi dari data yang dibobol dan sumber terbuka informasi, memasukkannya ke dalam generator suara AI, dan meluncurkan kampanye terkoordinasi yang melampaui pertahanan lama.
Bagi organisasi yang masih mengandalkan KBA statis atau pemeriksaan cetak suara tunggal tanpa deteksi penipuan, permukaan serangan telah berlipat ganda secara efektif dalam semalam.
Tautan lemah dalam verifikasi lama
Sebagian besar pusat kontak masih bergantung pada alat verifikasi generasi pertama yang tidak pernah dirancang untuk tahan terhadap serangan berfrekuensi tinggi yang didukung AI.
Otentikasi berbasis pengetahuan tetap umum karena tidak mahal dan familiar, namun informasi yang diandalkan, seperti tanggal lahir, alamat, atau keamanan pertanyaan, tersedia melalui kumpulan data atau media sosial yang dibobol.
Setelah penyerang memiliki datanya, melewati pemeriksaan KBA hanya membutuhkan ketekunan. AI generatif menambah masalah dengan mengotomatiskan pengintaian dan eksekusi, sehingga memungkinkan upaya skala besar yang menguji setiap titik lemah dalam rantai.
Saat Anda menggabungkan pengumpulan massal dan penerapan data dengan bot suara, hal ini menghilangkan salah satu alat paling dasar yang digunakan agen pusat panggilan untuk keamanan – “apakah ini terdengar seperti wanita berusia 32 tahun dari New York?” – bot suara bisa terdengar seperti siapa pun yang membutuhkannya, tapi peretas tidak bisa.
Jika biometrik suara diterapkan sebagai pencocokan template satu faktor tanpa keaktifan atau analisis ucapan sintetik, mesin vendor pemindaian yang disetujui (ASV) dapat dipalsukan oleh TTS berkualitas tinggi (Teks-ke-Ucapan) atau memasukkan audio.
Sistem ini menganalisis nada, nada, dan ritme untuk memverifikasi pembicara, tetapi sistem ini hanya memberikan resistensi terbatas terhadap ucapan sintetis.
Model AI sekarang dapat mereproduksi karakteristik akustik suara target dengan cukup dekat untuk memicu kecocokan, terutama ketika sistem tidak memiliki analisis real-time untuk keaktifan atau memutar ulang sidik jari seperti pola jitter/kehilangan paket yang tidak normal, lompatan codec yang tidak cocok dengan titik akhir, tidak ada respons ruang jarak dekat, dan grafik perangkat yang menunjukkan tanda (driver audio virtual).
Beberapa serangan juga melewati mikrofon sepenuhnya melalui injeksi, memasukkan sampel yang direkam atau dihasilkan langsung ke saluran komunikasi (misalnya, audio TTS yang disuntikkan pada lapisan SIP/RTP, perangkat audio virtual softphone, atau middleware yang menggantikan streaming langsung).
Tanpa kontrol yang memasangkan PAD real-time (Deteksi Serangan Presentasi: pemeriksaan prosodi mikro, fase, dan aperiodisitas) dengan sinyal integritas jaringan (pemeriksaan spoofing ANI, kewarasan header SIP, pengaturan waktu RTP) dan pengesahan titik akhir untuk memblokir jalur perangkat virtual dan driver softphone, bahkan mesin biometrik yang terlatih pun dapat tertipu.
Hasilnya adalah kesenjangan yang semakin lebar antara kecanggihan alat penipuan dan sifat statis dari banyak proses verifikasi yang ada.
Berita utama baru-baru ini, bahkan pernyataan Sam Altman ketika ia memperingatkan akan terjadinya “krisis penipuan AI”, telah memicu keraguan apakah biometrik suara masih dapat dipercaya di era AI generatif. Namun sebagian besar skeptisisme tersebut mencerminkan asumsi-asumsi yang sudah ketinggalan zaman.
Sistem biometrik suara modern tidak lagi hanya mengandalkan cetakan suara statis; mereka menganalisis keaktifan, integritas akustik, dan sinyal kontekstual secara paralel untuk membedakan penelepon manusia dari penelepon yang disintesis.
Ketika diterapkan sebagai bagian dari kerangka kerja yang berlapis dan adaptif, suara tetap menjadi salah satu jangkar identitas digital yang paling kuat, yang mampu menggabungkan kenyamanan dengan kecerdasan penipuan real-time yang tidak dapat diberikan oleh kata sandi atau PIN.
Model otentikasi berlapis dan adaptif
Pertahanan yang efektif di pusat kontak memerlukan banyak lapisan yang saling bergantung yang memverifikasi tidak hanya siapa yang berbicara namun juga bagaimana dan dari mana interaksi terjadi. Deteksi penipuan berlapis berlaku terus menerus di setiap panggilan, menghubungkan sinyal dari analisis suara, kecerdasan perangkat, atribut jaringan, dan pola perilaku.
Misalnya, deteksi suara sintetis dapat menandai anomali dalam frekuensi atau modulasi yang mengindikasikan generasi mesin sebelum pencocokan biometrik dilakukan. Pada saat yang sama, analisis perangkat atau jaringan dapat mengungkap ketidakkonsistenan dalam asal penelepon, perutean, atau latensi, yang masing-masing merupakan indikator potensial adanya gangguan atau injeksi.
PAD modern memeriksa prosodi mikro (waktu fonem-ke-fonem, stabilitas jitter/shimmer, aperiodisitas), isyarat spektral (kontinuitas formant, kemiringan spektral, rasio harmonik terhadap kebisingan), dan realisme koartikulasi antar suku kata.
Itu juga mencari artefak TTS/replay; kontur F0 yang terlalu halus, kesalahan penempatan napas/kebisingan, diskontinuitas fase, dan ketidakcocokan ruangan/loopback yang menunjukkan injeksi speaker-melalui-mikrofon vs.
Pemeriksaan silang mencakup konsistensi codec-hop (PSTN 8 kHz <-> VoIP 16 kHz), koherensi prosodi ASR (apakah tekanan waktu sesuai dengan transkrip), dan indikator anti-pemutaran ulang (respons medan dekat vs. medan jauh). Lapisan independen ini tumpang tindih, sehingga mengurangi titik buta yang mungkin terlewatkan oleh kontrol mana pun.
Otentikasi bertahap beroperasi bersamaan dengan pertahanan ini tetapi mengikuti prinsip yang berbeda. Ini aktif ketika tindakan atau sinyal tertentu meningkatkan ambang risiko, sehingga mendorong peningkatan ke faktor verifikasi yang lebih kuat.
Penyelidikan yang berisiko rendah hanya dapat dilakukan melalui sinyal suara dan perangkat, sedangkan transfer bernilai tinggi dapat memicu permintaan biometrik berbasis aplikasi atau konfirmasi out-of-band.
Jika diterapkan dengan benar, hal ini akan memastikan bahwa gesekan sebanding dengan risiko: transaksi bernilai rendah mengalami gangguan minimal, sementara aktivitas mencurigakan atau transaksi bernilai tinggi akan diawasi dengan cermat.
Bersama-sama, pemantauan multi-lapis yang berkelanjutan dan alur kerja peningkatan yang cerdas menciptakan model kepercayaan dinamis yang mampu beradaptasi terhadap ancaman tanpa merusak pengalaman pelanggan.
Mempersiapkan diri menghadapi ancaman berkelanjutan di masa depan
Penipuan suara sintetis tidak akan hilang. Itu akan berkembang begitu saja. Seiring dengan berkembangnya model penghasil suara, tanda akustiknya menjadi lebih sulit dibedakan dari ucapan yang sah, sehingga mempersempit margin kesalahan dalam pendeteksian.
Oleh karena itu, pusat kontak harus memperlakukan suara sebagai sinyal yang berharga namun bersifat parsial – sebuah jangkar dalam kerangka identitas yang lebih luas yang mengintegrasikan kecerdasan biometrik, perilaku, dan kontekstual.
Risiko tersebut tidak dapat dihilangkan seluruhnya, namun dapat diatasi melalui pertahanan berlapis yang menyesuaikan dengan kondisi real-time.
Menciptakan dan memelihara keseimbangan ini memerlukan investasi teknis dan disiplin operasional. Tim keamanan perlu menguji lapisan deteksi terhadap metode serangan baru, menyempurnakan ambang batas eskalasi, dan memastikan bahwa data identitas mengalir dengan aman antar sistem tanpa menciptakan titik paparan baru.
Lingkungan yang paling tangguh adalah lingkungan di mana tim autentikasi, deteksi penipuan, dan pengalaman pelanggan beroperasi secara kohesif, didukung oleh model risiko bersama dan kerangka kebijakan terpadu.
Ketika lanskap ancaman terus berubah, pendekatan adaptif dan berkelanjutan ini akan menentukan organisasi mana yang dapat melindungi kepercayaan pelanggan sekaligus menjaga aksesibilitas dan daya tanggap yang masih diberikan oleh layanan berbasis suara.
Lihat sistem telepon bisnis terbaik.
Artikel ini dibuat sebagai bagian dari saluran Expert Insights TechRadarPro tempat kami menampilkan para pemikir terbaik dan tercemerlang di industri teknologi saat ini. Pandangan yang diungkapkan di sini adalah milik penulis dan belum tentu milik TechRadarPro atau Future plc. Jika Anda tertarik untuk berkontribusi, cari tahu lebih lanjut di sini: https://www.techradar.com/news/submit-your-story-to-techradar-pro



