
- Gemini 3 Flash sering kali menciptakan jawaban alih-alih mengakui ketika ia tidak mengetahui sesuatu
- Masalah timbul karena pertanyaan-pertanyaan faktual atau berisiko tinggi
- Namun model ini masih diuji sebagai model AI yang paling akurat dan mumpuni
Gemini 3 Flash cepat dan pintar. Namun jika Anda menanyakan sesuatu yang sebenarnya tidak diketahuinya – sesuatu yang tidak jelas atau rumit atau di luar pelatihannya – ia hampir selalu mencoba untuk berbohong, menurut evaluasi terbaru dari kelompok pengujian independen Artificial Analysis.
Tampaknya Gemini 3 Flash mencapai 91% pada bagian “tingkat halusinasi” dari benchmark AA-Omniscience. Artinya ketika tidak ada jawabannya, ia tetap memberikan jawaban, hampir sepanjang waktu, jawaban yang seluruhnya fiktif.
Chatbot AI yang mengada-ada telah menjadi masalah sejak pertama kali debut. Mengetahui kapan harus berhenti dan mengatakan saya tidak tahu sama pentingnya dengan mengetahui cara menjawabnya. Saat ini, Google Gemini 3 Flash AI tidak melakukannya dengan baik. Untuk itulah tes ini dilakukan: melihat apakah suatu model dapat membedakan pengetahuan aktual dan dugaan.
Agar angka tersebut tidak mengalihkan perhatian dari kenyataan, perlu dicatat bahwa tingkat halusinasi Gemini yang tinggi tidak berarti 91% dari total jawaban mereka salah. Sebaliknya, ini berarti bahwa dalam situasi di mana jawaban yang benar adalah “Saya tidak tahu”, 91% jawaban tersebut dibuat-buat. Ini adalah perbedaan yang halus namun penting, namun memiliki implikasi di dunia nyata, terutama karena Gemini terintegrasi ke lebih banyak produk seperti Google Penelusuran.
Oke, bukan hanya aku. Gemini 3 Flash memiliki tingkat halusinasi 91% pada tolok ukur Tingkat Halusinasi Mahatahu Analisis Buatan!?Bisakah Anda benar-benar menggunakan ini untuk sesuatu yang serius?Saya ingin tahu apakah alasan model Antropik begitu pandai dalam pengkodean adalah karena mereka sering berhalusinasi… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD418 Desember 2025
Hasil ini tidak mengurangi kekuatan dan kegunaan Gemini 3. Model ini tetap memiliki performa tertinggi dalam pengujian tujuan umum dan berada di peringkat yang sama, atau bahkan di depan, versi terbaru ChatGPT dan Claude. Itu hanya salah dalam hal kepercayaan diri padahal seharusnya sederhana.
Rasa percaya diri yang berlebihan dalam menjawab juga muncul pada saingan Gemini. Apa yang membuat angka Gemini menonjol adalah seberapa sering angka tersebut terjadi dalam skenario ketidakpastian ini, ketika tidak ada jawaban yang benar dalam data pelatihan atau tidak ada sumber publik yang pasti untuk disebutkan.
Kejujuran Halusinasi
Salah satu masalahnya adalah model AI generatif sebagian besar merupakan alat prediksi kata, dan memprediksi kata baru tidak sama dengan mengevaluasi kebenaran. Dan itu berarti perilaku defaultnya adalah memunculkan kata baru, meskipun mengatakan “Saya tidak tahu” akan lebih jujur.
OpenAI telah mulai mengatasi hal ini dan membuat modelnya mengenali apa yang tidak mereka ketahui dan katakan dengan jelas. Ini adalah hal yang sulit untuk dilatih, karena model penghargaan biasanya tidak menghargai respons kosong dibandingkan respons percaya diri (tetapi salah). Meski begitu, OpenAI telah menjadikannya sebagai tujuan pengembangan model masa depan.
Dan Gemini biasanya mengutip sumber jika bisa. Namun meski begitu, hal itu tidak selalu berhenti pada saat yang seharusnya. Hal ini tidak akan terlalu menjadi masalah jika Gemini hanyalah model penelitian, namun karena Gemini menjadi suara di balik banyak fitur Google, kesalahan yang diyakini dapat berdampak cukup besar.
Ada juga pilihan desain di sini. Banyak pengguna mengharapkan asisten AI mereka merespons dengan cepat dan lancar. Mengatakan “Saya tidak yakin” atau “Biarkan saya memeriksanya” mungkin terasa kikuk dalam a bot obrolan konteks. Tapi itu mungkin lebih baik daripada disesatkan. AI generatif masih belum bisa diandalkan, namun memeriksa kembali respons AI selalu merupakan ide bagus.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



