Beranda Teknologi Gemini 3 Flash itu cerdas — tetapi jika ia tidak mengetahuinya, ia...

Teknologi

Gemini 3 Flash itu cerdas — tetapi jika ia tidak mengetahuinya, ia tetap mengada-ada

Penulis

Desember 22, 2025

Gemini 3 Flash sering kali menciptakan jawaban alih-alih mengakui ketika ia tidak mengetahui sesuatu
Masalah timbul karena pertanyaan-pertanyaan faktual atau berisiko tinggi
Namun model ini masih diuji sebagai model AI yang paling akurat dan mumpuni

Gemini 3 Flash cepat dan pintar. Namun jika Anda menanyakan sesuatu yang sebenarnya tidak diketahuinya – sesuatu yang tidak jelas atau rumit atau di luar pelatihannya – ia hampir selalu mencoba untuk berbohong, menurut evaluasi terbaru dari kelompok pengujian independen Artificial Analysis.

Tampaknya Gemini 3 Flash mencapai 91% pada bagian “tingkat halusinasi” dari benchmark AA-Omniscience. Artinya ketika tidak ada jawabannya, ia tetap memberikan jawaban, hampir sepanjang waktu, jawaban yang seluruhnya fiktif.

Google Gemini 3 Flash AI tidak melakukannya dengan baik. Untuk itulah tes ini dilakukan: melihat apakah suatu model dapat membedakan pengetahuan aktual dan dugaan.

Anda mungkin menyukainya

Agar angka tersebut tidak mengalihkan perhatian dari kenyataan, perlu dicatat bahwa tingkat halusinasi Gemini yang tinggi tidak berarti 91% dari total jawaban mereka salah. Sebaliknya, ini berarti bahwa dalam situasi di mana jawaban yang benar adalah “Saya tidak tahu”, 91% jawaban tersebut dibuat-buat. Ini adalah perbedaan yang halus namun penting, namun memiliki implikasi di dunia nyata, terutama karena Gemini terintegrasi ke lebih banyak produk seperti Google Penelusuran.

Oke, bukan hanya aku. Gemini 3 Flash memiliki tingkat halusinasi 91% pada tolok ukur Tingkat Halusinasi Mahatahu Analisis Buatan!?Bisakah Anda benar-benar menggunakan ini untuk sesuatu yang serius?Saya ingin tahu apakah alasan model Antropik begitu pandai dalam pengkodean adalah karena mereka sering berhalusinasi… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD418 Desember 2025

Hasil ini tidak mengurangi kekuatan dan kegunaan Gemini 3. Model ini tetap memiliki performa tertinggi dalam pengujian tujuan umum dan berada di peringkat yang sama, atau bahkan di depan, versi terbaru ChatGPT dan Claude. Itu hanya salah dalam hal kepercayaan diri padahal seharusnya sederhana.

Rasa percaya diri yang berlebihan dalam menjawab juga muncul pada saingan Gemini. Apa yang membuat angka Gemini menonjol adalah seberapa sering angka tersebut terjadi dalam skenario ketidakpastian ini, ketika tidak ada jawaban yang benar dalam data pelatihan atau tidak ada sumber publik yang pasti untuk disebutkan.

Kejujuran Halusinasi

Salah satu masalahnya adalah model AI generatif sebagian besar merupakan alat prediksi kata, dan memprediksi kata baru tidak sama dengan mengevaluasi kebenaran. Dan itu berarti perilaku defaultnya adalah memunculkan kata baru, meskipun mengatakan “Saya tidak tahu” akan lebih jujur.

Mendaftarlah untuk mendapatkan berita terkini, ulasan, opini, penawaran teknologi terbaik, dan banyak lagi.

OpenAI telah mulai mengatasi hal ini dan membuat modelnya mengenali apa yang tidak mereka ketahui dan katakan dengan jelas. Ini adalah hal yang sulit untuk dilatih, karena model penghargaan biasanya tidak menghargai respons kosong dibandingkan respons percaya diri (tetapi salah). Meski begitu, OpenAI telah menjadikannya sebagai tujuan pengembangan model masa depan.

Dan Gemini biasanya mengutip sumber jika bisa. Namun meski begitu, hal itu tidak selalu berhenti pada saat yang seharusnya. Hal ini tidak akan terlalu menjadi masalah jika Gemini hanyalah model penelitian, namun karena Gemini menjadi suara di balik banyak fitur Google, kesalahan yang diyakini dapat berdampak cukup besar.

bot obrolan konteks. Tapi itu mungkin lebih baik daripada disesatkan. AI generatif masih belum bisa diandalkan, namun memeriksa kembali respons AI selalu merupakan ide bagus.

Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!

Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.

Tautan sumber

Facebook

Twitter

Artikulli paraprakRelokasi Kansas City Chiefs senilai $4 miliar berisiko menimbulkan kemarahan Travis Kelce dan Patrick Mahomes setelah keduanya mengungkapkan perasaannya dengan jelas di Stadion Arrowhead

Artikulli tjetërPemain tenis remaja Amerika dijatuhi skorsing sementara karena gagal dalam tes narkoba