
Di era perpecahan politik yang intens, para peneliti baru-baru ini menemukan sesuatu yang luar biasa. Baik di Inggris maupun Amerika, orang-orang dari berbagai spektrum politik sepakat mengenai hal yang mana alat AI mereka lebih suka.
Terlepas dari segala perbincangan yang memecah-belah kita, ternyata politik bukanlah pembeda utama. Faktor yang paling signifikan membentuk preferensi AI kita jauh lebih mendasar: usia kita.
Namun penemuan paling mengejutkan dari penelitian berskala besar, yang disebut HUMAINE, bukanlah hal yang memecah belah masyarakat.
Staf Peneliti AI di Prolific.
Meskipun hampir setengah dari diskusi ini berfokus pada kesehatan proaktif seperti rencana kebugaran dan nutrisi, sebagian besar diskusi membahas hal-hal yang jauh lebih sensitif.
Percakapan tentang kesehatan mental dan kondisi medis tertentu termasuk yang paling sering dan sangat pribadi.
Orang-orang secara terbuka menggunakan model-model ini sebagai landasan bagi kondisi mental mereka, sumber kenyamanan, dan panduan untuk kesehatan fisik mereka.
Pergeseran besar
Hal ini menunjukkan perubahan besar dalam hubungan kita dengan teknologi dan menimbulkan pertanyaan mengejutkan: apakah metode evaluasi AI yang ada saat ini mampu memberi tahu kita apakah metode tersebut berfungsi dengan baik?
Jawaban jujurnya adalah tidak. Kesalahpahaman terbesar yang dimiliki orang-orang ketika mereka melihat papan peringkat AI sederhana adalah bahwa satu angka dapat menunjukkan model mana yang “lebih baik”. Pertanyaannya sendiri tidak jelas. Lebih baik dalam hal apa? Dan yang terpenting, lebih baik untuk siapa?
Industri AI menjadi terlalu terpaku pada langkah-langkah teknis. Fokus yang sempit ini, meskipun memberikan hasil yang mengesankan pada tolok ukur tertentu, membuat kita buta terhadap isu-isu yang berpusat pada manusia yang memengaruhi penggunaan kita sehari-hari. LLM.
Evaluasi saat ini mempunyai dua bentuk yang luas. Di satu sisi, kami memiliki akademis tolok ukur yang mengukur keterampilan abstrak, seperti kemampuan model dalam memecahkan masalah matematika tingkat Olimpiade.
Di sisi lain, kami memiliki “arena” publik tempat pengguna anonim memberikan suara. Hal ini telah menciptakan kesenjangan besar antara kompetensi teknis abstrak dan kegunaan dunia nyata.
Itu sebabnya sebuah model bisa tampak jenius dalam suatu pengujian, namun terbukti menjadi asisten yang tidak kompeten saat Anda membutuhkannya untuk merencanakan proyek yang kompleks atau, yang lebih penting, menangani pertanyaan kesehatan yang sensitif.
Melihat hasil melalui lensa yang berpusat pada manusia, muncul beberapa pola penting.
Kesimpulan #1: Krisis Keamanan yang Sebenarnya adalah Ketidaktampakan
Mengingat begitu banyak pembicaraan mengenai topik sensitif seperti kesehatan mental dan kondisi medis, metrik kepercayaan dan keselamatan mungkin menjadi pembeda utama. Ternyata tidak. Saat peserta menilai model berdasarkan dimensi ini, respons paling umum sejauh ini adalah seri. Metriknya sangat berisik.
Ini tidak berarti keselamatan itu tidak penting. Sebaliknya, hal ini menunjukkan bahwa kualitas seperti kepercayaan dan keamanan tidak dapat diukur secara andal dalam percakapan sehari-hari. Skenario yang benar-benar menguji tulang punggung etis suatu model jarang muncul secara alami. Menilai kualitas-kualitas penting ini memerlukan pendekatan yang berbeda dan lebih terspesialisasi.
Contoh yang kuat adalah karya yang disorot dalam postingan Stanford HAI baru-baru ini, “Menjelajahi Bahaya AI dalam Perawatan Kesehatan Mental”. Studi mereka menyelidiki apakah AI siap bertindak sebagai penyedia kesehatan mental dan menemukan risiko yang signifikan. Mereka menemukan bahwa model tidak hanya melanggengkan stigma buruk terhadap kondisi tertentu, namun juga memungkinkan terjadinya perilaku berbahaya karena tidak mengenali krisis mendasar yang dialami pengguna.
Pengujian ketat berbasis skenario seperti inilah yang dibutuhkan. Sangat menggembirakan melihat kerangka kerja tersebut dioperasionalkan sebagai evaluasi standar pada platform seperti weval.org milik CIP, yang memungkinkan pengujian model secara sistematis dalam situasi berisiko tinggi ini. Kami sangat membutuhkan lebih banyak evaluasi semacam ini, serta evaluasi yang menangkap dampak jangka panjang penggunaan AI.
Kesimpulan #2: Metrik Kami Mendorong Otomatisasi Tanpa Pikiran, Bukan Kolaborasi yang Penuh Perhatian
Perdebatan bukanlah sebuah pilihan sederhana otomatisasi dan kolaborasi. Mengotomatiskan pekerjaan yang membosankan dan berulang adalah sebuah anugerah. Bahayanya terletak pada otomatisasi yang tidak ada gunanya, yang melibatkan pengoptimalan semata-mata untuk penyelesaian tugas tanpa mempertimbangkan kerugian manusia.
Ini bukanlah ketakutan hipotetis. Kita sudah melihat laporan bahwa kaum muda dan lulusan baru kesulitan mendapatkan pekerjaan tingkat pemula, karena tugas-tugas yang dulunya merupakan anak tangga pertama dalam jenjang karier kini semakin terotomatisasi.
Kapan pengembang membangun dan mengukur AI dengan fokus yang terbatas pada efisiensi, kita berisiko mengurangi keterampilan tenaga kerja kita dan menciptakan masa depan yang mengutamakan teknologi, bukan manusia.
Di sinilah evaluasi menjadi kemudi. Jika satu-satunya metrik kami adalah “apakah tugas telah selesai?”, kami pasti akan membangun AI yang menggantikan, bukan menambah. Namun bagaimana jika kita juga mengukur “apakah kolaborator manusia mempelajari sesuatu?” atau “apakah produk akhir menjadi lebih baik karena kemitraan manusia-AI?”
Penelitian HUMAINE menunjukkan bahwa model memiliki profil keahlian yang berbeda: ada yang menjadi pemikir yang hebat, sementara yang lain adalah komunikator yang hebat. Masa depan kolaborasi yang berkelanjutan bergantung pada penilaian dan pengukuran kualitas interaktif ini, bukan hanya hasil akhir.
Kesimpulan #3: Kemajuan Sejati Terletak pada Nuansa
Pada akhirnya, pemenang yang jelas muncul dalam penelitian ini: GoogleGemini-2.5-Pro. Namun alasan mengapa mereka menang adalah pelajaran yang paling penting. Angka ini menempati posisi teratas karena merupakan yang paling konsisten di semua metrik, dan di semua kelompok demografis.
Seperti inilah teknologi yang matang. Model terbaik belum tentu paling mencolok; merekalah yang paling dapat diandalkan dan berkompeten secara luas. Kemajuan yang berkelanjutan terletak pada pembangunan sistem yang menyeluruh dan dapat diandalkan, bukan hanya mengoptimalkan satu keterampilan yang sempit.
Kesimpulan-kesimpulan ini menunjukkan perlunya perubahan dalam cara pandang komunitas dan masyarakat luas mengenai kemajuan AI.
Hal ini mendorong kita untuk melakukan lebih dari sekedar pemeringkatan sederhana dan mengajukan pertanyaan lebih dalam tentang dampak teknologi kita, seperti bagaimana kinerja model di seluruh populasi dan apakah kelompok tertentu secara tidak sengaja kurang terlayani.
Ini juga berarti berfokus pada aspek kemanusiaan kolaborasi: apakah keterlibatan AI merupakan kemitraan yang positif dan saling menguntungkan, atau merupakan kemunduran yang sama-sama menguntungkan menuju otomatisasi?
Pada akhirnya, ilmu evaluasi yang lebih matang bukanlah tentang memperlambat kemajuan; ini tentang mengarahkannya. Hal ini memungkinkan kita untuk mengidentifikasi dan mengatasi kelemahan kita, memandu pengembangan menuju AI yang tidak hanya mengesankan secara teknis, namun juga sangat bermanfaat.
Dunia ini kompleks, beragam, dan berbeda-beda; sudah saatnya evaluasi kita juga.
Kami mencantumkan Model Bahasa Besar (LLM) terbaik untuk pengkodean.
Artikel ini dibuat sebagai bagian dari saluran Expert Insights TechRadarPro tempat kami menampilkan para pemikir terbaik dan tercemerlang di industri teknologi saat ini. Pandangan yang diungkapkan di sini adalah milik penulis dan belum tentu milik TechRadarPro atau Future plc. Jika Anda tertarik untuk berkontribusi, cari tahu lebih lanjut di sini: https://www.techradar.com/news/submit-your-story-to-techradar-pro



