Menguji ChatGPT, Gemini, dan Claude di labirin multimodal

Penulis

Desember 3, 2025

Setiap model AI baru menegaskan bahwa ini adalah model AI terhebat yang pernah Anda bayangkan. Tentu saja, hal tersebut tidak benar, namun seberapa baik kinerja masing-masing perangkat dalam tugas dan peran yang berbeda tidak selalu jelas, dan bahkan pengujian kuantitatif yang dianggap netral mungkin tidak secara akurat menyampaikan apa yang dirasakan oleh rata-rata pengguna.

Salah satu contohnya adalah dekripsi multimodal – melihat gambar dan menguraikan apa yang ada di dalamnya dan apa artinya. Ini adalah sesuatu yang dilakukan manusia secara instan dan naluriah, namun model AI lebih baru dalam peran tersebut. Mendapatkan model AI untuk menafsirkan gambar kacau secara akurat mungkin lebih penting daripada yang Anda pikirkan pada awalnya. Jika model AI dapat mengidentifikasi objek, model tersebut dapat membantu Anda membuat katalog barang untuk asuransi, mengidentifikasi bahaya di rumah, atau bahkan menguraikan peta transit. Model AI yang dapat memahami informasi visual yang kompleks dan berlapis tanpa menciptakan detail sangatlah berguna.