
Setiap model AI baru menegaskan bahwa ini adalah model AI terhebat yang pernah Anda bayangkan. Tentu saja, hal tersebut tidak benar, namun seberapa baik kinerja masing-masing perangkat dalam tugas dan peran yang berbeda tidak selalu jelas, dan bahkan pengujian kuantitatif yang dianggap netral mungkin tidak secara akurat menyampaikan apa yang dirasakan oleh rata-rata pengguna.
Salah satu contohnya adalah dekripsi multimodal – melihat gambar dan menguraikan apa yang ada di dalamnya dan apa artinya. Ini adalah sesuatu yang dilakukan manusia secara instan dan naluriah, namun model AI lebih baru dalam peran tersebut. Mendapatkan model AI untuk menafsirkan gambar kacau secara akurat mungkin lebih penting daripada yang Anda pikirkan pada awalnya. Jika model AI dapat mengidentifikasi objek, model tersebut dapat membantu Anda membuat katalog barang untuk asuransi, mengidentifikasi bahaya di rumah, atau bahkan menguraikan peta transit. Model AI yang dapat memahami informasi visual yang kompleks dan berlapis tanpa menciptakan detail sangatlah berguna.
Times Square
Times Square adalah kelebihan sensorik. Jika model multimodal dapat mengurai Times Square dengan benar, model tersebut dapat mengurai hampir di mana saja.
ChatGPT 5.1 menyambut Times Square dengan cara yang terstruktur, membaginya menjadi beberapa bagian. Ini mengidentifikasi tanda-tanda utama Jahat, Hantu, Jersey Anak Laki-Laki, Aldo, Dan CepatIa melihat gerobak hot dog, taksi kuning, bus, orang-orang menyeberang jalan, dan marka jalan tanpa mendramatisir apapun. Itu mengutip potongan teks yang terlihat di papan tanda, termasuk frasa yang lebih kecil seperti “Malam ini milik…” di bawah Hantu Opera. ChatGPT 5.1 hampir cerewet, mengatakan, “Ini sepertinya energi puncak malam hari, semuanya bersaing untuk mendapatkan perhatian.”
Gemini 3 Pro mendekati citra Times Square seperti seorang analis forensik. Ini tidak hanya mencantumkan apa yang ada; itu menggambarkan hubungan spasial, sudut, dan komposisi warna. Misalnya, ia mencatat bagaimana cahaya hijau dari tanda Wicked “terpantul di permukaan bangunan yang berdekatan”, sesuatu yang tidak ingin disebutkan oleh pihak lain. Peraturan tersebut menyebut pola penyeberangan sebagai “garis diagonal lebar dan terhuyung-huyung yang menunjukkan arus pejalan kaki yang padat” dan mengidentifikasi bus tersebut sebagai kendaraan MTA tanpa hiasan.
Pengenalan teksnya luar biasa. Itu tidak salah membaca sebagian tanda dan menghindari godaan untuk menebak. Ketika ada sesuatu yang tidak dapat dibaca, ia hanya mengatakan, “Teks ada tetapi tidak terbaca karena sudut dan resolusi.” Pengekangan ini persis seperti yang Anda inginkan dalam model multimoda.
Claude adalah model yang paling mungkin mengubah Times Square menjadi karya sastra. Mereka menggambarkan pemandangan itu sebagai “foto malam hari Times Square yang semarak di New York City, yang menangkap energi ikonik dan tontonan daerah tersebut.” Jika dideskripsikan secara sederhana, Claude adalah orang yang tajam. Ini mengidentifikasi tanda-tanda utama dan warnanya, dan memperbaiki banyak detail visual, termasuk bayangan, pantulan, dan kepadatan lalu lintas pejalan kaki.
Lukisan Renaisans
milik Michelangelo Penghakiman Terakhir adalah visual yang setara dengan memberikan model teka-teki yang terdiri dari seribu keping. Ada puluhan figur, pose kompleks, anggota tubuh yang tumpang tindih, momen simbolik yang halus, dengan kepadatan narasi yang sangat banyak. Gambar ini menguji identifikasi figur secara detail, penalaran spasial, dan pengenalan niat artistik.
ChatGPT 5.1 mendekati lukisan dengan kejelasan akademis. Ini mengidentifikasi “sosok Kristus di tengah-tengah yang dikelilingi oleh kumpulan wujud manusia yang berputar-putar,” mencatat pemisahan antara sosok-sosok yang diberkati dan terkutuk, dan menggambarkan kelompok-kelompok berbeda seperti malaikat yang meniup terompet, tubuh yang dibangkitkan bangkit dari bumi, dan setan yang menyeret jiwa ke bawah. Yang terpenting, ini tidak berhalusinasi tentang identitas tertentu. Ini mengacu pada “sosok di kiri bawah yang dibangkitkan dari kubur” atau “malaikat yang membawa simbol Sengsara,” menghindari godaan untuk menyebutkan nama karakter dengan keyakinan palsu.
Gemini 3 Pro memberi saya hal yang paling mirip dengan uraian sejarawan seni sejati. Ini tidak hanya mengidentifikasi kelompok-kelompok tokoh; ini mengidentifikasi geometri struktural: “komposisi radial yang berpusat pada sosok Kristus yang dinamis dengan tubuh di sekelilingnya disusun dalam busur konsentris.” Ia mencatat arah gerakan, ketegangan otot-otot Michelangelo, dan bahkan perbedaan bayangan halus di berbagai awan.
Ini menawarkan hal-hal spesifik yang mendasar, seperti “Kuadran kanan bawah berisi sosok-sosok yang ditarik oleh setan menuju area batas yang lebih gelap,” dan tidak menebak-nebak identitas kecuali mereka kanonik dan diakui secara luas. Bunyinya adalah ekspresi emosional para tokoh tanpa terbawa ke dalam melodrama: “Banyak tokoh yang menampilkan kesedihan, kekaguman, atau permohonan melalui gerak tubuh dan ketegangan yang berlebihan.”
Claude memastikan untuk menunjukkan kontroversi ketelanjangan dalam lukisan itu sebelum menambahkan lirik pada lukisan itu secara keseluruhan sebagai “pusaran tubuh yang luar biasa yang berputar melalui penghakiman ilahi”. Ini segera mengidentifikasi Kristus di tengah, Maria di sampingnya, dan peningkatan angka-angka yang diselamatkan versus gejolak yang menurun dari mereka yang terkutuk. Kalau tidak, ini relatif cepat dibandingkan dengan Times Square, hanya memeriksa setiap bagian dan memberikan daftar rinci dari angka-angka tersebut dan bagaimana membedakannya.
Kamar berantakan
Mencari tahu apa yang ada di ruangan yang kacau adalah tugas yang sulit. Permukaan yang berbeda, tumpukan, kabel kusut, kertas yang tumpang tindih, dan banyak lagi di ruang kecil. Jika AI dapat mengatasi apa yang ada di sini, ia seharusnya mampu menyelesaikan segala macam masalah rumah tangga.
ChatGPT 5.1 melakukan inventarisasi, dimulai dengan mengidentifikasi tata letak ruangan secara umum. Ia melihat kabel-kabel yang kusut, dokumen-dokumen, tempat penyimpanan plastik, dan tumpukan kertas. Kemudian ia mulai membuat daftar berbagai hal dari kiri ke kanan: “Tabel kiri berisi sejumlah besar item, termasuk kabel, pengikat, manual, dan perangkat elektronik kecil.” Ini mengidentifikasi peti hijau di bawah meja kanan dan pengikat biru ditumpuk di atas. Ini sebagian besar akurat, meskipun kadang-kadang secara samar-samar memberi label pada sesuatu sebagai “perangkat kecil” ketika model lain mungkin mencoba menebak dengan lebih spesifik.
Gemini 3 Pro menggunakan daftar yang sangat presisi, menguraikan setiap detail mulai dari bahan, warna, bentuk, dan bahkan kemungkinan fungsi perangkat. Gambar tersebut menggambarkan pencahayaan jendela, bayangan di lantai, dan ukuran tumpukan kertas. Bahkan terlihat karpet bermotif tua yang sebagian mengintip dari bawah tumpukan, detail yang tidak disebutkan oleh ChatGPT maupun Claude. Berbeda dengan yang lain, Gemini mencoba melakukan deduksi halus tanpa melakukan komitmen berlebihan. “Beraneka ragam bahan pengikat dan bentuk yang tersebar menunjukkan bahwa ruang tersebut digunakan untuk pekerjaan administratif atau organisasi,” katanya.
Claude bereaksi terhadap ruangan itu dengan menyatakan dengan datar bahwa ruangan itu “tampaknya dalam keadaan tidak teratur”. Ia berkeliling ruangan mengatur daftar berdasarkan jenisnya, dengan furnitur, dan apa yang ada di dalamnya, lantai, dan apa yang ada di dalamnya, dan seterusnya. Ini mengidentifikasi banyak objek yang benar, seperti pengikat, peti, kabel, tanaman, tas, dan kertas. Namun terkadang juga menyimpulkan hal-hal yang tidak terlihat, seperti menggambarkan “setumpuk amplop” yang sebenarnya hanya tumpukan lembaran cetakan, atau menyebut terpal yang dilipat sebagai “tas pakaian”.
Kesimpulan
Setiap model memiliki kinerja yang cukup baik. Saya merasa bahwa ChatGPT 5.1 berhati-hati dan akurat dalam banyak kasus, namun cenderung keluar dari topik setelah daftar yang panjang dan terkadang terlalu percaya diri memberi label pada objek yang terlihat sebagian.
Claude Opus 4.5 memiliki beberapa deskripsi yang lucu dan bisa jadi imajinatif namun tetap akurat dalam banyak kasus, tetapi terkadang interpretasinya agak terlalu kreatif. Saat Anda membutuhkan ketelitian yang ketat, terutama dalam adegan yang kacau, dorongan artistiknya bisa menghalangi.
Gemini 3 Pro adalah model yang secara konsisten dapat melihat dengan paling jelas. Ia unggul dalam membedakan objek yang tumpang tindih, menghindari halusinasi, membaca teks secara akurat, dan mengontekstualisasikan adegan. Ini menggambarkan hubungan visual, pencahayaan, komposisi, dan tekstur dengan cara yang tidak dilakukan orang lain. Rasanya lebih seperti sistem persepsi multimodal asli daripada model teks yang bereaksi terhadap piksel. Jadi, meskipun salah satu dari ketiganya boleh digunakan dalam banyak kasus, saya akan merekomendasikan Gemini 3 Pro jika yang sebenarnya Anda cari dalam model AI adalah kemampuan untuk benar-benar mencari apa yang terjadi pada gambar apa pun yang Anda bagikan.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.
Laptop bisnis terbaik untuk semua anggaran



