Pelacak Rilis Model AI: Model penalaran pertama Microsoft AI telah hadir

Elyse Betters Picaro/ZDNETIkuti ZDNET: Tambahkan kami sebagai sumber pilihan di Google. Lab AI mengirimkan model baru tanpa henti. Selain lebih baik dan lebih cepat dibandingkan pendahulunya, setiap model baru tidak dijamin akan menjadi sebuah langkah perubahan besar, meskipun humas perusahaan mungkin terlalu puitis tentang model tersebut. Kekuatan model benar-benar muncul dalam konteks: Di manakah model pesaing kurang atau unggul? Model mana yang memiliki keunggulan luar biasa, dan model mana yang mampu memenuhi standar industri? Selain itu: Cara kami menguji AI di ZDNETPelacak Rilis Model kami membantu Anda memahami posisi model relatif satu sama lain, dan apakah model tersebut layak untuk dilihat lebih dalam. Meskipun kami tidak menguji setiap model atau pembaruan model dalam daftar ini, kami akan selalu menyertakan elemen penting yang perlu Anda ketahui, bersama dengan uji langsung dari pakar kami, jika memungkinkan. Kami juga menyertakan Skor Pakar untuk model tertentu. Penasaran bagaimana kami menguji AI? Lihat rincian proses kami ini. Berikut adalah beberapa model terbesar yang dirilis pada tahun 2026 sejauh ini dan apa yang perlu diketahui tentangnya. Kami akan memperbarui daftar ini setiap kali model baru yang terkenal hadir. MAI-Berpikir-1 Microsoft AI | 2 Juni 2026Kegunaan: Pada konferensi pengembang Build, Microsoft mengatakan bahwa model baru dengan 35 miliar parameter ini, tidak mengherankan, dirancang untuk tugas agen multi-langkah. Skornya sama pada tes benchmark SWE Bench Pro untuk pengkodean sebagai Anthropic Opus 4.6. Perusahaan juga mencatat bahwa pengguna perusahaan dapat mempercayai model ini untuk penggunaan apa pun karena model ini hanya dilatih pada data yang bersih dan aman secara komersial — sebuah informasi penting mengingat meningkatnya tuntutan hukum hak cipta AI. Selain itu: Model penalaran pertama Microsoft adalah salah satu dari 7 AI yang baru saja dirilis di Build – apa yang kita ketahui sejauh iniMengapa ini penting: Ini adalah model penalaran pertama dari Microsoft AI, sebuah pencapaian penting bagi laboratorium AI mana pun, terutama di akhir perlombaan ini. Sebagian besar laboratorium telah menciptakan beberapa model penalaran tingkat lanjut pada saat ini, jadi masih belum jelas bagaimana posisi pendekatan Microsoft dibandingkan dengan model-model tersebut, meskipun perusahaan berfokus untuk menarik klien perusahaan secara khusus. Claude Opus 4.8 Antropik | 28 Mei 2026Kegunaan: Menggantikan Opus 4.7 mulai 28 Mei (dengan harga yang sama), Opus 4.8 menawarkan mode berpikir lebih cepat dengan sepertiga biaya versi sebelumnya, menurut Anthropic. Seperti kebanyakan model Anthropic, 4.8 memprioritaskan kemampuan pengkodean, dengan skor lebih tinggi dari 4.7 pada dua tolok ukur pengkodean tetapi tidak sepenuhnya mengungguli GPT 5.5 OpenAI. Hal ini juga “mencapai titik tertinggi baru dalam ukuran sifat-sifat prososial seperti mendukung otonomi pengguna dan bertindak demi kepentingan terbaik pengguna,” perusahaan tersebut mencatat dalam rilisnya, meskipun definisi mengenai arti dari hal tersebut masih belum jelas. Juga: Anthropic meluncurkan Opus 4.8, dengan kejujuran sebagai fitur utamanya. Mengapa ini penting: Anthropic selalu memprioritaskan keamanan model dan kemampuan interpretasi, namun tampaknya lebih menekankan standar tersebut dengan rilis ini. Perusahaan tersebut mengatakan Opus 4.7 memiliki tingkat kejujuran sebesar 92%, selain tidak terlalu bersifat penjilat dan rawan halusinasi secara keseluruhan. Fakta bahwa klaim 4.8 menunjukkan tingkat ketidakselarasan yang “secara substansial” lebih rendah daripada 4.7 menunjukkan standar keselamatan model yang semakin tinggi, terutama karena Anthropic membandingkan keselarasan 4.8 dengan Mythos Preview. Gemini 3.5 FlashGoogle | 19 Mei 2026 Kegunaannya: Di Google I/O, perusahaan meluncurkan rangkaian model 3.5, yang dirancang untuk agen bangunan (mengikuti fokus seluruh industri AI saat ini). Model pertama yang tersedia sekarang adalah Gemini 3.5 Flash, yang mengalahkan Gemini 3.1 Pro dalam beberapa pengkodean dan tolok ukur agen dan sekarang mendukung Mode AI dalam Pencarian dan Aplikasi Gemini sebagai model default. Seperti semua model Flash, ini dioptimalkan untuk kecepatan dan pengalaman pengguna yang lebih murah dan ringan, namun masih dapat menangani tugas-tugas agen “jangka panjang”, kata Google. 3.5 Pro akan diluncurkan pada bulan Juni. Juga: Anthropic meluncurkan Opus 4.8, dengan kejujuran sebagai fitur utamanya. Mengapa ini penting: Tempat terpenting 3.5 akan beroperasi adalah di Penelusuran. Ketika Google menggandakan pengalaman penelusuran yang mengutamakan AI, model yang menjalankannya membentuk respons yang dikonsumsi secara pasif oleh orang-orang setiap hari, yang berarti Google harus sangat berhati-hati dalam hal akurasi dan halusinasi. Namun yang perlu diperhatikan, Kartu Sistem untuk 3.5 Flash tidak menyebutkan tingkat halusinasi atau penjilatan. GPT-5.5 OpenAI Instan | 5 Mei 2026 Kegunaannya: OpenAI mengatakan dalam pengumumannya bahwa versi lebih ringan dari GPT-5.5 OpenAI yang baru saja dirilis tidak terlalu bertele-tele dibandingkan pendahulunya, GPT-5.3 Instan. Laporan tersebut juga menyebutkan lebih sedikit halusinasi dan peningkatan faktualitas, dengan mengatakan “GPT‑5.5 Instan menghasilkan klaim halusinasi 52,5% lebih sedikit dibandingkan GPT‑5.3 Instan pada permintaan berisiko tinggi yang mencakup bidang-bidang seperti kedokteran, hukum, dan keuangan.” Selain itu: Mitos Anthropic berkembang lebih cepat dari yang diharapkan, lapor badan keamanan AIMengapa penting: GPT-5.5 Instan menggantikan GPT-5.3 sebagai model default di ChatGPT. Sekali lagi, meskipun harapannya adalah bahwa setiap model AI baru menjadi lebih efisien, lebih mudah digunakan, dan menghasilkan lebih sedikit barang, peningkatan signifikan dalam halusinasi model yang digunakan kebanyakan orang untuk pertanyaan cepat dapat berarti lebih sedikit misinformasi yang menyebar di masyarakat. Hal ini sangat penting mengingat banyaknya orang yang menggunakan ChatGPT untuk pertanyaan kesehatan sehari-hari, misalnya. (Pengungkapan: Ziff Davis, perusahaan induk ZDNET, mengajukan gugatan pada April 2025 terhadap OpenAI, menuduh OpenAI melanggar hak cipta Ziff Davis dalam pelatihan dan pengoperasian sistem AI-nya.)Nemotron 3 Nano Omni Nvidia | April 28, 2026Kegunaan: Yang terbaru dalam keluarga Nemotron terbuka Nvidia, model ini memberi agen input multimodal. Artinya, mereka dapat “memahami dan mempertimbangkan masukan visual, audio, dan tekstual dalam satu lingkaran persepsi-ke-tindakan,” menurut Nvidia, sehingga menyatukan berbagai kemampuan ke dalam satu sistem. Selain itu: AI adalah perlombaan senjata, dan AS menginginkan superchip Nvidia senilai $9 miliar agar dapat mengimbanginya. Mengapa hal ini penting: Biasanya, sistem agen perlu menggunakan model terpisah untuk ucapan, penglihatan, dan teks, yang berarti mereka melintasi dokumen, video, dan audio untuk menyelesaikan tugas multi-langkah. Hal ini memperlambat alur kerja, melemahkan pengumpulan agen konteks, dan meningkatkan biaya inferensi. Pendekatan Nvidia, jika berhasil, akan menyederhanakan proses ini dan mengurangi penggunaan token, sehingga menghemat uang Anda. Cobalah di Memeluk Wajah. GPT-5.5 OpenAI | 23 April 2026 Skor Pakar: 93/100 Kegunaannya: Penguji ZDNET di kediaman David Gewirtz secara teknis memberikan skor A- pada GPT-5.5, namun ia mengatakan bahwa “secara reduktif dapat digambarkan sebagai lebih baik dan lebih cepat daripada GPT-5.4”, yang diharapkan merupakan ekspektasi minimum untuk model baru. Namun secara khusus, model ini menjadi lebih baik dalam pengkodean agen, mengidentifikasi konsep dengan jelas, penelitian ilmiah, dan akurasi faktual. Selain itu: Saya menguji GPT-5.5 selama 10 putaran: GPT-5.5 mendapat skor 93/100, hanya kehilangan poin karena kegembiraan. Mengapa ini penting: Meskipun modelnya sendiri mungkin tidak jauh lebih maju dari pendahulunya, perubahan haluan yang cepat dari 5.4 menjadi 5.4 — kurang dari dua bulan — menunjukkan seberapa cepat pengkodean agen mempercepat siklus rilis model OpenAI. Ketika David Gewirtz dari ZDNET gagal, perusahaan tersebut, seperti laboratorium perbatasan lainnya yang menggunakan AI untuk membangun AI, mengirimkan pembaruan dengan kecepatan yang meningkat secara eksponensial. Gambar ChatGPT 2 OpenAI | 23 April 2026 Kegunaannya: Segera setelah menghentikan Sora, model video generatif dan platform sosialnya, OpenAI dengan agak membingungkan mengumumkan Gambar 2. Penguji model ZDNET David Gewirtz melihat lebih awal Gambar 2 sebelum dirilis dan terkesan. Meskipun dia tidak memberikan Skor Pakar formal pada model ini, dia mengatakan bahwa model ini menyenangkan, merupakan lompatan besar, dan benar-benar berguna untuk pekerjaan. Mengapa ini penting: OpenAI tampaknya keluar dari permainan produk AI yang lebih berorientasi pada konsumen ketika menghentikan Sora, karena telah dikalahkan oleh Anthropic dalam mendapatkan kontrak perusahaan yang menguntungkan. OpenAI yang masih mengeluarkan Gambar 2 dalam narasi pengalihan tersebut menunjukkan bahwa OpenAI melihat generator gambar cukup relevan dengan AI perusahaan — terutama setelah Claude Design dari Anthropic. Claude Opus 4.7 Antropik | 16 April 2026 Kegunaannya: Hadir relatif cepat setelah Opus 4.6, model ini menawarkan tingkat kejujuran yang tinggi, berkurangnya penjilatan, dan halusinasi. Tampaknya ia juga memiliki kemampuan dalam bidang keamanan siber, karena ia mendukung Claude Security baru, yang dirilis tak lama setelah model itu sendiri — tapi bukan, ini bukan Mythos, seperti yang diduga banyak orang. Selain itu: Alat Keamanan Claude baru dari Anthropic memindai basis kode Anda untuk mencari kekurangan – dan membantu Anda memutuskan apa yang harus diperbaiki terlebih dahulu. Mengapa itu penting: Halusinasi dan kejujuran adalah salah satu masalah tersulit dan paling sulit dipecahkan yang mengganggu bahkan model terbaik sekalipun. Bagi Anthropic, mengklaim kemajuan signifikan di bidang tersebut bukanlah prestasi kecil bagi laboratorium AI yang sangat memperhatikan keselamatan. Claude Mythos (Pratinjau) Antropis | 7 April 2026 Kegunaannya: Ini sulit karena Mythos sebenarnya tidak tersedia untuk umum. Anthropic menciptakan badai media ketika memposisikan model tujuan umum yang baru sebagai terlalu kuat untuk dirilis seperti biasanya. Meskipun model ini tampaknya merupakan perubahan langkah dari model Anthropic sebelumnya, perusahaan tersebut sangat khawatir karena ancaman keamanan yang ditimbulkannya, dengan menyatakan bahwa “model tersebut sangat mampu dalam tugas-tugas keamanan komputer.” Menanggapi hal tersebut, Anthropic mempelopori Project Glasswing, sebuah upaya kolaborasi dengan beberapa laboratorium AI saingannya, termasuk Google, Nvidia, dan Microsoft, serta otoritas keamanan seperti Palo Alto Networks, “untuk membantu mengamankan perangkat lunak paling penting di dunia, dan untuk mempersiapkan industri menghadapi praktik-praktik yang perlu kita terapkan agar tetap terdepan dalam serangan siber.” Selain itu: Apple, Google, dan Microsoft bergabung dengan Project Glasswing dari Anthropic untuk membela perangkat lunak paling penting di dunia. Mengapa hal ini penting: Jika kita percaya panduan Anthropic bahwa Mythos merupakan ancaman yang signifikan terhadap perangkat lunak dunia — sedemikian rupa sehingga hanya beberapa mitra terpilih yang dapat mengaksesnya — aparat keamanan siber saat ini mungkin tidak siap menghadapi batas kemampuan model yang berkembang pesat. Mythos mungkin bukan satu-satunya model pada kalibernya, namun merupakan model pertama dari banyak model yang muncul setelah laboratorium lain mencapai terobosan serupa. Untuk saat ini, hanya beberapa minggu setelah dirilis, Mythos membantu menemukan banyak bug perangkat lunak. GPT-5.4 OpenAI | 5 Maret 2026 Fungsinya: OpenAI merancang model baru ini, yang dirilis hanya tiga bulan setelah GPT-5.2, sebagai model yang dirancang khusus untuk pekerjaan profesional. Menurut pengujian yang dilakukan oleh perusahaan tersebut (yang harus selalu dilakukan dengan hati-hati hingga diverifikasi oleh pihak ketiga), GPT-5.4 cocok atau mengungguli profesional manusia sebanyak 83%. Mengapa hal ini penting: Karena perusahaan AI lebih fokus untuk mendapatkan kepercayaan (dan kontrak) perusahaan sambil memuji kemampuan AI agen, mereka memerlukan model yang dapat menangani tugas-tugas kompleks terkait pekerjaan dengan risiko minimal, penundaan, atau biaya yang sangat tinggi. Kemajuan model apa pun yang menunjukkan kehebatan dalam alur kerja profesional memiliki peluang lebih besar untuk dianggap serius oleh perusahaan yang kesulitan mengadopsi AI, meskipun tidak ada yang menjamin integrasi yang mulus. Juga: GPT-5.4 OpenAI yang baru mengalahkan manusia dalam pekerjaan tingkat pro dalam pengujian – oleh 83%Claude Opus 4.6 Anthropic | 5 Februari 2026 Fungsinya: Model ini dengan cepat mendefinisikan ulang standar kerja agen otonom, terutama untuk pengkodean. Hal ini tidak mengherankan mengingat otoritas Anthropic dalam membangun model, terutama mahir dalam tugas-tugas pemrograman. Opus 4.6 juga menunjukkan peningkatan dalam tugas-tugas kompleks dan berjalan lebih lama secara keseluruhan. Mengapa ini penting: Kemampuan Opus 4.6 untuk menangani tugas dengan lebih baik berarti Anda dapat dengan andal memindahkan lebih banyak alur kerja Anda ke dalamnya — sesuatu yang biasanya sulit dihadapi oleh penawaran agen. Juga: Anthropic mengatakan Claude Opus 4.6 barunya dapat menyelesaikan hasil pekerjaan Anda pada tryGPT-5.3-Codex OpenAI | 5 Februari 2026 Kegunaannya: Model pengkodean baru ini — yang menurut OpenAI membantu membangun dan melakukan debug sendiri — dapat diinterupsi dan dialihkan saat sedang mengerjakan tugas, yang, jika benar, merupakan keuntungan besar bagi pengembang yang menggunakannya pada proyek yang kompleks atau berpindah-pindah dengan banyak percobaan dan kesalahan. GPT-5.3-Codex juga menawarkan waktu pengoperasian lebih dari satu hari dan pemahaman yang lebih baik tentang maksud pengguna. Selain itu: model Spark baru OpenAI mengkodekan 15x lebih cepat dibandingkan GPT-5.3-Codex – namun ada kendala Mengapa ini penting: OpenAI mencoba mengejar keunggulan Anthropic dalam pengkodean agen (dan, kebetulan atau tidak, merilis 5.3 Codex pada hari yang sama dengan Anthropic meluncurkan Opus 4.6). Meskipun para pakar ZDNET sering kali lebih memilih Claude Code daripada alat lain untuk pengkodean getaran, rumor bahwa OpenAI beralih ke klien perusahaan dan menjauh dari alat konsumen yang menyenangkan pada akhirnya dapat menutup kesenjangan tersebut.


Diterbitkan : 2026-06-02 19:06:00

sumber : www.zdnet.com