Anthropic meluncurkan Claude Sonnet 5 dengan diskon besar untuk model teratasnya saat perusahaan berlomba menuju IPO blockbuster

Anthropic hari ini merilis Claude Sonnet 5, model AI baru yang menurut perusahaan memberikan kinerja hampir unggulan dengan harga menengah – sebuah langkah yang dirancang untuk memberi pengembang perusahaan yang sadar biaya akses ke kemampuan agen yang kuat seperti laboratorium AI yang berbasis di San Francisco menuju penawaran umum perdana yang akan menguji apakah penilaian AI yang mengejutkan di pasar swasta dapat bertahan dari pengawasan publik. Rilis ini, yang digambarkan oleh Anthropic sebagai “model Sonnet paling agenik”, menjadikan Sonnet 5 sebagai model default untuk pengguna pada paket Gratis dan Pro Anthropic, sekaligus menyediakannya untuk pelanggan Max, Tim, dan Perusahaan. Harga perkenalan API ditetapkan sebesar $2 per juta token masukan dan $10 per juta token keluaran hingga tanggal 31 Agustus, setelah itu masing-masing naik menjadi $3 dan $15 — masih jauh di bawah harga masukan $5 dan $25 keluaran dari Opus 4.8 terbaik dari Anthropic. Logika strategisnya sangat jelas: Anthropic sedang mencoba untuk mendemokratisasi akses terhadap kemampuan yang sampai saat ini hanya dapat diberikan oleh model termahalnya, sembari membangun semacam adopsi pengembang berbasis luas yang akan terlihat menarik dalam pengajuan S-1. Sonnet 5 mempersempit kesenjangan dengan model Opus andalan Anthropic dalam lima evaluasi utama, dan melampauinya dalam satu evaluasi. (Sumber: Anthropic) Tolok ukur Sonnet 5 menunjukkan model tingkat menengah mendekati unggulan Anthropic OpusSonnet 5 membukukan keuntungan besar dibandingkan pendahulunya, Sonnet 4.6, di setiap evaluasi yang diungkapkan Anthropic. Pada SWE-bench Pro, tolok ukur pengkodean agen, Sonnet 5 mendapat skor 63,2% dibandingkan dengan Sonnet 4.6 yang mendapat 58,1% — sebuah lompatan yang membawanya mendekati Opus 4.8 yang mendapat 69,2%. Di Terminal-Bench 2.1, evaluasi pengkodean lainnya, kesenjangan semakin menyempit: 80,4% untuk Sonnet 5 berbanding 67,0% untuk Sonnet 4.6 dan 82,7% untuk Opus 4.8. Dalam penalaran multidisiplin, sebagaimana diukur dengan Ujian Terakhir Kemanusiaan, Soneta 5 mendapat skor 43,2% tanpa alat dan 57,4% dengan alat — angka terakhir pada dasarnya cocok dengan Opus 4.8 57,9%. Pada tugas penggunaan komputer yang dievaluasi melalui OSWorld-Verified, Sonnet 5 mencapai 81,2%, naik dari 78,5%. Dan pada GDPval-AA v2, yang merupakan tolok ukur kerja pengetahuan, skornya adalah 1.618 — melampaui Opus 4.8 dengan 1.615 dan jauh melebihi Sonnet 4.6 dengan 1.395. Pola dalam evaluasi ini menceritakan kisah yang konsisten: Sonnet 5 tidak hanya sedikit lebih maju dari pendahulunya. Ini melompat ke tingkat kinerja yang secara substansial tumpang tindih dengan model andalan Anthropic, sementara biaya sekitar 60% lebih sedikit per token pada harga standar dan bahkan lebih sedikit lagi selama periode perkenalan. Mitra perusahaan mengatakan kemampuan AI agen Sonnet 5 menyelesaikan pekerjaan yang ditinggalkan model sebelumnya. Penekanan pada kemampuan agen – kemampuan untuk merencanakan, menggunakan alat seperti browser dan terminal, dan menjalankan alur kerja multi-langkah secara mandiri – mencerminkan di mana pusat gravitasi industri AI telah bergeser 2026. Perusahaan tidak lagi sekadar menanyakan pertanyaan chatbots; mereka menerapkan sistem AI yang dapat menavigasi lingkungan perangkat lunak yang kompleks, menjalankan tugas pengkodean multi-langkah, dan beroperasi dengan pengawasan manusia yang minimal. Mitra akses awal memberikan gambaran tentang model yang tidak hanya memulai tugas tetapi juga menyelesaikannya. Sualeh Asif, salah satu pendiri Cursor, editor kode bertenaga AI yang telah menjadi pemimpin dalam penerapan alat pengembang, mengatakan bahwa “dengan Claude Sonnet 5, agen tetap menjalankan rencana, mengikuti konvensi kami, dan mengirimkan perubahan multi-langkah yang bersih, semuanya dengan biaya yang efisien.” Daniel Shepard, teknisi senior di Zapier, menjelaskan bahwa model tersebut diberikan tugas otomatisasi yang terdiri dari dua bagian — memperbarui tingkat akun Salesforce dan mengirimkan pengumuman peluncuran — yang “dulu terhenti di tengah jalan” dibandingkan model sebelumnya, namun kini selesai secara menyeluruh. Kesaksian ini penting karena menggambarkan kesenjangan keandalan yang membuat banyak perusahaan tidak memindahkan AI agen dari program percontohan ke penerapan produksi. Sebuah model yang berhasil menyelesaikan 80% tugas kompleks sebelum terhenti akan menciptakan lebih banyak masalah daripada penyelesaiannya; salah satu yang menyelesaikan alur kerja penuh secara andal mengubah keekonomian otomatisasi. Anthropic juga memperkenalkan kurva biaya-kinerja yang menunjukkan bahwa pengembang kini dapat menyesuaikan tingkat upaya di Sonnet 5 dan Opus 4.8 untuk menemukan keseimbangan optimal antara biaya dan akurasi untuk kasus penggunaan spesifik mereka — sebuah rincian yang mencerminkan semakin canggihnya cara perusahaan mengonsumsi layanan AI. Pada tugas penggunaan komputer, Sonnet 5 mendekati akurasi Opus 4.8 dengan biaya per tugas yang jauh lebih rendah. (Sumber: Anthropic)Tokenizer yang diperbarui meningkatkan kinerja Sonnet 5 tetapi secara diam-diam dapat meningkatkan biaya untuk beberapa beban kerjaSatu detail teknis yang terkubur dalam catatan kaki pengumuman patut mendapat perhatian: Sonnet 5 menggunakan tokenizer yang diperbarui yang mengubah cara model memproses teks, mirip dengan perubahan Anthropic yang diperkenalkan dengan Opus 4.7. Pengorbanannya adalah bahwa masukan yang sama dapat dipetakan ke sekitar 1,0 hingga 1,35 kali lebih banyak token bergantung pada jenis konten. Anthropic mengatakan harga perkenalan dikalibrasi untuk membuat transisi “kira-kira netral biaya”, namun pelanggan perusahaan yang menjalankan beban kerja bervolume tinggi perlu membandingkan kasus penggunaan spesifik mereka dengan hati-hati sebelum berasumsi bahwa tagihan mereka tidak akan berubah. Anthropic mengatakan Sonnet 5 lebih aman dibandingkan pendahulunya, namun model yang paling mumpuni masih mengarah pada keselarasan. Pengungkapan keselamatan Anthropic mengungkapkan gambaran yang berbeda. Perusahaan melaporkan bahwa Sonnet 5 menunjukkan tingkat halusinasi dan penjilatan yang lebih rendah dibandingkan Sonnet 4.6, lebih baik dalam menolak permintaan jahat, dan lebih tahan terhadap serangan injeksi langsung dalam konteks agen. Pada audit perilaku otomatis Anthropic — yang menguji berbagai perilaku tidak selaras termasuk kerja sama dengan penyalahgunaan dan penipuan — Sonnet 5 secara keseluruhan mendapat skor lebih rendah (artinya lebih aman) dibandingkan Sonnet 4.6. Namun, Sonnet 5 menunjukkan “tingkat perilaku tidak selaras yang agak lebih tinggi” dibandingkan dengan Opus 4.8 yang lebih mumpuni dan Pratinjau Claude Mythos dari Anthropic, model perusahaan yang berfokus pada keamanan siber yang kuat namun sangat dibatasi. Pada evaluasi pengembangan eksploitasi Firefox 147 yang dibuat bekerja sama dengan Mozilla, tidak ada model Sonnet yang dapat mengembangkan eksploitasi yang berfungsi — keduanya mendapat skor 0,0% — meskipun Sonnet 5 menunjukkan tingkat keberhasilan parsial yang sedikit lebih tinggi (13,2%) dibandingkan Sonnet 4.6 (8,8%). Keduanya masih jauh di bawah Opus 4.8 (68,8% eksploitasi yang berfungsi) dan Mythos 5 (88,4%). Karena peningkatan kemampuan yang berdekatan dengan dunia maya ini, Anthropic meluncurkan Sonnet 5 dengan perlindungan siber yang diaktifkan secara default — sistem real-time yang mendeteksi dan memblokir penggunaan keamanan siber yang berbahaya. Perlindungan ini serupa dengan yang ada pada Opus 4.7 dan 4.8 namun tidak seketat yang diterapkan pada Fable 5, model kelas Mythos terbaru yang dilaporkan Bloomberg pada 10 Juni “diblokir agar tidak dapat merespons pertanyaan terkait keamanan siber dan biologi.” Organisasi yang terdaftar dalam Program Verifikasi Cyber Anthropic secara otomatis menerima akses yang sama di Sonnet 5 tanpa perlu mengajukan permohonan kembali. Pendapatan dari $14 miliar hingga $47 miliar: Sonnet 5 hadir saat narasi IPO Anthropic mulai terbentukPeluncuran Sonnet 5 tiba pada momen yang mungkin paling penting dalam sejarah singkat Anthropic. Perusahaan tersebut secara rahasia mengajukan prospektus IPO ke SEC pada awal Juni, menyiapkan apa yang digambarkan CNBC sebagai “penawaran umum yang paling banyak diteliti dalam sejarah teknologi.” Lintasan keuangannya luar biasa. Pada bulan Februari, Anthropic mengumpulkan $30 miliar dengan penilaian $380 miliar, dan perusahaan melaporkan pendapatan tahunan sebesar $14 miliar yang “tumbuh lebih dari sepuluh kali lipat dalam tiga tahun terakhir,” seperti yang dilaporkan The Guardian. Pada akhir Mei, Anthropic telah menyelesaikan putaran Seri H senilai $65 miliar dengan penilaian pasca-uang senilai $965 miliar — dipimpin bersama oleh Altimeter Capital, Sequoia Capital, dan lainnya — dengan tingkat pendapatan yang melampaui $47 miliar. Harrison Rolfes, seorang analis di PitchBook, mengatakan kepada CNBC bahwa angka yang akan “memvalidasi atau menghancurkan seluruh narasi yang telah ditentukan oleh pasar swasta selama tiga tahun” bukanlah penilaian atau pendapatan, tetapi margin kotor – angka yang belum pernah dilihat oleh pengamat luar. Dalam konteks ini, Sonnet 5 memiliki tujuan ganda. Bagi pengembang, ini menawarkan peningkatan kemampuan asli dengan harga bersaing. Untuk narasi IPO Anthropic, hal ini menunjukkan bahwa perusahaan dapat memberikan produk yang menarik pada tingkat harga yang dapat mendorong jenis adopsi luas penghargaan Wall Street — pendapatan API berulang bervolume tinggi dari ribuan pelanggan perusahaan. Kesepakatan pemerintah dan persaingan yang semakin meningkat menentukan pasar yang dimasuki Sonnet 5. Waktunya juga selaras dengan dorongan agresif Anthropic ke dalam kontrak institusional. Baru kemarin, Gubernur California Gavin Newsom mengumumkan kemitraan pertama yang memberikan Claude kepada semua lembaga negara dengan diskon 50%, dengan pelatihan tenaga kerja gratis. Kate Jensen, Kepala Anthropic di Amerika, menyebutnya sebagai upaya untuk “menempatkan Claude bekerja untuk orang-orang yang menjaga negara bagian ini tetap berjalan.” Kesepakatan tersebut – yang meluas ke kota-kota dan kabupaten di California – mewakili jenis adopsi yang tahan lama dan berulang yang dapat menjamin pendapatan jauh di luar komunitas pengembang. Namun rilis Anthropic semakin banyak diminati. OpenAI, yang mengumpulkan dana sebesar $122 miliar pada bulan Maret dengan valuasi $852 miliar, sedang melakukan IPO sendiri. SpaceX milik Elon Musk, yang bergabung dengan xAI, menetapkan harga IPO-nya sebesar $135 per saham dengan valuasi $1,77 triliun. Google, Meta, dan semakin banyak kompetitor yang memiliki pendanaan besar – termasuk startup AI di Asia yang, seperti dilaporkan Wall Street Journal, sedang mengembangkan kemampuan keamanan siber seperti Mythos – semuanya bersaing untuk pasar perusahaan yang sama. Gil Luria, kepala penelitian teknologi di DA Davidson, mengatakan kepada CNBC bahwa meskipun Anthropic “tampaknya memimpin” dalam model AI terdepan, “sebagian besar penggunaannya saat ini adalah untuk uji coba dan eksperimen dan mungkin tidak akan bertahan lama.” Pengamatan tersebut mencerminkan inti tantangan yang dihadapi setiap laboratorium AI terdepan: mengubah penggunaan pengembang eksperimental menjadi pendapatan tingkat produksi yang tahan lama. Ujian sebenarnya untuk Sonnet 5 bukanlah tolok ukur — melainkan apakah AI yang lebih murah dapat mempertahankan cerita bernilai triliunan dolar. Positioning Sonnet 5 — yang menawarkan kinerja mendekati Opus dengan harga Sonnet — adalah permainan langsung untuk konversi tersebut. Pelanggan perusahaan yang bereksperimen dengan model kelas Opus yang mahal mungkin mendapati bahwa Sonnet 5 memberikan kualitas yang memadai untuk beban kerja produksi dengan harga yang dapat disetujui oleh tim keuangan dalam skala besar. Jika berhasil, hal ini dapat mempercepat peralihan dari eksperimen ke penerapan yang dibutuhkan setiap perusahaan AI untuk membenarkan penilaiannya. Ada tiga hal yang akan menentukan apakah Sonnet 5 penting di luar grafik benchmark awal. Keandalan agen di dunia nyata adalah yang pertama: tolok ukur mengukur kemampuan, namun penerapan produksi mengukur konsistensi, dan ujian sebenarnya akan datang ketika ribuan pengembang mendorong model melalui alur kerja yang berantakan dan tidak dapat diprediksi dalam skala besar. Ekonomi tokenizer adalah yang kedua: perluasan token 1,0 hingga 1,35x dari tokenizer yang diperbarui secara diam-diam dapat mengikis keunggulan harga untuk beban kerja tertentu, dan pelanggan perusahaan harus menjalankan analisis biaya mereka sendiri daripada mengandalkan harga utama per token. Yang ketiga adalah narasi IPO itu sendiri: ketika S-1 Anthropic akhirnya dipublikasikan, investor akan meneliti apakah tingkat Sonnet – lebih murah tetapi bervolume tinggi – atau tingkat Opus – mahal tetapi margin tinggi – mendorong sebagian besar pendapatan dan, yang terpenting, laba kotor. narasi-versus-fundamental yang pernah diajarkan oleh pasar publik.” Anthropic bertaruh bahwa model yang cukup baik untuk menyaingi produk andalannya dan cukup murah untuk dijalankan dalam skala besar adalah produk yang menutup kesenjangan antara kedua hasil tersebut. Pasar publik akan segera memutuskan apakah mereka setuju.
Diterbitkan : 2026-06-30 18:00:00
sumber : venturebeat.com



