Cohere merupakan agen pengkodean sumber terbuka yang berjalan pada satu H100

Tim teknik yang membangun pipeline pengkodean agen kini memiliki alternatif sumber terbuka yang konkret untuk model terkelola seperti Claude Fable 5 — model yang berjalan pada satu H100. Pengorbanannya: Kode Mini Utara Cohere, yang diluncurkan pada hari Selasa, menghasilkan token keluaran tiga kali lipat dari model serupa dalam pengujian independen, biaya verbositas yang bertambah dalam beban kerja produksi volume tinggi. Model sumber terbuka baru ini adalah model campuran ahli (MoE) dengan 30 miliar parameter dengan 3 miliar parameter aktif per token, dibuat untuk rekayasa perangkat lunak agen termasuk orkestrasi sub-agen, pemetaan arsitektur, tinjauan kode, dan pekerjaan terminal. Model ini mendukung jendela konteks 256.000 token dengan panjang pembuatan maksimum 64.000 token, dan tersedia di Hugging Face di bawah lisensi Apache 2.0. Apa yang dapat dilakukan North Mini CodeNorth Mini Code menargetkan tumpukan pengkodean agen penuh. Inilah yang dilakukan model dan apa yang dijalankannya. Rekayasa perangkat lunak. Cohere membuat Kode Mini Utara khusus untuk rekayasa perangkat lunak agen, bukan diadaptasi dari basis tujuan umum. Ini memiliki kemampuan penggunaan alat yang terintegrasi dan mendukung pemikiran interleaved, yang menurut Cohere meningkatkan kinerja di seluruh pekerjaan agen multi-langkah. Pemetaan arsitektur dan tinjauan kode. North Mini Code dapat menganalisis dan memetakan arsitektur sistem, memunculkan dependensi, dan melakukan tinjauan kode di seluruh basis kode besar. Dengan jendela konteks 256.000 token, ia dapat menampung proyek multi-file besar dalam satu konteks. Tugas agen berbasis terminal. Model ini dilatih untuk lingkungan terminal, menangani interaksi shell, skrip paket, dan perkakas baris perintah. Cohere membandingkannya dengan Terminal-Bench v2, yang menguji agen di lingkungan terminal nyata, bukan tugas pembuatan kode sintetis. Cara pembuatannya.North Mini Code adalah model campuran pakar yang jarang dengan 128 pakar, dengan 8 di antaranya diaktifkan per token. Persyaratan komputasi pada waktu inferensi mendekati model 3 miliar parameter meskipun total parameternya 30 miliar. Nick Frosst, salah satu pendiri Cohere, mendemonstrasikannya agar berjalan di Mac Studio melalui MLX dengan RAM sekitar 20 gigabyte, mesin yang sama yang ia gunakan untuk pekerjaan pengkodean lokalnya. Cohere melatih model tersebut melalui dua tahap penyesuaian yang diawasi diikuti dengan pembelajaran penguatan dengan imbalan yang dapat diverifikasi di lebih dari 70.000 tugas yang dapat diverifikasi yang mencakup sekitar 5.000 repositori, yang diduplikasi di SWE-Bench. Daripada mengoptimalkan perancah agen tunggal, Cohere melatih tiga perancah agen. SWE-Agent menggunakan CLI yang kaya dengan perintah khusus. Mini-SWE-Agent menggunakan alat bash tunggal dengan keluaran shell mentah. OpenCode menggunakan alat yang diketik secara individual yang mengembalikan JSON terstruktur. Cohere melaporkan peningkatan 10 poin persentase pada evaluasi OpenCode dari pendekatan multi-harness sambil mempertahankan kinerja Agen SWE. Jika cocok, North Mini Code memasuki pasar yang kini mencakup Mistral Devstral Small 2, GitHub Copilot, Cursor, dan Claude Fable 5 — masing-masing dengan pengorbanan biaya dan penerapan yang berbeda. Perbandingan tolok ukur utama Cohere dibandingkan dengan Mistral Devstral Small 2, model padat 24 miliar parameter. Dalam pengujian internal yang dilaporkan vendor, Cohere mengklaim throughput keluaran 2,8x lebih tinggi dan keunggulan latensi antar-token 30% dibandingkan Devstral Small 2 dalam pengujian internal dengan konfigurasi perangkat keras yang identik. Cohere juga mengklaim, dalam postingan teknis Hugging Face-nya, bahwa North Mini Code mengungguli model sumber terbuka hingga empat kali lipat jumlah parameternya pada tolok ukur yang dilaporkan, termasuk model dengan 120 miliar parameter. Analisis Buatan secara independen memberi peringkat kedelapan dari 127 model bobot terbuka yang sebanding pada kecepatan keluaran pada 210 token per detik, dengan waktu hingga token pertama 0,25 detik dibandingkan median kelas 1,95 detik. Ini menempati peringkat ke-18 dari 127 pada Indeks Kecerdasan Analisis Buatan. Satu tanda dari data yang sama: model tersebut menghasilkan 75 juta token keluaran untuk melengkapi Indeks Intelijen dibandingkan dengan median kelas sebesar 25 juta. Dalam jaringan agen bervolume tinggi, verbositas tersebut akan menambah biaya inferensi dan latensi. “Tiba-tiba orang berpikir, hei, apakah saya mendapatkan nilai ekonomi yang cukup dari token model?” Frost berkata saat video peluncuran. “Penyebaran lokal adalah salah satu cara untuk memberdayakan masyarakat dan menjadikan AI benar-benar sesuatu yang bermanfaat bagi mereka.” GitHub Copilot, Cursor, dan Claude Code beroperasi dengan harga per penggunaan atau langganan tanpa opsi lokal. Claude Fable 5 dari Anthropic, yang sekarang merupakan model pengkodean terkelola yang paling mampu tersedia untuk umum, beroperasi dengan harga $50 per juta token keluaran. Bagi Frost, model ini adalah kebalikan dari Fable. “Ini kecil, hemat biaya, Apache 2.0, dan dapat diterapkan secara lokal. Inilah yang harus dilakukan oleh LLM. Kecil, open source, transparan dan berdaulat, vs besar, mahal, eksklusif, dan hegemonik,” tulis Frost dalam sebuah postingan di X. Apa artinya ini bagi perusahaan? pelatihan sekarang menjadi dasar untuk mengevaluasi. Perbedaan antara model yang disesuaikan untuk kode dan model yang dilatih secara khusus untuk alur kerja agen, dengan panggilan alat terverifikasi dan ketahanan multi-harness, kini menjadi faktor penting dalam keputusan pipeline. Vendor model mana pun yang mengklaim kemampuan pengkodean agen harus dapat menjawab apakah pelatihannya menggunakan tugas agen yang dapat diverifikasi atau diadaptasi dari basis tujuan umum. Verbositas adalah biaya saluran tersembunyi yang tidak muncul dalam tolok ukur. Analisis Buatan mengukur Kode Mini Utara yang menghasilkan tiga kali lipat token keluaran model sebanding. Verbositas tersebut menambah biaya inferensi dan latensi dalam jaringan pipa bervolume tinggi. Pengujian throughput terhadap volume beban kerja sebenarnya adalah langkah evaluasi yang dilewati oleh peringkat benchmark. Pembagian harga frontier kini menjadi keputusan arsitektur yang nyata. Fable 5 dengan token keluaran $50 per juta dan Kode Mini Utara pada satu H100 mewakili trade-off nyata antara pengendalian biaya dan residensi data di satu sisi, dan overhead infrastruktur yang dikelola di sisi lain. Tim yang menjalankan pipeline pengkodean agen bervolume tinggi harus memodelkan kedua jalur biaya terhadap beban kerja sebenarnya sebelum melakukan salah satunya.
Diterbitkan : 2026-06-09 21:41:00
sumber : venturebeat.com



