Kimi K2.7-Code memotong token pemikiran sebesar 30% — tetapi para praktisi mengatakan tolok ukurnya tidak sesuai

Moonshot AI merilis Kimi K2.7-Code minggu ini, sebuah pembaruan sumber terbuka untuk keluarga model pengkodean K2, mengklaim penalaran yang lebih ramping dan peningkatan kinerja dua digit. K2.7-Code dibangun di atas arsitektur campuran pakar triliunan parameter yang sama seperti pendahulunya K2.6, dan hadir melalui API yang kompatibel dengan OpenAI — yang penting bagi tim yang sudah menjalankan K2.6 di gateway produksi. Ketika K2.6 diluncurkan pada bulan April, ia menduduki puncaknya Papan peringkat LLM mingguan OpenRouter — peringkat berdasarkan keputusan perutean API aktual oleh pengembang, bukan skor benchmark yang dilaporkan sendiri. Moonshot AI mengatakan K2.7-Code mengatasi apa yang disebutnya “overthinking”, mengurangi penggunaan token pemikiran sebesar 30% dibandingkan dengan K2.6 — angka yang secara langsung akan memengaruhi biaya inferensi untuk tim yang menjalankan alur kerja agen. Apakah peningkatan efisiensi tersebut dapat bertahan pada tolok ukur independen merupakan pertanyaan yang sudah mulai diajukan oleh para praktisi ke publik. Apa itu Kimi K2.7-Code? K2.7-Code dirilis di bawah lisensi MIT yang Dimodifikasi, dengan bobot tersedia di HuggingFace. Model ini dapat diterapkan melalui vLLM atau SGLang. Ini berjalan secara eksklusif dalam mode berpikir dan tidak mendukung penyesuaian suhu — Moonshot AI telah menetapkannya pada 1.0, yang berarti tim tidak dapat menyesuaikan determinisme keluaran seperti pada model lain. Perubahan inti dari K2.6 adalah cara model menghasilkan kode tingkat rendah. Jika K2.6 menghasilkan implementasi dengan membungkus perpustakaan yang ada dan merutekannya melalui kerangka kerja yang sudah ada, K2.7-Code membuat implementasi secara langsung. Moonshot AI mengatakan ini menghasilkan generalisasi yang lebih andal di Rust, Go, dan Python, dan di seluruh jenis tugas termasuk pengembangan frontend, DevOps, dan pengoptimalan kinerja. Pada kinerja benchmark, Moonshot AI mengklaim peningkatan sebesar 21,8% di Kimi Code Bench v2, 11% di Program Bench, dan 31,5% di MLS Bench Lite. Ketiganya merupakan benchmark eksklusif yang dijalankan oleh Moonshot AI. Model tersebut belum dikirimkan ke DeepSWE, sebuah tolok ukur pengkodean independen yang menghasilkan penyebaran 70 poin di seluruh model — dibandingkan dengan penyebaran 30 poin SWE-Bench Pro — menjadikannya sinyal yang lebih diskriminatif bagi tim yang mengonfigurasi sistem perutean model. Transformasi VB · 14-15 Juli · Menlo Park · Infrastruktur Inferensi & AI GM mendapat lonjakan 300% dalam PR gabungan dengan merancang ulang agen. Inilah yang mereka bangun. Jalur infrastruktur di Transform mencakup pembuatan video real-time, tumpukan pemikiran mesin-ke-mesin, dan apa yang sebenarnya diperlukan untuk menjalankan agen pada skala perusahaan. Lihat agenda selengkapnya → Lebih jujur, lebih lemah untuk ituGambaran dari luar tolok ukur Moonshot sendiri lebih rumit. Peneliti Elliot Arledge menjalankan K2.7-Code terhadap K2.6 dan Claude Fable 5 di KernelBench-Hard, tolok ukur publik yang berfokus pada optimalisasi kernel GPU, dan menerbitkan log proses lengkapnya di kernelbench.com. “K2.7 lebih jujur tetapi tidak lebih mumpuni,” tulis Arledge di X. Pada lima dari enam masalah, K2.7-Code menghasilkan kernel Triton yang dibuat asli dimana K2.6 telah menggunakan pembungkus perpustakaan. Dua dari kernel tersebut gagal karena bug model itu sendiri. Hasil kernel MoE mengalami kemunduran dari skor K2.6 sebesar 0,222 menjadi 0,157. “Fabel, sebagai referensi, berada di puncak setiap sel, sejujurnya tidak gagal,” tulis Arledge. Sugumaran Balasubramaniyan, seorang pengembang yang membangun model-tugas-router untuk platform Agen Hermes menggunakan DeepSWE sebagai sinyal referensinya, menanggapi rilis K2.7-Code secara publik dan menantang Moonshot AI secara langsung pada pilihan benchmark. “Dengan hormat, setiap model ‘meningkatkan’ dua digit pada rangkaian pengujiannya sendiri,” tulis Balasubramaniyan di X. Dia mencatat bahwa K2.6 mendapat skor 24% di DeepSWE, setara dengan GPT-5.4-mini, dan bertanya apakah Moonshot AI akan mengirimkan K2.7-Code ke benchmark yang sama. Balasubramaniyan mengatakan dibutuhkan 13 putaran peninjauan untuk mendapatkan data benchmark yang tepat untuk routernya dan bahwa dia akan merutekan tugas pengkodean ke K2.7-Code jika angka independennya bertahan. Apa artinya ini bagi perusahaan? Keuntungan efisiensi token dapat segera digunakan. Tim yang menjalankan K2.6 dalam produksi dapat menukar Kode K2.7 melalui API yang kompatibel dengan OpenAI dan mengharapkan biaya inferensi yang lebih rendah pada alur kerja agen tanpa perubahan arsitektur. Pengurangan token pemikiran sebesar 30% adalah angka yang dimiliki Moonshot, namun jalur integrasi memiliki risiko yang cukup rendah untuk diuji terhadap beban kerja Anda sendiri sebelum melakukan. Pertanyaan praktisnya adalah apakah peningkatan efisiensi tersebut berlaku pada distribusi tugas tim itu sendiri. Menjalankan Kode K2.7 terhadap beban kerja Anda sendiri sebelum menyesuaikan bobot gateway adalah jalur berisiko rendah untuk mengetahuinya.
Diterbitkan : 2026-06-12 21:55:00
sumber : venturebeat.com



