Para peneliti mengatakan mereka melatih model fondasi dari awal dengan biaya sekitar $1.500


Melatih LLM yayasan dari awal membutuhkan biaya jutaan dan memerlukan data berskala internet — itulah sebabnya sebagian besar perusahaan tidak mau repot. Sapient berpendapat bahwa ia memiliki jalur yang lebih murah. Untuk mengatasi dogma penskalaan brute force ini, para peneliti di Sapient mengembangkan HRM-Text, yang menggantikan Transformers standar dengan Hierarchical Recurrent Model (HRM) yang sangat efisien terhadap sampel, sebuah arsitektur yang pertama kali mereka perkenalkan tahun lalu. HRM memisahkan komputasi menjadi lapisan eksekusi strategis yang berkembang lambat dan berkembang dengan cepat. Daripada melakukan prediksi autoregresif brute force pada teks mentah, HRM-Text berlatih secara eksklusif pada pasangan instruksi-respons. Hal ini mirip dengan lingkungan perusahaan di dunia nyata, di mana pengguna biasanya mengharapkan jawaban yang ditargetkan untuk tugas tertentu. Para peneliti mampu melatih HRM-Teks parameter 1B dari awal dengan biaya dan token LLM normal yang lebih murah. Model mereka mencapai kinerja yang kompetitif dengan model terbuka yang jauh lebih besar pada tolok ukur industri utama. Untuk aplikasi AI di dunia nyata, ini berarti pelatihan awal yang mendasar tidak lagi terbatas pada institusi yang memiliki sumber daya tinggi. Dengan HRM-Text, organisasi dapat melakukan pra-latihan model penalaran mereka sendiri dengan harga terjangkau dari awal dan memasangkannya dengan penyimpanan pengetahuan eksternal. Kemacetan pelatihan Saat kami melatih LLM, kami sebenarnya tidak peduli apakah LLM tersebut telah menghafal urutan kata yang tepat di thread Reddit acak tahun 2014. Yang kami inginkan adalah agar model dapat mengembangkan pemahaman yang mendalam dan mendasar tentang bahasa, logika, fakta, dan penalaran manusia. Pendekatan yang ada saat ini adalah dengan menggunakan kekerasan: menjelajahi internet, menjalankan prediksi berikutnya sebanyak triliunan kali, dan berasumsi bahwa model tersebut telah mengembangkan model internal dunia yang berfungsi. Pada dasarnya, hal ini berarti bahwa kita membuang jutaan dolar daya komputasi yang memaksa model untuk mengingat segala sesuatu yang dikumpulkan dari internet, hanya agar mereka secara tidak langsung dapat belajar cara berpikir. Misalnya, model khusus decoder standar menghabiskan komputasi yang berharga untuk menetapkan kerugian untuk merekonstruksi prompt itu sendiri, meskipun prompt pengguna sudah diketahui dan diberikan pada waktu inferensi. Daripada hanya memandang ini sebagai rintangan komputasi, industri harus mengenalinya sebagai batasan bisnis yang parah. Dalam komentar yang diberikan kepada VentureBeat, Guan Wang, CEO Sapient Intelligence, menggambarkan hal ini sebagai isu “keekonomian iterasi”. “Perusahaan saat ini menghadapi tiga masalah yang rumit: pelatihan itu mahal, infrastruktur yang berat, dan siklus eksperimen yang terlalu lambat,” kata Wang. “Kecanduan penskalaan industri mengatakan: ‘Ketika model gagal, buatlah menjadi lebih besar. Tambahkan lebih banyak data. Tambahkan lebih banyak GPU.’ Hal ini berhasil, namun hasilnya semakin berkurang. Skala yang lebih besar sering kali berarti lebih banyak hafalan, lebih banyak latensi, lebih banyak infrastruktur, dan lebih banyak ketergantungan vendor. Hal ini tidak selalu memberikan suatu mesin penalaran yang lebih baik bagi suatu perusahaan. Inefisiensi arsitektur dan komputasi inilah yang menyebabkan penyempurnaan trafo padat yang ada tidak selalu menjadi solusi terbaik bagi perusahaan. Penyempurnaan untuk mempertahankan kemampuan umum suatu model sering kali memerlukan pencampuran data tujuan umum yang substansial ke dalam proses, sehingga membuatnya berat secara komputasi dan sulit dikendalikan. “Bayangkan sebuah hedge fund, perusahaan asuransi, atau bank yang memiliki data yang sangat eksklusif: catatan penelitian internal, logika transaksi, aturan kepatuhan, memo analis, model risiko, batasan portofolio,” kata Wang. “Mereka mungkin tidak ingin mengirimkan data tersebut ke model frontier eksternal, dan mereka mungkin tidak memerlukan model serba guna raksasa yang mengingat internet. Yang mereka perlukan adalah inti penalaran kompak yang dapat mempelajari struktur tugas mereka, mempertimbangkan aturan dan angka, dan berjalan dalam lingkungan yang terkendali.” yang diperkenalkan pada tahun 2025, mewakili perubahan mendasar dari model Transformer tradisional. Untuk membangun mesin yang lebih efisien dalam pengambilan sampel, HRM memisahkan komputasi menjadi lapisan eksekusi strategis yang berkembang lambat dan lapisan eksekusi yang berkembang cepat. Modul L cepat melakukan penyempurnaan berulang lokal, sedangkan modul H lambat mempertahankan konteks semantik yang stabil di seluruh siklus. Pemrosesan terdiri dari dua siklus tingkat tinggi, di mana setiap siklus mengeksekusi tiga pembaruan modul-L yang cepat diikuti oleh satu pembaruan modul-H yang lambat. Model penalaran hierarki (HRM) (sumber: arXiv) Arsitektur berulang yang dibagi dengan parameter standar (seperti TRM dari Samsung) terkadang dapat menangani teka-teki logika kecil, namun para peneliti Sapient menemukan bahwa arsitektur tersebut menjadi sangat tidak stabil ketika diskalakan ke 1 miliar parameter untuk tugas-tugas bahasa. Pemisahan antara modul-H lambat HRM dan modul-L cepat secara matematis diperlukan, bukan sekadar pilihan estetika. Seperti yang dikatakan Wang: “Untuk jaringan logika, terkadang Anda dapat menggunakan mekanisme rekursif yang kecil karena dunia ini bersih dan terbatas. Bahasa tidak seperti itu. Bahasa membutuhkan penyempurnaan lokal yang cepat dan stabilitas semantik yang lambat.” Meskipun HRM asli terbukti sangat efektif untuk masalah penalaran simbolik yang terkontrol, para peneliti menemui jalan buntu ketika menerapkannya pada kompleksitas besar dan terbuka dari pemodelan bahasa umum. Meskipun perulangan HRM menjadikannya pemikir yang sangat efisien, perulangan yang sama membuatnya tidak stabil secara matematis untuk melatih beragam kekacauan dalam bahasa manusia. Menjalankan loop berulang pada bahasa menciptakan ketidakstabilan matematika yang sangat besar, khususnya, gradien yang meledak atau hilang. Arsitektur HRM-Text (sumber: Sapient Inc.) Untuk mencegah loop umpan balik ini di jaringan saraf, para peneliti memperkenalkan dua inovasi arsitektur utama dalam HRM-Text. Pertama, mereka mengembangkan MagicNorm, teknik normalisasi khusus yang dirancang khusus untuk menjaga sinyal internal tetap stabil, tidak peduli berapa kali model mengulang proses berpikirnya. Kedua, mereka merancang metode pemanasan untuk menstabilkan pelatihan. Selama pelatihan awal, model hanya dievaluasi pada putaran penalaran yang pendek dan dangkal. Saat pelatihan berlangsung, sistem menjadi semakin hangat, yang secara bertahap memberikan model rangkaian penalaran yang lebih dalam dan lebih panjang. Mereka juga mengalihkan tujuan pelatihan dari prediksi token berikutnya ke penyelesaian tugas, di mana model hanya diberi penghargaan berdasarkan respons penuh dibandingkan dengan token individual yang dihasilkannya. Untuk mencapai tujuan ini, mereka mengubah data pelatihan HRM-Teks dari teks mentah menjadi pasangan instruksi-respons saja.HRM-Teks beraksiPara peneliti membangun model HRM-Teks 1 miliar parameter yang sangat ringkas. Alih-alih menggunakan pipeline multi-tahap standar yang memerlukan triliunan kata dalam teks internet mentah, mereka melatihnya dari awal pada kumpulan data yang dikurasi secara ketat yang hanya terdiri dari 40 miliar token. Data pelatihan seluruhnya terdiri dari pasangan instruksi-respons pada instruksi umum, matematika, logika simbolik, latihan buku teks, dan pengetahuan yang ditulis ulang. Mereka melatih model menggunakan tujuan penyelesaian tugas. Untuk memaksa model agar mengandalkan arsitektur hierarki internal daripada menyalin logika langkah demi langkah, mereka secara eksplisit menghapus token “berpikir” dari data pelatihan. Model ini dievaluasi pada beragam rangkaian tolok ukur AI dasar standar, yang banyak diindeks pada pengetahuan, penalaran, logika, matematika, dan pemahaman. Para peneliti menguji HRM-Text terhadap model kecil dan model open-weight dan model terbuka penuh dengan sumber daya tinggi. Hasilnya menunjukkan perubahan signifikan dalam batas komputasi hingga kinerja. HRM-Teks parameter 1B mencapai 60,7% pada MMLU, 84,5% pada GSM8K, dan 56,2% pada MATH. Kinerja ini sangat kompetitif dengan (dan dalam beberapa kasus melampaui) model dasar parameter 2B hingga 7B yang diuji. Performa HRM-Text (sumber: arXiv) Hal yang paling penting bagi audiens perusahaan terletak pada statistik efisiensi dan implikasi praktis. Melatih model dasar dari awal biasanya merupakan upaya bernilai jutaan dolar yang diperuntukkan bagi raksasa teknologi. HRM-Text dilatih hanya dalam 1,9 hari pada cluster yang terdiri dari 16 GPU. Perkiraan total biaya komputasi kira-kira $1.500. Model ini mencapai skor kompetitifnya dengan menggunakan token pelatihan 100 hingga 900 kali lebih sedikit dan estimasi komputasi 96 hingga 432 kali lebih sedikit dibandingkan model seperti Qwen, Gemma, dan Llama. Poin penting lainnya adalah pemisahan penalaran dari penghafalan pengetahuan. Dari sudut pandang praktis, keberhasilan HRM-Text dalam tugas-tugas yang menuntut banyak penalaran meskipun diet pelatihan token 40B-nya kecil membuktikan bahwa model tidak perlu menghafal seluruh internet untuk menjadi mesin penalaran yang cerdas. Untuk aplikasi perusahaan, perilaku ini adalah sebuah fitur, bukan bug. Para peneliti menyarankan masa depan di mana bisnis menerapkan model berulang yang sangat kompak dan sangat murah yang bertindak sebagai “inti penalaran” yang dikhususkan untuk logika bisnis. Alih-alih memaksa model untuk menghafal database perusahaan selama pra-pelatihan, model tersebut bertindak sebagai mesin penalaran, mengandalkan sistem pengambilan eksternal untuk mengambil pengetahuan faktual. Kritikus telah menunjukkan bahwa pelatihan tentang pasangan instruksi-respons membuat perbandingan dengan model yang dilatih pada teks mentah menjadi skenario “apel-ke-jeruk”. Wang mendorong kembali kerangka ini, menunjukkan bahwa setiap LLM modern yang serius melihat data respons instruksi selama pelatihan atau penyelarasan. Kami memulai langsung dari format tugas inti karena begitulah cara orang menggunakan model: mereka memberikan instruksi dan mengharapkan respons yang berguna, katanya. Para peneliti juga melakukan uji kontaminasi yang ketat untuk memastikan model tidak sekadar menghafal jawaban tolok ukur. Pada DROP, satu-satunya tolok ukur yang menunjukkan sinyal kontaminasi marjinal dalam pengaturan tertentu, HRM-Text masih memperoleh skor yang mengesankan sebesar 81,1% pada subset kontaminasi 0% yang benar-benar bersih. Pada akhirnya, Wang berpendapat bahwa bagi perusahaan, “evaluasi yang tepat bukanlah mengingat hal-hal sepele. Ini adalah evaluasi alur kerja… Berikan HRM-Text tugas seperti: penalaran keuangan multi-langkah, logika kepatuhan, otomatisasi alur kerja ilmiah, ekstraksi terstruktur yang diikuti dengan penalaran.”Implementasi praktis dan masa depan perusahaan AIMeskipun skor tolok ukur dan efisiensi biayanya luar biasa, Sapient memahami dengan jelas batasan-batasan model saat ini. Rilis awal paling baik dilihat sebagai bukti konsep, mirip dengan rilis GPT awal, yang dirancang untuk menampilkan keunggulan unik arsitektur. “Sejujurnya, HRM-Text belum menjadi pengganti ChatGPT plug-and-play,” kata Wang. “Ini adalah model penalaran bahasa dasar yang ringkas. Untuk tim teknik perusahaan, pekerjaan operasional terutama berkisar pada templat, pemilihan mode, penyembunyian perhatian, dan penyelarasan.” Untuk tim teknik AI yang ingin bereksperimen, memulai memerlukan disiplin pembuatan teks yang spesifik namun standar. Model ini mencantumkan dukungan asli di perpustakaan Transformers (memerlukan transformator >= 5.9.0), dan jalur penggunaan untuk vLLM dan SGLang sedang dikembangkan secara aktif. Tugas teknik utama melibatkan pengelolaan desain PrefixLM: aplikasi obrolan multi-putaran produksi akan memerlukan logika cache KV yang cermat untuk memastikan permintaan pengguna mendapat perhatian dua arah penuh sementara keluaran asisten tetap bersifat kausal. “Ketika biaya pelatihan model penalaran yang mumpuni turun menjadi sekitar $1.500, AI tidak lagi hanya menjadi pertanyaan infrastruktur dan menjadi pertanyaan strategi,” kata Wang. “Perusahaan Fortune 500 tidak perlu lagi bertanya, ‘Dapatkah kami membeli model pondasi?’ Model tersebut akan bertanya, ‘Apa yang harus diketahui model kita tentang bisnis kita, dan alasan seperti apa yang harus dioptimalkan?'”


Diterbitkan : 2026-06-10 21:52:00

sumber : venturebeat.com