Menyempurnakan lupa. RAG membocorkan konteks. Hypernetworks membangun model yang dibutuhkan agen Anda sesuai permintaan.


Tim perusahaan terus menyaksikan hal yang sama terjadi. Agen AI melakukan demo dengan baik, masuk ke tahap produksi, dan berhenti: ia berjalan dalam waktu singkat, kemudian membutuhkan manusia untuk meningkatkan konteksnya dan memeriksa hasilnya, dan efisiensi yang dijanjikan terkuras ke dalam pengawasan. Agen melakukan pekerjaannya; kamu yang menonton. Ini adalah salah satu alasan mengapa banyak agen percontohan tidak pernah beralih ke sistem produksi. Lapangan di sisi lain tembok itu adalah hal yang ingin diyakini oleh setiap tim: agen yang menjalankan pekerjaannya sendiri dalam jangka panjang, dalam semalam jika perlu, dan membiarkan seseorang memvalidasi hanya 10% terakhir. Apakah hal itu dapat dicapai akan menimbulkan masalah yang sebagian besar dilewati oleh percakapan orkestrasi. Ketika perusahaan AI Chroma menguji 18 model terkemuka, setiap model kehilangan akurasi seiring dengan bertambahnya masukan yang ada, sebuah properti yang menunjukkan cara kerja perhatian, bukan sebuah celah yang dapat ditutup oleh model yang lebih kuat. Seorang agen memberi makan lebih banyak bisnis Anda seiring berjalannya bisnis Anda tidak akan menjadi lebih stabil. Ini menjadi lebih goyah. Ini adalah lapisan di bawah perlombaan orkestrasi. Perutean, eksekusi yang tahan lama, dan kemampuan observasi semuanya mengasumsikan setiap agen sudah cukup kompeten untuk berkoordinasi. Pertanyaan yang lebih mendalam adalah berapa lama agen dapat berjalan sebelum manusia harus turun tangan, dan hal itu tergantung pada di mana pengetahuan perusahaan Anda berada relatif terhadap model tersebut. Kedua perbaikan standar ini membiarkan manusia tetap terlibat. Mengapa mengajarkan model bisnis Anda membuat Anda tetap mengikuti perkembangan Model Frontier semakin mampu, dan kesenjangan tidak menutup, karena ini bukan masalah kemampuan. Ini adalah tentang posisi pengetahuan Anda dibandingkan dengan model, dan perusahaan memiliki dua cara untuk menempatkannya di sana. Yang pertama adalah fine-tuning, yaitu memasukkan pengetahuan ke dalam bobot. Hal ini masih rentan terhadap bencana lupa, sebuah masalah yang teridentifikasi pada tahun 1980an dan masih belum terselesaikan pada tahun 2026: mengajarkan sesuatu yang baru kepada seorang model cenderung mengikis apa yang telah diketahuinya. Tim menyiasatinya dengan mengisolasi setiap tugas dalam model atau adaptornya yang telah disesuaikan, sehingga menghasilkan banyak model yang meningkatkan biaya dan overhead tata kelola. Dan model yang disempurnakan adalah sebuah gambaran singkat, yang sudah ketinggalan zaman ketika kebijakan diubah, ketika siklus pelatihan ulang yang mahal dan lambat dimulai kembali. Yang kedua adalah pembelajaran dalam konteks, yang melewatkan pelatihan ulang dengan menempatkan kebijakan yang relevan pada prompt pada saat run time. Di sinilah pembusukan konteks terjadi. Pengambilan mempersempit apa yang masuk ke dalam prompt, namun pengambilan yang gagal terlihat identik dengan jawaban yang meyakinkan, dan baik biaya maupun latensi meningkat seiring dengan setiap token yang ditambahkan. Kedua kegagalan tersebut sama saja. Dengan penyesuaian yang baik, model ini dapat dengan percaya diri bekerja berdasarkan kebijakan kuartal terakhir. Dengan pembelajaran dalam konteks, ia dapat dengan percaya diri mengerjakan detail yang hilang di tengah-tengah tugas yang panjang. Apa pun hasilnya, hasilnya terlihat sama terjaminnya, sehingga Anda tidak dapat mengetahui bagian mana yang salah tanpa memeriksa semuanya. Itu sebabnya manusia tidak pernah bisa pergi. Beberapa tim sering kali menjalankan keduanya sekaligus, menyempurnakan pengetahuan stabil dan mengambil sisanya. Hal ini meringankan setiap kegagalan namun tidak menghilangkan keduanya: pada keluaran tertentu, Anda masih tidak dapat memastikan bahwa model tersebut terkini dan berfungsi dalam konteks yang benar, jadi Anda tetap memeriksanya. Jalur ketiga: menghasilkan model khusus sesuai permintaan Pendekatan ketiga adalah beralih dari penelitian ke produk awal. Daripada melatih ulang satu model atau mengisi perintahnya, generator akan membuat model kecil yang spesifik untuk tugas sesuai permintaan dari kebijakan Anda, pada waktu inferensi. Generatornya adalah hypernetwork: jaringan yang keluarannya merupakan bobot jaringan lain. Idenya disebutkan pada tahun 2016; menerapkannya untuk menghasilkan model bahasa khusus dari teks atau dokumen adalah yang terbaru dan aktif. Text-to-LoRA dari Sakana AI, yang dipresentasikan di ICML 2025, menghasilkan adaptor model dari deskripsi bahasa sederhana dalam sekali jalan, dan sistem tahun 2026 yang disebut SHINE menyebut adaptasi hypernetwork sebagai sebuah terobosan baru yang menjanjikan, justru karena adaptasi tersebut menghindari biaya pelatihan ulang untuk penyempurnaan dan batasan konteks dari permintaan. Tujuan dari menghasilkan adaptor daripada melatih dan menyimpannya adalah untuk meruntuhkan perpustakaan LoRA per tugas yang luas ke dalam satu jaringan yang dapat memproduksinya sesuai permintaan, termasuk untuk tugas-tugas yang belum pernah dilihat. Bagian yang menarik adalah bagaimana hal ini menutup lingkaran masalah di atas: tim adaptor per tugas yang dibuat sendiri untuk menghindari bencana lupa adalah objek yang sama yang dihasilkan oleh hypernetwork secara otomatis. Alasan untuk menjadi lebih kecil di balik semua ini diungkapkan secara langsung dalam makalah tahun 2025 oleh para peneliti Nvidia: untuk tugas-tugas sempit dan berulang yang memenuhi alur kerja agen, model kecil cukup mampu dan 10 hingga 30 kali lebih murah untuk dijalankan dibandingkan model frontier generalis. Nace.AI, sebuah perusahaan Palo Alto yang mengumpulkan dana awal senilai $21,5 juta pada bulan Mei, adalah contoh komersial yang paling jelas. Teknologi intinya, sebuah generator yang disebut MetaModel, menghasilkan adaptasi parameter untuk model pada waktu inferensi dari kebijakan perusahaan, yang menunjuk pada pekerjaan yang diatur: audit, kepatuhan, penilaian risiko. Perusahaan mengatakan bahwa agennya menangani sebagian besar alur kerja sementara pakar manusia memvalidasi hasilnya, dan membaginya menjadi 90/10. Bagaimana ketiga pendekatan tersebut membandingkan Penyempurnaan dalam konteks / RAGHmodel yang dihasilkan jaringan hiperDi mana pengetahuan bisnis adaDalam bobot modelDalam perintah, pasokan ulang setiap prosesDalam bobot yang dihasilkan sesuai permintaanBiaya untuk memperbarui perubahan kebijakanTinggi: melatih ulangRendah: mengedit sumberRendah: regenerateStalenessTinggi: a snapshotLowLow: dibuat ulang dari kebijakan saat iniBiaya per panggilan dan latensiRendahTinggi, tumbuh seiring dengan konteksRendah pada waktu prosesMode kegagalan dominanLupa; model-zoo sprawlContext rot; pengambilan diam-diam missesGenerator kualitas; kalibrasiSiapa yang memiliki aset yang ditingkatkanSiapa pun yang melatih modelSiapa pun yang memegang penyimpanan dataTergantung di mana generator dan umpan balik beradaMengapa model yang dibangun hypernetwork meningkatkan batas otonomiModel yang sempit, terkini, dan kecil memiliki permukaan yang lebih kecil untuk salah. Lebih sedikit kesalahan, terbatas pada domain yang diketahui, berarti lebih sedikit keluaran yang harus disampaikan oleh agen kepada seseorang, yang merupakan dasar nyata bagi klaim otonomi tinggi. Dari sinilah angka seperti 90/10 berasal: bukan angka yang ditetapkan sebelumnya, namun hasil dari betapa sedikitnya sistem yang perlu dikembalikan. Pembagian otonomi yang dilaporkan paling baik dibaca sebagai pengukuran arsitektur, bukan sebagai pengaturan. Dua pilihan desain menentukan apakah otonomi tersebut dapat dipercaya atau sekadar cepat. Yang pertama adalah landasan: mengikat setiap keluaran ke sumbernya sehingga peninjau dapat memverifikasi, bukan mengulang. Model penelitian yang dibuat untuk hal ini, seperti HalluGuard, memberi label pada setiap klaim sebagai didukung atau tidak dan mengutip bagian yang menjadi sandarannya. Nace mengirimkan agennya dengan model landasan dan jejak penalaran untuk alasan yang sama. Ulasan 10% hanya berarti jika manusia dapat mengonfirmasi asal produk dalam hitungan detik. Yang kedua adalah putaran umpan balik, dan ini menimbulkan pertanyaan yang harus ditanyakan setiap pembeli: kapan pakar Anda memvalidasi keluaran, model siapa yang ditingkatkan, dan di mana model tersebut digunakan? Itu menentukan apakah aset gabungan itu milik vendor atau milik Anda. Pengaturannya berbeda. Nace, misalnya, menggunakan jaringan eksternal yang terdiri dari para ahli bersertifikat untuk beberapa keterlibatan dan, untuk penerapan langsung di perusahaan, menggunakan staf pelanggan sendiri, dengan model yang dihasilkan disimpan di dalam cloud pelanggan. Masing-masing pilihan mengarahkan pembelajaran dan kepemilikan ke suatu tempat yang berbeda. Ketika jalur ketiga terputus Pendekatan ini masih terlalu dini, dan beberapa pertanyaan akan menentukan seberapa jauh pendekatan ini akan berjalan. Kalibrasi adalah kuncinya: nilai bergantung pada model dengan mengetahui kapan model tersebut tidak yakin. Dan hal ini benar-benar meresahkan, penelitian terbaru yang menghasilkan adaptor ini menemukan bahwa adaptor ini tidak secara otomatis meningkatkan kalibrasi dibandingkan penyempurnaan biasa, dengan peningkatan yang hanya muncul di bawah batasan tertentu. Kualitas model yang dihasilkan juga sangat bergantung pada data kebijakan yang menjadi dasar pembuatannya, sehingga kurasi data menjadi prioritas utama. Dan skalanya adalah batas penelitian yang terbuka, hypernetwork yang ditunjukkan dalam karya yang dipublikasikan sejauh ini masih kecil. Di sinilah karya Nace menjadi menarik: dalam wawancara kami, perusahaan tersebut mengatakan bahwa mereka telah mengembangkan generatornya jauh melampaui ukuran yang dipublikasikan dan menetapkan undang-undang penskalaan mengenai bagaimana kinerja tumbuh, hasil yang telah mulai dibagikan secara publik dan sekarang sedang melalui tinjauan sejawat. Jika hal ini bertahan, hal ini akan membantu menjawab salah satu pertanyaan terbuka utama di lapangan, dan makalah ini layak untuk disimak. Pendekatan mana pun yang menang, pekerjaannya tetap berakhir pada manusia, dan penyerahan tersebut merupakan masalah desainnya sendiri. Ketika Deloitte Australia menyampaikan laporan pemerintah senilai A$440,000, laporan tersebut dikirimkan dengan kutipan palsu dan kutipan pengadilan yang dibuat-buat setelah lolos tinjauan senior, karena peninjau memeriksa kesimpulan yang masuk akal, dan bukan asal usulnya, yang tidak benar. Penelitian terkontrol menunjukkan bahwa polanya bersifat umum: para ahli lebih jarang mengoreksi rekomendasi yang cacat jika diberi label sebagai hasil dari AI. Pasal 14 UU AI UE sekarang menyebutkan bias otomatisasi ini. Pembelajarannya bukan mengenai satu vendor saja: bagian otonomi yang tinggi memusatkan perhatian manusia pada bagian pekerjaan yang tipis dan terlambat, sehingga nilai dari peninjauan tersebut bergantung sepenuhnya pada apakah manusia dapat memeriksa asal usulnya dengan cepat, yang kembali lagi ke dasar. Apa yang harus dibuat, dan apa yang harus ditanyakan sebelum Anda membeli Kesimpulan yang jujur: yang menghambat agen Anda biasanya bukan orkestrasi atau ukuran model, namun apakah model tersebut mengetahui bisnis Anda dengan cukup baik sehingga tidak perlu khawatir, dan perbaikan yang tepat bergantung pada pekerjaannya. Untuk mengotomatiskan proses yang panjang, berulang, dan bervolume tinggi, menjalankan sebagian besar audit internal dalam semalam, dan meminta pakar Anda memeriksa bagian terakhirnya, model yang dihasilkan hypernetwork adalah pendekatan yang paling mungkin dilakukan dengan biaya murah dan berjalan cukup lama. Untuk tugas singkat yang selesai dalam beberapa langkah dan tidak perlu dijalankan tanpa pengawasan, kesenjangan antara model ini dan model frontier yang cepat menyusut hingga hampir tidak ada, dan tidak sebanding dengan biaya integrasi. Ketika vendor menawarkan agen otonom atau spesialis, ada empat pertanyaan yang bisa menjawabnya. Di manakah pengetahuan bisnis berada: dalam bobot, prompt, atau dihasilkan sesuai permintaan? Apa isi setiap keluaran, sehingga peninjau dapat memverifikasinya alih-alih mengulanginya? Apa yang menentukan pekerjaan mana yang akan diteruskan ke manusia? Dan model siapa yang mengalami peningkatan dari masukan tersebut, dan di mana model tersebut dijalankan? Jawabannya, bukan rasio judulnya, yang memberi tahu Anda apa yang Anda beli. Pendekatan hypernetwork adalah upaya paling kredibel dalam membuat model kecil mengetahui bisnis tertentu tanpa melupakannya dan tanpa menjelaskannya kembali setiap kali dijalankan. Hal ini juga merupakan yang paling sedikit terbukti, dan bagian yang paling penting, kalibrasi dan skala, masih dalam tahap tinjauan sejawat. Untuk pekerjaan yang tepat, uji coba sekarang. Bagi pihak yang salah, biaya integrasi tidak memberikan banyak manfaat bagi Anda, dibandingkan dengan model frontier yang dirancang dengan baik.


Diterbitkan : 2026-06-19 16:30:00

sumber : venturebeat.com