Kerangka kerja AI Alibaba yang baru melewatkan pemuatan setiap alat, mengurangi penggunaan token agen sebesar 99%


Ketika sistem AI perusahaan berkembang untuk menangani alur kerja yang kompleks, para praktisi menghadapi tantangan dalam merutekan subtugas ke alat dan keterampilan yang tepat. Agen dapat memiliki ratusan alat dan keterampilan dan bingung mana yang harus digunakan untuk setiap langkah alur kerja. Untuk mengatasi tantangan ini, para peneliti di Alibaba mengembangkan SkillWeaver, sebuah kerangka kerja yang membuat grafik eksekusi untuk tugas tertentu dan memilih keterampilan yang tepat untuk setiap node. Mereka juga memperkenalkan Skill-Aware Decomposition (SAD), sebuah teknik baru yang menggunakan putaran umpan balik untuk memungkinkan agen mengambil dan memeriksa kandidat alat yang relevan secara berulang. Pendekatan komposisi dan mekanisme putaran umpan balik ini membedakan SkillWeaver dari kerangka perutean alat lainnya yang memilih alat secara sekali pakai. SkillWeaver berkaitan dengan aplikasi AI dunia nyata di mana agen secara mandiri mengatur ekosistem multi-alat, seperti Model Context Protocol (MCP), untuk menjalankan operasi bisnis multi-langkah seperti mengunduh kumpulan data, mengubah informasi, dan membuat laporan visual. Dalam praktiknya, eksperimen para peneliti dengan SkillWeaver menunjukkan bahwa penerapan pendekatan pengambilan dan rute ini secara signifikan meningkatkan akurasi sekaligus mengurangi konsumsi token hingga lebih dari 99% dibandingkan dengan secara naif mengekspos agen ke seluruh pustaka alat. Bagi praktisi yang membangun agen AI, kesimpulan utamanya adalah bahwa rincian dekomposisi tugas merupakan hambatan terbesar dalam pengambilan alat secara akurat. Tantangan perutean keterampilan Keterampilan adalah pola kunci dalam arsitektur agen LLM modern. Keterampilan adalah spesifikasi alat modular yang dapat digunakan kembali yang menggunakan dokumentasi bahasa alami terstruktur. Ketika agen perusahaan berintegrasi dengan ekosistem alat yang sangat besar, mengarahkan pertanyaan pengguna secara akurat ke keterampilan yang tepat menjadi tugas yang sulit. Mengekspos seluruh perpustakaan ke LLM untuk menemukan alat yang tepat sangat tidak efisien, dengan cepat melampaui batas konteks, dan menghabiskan ratusan ribu token. Sebagian besar kerangka kerja penggunaan alat saat ini berupaya menyelesaikan masalah ini melalui pengambilan API, pencocokan dokumentasi, atau struktur hierarki yang memperlakukan perutean secara ketat sebagai pemilihan keterampilan tunggal atau masalah per langkah. Namun, paradigma keterampilan tunggal ini tidak cukup untuk lingkungan perusahaan karena kueri di dunia nyata pada dasarnya bersifat komposisional. Permintaan bisnis standar seperti “Unduh kumpulan data, ubah, dan buat laporan visual” tidak dapat dipenuhi oleh satu alat. Hal ini memerlukan pemecahan prompt dan pengurutan klien API, pemroses data, dan alat visualisasi ke dalam rencana eksekusi multi-langkah yang kohesif. Cara kerja SkillWeaver dan SAD Untuk mengatasi hal ini, para peneliti membingkai masalah penanganan tugas kompleks yang memerlukan banyak keterampilan sebagai “perutean keterampilan komposisi”. Mengingat permintaan pengguna yang kompleks dan perpustakaan alat yang luas, agen harus secara bersamaan mencari cara untuk memecah permintaan menjadi serangkaian subtugas atom, cara memetakan setiap subtugas ke satu keterampilan terbaik yang tersedia, dan cara menyusun keterampilan tersebut ke dalam rencana yang dapat dieksekusi. SkillWeaver mengatur proses ini melalui tiga tahap berbeda: Dekomposisi, Ambil, dan Tulis. Pada tahap pertama, LLM bertindak sebagai pengurai tugas, memecah kueri kompleks pengguna menjadi serangkaian subtugas yang masing-masing memerlukan satu keterampilan. Setelah subtugas ditentukan dengan jelas, sistem akan menggunakan model penyematan untuk membandingkan setiap subtugas dengan pustaka keterampilan guna menarik daftar kandidat alat teratas untuk setiap langkah. Pada tahap akhir, perencana mengevaluasi kandidat yang diambil berdasarkan seberapa baik mereka bekerja sama. Ia memeriksa kompatibilitas antar-keterampilan untuk memastikan keluaran dari satu alat mengalir secara alami ke masukan alat berikutnya. Ini kemudian membuat rencana eksekusi akhir sebagai Directed Acyclic Graph (DAG) yang memetakan dependensi sehingga tugas independen berpotensi dapat dijalankan secara paralel. Misalnya, pengguna meminta agen AI untuk “Mengunduh kumpulan data, mengubahnya, dan membuat laporan visual”. Pada tahap dekomposisi, LLM pengurai membaginya menjadi tiga subtugas berbeda: mengunduh kumpulan data, mengubah data, dan membuat laporan. Pada tahap pengambilan, sistem mencari perpustakaan dan menemukan kandidat seperti “api-client” atau “http-fetch” untuk tugas pertama, “csv-parser” atau “etl-pipeline” untuk tugas kedua, dan seterusnya. Terakhir, tahap penulisan mengevaluasi opsi-opsi ini, memilih kombinasi spesifik dari “api-client”, “csv-parser”, dan “chart-gen” yang paling kompatibel, dan menggabungkannya menjadi alur kerja final yang siap dijalankan. Tantangan utama dari pipeline ini adalah bahwa LLM sering kali menghasilkan deskripsi langkah umum yang gagal mencocokkan kosakata teknis spesifik dari keterampilan aktual yang tersedia di perpustakaan. Untuk memperbaikinya, SkillWeaver memperkenalkan Iterative Skill-Aware Decomposition (SAD), sebuah putaran umpan balik baru. SAD bekerja dengan meminta LLM menyusun rencana awal, melakukan pencarian awal untuk menemukan keterampilan yang cocok, dan kemudian memasukkan keterampilan yang diperoleh kembali ke dalam LLM sebagai petunjuk. Hal ini memungkinkan LLM untuk menulis ulang dekomposisinya sehingga granularitas dan kosa kata selaras dengan alat sebenarnya yang ada. SkillWeaver beraksi Untuk mengevaluasi kinerja SkillWeaver dalam skenario perusahaan yang realistis, para peneliti membuat tolok ukur khusus yang disebut CompSkillBench. Ini terdiri dari 300 kueri multi-langkah dengan tingkat kesulitan berbeda. Untuk mencerminkan lingkungan dunia nyata, mereka menggunakan perpustakaan yang berisi 2.209 keterampilan dunia nyata yang bersumber dari ekosistem MCP publik, yang mencakup 24 kategori fungsional seperti infrastruktur cloud, keuangan, dan database. Untuk mesin inti, para peneliti terutama menggunakan model parameter ringan 7 miliar (Qwen2.5-7B-Instruct) untuk dekomposisi tugas, dipasangkan dengan pencarian semantik standar (MiniLM dengan indeks FAISS) untuk menemukan alat. SkillWeaver dievaluasi berdasarkan tiga pengaturan utama: metode brute force “LLM-Direct” di mana mereka memasukkan semua nama alat ke dalam prompt model besar, dekomposisi berbasis vanilla LLM tanpa SAD, dan loop agen gaya ReAct. Eksperimen menunjukkan bahwa dekomposisi tugas adalah hambatan utama. Perilaku LLM standar gagal ketika berhadapan dengan pustaka alat yang besar, tetapi putaran umpan balik SAD secara dramatis mengubah arah. Dalam pengaturan vanilla, model 7B hanya mencapai akurasi dekomposisi (yaitu, memprediksi jumlah langkah yang benar) sebesar 51,0%. Dengan mengaktifkan loop umpan balik SAD, akurasi melonjak menjadi 67,7% (dengan model Qwen-Max yang lebih besar, akurasi mencapai 92%). Pada tugas-tugas “sulit” yang membutuhkan empat hingga lima keterampilan berbeda, SAD meningkatkan akurasi sebesar 50%. Dibandingkan dengan pendekatan naif, SkillWeaver mengurangi konsumsi token hingga lebih dari 99% (sumber: arXiv) Salah satu temuan menarik adalah bahwa model yang lebih besar justru dapat berkinerja lebih buruk jika tidak diarahkan. Saat diuji dalam pengaturan vanilla, model parameter 14 miliar yang lebih besar mengalami penurunan akurasi di bawah akurasi model 7B karena model tersebut cenderung menguraikan tugas secara berlebihan menjadi langkah-langkah mikroskopis yang tidak perlu. Setelah SAD diperkenalkan, petunjuk alat yang diambil menghubungkan model kembali ke dunia nyata dan meningkatkan akurasinya. Hal ini menunjukkan bahwa menyelaraskan agen dengan kosakata alat tertentu seringkali lebih berdampak daripada membayar LLM yang lebih besar dan lebih mahal. Hal penting lainnya adalah penghematan token. Garis dasar LLM-Direct, yang menggunakan model Qwen-Max yang sangat besar, menunjukkan bahwa memasukkan semua alat ke dalam prompt model besar gagal. Meskipun kemampuan pemecahan tugas hampir sempurna, model besar ini hanya mengambil kategori alat yang tepat sebanyak 21,1% ketika dibanjiri dengan opsi alat. Pendekatan pengambilan dan rute yang ditargetkan SkillWeaver jauh mengungguli akurasinya sekaligus memangkas konsumsi jendela konteks dari sekitar 884.000 token menjadi sekitar 1.160 token per kueri, pengurangan sebesar 99,9%. Bagi para praktisi, hal ini berarti biaya API yang jauh lebih rendah dan waktu respons yang lebih cepat. Terakhir, baseline ReAct tradisional gagal total, mencapai akurasi dekomposisi 0%. Perulangannya secara alami memecah rencana multi-langkah menjadi tindakan yang terisolasi daripada secara eksplisit memetakan rangkaian multi-alat yang kohesif. Pertimbangan untuk pengembang Meskipun para peneliti belum merilis kode sumber untuk SkillWeaver, pekerjaan mereka dibangun di atas alat siap pakai yang dapat dengan mudah direproduksi. Dekomposisi Sadar Keterampilan (SAD), yang merupakan inovasi utama di jantung kerangka kerja ini, adalah rekayasa cepat dan pengambilan yang cerdas. Penulis telah membagikan templat prompt di makalah mereka, dan pengembang dapat mengimplementasikannya sendiri dengan cukup mudah menggunakan pustaka orkestrasi standar seperti LangChain, LlamaIndex, atau bahkan skrip Python mentah. Sedangkan untuk komponen pengambilan, penulis membangun kerangka kerja inti menggunakan all-MiniLM-L6-v2, model penyematan sumber terbuka. Mereka menemukan bahwa menukar encoder siap pakai yang sedikit lebih kuat (BGE-base-en-v1.5) segera meningkatkan akurasi tanpa penyesuaian apa pun. Meskipun bi-encoder siap pakai sangat bagus dalam memasukkan alat yang relevan ke dalam 10 kandidat teratas hampir 70%, ia kesulitan untuk secara konsisten memberi peringkat pada alat yang sempurna tepat di nomor satu, dan mencapainya hanya sekitar 37% dari waktu. Untuk menjembatani kesenjangan ini, tim mungkin perlu menerapkan cross-encoder sekunder atau reranker berbasis LLM untuk menyusun ulang 10 kandidat teratas tersebut. Salah satu persyaratan persiapan di awal adalah melakukan vektorisasi pustaka alat dan membangun indeks FAISS terlebih dahulu. Dalam praktiknya, ini merupakan rintangan yang dapat diabaikan. Menyematkan dan mengindeks seluruh 2.209 keterampilan dalam benchmark hanya membutuhkan waktu 15 detik. Setelah dibuat, mengambil alat dari indeks menambahkan latensi kurang dari 15 milidetik per kueri. Untuk lingkungan perusahaan, menyinkronkan indeks alat adalah pekerjaan latar belakang yang sepele. Keterbatasan saat ini di SkillWeaver adalah kurangnya pemulihan kesalahan. Meskipun SkillWeaver berhasil memetakan DAG yang kompatibel untuk dieksekusi, studi percontohan penulis mengungkapkan tantangan rantai alat multi-langkah. Misalnya, jika panggilan API gagal pada langkah kedua, seluruh rantai akan terputus. Kontribusi inti makalah ini terbatas pada tahap perutean dan perencanaan. Untuk penerapan produksi yang sebenarnya, praktisi harus membangun mekanisme pemulihan kesalahan, fallback, dan percobaan ulang mereka sendiri di atas tahap penulisan untuk menangani waktu tunggu API di dunia nyata atau keluaran yang salah format.


Diterbitkan : 2026-07-02 20:54:00

sumber : venturebeat.com