Tinjauan dokumen pemotongan tumpukan Trunk Tools dari 60 hari menjadi 10 hari dengan membuang model tujuan umum


Kebanyakan vertikal bukanlah database SaaS yang bersih dan terkelola dengan baik; kenyataannya adalah dokumen jelek, skema kepemilikan, alur kerja implisit, dan tugas-tugas jangka panjang yang sulit dilakukan oleh sebagian besar model tujuan umum. Hal ini mendorong perusahaan manajemen proyek konstruksi, Trunk Tools, untuk membangun arsitektur tiga lapis yang terspesialisasi – persepsi, semantik, agen – berdasarkan data yang sangat rinci untuk mendukung otomatisasi industri dengan akurasi tinggi dan sangat relevan. Tumpukan yang dibuat khusus telah memperpendek siklus peninjauan dari bulan ke hari, mencegah kesalahan lapangan yang merugikan, dan memberikan agen otonom kemampuan untuk mempertimbangkan jutaan halaman dokumentasi, kata Trunk. “Kami benar-benar ingin mengambil data dari sistem yang tersebar, melakukan pra-pemrosesan, menyusunnya, menelusuri ontologi kami menjadi grafik pengetahuan, dan kemudian melatih model AI,” kata Sarah Buchner, pendiri dan CEO Trunk serta mantan tukang kayu. Bagi para pembangun di sektor lain, pendekatan Trunk dapat berfungsi sebagai cetak biru untuk mengubah kekacauan data menjadi alur kerja khusus industri yang siap untuk agen. Ketika LLM tujuan umum dipecah berdasarkan data industri, LLM Foundation, meskipun kuat, dioptimalkan untuk keluasan, tidak selalu kedalaman. “LLM tujuan umum dilatih untuk baik-baik saja dalam segala hal, sehingga mereka lemah dalam bidang apa pun,” kata Kriti Faujdar, manajer produk senior yang bekerja di infrastruktur AI, AI agen, keamanan, dan platform LLM. Misalnya: Istilah-istilah langka, penalaran spesifik domain, konteks tak terucapkan yang “baru diketahui oleh setiap praktisi”. Pengembang web, aplikasi, dan perangkat lunak Sébastien De Bollivier sepakat bahwa hambatan terbesar adalah keandalan data yang “padat jargon, banyak singkatan, dan spesifik format.” “Model kelas GPT-4 dapat memahami kontrak hukum Perancis, namun akan gagal dalam menentukan referensi artikel spesifik yang perlu dikutip oleh para praktisi,” katanya. Selain itu, data perusahaan yang paling berharga tidak pernah dimasukkan ke dalam pra-pelatihan, kata Faujdar. Itu ada dalam sistem internal dan format kepemilikan. “RAG sedikit membantu,” katanya. “Tetapi hal ini hanya memberikan fakta yang lebih baik kepada model yang masih belum dapat memberikan alasan yang tepat dalam domainnya.” Pra-pelatihan tentang data domain sangatlah penting; perusahaan kemudian harus menyempurnakan contoh-contoh tugas yang baik dan membangun evaluasi mereka sendiri. “Beberapa ribu contoh dari praktisi nyata mengalahkan jutaan contoh yang tergores dan berisik,” kata Faujdar. Mixture-of-experts (MoE) dapat memberikan spesialisasi tanpa biaya inferensi yang membengkak. Memasangkan RAG dengan fine-tuning juga berfungsi dengan baik; RAG menangani jejak panjang faktual sementara penyesuaian memperbaiki kosa kata dan penalaran. De Bollivier menunjukkan keunggulan tumpukan hibrid: Model tujuan umum untuk penalaran dan orkestrasi, model yang lebih kecil dan lebih halus (atau pengambilan padat melalui korpus yang dikurasi) untuk ekstraksi khusus domain. Dia menyarankan: “Jangan melakukan penyesuaian untuk membuat model menjadi ‘lebih pintar’ mengenai suatu domain, lakukan penyesuaian agar model tersebut lebih dapat diandalkan pada format output spesifik yang dibutuhkan oleh alur kerja Anda.” Perdagangan dan konstruksi tentu saja merupakan industri yang melihat daya tarik dari teknik ini, begitu pula hukum dan layanan kesehatan, kata De Bollivier. Model-model vertikal ini memiliki “taruhan besar terhadap kesalahan ditambah format dokumen terstandarisasi, yang setara dengan ROI pelatihan domain yang jelas.” Satu peringatan jujur ​​yang perlu disebutkan, Faujdar mengatakan: Model khusus sering kali tidak berfungsi di luar domainnya, sehingga sering kali tidak berguna di luar keahliannya (kecuali jika dilatih ulang). Persepsi, semantik, agen: di dalam tumpukan tiga lapis TrunkDalam domain yang sangat terspesialisasi seperti konstruksi, “data dump” ke dalam model bahasa besar (LLM) tidak cukup, kata CTO Trunk, Amrish Kapoor. Hal ini karena sebagian besar transformator adalah model probabilistik: Ketika diberi gambar, mereka melaporkan kembali bahwa itu “mungkin” sebuah pohon, atau “mungkin” seorang anak yang sedang bermain di samping pohon. Hal ini membuat mereka tidak cukup untuk interpretasi simbolik dengan presisi tinggi. Misalnya, dalam dokumen konstruksi, simbol selebar 2 milimeter memiliki arti yang sangat berbeda tergantung di mana simbol tersebut ditempatkan. Lebih jauh lagi, karena dibatasi oleh batasan konteks, model probabilistik kesulitan dengan memori proyek jangka panjang. “Maksud saya bukan jendela konteks dari beberapa token,” kata Kapoor. “Saya sedang berbicara tentang memori jangka panjang yang membentang selama berbulan-bulan dan bertahun-tahun, karena ini adalah berapa lama beberapa proyek ini berlangsung.” Sebaliknya, sistem tiga lapis Trunk membagi alur kerja menjadi: Persepsi (membaca dan mengekstrak data dari dokumen yang berantakan seperti PDF, gambar, atau pindaian) Lapisan semantik/grafik (memahami data tersebut dan memahami hubungannya). LLM dan agen di atasnya. Gambar konstruksi biasanya bersifat simbolis, kata Buchner. Sebuah pintu tidak selalu diberi label ‘pintu’. Kadang-kadang itu hanyalah sebuah busur di dinding yang dipelajari oleh mata yang terlatih berdasarkan latihan bertahun-tahun. “Lapisan persepsi inilah yang mengajarkan AI untuk membaca bahasa tersebut,” ujarnya. Lapisan semantik kemudian memberi makna pada informasi tersebut; misalnya, menghubungkan pintu dengan gambar yang merincinya, spesifikasi yang mengaturnya, dan perdagangan yang memasangnya. Hal ini membantu menjawab pertanyaan kritis para insinyur proyek: Bukan “apakah ada pintu di sini?” namun “apakah pintu ini akan menimbulkan masalah?” Khususnya di bidang konstruksi, peralihan tersebut penting karena biaya yang timbul dari suatu masalah akan bertambah seiring berjalannya waktu. “Konflik yang terjadi dalam rancangan memerlukan biaya yang relatif rendah untuk diatasi,” kata Buchner, “sedangkan masalah yang sama yang terjadi di lapangan mungkin memerlukan biaya puluhan ribu dolar.” Pada tingkat tinggi, sistem mengidentifikasi jenis dokumen dan mulai mengekstraksi informasi berdasarkan konten (gambar, jadwal, teks paragraf). Data ini kemudian “diubah dan ditambah” di platform, yang memicu alur kerja agen seperti hubungan grafik pengetahuan dan alur kerja pengguna akhir. Misalnya, agen mungkin meninjau buletin arsitektur dan membuat hamparan visual yang membandingkan versi lama dan versi baru (menandai penambahan dan penghapusan), lalu membuat narasi tertulis yang menjelaskan perubahan tersebut secara sederhana. Hal ini membantu pengguna memahami apa yang berubah dan berkoordinasi dengan mitra dagang mengenai harga terbaru dan perubahan pesanan. Skala masalah data konstruksi Alur kerja konstruksi “matang dengan asumsi implisit dan hubungan antar data dari berbagai sumber,” kata Buchner. Dan jumlah data yang tidak terstruktur “secara manusiawi tidak mungkin” untuk diproses atau dipahami. Buchner memperkirakan rata-rata gedung bertingkat tinggi menghasilkan sekitar 3,6 juta halaman dokumentasi terkait. “Jika Anda mencetaknya ke dalam tumpukan kertas, tingginya akan setinggi bangunan itu sendiri.” Ketiga lapisan tumpukan Trunk — persepsi, semantik, LLM — dilatih pada “kumpulan data yang sangat spesifik” dari pelanggan dengan “izin eksplisit” dan pelabelan otomatis/IP, jelas Kapoor. Pelanggan yang tidak menginginkan pelatihan Trunk pada datanya dapat memilih untuk tidak ikut serta. Data dideidentifikasi dan dikumpulkan, dan Trunk juga mengumpulkan “lebih banyak” data berlabel melalui saluran lain seperti pemodelan informasi bangunan 3D (BIM). Trunk mengatakan mereka hanya mengirimkan agen yang mencapai akurasi sekitar 95%. Tim ini memelihara jalur evaluasi berkelanjutan berdasarkan data kebenaran dasar dari pelanggan dan pakar. Mereka juga menggunakan model LLM sebagai hakim. “Gagasan tentang LLM sebagai juri adalah untuk menilai seberapa baik kinerja Anda, baik secara subyektif maupun obyektif,” kata Kapoor. Objektivitas dapat dengan mudah diartikan ‘benar’ atau ‘tidak benar’, namun subjektivitas membutuhkan lebih banyak nuansa. Misalnya, saat membuat email atau narasi atau penjelasan, LLM sebagai kerangka penilaian dapat membuat skor gabungan, atau nilai numerik yang menggabungkan metrik yang berbeda dan menguji kinerja atau risiko model. Namun, mungkin ada tantangannya, terutama dengan latensi, kata Buchner; setiap kali kapasitas penalaran model yang mendasarinya meningkat, risiko latensi juga meningkat. Trunk mempertahankan serangkaian kriteria evaluasi untuk mengukur latensi secara objektif setiap kali terjadi perubahan pada infrastruktur dasar, agen, dan panggilan API. Kemudian, “sebelum kami merilisnya kepada pelanggan, kami memastikan perubahan kecil pada pengalaman pengguna akhir sepadan dengan peningkatan kinerjanya,” kata Buchner. Dari 60 hari hingga 10 hari: hasil yang terukur Platform Trunk mendukung tujuh agen AI yang dibuat khusus untuk konstruksi, seperti menganalisis tanggapan permintaan informasi (RFI), meninjau tawaran, atau meninjau gambar dan penyerahan. Agen pengirim, misalnya, menandai informasi yang hilang, bertentangan, atau tidak sesuai dalam spesifikasi produk dan RFI. Meskipun ini merupakan langkah penting dalam proses konstruksi, “ini adalah alur kerja yang sangat menjengkelkan,” kata Buchner, karena peninjau manusia harus membandingkan dokumen “dengan sekumpulan bagian lain dari dokumen.” Namun agen tersebut mampu melakukan ini dalam hitungan detik, dan Trunk mengatakan bahwa mereka telah mengurangi siklus pengiriman dari 50 menjadi 60 hari menjadi 10 hari, “yang mempunyai implikasi jadwal dan keuangan yang sangat besar.” Trunk sekarang berada di tempat di mana para agen berkomunikasi langsung satu sama lain, dan hal ini “cukup menarik,” kata Buchner. Jadi, misalnya, satu agen akan meninjau keakuratan gambar arsitektur, lalu secara mandiri menyerahkannya kepada agen yang menangani RFI dan mengajukan pertanyaan lanjutan. “Jika gambarnya bermasalah, agen RFI akan mengambil alih dan secara aktif melakukan klarifikasi,” jelas Buchner. Trunk mengatakan pelanggannya melaporkan penghematan 20 hingga 40 menit per pertanyaan lapangan. Buchner mengatakan bahwa pengguna di lapangan lebih tahu dibandingkan siapa pun betapa “waktu yang terkuras” untuk bolak-balik dari trailer kantor, menggali dokumen proyek dalam sistem yang tersebar atau PDF yang dicetak, merekonsiliasi perbedaan, dan kembali berkoordinasi dengan mitra dagang. Trunk mengatakan pelanggannya melaporkan hasil tambahan berikut: Penghematan waktu rata-rata 8 menit untuk pengambilan satu dokumen (pemeriksaan status, pencarian lokasi, kueri kuantitas). Penghematan waktu rata-rata 20 menit untuk referensi standar (referensi silang 2 hingga 3 bagian spesifikasi untuk membentuk jawaban. Penghematan waktu rata-rata 40 menit untuk penelitian multi-dokumen (mendaftar dan memfilter kueri, memetakan hubungan, menganalisis RFI, dan penyerahan di 4 hingga 6 dokumen). Rata-rata Penghematan waktu 75 menit untuk tugas-tugas kompleks (membuat RFI dan materi komunikasi lainnya, referensi silang mendalam di seluruh dokumen, pelacakan perubahan). Dalam satu contoh, agen peninjau gambar Trunk menandai bahwa balok struktural telah dipindahkan ke atas 8,5 inci, namun hal ini tidak didokumentasikan oleh arsitek. dan “tentu saja akan ada implikasi pada jadwal.” Buchner juga menunjukkan contoh lain: seorang agen menandai harga yang berlebihan sebesar $60.000 tanpa pembenaran dari subkontraktor lansekap; mengidentifikasi perapian yang perlu disegel sebelum pemasangan dinding kering, menghemat sekitar $100.000 dalam tenaga kerja, bahan, dan penundaan; setiap vertikal yang bekerja dengan data tidak terstruktur dan spesifik industri dalam jumlah besar. Para pembangun yang bekerja di vertikal tertentu harus memahami tantangan data spesifik industri yang dihadapi pengguna akhir mereka dan membangun infrastruktur teknis yang dapat mengubah data tidak terstruktur menjadi sesuatu yang “dapat dilalui dan dipahami oleh LLM,” kata Buchner. “Hanya dengan cara ini Anda dapat membangun koneksi antar titik data yang pada akhirnya mendukung alur kerja agen.” tingkatkan, saran Buchner. Kemudian, “bangun keunggulan teknis Anda ketika model generik tidak berinvestasi dan tidak berkinerja baik,” katanya.


Diterbitkan : 2026-07-03 13:00:00

sumber : venturebeat.com