PixelRAG mengalahkan pengurai teks dalam hal akurasi dan memotong biaya token agen AI 10x
![]()
Sebagian besar pipeline RAG perusahaan dimulai dengan cara yang sama: pengurai teks mengubah halaman web dan dokumen menjadi teks biasa sehingga dapat dikelompokkan dan diindeks untuk pengambilan. Langkah konversi tersebut menghancurkan sinyal pengambilan — dan menurut penelitian baru, langkah ini bertanggung jawab atas sebagian besar jawaban yang salah. Tim peneliti dari UC Berkeley, Universitas Princeton, EPFL, dan Databricks menerbitkan makalah minggu ini yang memperkenalkan PixelRAG, sebuah sistem yang melewatkan konversi tersebut sepenuhnya. Alih-alih menguraikan halaman menjadi teks, PixelRAG menjadikannya sebagai tangkapan layar, mengindeks gambar tersebut, dan mengumpankan ubin yang diambil langsung ke pembaca model bahasa visi. Diuji pada 30 juta ubin tangkapan layar yang mencakup seluruh Wikipedia, kinerjanya mengungguli RAG berbasis teks di enam tolok ukur, meningkatkan akurasi hingga 18,1% dibandingkan garis dasar berbasis teks. Parser adalah tempat yang salah untuk mencari perbaikan, menurut tim peneliti. “Meningkatkan parser adalah proses tanpa akhir karena setiap situs web memerlukan penanganan khusus,” kata Yichuan Wang, penulis utama dan mahasiswa doktoral UC Berkeley, kepada VentureBeat. “Tujuan kami adalah untuk mengeksplorasi apakah kemajuan terbaru dalam VLM memungkinkan untuk mengatasi seluruh masalah tersebut dan membangun sistem pengambilan yang berfungsi di seluruh situs web tanpa rekayasa khusus lokasi.” Parser HTML menghancurkan sinyal pengambilan yang diandalkan oleh RAG perusahaan. Tujuan para peneliti adalah untuk mengembangkan arsitektur end-to-end yang bersih. “Pipa RAG web modern sering kali melibatkan rendering, parsing, pembersihan, chunking, dan banyak tahapan buatan tangan lainnya,” kata Wang. “Setiap tahap menimbulkan potensi kesalahan berjenjang dan abstraksi yang menjauhkan kita dari halaman web asli. Kami tertarik pada apakah kami dapat menghilangkan sebagian besar kompleksitas tersebut dan beroperasi secara langsung pada halaman yang dirender.” Wang juga mencatat bahwa penguraian pasti akan menghilangkan informasi. Gambar, hierarki visual, tipografi, penekanan (misalnya teks tebal), tabel, dan tata letak dibuang atau diubah menjadi perkiraan tekstual yang tidak sempurna. “Tidak peduli seberapa bagus parsernya, beberapa informasi pada dasarnya hilang selama konversi,” katanya. Penelitian ini mengidentifikasi tiga cara RAG berbasis teks kehilangan jawabannya sebelum sampai ke pembaca. Ketiganya diukur pada SimpleQA, tolok ukur standar dari 1.000 pertanyaan faktual Wikipedia:Kehilangan parser (36,6% kegagalan). Konversi HTML-ke-teks menghancurkan konten terstruktur sepenuhnya sehingga tidak ada potongan teks di korpus yang berisi jawabannya. Hilangnya peringkat (55,2% kegagalan). Jawabannya ada di korpus tetapi diungguli oleh kotak info padat kata kunci yang berada di peringkat 1 untuk 75,9% kueri, mendorong paragraf yang mengandung jawaban ke peringkat 20 atau lebih rendah. Kehilangan pembaca (8,2% kegagalan). Konten yang benar menjangkau pembaca tetapi struktur yang rata menyebabkan kesalahan atribusi. Cara kerja PixelRAG Tidak seperti LLM standar yang hanya membaca teks, model bahasa visi mengambil gambar sebagai masukan di samping teks, artinya model ini dapat membaca halaman web yang dirender seperti manusia, dengan tata letak dan struktur utuh. “Untuk banyak tugas ekstraksi informasi terstruktur, kami yakin VLM modern memiliki keunggulan inheren karena mereka dapat mempertimbangkan konten dan tata letak secara bersamaan dibandingkan mengandalkan representasi teks yang diratakan,” kata Wang. PixelRAG dibuat berdasarkan prinsip tersebut, menggantikan jalur penguraian teks dengan sistem empat tahap yang sepenuhnya beroperasi pada tangkapan layar yang dirender. Rendering. Halaman dirender menggunakan Playwright, perpustakaan otomatisasi browser, pada area pandang tetap 875 piksel dan dipotong menjadi ubin setinggi 1024 piksel. Tujuh juta artikel Wikipedia menghasilkan sekitar 30 juta ubin. Aset di-cache secara lokal dan dirender seluruhnya offline. Pengindeksan. Setiap ubin dikodekan sebagai vektor tunggal berdimensi 2048 menggunakan Qwen3-VL-Embedding-2B dan disimpan dalam perkiraan indeks tetangga terdekat FAISS. Indeks lengkap berjalan hingga sekitar 120 GB di fp16 dan mendukung pembaruan tambahan tanpa pengindeksan ulang penuh. Pelatihan. Model pengambilan disesuaikan dengan data kontrastif sintetik yang dihasilkan dari penyimpanan data, menggunakan penambangan negatif keras dinamis untuk memfilter negatif palsu. LoRA, metode penyesuaian ringan yang memperbarui sebagian kecil bobot model, diterapkan pada tulang punggung model bahasa dan encoder visual. Pelatihan sekitar 40.000 pasang selesai dalam waktu kurang dari tiga jam pada satu Penyimpanan H100. Ubin tangkapan layar mentah untuk Wikipedia memerlukan 5,6 TB, namun pendekatan render-on-demand menghilangkan penyimpanan persisten: sematkan semua ubin, hapus tangkapan layar, dan render ulang laman sesuai permintaan pada waktu kueri. Indeks vektor membutuhkan sekitar 120 GB. Kredit: https://github.com/StarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdfEnam tolok ukur, penghematan token agen 10x, dan satu masalah yang belum terpecahkanPara peneliti menguji PixelRAG di enam tolok ukur yang mencakup QA Wikipedia faktual, kueri berbasis tabel, QA multimodal, dan pengambilan berita langsung. Mereka mengatakan bahwa kinerjanya mengungguli RAG berbasis teks pada keenamnya, termasuk pada tugas-tugas yang pertanyaannya dapat dijawab hanya dari teks. Di SimpleQA akurasinya mencapai 78,8% versus 71,6% untuk pengurai teks terkuat, dan melebar menjadi 48,8% versus 42,5% pada kueri tabel terstruktur. Tim memerlukan model kelas Qwen3-VL-4B atau lebih tinggi untuk melihat manfaatnya. Model yang lebih kecil melacak pengambilan teks lebih dari 12,5 poin persentase. Keuntungan biaya agen adalah kasus jangka pendek terkuat untuk PixelRAG. Dalam pengujian benchmark, agen AI yang menggunakan PixelRAG sebagai backend pencariannya menggunakan 3,6 juta token cepat dibandingkan 37,5 juta untuk pengambilan teks, dengan biaya 2 hingga 4 kali lebih rendah dibandingkan alternatif lain termasuk Google, sekaligus mencapai akurasi yang lebih tinggi. Kompresi gambar dapat memangkas anggaran token hingga sepertiganya. Pengelompokan visual adalah masalah utama yang belum terpecahkan. Sistem RAG berbasis teks telah menghabiskan waktu bertahun-tahun untuk menyempurnakan cara membagi dokumen menjadi unit pengambilan yang bermakna berdasarkan topik, bagian, atau konten semantik. PixelRAG saat ini tidak ada yang setara: ia mengiris halaman berdasarkan tinggi piksel tetap, yang berarti tabel atau paragraf dapat dipotong menjadi setengah ubin di tengah tanpa memperhatikan batasan konten. “Komunitas pengambilan teks telah menghabiskan waktu bertahun-tahun mempelajari strategi chunking, sementara pengambilan visual kurang mendapat perhatian,” kata Wang. “Kami pikir ini adalah area penting untuk penelitian di masa depan.” Transformasi VB · 14–15 Juli · Menlo Park · Lapisan konteks agen Agen Anda hanya akan sebaik data yang dapat mereka jangkau. Sesi di Transform mencakup arsitektur RAG yang mendukung sistem agen dalam skala besar — termasuk bagaimana perusahaan menghubungkan agen ke data genomik, klinis, dan perusahaan secara langsung. Lihat agenda selengkapnya → Apa artinya ini bagi perusahaanMasalah kualitas pengambilan yang ditangani PixelRAG mencerminkan pergeseran pasar yang lebih luas yang sedang berlangsung. Data VB Pulse Q1 tahun 2026 dari responden perusahaan yang memenuhi syarat menunjukkan niat untuk mengadopsi pengambilan hybrid meningkat tiga kali lipat dari 10,3% pada bulan Januari menjadi 33,3% pada bulan Maret, yang merupakan posisi strategis dengan pertumbuhan tercepat dalam kumpulan data. Penulis PixelRAG sendiri berpendapat bahwa penerapan hibrid merupakan jalur jangka pendek yang paling praktis — dengan menempatkan pengambilan visual di atas sistem teks yang sudah ada, bukan menggantinya. Bagi tim yang sudah menjalankan jaringan pipa RAG, jalur menuju penghematan tersebut lebih mudah dibandingkan membangun kembali dari awal. “Pengambilan hibrid yang menggabungkan penelusuran teks dan visual sangatlah mudah dan kemungkinan besar akan berkembang dalam penerapan produksi.”
Diterbitkan : 2026-06-12 15:39:00
sumber : venturebeat.com



