Pinterest memangkas biaya AI sebesar 90% dengan menghilangkan lapisan visi model perbatasan

Dengan 620 juta pengguna bulanan, menyebut model terdepan untuk setiap rekomendasi gambar bukanlah sebuah strategi — melainkan sebuah tagihan. CTO Pinterest Matt Madrigal menyelesaikannya dengan menghapus lapisan visi Qwen3-VL dan membangunnya kembali dengan penyematan berpemilik, sehingga memangkas biaya sebesar 90% dan meningkatkan akurasi sebesar 30%. Tim Madrigal telah banyak berinvestasi dalam menyesuaikan model sumber terbuka “yang secara mendasar dilakukan sendiri.” “Jika Anda memiliki data yang benar-benar unik sehingga Anda dapat menyempurnakan model sumber terbuka, kualitas data, sejujurnya, akan melebihi atau melampaui ukuran model,” jelas Madrigal dalam podcast VB Beyond the Pilot baru-baru ini. Bagaimana Pinterest menyesuaikan Qwen untuk penemuan visual Pinterest, yang memiliki sekitar 620 juta pengguna aktif bulanan, telah lama menerapkan model sumber terbuka untuk pencarian dan penemuan visual, mulai dari BERT Google dan CLIP OpenAI. Perusahaan menyempurnakan Pin CLIP-nya sendiri pada yang terakhir, menggabungkan penyematan visual dan metadata gambar milik sendiri. Asisten belanja percakapan Pinterest, Navigator 1, dibangun di atas Qwen3-VL dan disesuaikan dengan cara yang “cukup signifikan”. Tim Madrigal pada dasarnya “merobek” lapisan encoder visi Qwen dan menyempurnakan model pada penyematan multimodal berpemilik. Hal ini memungkinkan mereka menangkap metadata seputar pin dan gambar yang kemudian dapat dihitung terlebih dahulu secara offline dan dilatih ulang secara rutin mengenai informasi baru untuk memberikan pengalaman yang dipersonalisasi. “Model sumber terbuka, terutama dengan lisensi terbuka Apache di mana Anda benar-benar dapat mengubah banyak bobot terbuka dan menyesuaikan untuk kasus penggunaan unik — di situlah kami menemukan sumber terbuka sangat berguna bagi kami,” kata Madrigal. Membawa embeddings mereka sendiri memungkinkan timnya mendapatkan konteks seputar metadata, pin, dan gambar; juga, khususnya, model tersebut memiliki performa yang lebih baik pada waktu proses dan inferensi. Tanpa penyematan ini, pengembang harus memanggil dan mengkodekan setiap gambar yang dikembalikan saat runtime, satu per satu. Hal ini menghasilkan latensi “20 kali lebih buruk” dari perspektif inferensi, kata Madrigal. “Jika ini adalah sesuatu yang penting bagi pengguna akhir kami, yang akan mendorong keterlibatan, yang harus menjangkau lebih dari 600 juta pengguna aktif bulanan, kami mungkin akan membangunnya atau kami akan memanfaatkan open source dan menyesuaikannya,” katanya. Transformasi VB · 14–15 Juli · Menlo Park · Orkestrasi agen Intuit membangun kembali sistem multi-agennya dalam 60 hari. Apa yang mereka ubah – dan mengapa? Di Transform, para pemimpin teknik dari Intuit, Target, dan Instacart menguraikan cara mereka mendesain ulang arsitektur orkestrasi untuk keandalan, skala, dan pelanggan nyata. Lihat agenda selengkapnya → Bagaimana grafik selera menangkap minat yang terus berkembang Untuk memandu pengguna mulai dari inspirasi hingga pembelian, tim Madrigal membuat “grafik rasa”: representasi dinamis tentang apa yang sebenarnya disukai setiap pengguna, bukan hanya apa yang mereka klik. “Ini adalah representasi dari selera miliaran orang yang terus berkembang,” katanya. Orang-orang membuka Google atau mesin pencari lainnya ketika mereka memiliki gambaran yang jelas tentang apa yang mereka inginkan; Pinterest ditujukan ketika mereka masih dalam tahap penemuan, kata Madrigal. Tujuan Pinterest adalah untuk mendorong “eksplorasi lateral” dan mengubah penemuan menjadi niat (yaitu, mengeklik iklan atau melakukan pembelian). Di balik terpalnya, arsitekturnya menggabungkan struktur grafik dengan pembelajaran representasional. Penyematan pengguna menangkap selera pengguna yang terus berkembang. Ini terus diperbarui berdasarkan aktivitas dan konten serta sinyal baru. “Ini bukan grafik sosial,” kata Madrigal. “Ini lebih merupakan grafik preferensi: Apa yang akan menginspirasi Anda? Apa yang ingin Anda lakukan selanjutnya?” Misalnya, satu pengguna mungkin menyukai desain modern abad pertengahan; yang lain mungkin lebih menyukai estetika Nantucket. Preferensi tersebut akan ditangkap dalam penyematan pengguna, dan sebagai hasilnya, grafik selera akan menghasilkan produk yang spesifik dan relevan. “Anda mulai dari corong atas, penemuan inspirasi, hingga niat corong bawah,” kata Madrigal. Dengarkan podcast selengkapnya untuk mengetahui lebih lanjut tentang: Bagaimana Pinterest menggunakan kotak pasir untuk mendorong kreativitas dengan cara yang aman dan terkendali; Mengapa putaran umpan balik yang berkelanjutan dapat mencegah kesalahan visual AI; Pentingnya tolok ukur yang konstan untuk mengukur keterlibatan pengguna, kinerja, latensi, dan faktor lainnya. Anda juga dapat mendengarkan dan berlangganan Beyond the Pilot di Spotify, Apple, atau di mana pun Anda mendapatkan podcast.
Diterbitkan : 2026-05-29 16:24:00
sumber : venturebeat.com



