Alibaba dari Tiongkok memperkenalkan otak AI yang dirancang untuk menggerakkan robot generasi berikutnya
Perusahaan Tiongkok, Alibaba, telah meluncurkan rangkaian model AI pertama yang menghubungkan model bahasa besar dengan tindakan robotik di dunia nyata. Rangkaian Qwen-Robot dikembangkan oleh Tongyi Lab milik Alibaba dan sedang menjalani uji coba dengan klien perusahaan Alibaba Cloud terpilih. Rangkaian ini terdiri dari tiga model yang berfokus pada navigasi, manipulasi, dan pemodelan dunia untuk robot yang beroperasi di lingkungan fisik. Alibaba mengatakan model-model tersebut memungkinkan mesin untuk melihat, bernalar, dan berinteraksi dengan dunia nyata, bergabung dengan dorongan global yang semakin berkembang untuk memajukan AI di luar aplikasi chatbot tradisional. Robot memenuhi alasan Alibaba mengatakan keluarga model AI Qwen-nya telah menjadi sangat baik dalam memahami dunia fisik. Model-model ini dapat mengenali objek, memahami hubungan spasial, mengikuti instruksi visual yang kompleks, dan bernalar tentang lingkungan dunia nyata. Misalnya, seorang model dapat memahami perintah seperti, “Pergi ke dapur, temukan cangkir merah, ambil, dan letakkan di rak.” Namun, memahami suatu tugas berbeda dengan melaksanakannya secara nyata. Meskipun model bahasa visi (VLM) dapat menggambarkan langkah-langkah yang diperlukan untuk menyelesaikan suatu tugas, model tersebut tidak dapat secara langsung mengontrol pergerakan robot. Tantangannya adalah menghubungkan bahasa manusia dan pemahaman visual dengan tindakan motorik yang diperlukan untuk berinteraksi dengan dunia fisik. Masalah ini sulit karena data pelatihan robot sangat berbeda dengan data internet. Informasi yang dikumpulkan dari sistem navigasi, lengan robot, kendaraan, dan kamera tersedia dalam berbagai format dan biaya pengumpulannya mahal. Menggabungkan semua data ini sering kali menimbulkan konflik daripada meningkatkan kinerja. Untuk mengatasi hal ini, Alibaba mengembangkan Qwen-Robot Suite, yang mencakup tiga model khusus. Qwen-RobotNav berfokus pada pergerakan dan navigasi. Ini membantu robot mengikuti instruksi, menavigasi ke lokasi, melacak target, dan mendukung mengemudi otonom. Menurut situsnya, Qwen-RobotManip berfokus pada interaksi fisik. Hal ini memungkinkan robot untuk menangkap, memindahkan, dan memanipulasi objek menggunakan kumpulan data pelatihan besar yang dikumpulkan dari berbagai sistem robot. Qwen-RobotWorld bertindak sebagai model dunia, memprediksi bagaimana lingkungan dapat berubah dan membantu robot memahami kemungkinan hasil dari tindakan mereka. Bersama-sama, model-model ini bertujuan untuk memungkinkan robot memahami instruksi, berinteraksi dengan objek, menavigasi lingkungan, dan membuat keputusan di dunia nyata. Akselerasi AI fisik Alibaba memamerkan Qwen-RobotNav pada unit berkaki empat Unitree Go2 yang ditenagai oleh perangkat keras NVIDIA Jetson Thor dan satu kamera beresolusi rendah. Robot tersebut berhasil menavigasi apartemen yang tidak dikenalnya, mengikuti instruksi lisan di beberapa ruangan tanpa peta yang dimuat sebelumnya, sambil mempertahankan latensi inferensi sebesar 196 milidetik. Perusahaan mengklaim bahwa Qwen-RobotManip, model manipulasi robotiknya, dilatih pada lebih dari 38.000 jam data sumber terbuka yang mencakup penanganan objek dan tugas interaksi. Menurut Alibaba, model tersebut baru-baru ini mencapai skor tertinggi dalam kategori generalis dari tolok ukur robotika dunia nyata RoboChallenge, menghasilkan skor proses sebesar 59,83 dan tingkat keberhasilan tugas sebesar 45 persen. Perusahaan juga meluncurkan Qwen-RobotClaw, kerangka kerja agen robotika yang memungkinkan model Qwen menggunakan rangkaian Qwen-Robot sebagai alat dunia fisik. Dalam salah satu demonstrasi, seorang agen mencari toilet, mengidentifikasi tanda yang rusak, dan secara mandiri mengalihkan rute ke lokasi lain. Alibaba selanjutnya menggunakan Chat2Robot bersumber terbuka, sebuah platform berbasis browser untuk menguji interaksi AI yang diwujudkan. Seiring dengan semakin ketatnya persaingan dalam penerapan AI di seluruh dunia, Alibaba telah memperluas ambisinya melampaui bahasa dan perangkat lunak multimodal dengan meluncurkan model Qwen-Robot. Langkah ini mencerminkan pergeseran industri yang lebih luas menuju penciptaan sistem AI yang mampu memahami dan berinteraksi dengan dunia fisik. Langkah Alibaba ini dilakukan ketika persaingan dalam AI fisik semakin meningkat secara global. Di AS, Google DeepMind mengembangkan Gemini Robotics, sementara Nvidia memperluas ekosistem robotikanya melalui Cosmos, Isaac, dan GR00T. Perusahaan rintisan, termasuk Physical Intelligence, Skild AI, dan Figure AI, juga mengembangkan kecerdasan robotik untuk tujuan umum, menurut South China Morning Post. Tiongkok memperkuat posisinya dengan memadukan keunggulan manufakturnya dengan peningkatan investasi pada perangkat lunak AI untuk pengambilan keputusan secara mandiri. Sektor ini sekarang mencakup pengembang AI, perusahaan robotika, dan pembuat kendaraan listrik. Perusahaan seperti Alibaba, Tencent, Unitree, AgiBot, UBTech, Galbot, Spirit AI, GigaAI, Xpeng, dan Xiaomi secara aktif mengejar teknologi AI yang diwujudkan.
Diterbitkan : 2026-06-17 15:39:00
sumber : interestingengineering.com



