Ternyata, permainan pengajaran seperti Battleship dapat membuat model AI kecil menjadi jauh lebih pintar

Model AI kecil baru saja mendapat peningkatan yang mengejutkan dari game yang sangat lama. Peneliti MIT menggunakan pengaturan bergaya Battleship untuk menguji apakah agen AI dapat meningkatkan cara mereka mengumpulkan informasi sebelum mengambil tindakan. Hasilnya adalah peningkatan tajam dalam performa sistem yang lebih kecil, termasuk model yang awalnya jarang mengalahkan manusia menjadi memenangkan sebagian besar permainan setelah para peneliti mengubah cara sistem menelusuri papan. Pergeseran ini mengarah pada salah satu kelemahan terbesar agen AI saat ini. Mereka sering diminta untuk menangani tugas-tugas yang jawabannya bergantung pada detail yang belum mereka miliki. Penelitian MIT menunjukkan bahwa perencanaan pertanyaan yang lebih baik dapat membuat model yang lebih murah bertindak jauh lebih mampu. Seberapa pintar tes MIT menggunakan versi Battleship yang dibuat berdasarkan pertanyaan bahasa alami. Salah satu agen AI berperan sebagai rekan satu tim yang mencoba menemukan kapal tersembunyi, sementara agen lainnya memiliki akses ke papan dan menjawab. Tren Digital Lompatan terbesar datang dari Llama 4 Scout. MIT mengatakan model yang lebih kecil pada awalnya hanya mengalahkan pemain manusia dalam 8% permainan. Setelah para peneliti menambahkan strategi inferensi yang lebih disengaja, strategi ini mengalahkan manusia sebanyak 82% dan melampaui model frontier yang lebih besar dengan biaya operasional sekitar 1%. Ini adalah angka yang harus diperhatikan jika Anda peduli dengan biaya AI. Model tersebut tidak menang dengan memperbesar pertanyaan, namun menang dengan memilih pertanyaan yang lebih tajam dan memanfaatkan setiap jawaban dengan lebih baik. Mengapa Battleship membantu AI mempelajari Battleship berfungsi sebagai ujian karena memaksa agen AI untuk bertindak dengan informasi terbatas. Itu tidak dapat melihat keseluruhan papan, jadi setiap pertanyaan harus mempersempit pencarian dan mengatur langkah selanjutnya. Itu dipetakan dengan rapi ke alat AI praktis. Bot pendukung, asisten peneliti, atau agen perencanaan sering kali perlu menanyakan tindak lanjut sebelum dapat membantu. Ketika proses tersebut gagal, model dapat kehilangan detail penting, mengulangi proses tersebut, atau membuat rekomendasi terlalu dini. Fatemeh Rezvani / Unsplash Pendekatan MIT memberikan tekanan pada titik lemah tersebut. Ini mengukur apakah agen dapat mengumpulkan informasi yang benar sebelum menghasilkan jawaban. Kemana arah selanjutnya? Ujian yang lebih sulit adalah apakah pendekatan yang sama dapat berhasil di luar permainan. Battleship dikendalikan, sehingga lebih mudah untuk mencetak skor dibandingkan alur kerja agen terbuka dalam pencarian, dukungan pelanggan, atau perangkat lunak tempat kerja. Tetap saja, arahnya patut diperhatikan. Jika model yang lebih kecil belajar mengajukan pertanyaan yang lebih tajam sebelum bertindak, perusahaan dapat membuat alat AI yang lebih murah dan terasa lebih mampu digunakan sehari-hari. Tonggak sejarah berikutnya adalah peralihan dari papan permainan ke pekerjaan nyata. Tugas dengan instruksi yang tidak jelas, file yang hilang, dan pengguna yang terburu-buru akan lebih sulit diselesaikan.


Diterbitkan : 2026-06-05 10:13:00

sumber : www.digitaltrends.com