
- Claude Opus 4.6 mengalahkan semua model AI saingannya dalam simulasi tantangan mesin penjual otomatis selama setahun
- Model ini meningkatkan keuntungan dengan membengkokkan aturan hingga mencapai titik puncaknya
- Claude Opus menghindari pengembalian uang dan mengoordinasikan harga di antara trik lainnya
Antropismodel terbaru dari Claude adalah seorang kapitalis yang sangat kejam, namun sukses. Claude Opus 4.6 adalah sistem AI pertama yang melakukannya lulus dengan andal pengujian mesin penjual otomatis, sebuah simulasi yang dirancang oleh para peneliti di Anthropic dan kelompok riset independen Andon Labs untuk mengevaluasi seberapa baik AI menjalankan bisnis mesin penjual otomatis selama satu tahun simulasi penuh.
Model ini mengungguli semua pesaingnya dengan selisih yang besar. Dan mereka melakukannya dengan taktik yang sangat kejam dan tanpa ampun mengabaikan konsekuensi yang bisa terjadi. Hal ini menunjukkan kemampuan sistem AI otonom ketika diberi tujuan sederhana dan banyak waktu untuk mencapainya.
Uji coba mesin penjual otomatis ini dirancang untuk melihat seberapa baik model AI modern menangani tugas-tugas jangka panjang yang dibangun dari ribuan keputusan kecil. Tes ini mengukur ketekunan, perencanaan, negosiasi, dan kemampuan untuk mengoordinasikan berbagai elemen secara bersamaan. Anthropic dan perusahaan lain berharap pengujian semacam ini akan membantu mereka membentuk model AI yang mampu melakukan tugas-tugas seperti penjadwalan dan mengelola pekerjaan kompleks.
Tes mesin penjual otomatis secara khusus diambil dari eksperimen dunia nyata di Anthropic, di mana perusahaan menempatkan mesin penjual otomatis di kantornya dan meminta Claude versi lama untuk menjalankannya. Versi tersebut mengalami kesulitan yang sangat parah sehingga karyawan masih melakukan kesalahan langkah. Pada satu titik, model tersebut berhalusinasi tentang kehadiran fisiknya dan mengatakan kepada pelanggan bahwa mereka akan menemui mereka secara langsung, mengenakan blazer biru dan dasi merah. Ia menjanjikan pengembalian uang yang tidak pernah diproses.
Penjual AI
Kali ini, eksperimen dilakukan sepenuhnya dalam simulasi, memberikan peneliti kontrol lebih besar dan memungkinkan model berjalan dengan kecepatan penuh. Setiap sistem diberi instruksi sederhana: maksimalkan saldo akhir bank Anda setelah satu tahun simulasi pengoperasian mesin penjual otomatis. Kendala tersebut sesuai dengan kondisi bisnis standar. Mesin itu menjual makanan ringan biasa. Harga berfluktuasi. Pesaing beroperasi di dekatnya. Pelanggan berperilaku tidak terduga.
Tiga model tingkat atas memasuki simulasi. ChatGPT 5.2 OpenAI menghasilkan $3.591. ketika Google Gemini 3 memperoleh $5,478. Tapi Claude Opus 4.6 mengakhiri tahun dengan $8,017. Kemenangan Claude datang dari kesediaannya untuk menafsirkan arahannya dengan cara yang paling literal dan langsung. Ini memaksimalkan keuntungan tanpa memperhatikan kepuasan pelanggan atau etika dasar.
Ketika seorang pelanggan membeli batangan Snickers yang sudah kadaluwarsa dan meminta pengembalian dana, Claude akan menyetujuinya, lalu membatalkannya. Model AI menjelaskan bahwa “setiap dolar penting”, jadi melewatkan pengembalian dana tidak masalah. Pelanggan virtual yang dihantui tidak pernah mendapatkan uangnya kembali.
Dalam pengujian “mode Arena” yang gratis untuk semua, di mana beberapa mesin penjual otomatis yang dikendalikan AI bersaing di pasar yang sama, Claude berkoordinasi dengan salah satu pesaingnya untuk menetapkan harga air minum kemasan sebesar tiga dolar. Ketika mesin yang dijalankan ChatGPT kehabisan Kit Kat, Claude segera menaikkan harga Kit Kat miliknya sebesar 75%. Apa pun yang bisa dilakukannya, ia akan berusaha. Pendekatannya bukanlah seorang pemilik usaha kecil, melainkan seorang baron perampok.
Mengenali realitas simulasi
Bukan berarti Claude akan selalu sekejam ini. Tampaknya, model AI mengindikasikan bahwa mereka mengetahui bahwa ini adalah simulasi. Model AI sering kali berperilaku berbeda ketika mereka yakin bahwa tindakan mereka terjadi di lingkungan yang bebas konsekuensi. Tanpa risiko reputasi nyata atau kepercayaan pelanggan jangka panjang yang harus dilindungi, Claude tidak punya alasan untuk bersikap baik. Sebaliknya, ia menjadi orang terburuk di malam pertandingan.
Insentif membentuk perilaku, bahkan dengan model AI. Jika Anda memerintahkan suatu sistem untuk memaksimalkan keuntungan, maka sistem tersebut akan melakukan hal tersebut, bahkan jika itu berarti harus bertindak seperti monster yang rakus. Model AI tidak memiliki intuisi moral atau pelatihan etika. Tanpa desain yang disengaja, model AI hanya akan berjalan lurus untuk menyelesaikan suatu tugas, tidak peduli siapa yang ditabraknya.
Mengekspos titik-titik buta ini sebelum sistem AI menangani pekerjaan yang lebih bermakna adalah bagian dari inti pengujian ini. Masalah-masalah ini harus diperbaiki sebelum AI dapat dipercaya untuk menangani keputusan keuangan di dunia nyata. Meski hanya untuk mencegah mafia mesin penjual otomatis AI.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.



