
- Model o3 OpenAI memenangkan turnamen poker lima hari yang terdiri dari sembilan chatbot AI
- Model o3 menang dengan memainkan permainan paling konsisten
- Sebagian besar model bahasa teratas menangani poker dengan baik, tetapi kesulitan dengan gertakan, posisi, dan matematika dasar
Dalam pertarungan digital yang belum pernah terjadi sebelumnya, sembilan model bahasa besar paling kuat di dunia menghabiskan lima hari terkunci dalam pertandingan poker berisiko tinggi.
o3 OpenAI, Claude Sonnet 4.5 dari Anthropic, Grok dari X.ai, GoogleGemini 2.5 Pro, Llama 4 Meta, DeepSeek R1, Kimi K2 dari Moonshot AI, Magistral dari Mistral AI, dan GLM 4.6 Z.AI memainkan ribuan tangan Texas hold ‘em tanpa batas di meja $10 dan $20 dengan bankroll $100.000 masing-masing.
Ketika model o3 OpenAI meninggalkan permainan poker selama seminggu dengan kekayaan $36.691, tidak ada piala, hanya hak untuk menyombongkan diri.
PokerBattle.ai eksperimental sepenuhnya dijalankan oleh AI dengan perintah awal yang sama yang dikeluarkan untuk setiap pemain. Itu adalah strategi murni, jika strategi adalah apa yang Anda sebut ribuan keputusan mikro yang dibuat oleh mesin yang tidak benar-benar memahami menang, kalah, atau betapa memalukannya gagal dengan tujuh deuce.
Untuk aksi teknologi, hal ini sangat luar biasa. AI dengan kinerja terbaik tidak hanya melakukan gertakan dan bertaruh – mereka juga beradaptasi, menjadi model lawan mereka, dan belajar secara real-time bagaimana mengatasi ambiguitas. Meskipun mereka tidak bermain poker tanpa cela, mereka nyaris meniru keputusan penilaian pemain berpengalaman.
O3 OpenAI dengan cepat menunjukkan bahwa ia memiliki tangan yang paling mantap, mengalahkan tiga dari lima pot terbesar dan tetap berpegang pada teori pra-gagal yang ada di buku teks. Claude dari Anthropic dan Grok dari X.com melengkapi posisi tiga besar dengan keuntungan besar masing-masing $33.641 dan $28.796.
Sementara itu, Llama kehilangan tumpukan penuhnya dan keluar lebih awal. Sisanya berada di antara keduanya, dengan Gemini dari Google menghasilkan sedikit keuntungan dan chip pendarahan Kimi K2 dari Moonshot turun menjadi $86.030.
AI Perjudian
Poker telah lama menjadi salah satu analog terbaik untuk menguji AI tujuan umum. Tidak seperti catur atau Go, yang mengandalkan informasi sempurna, poker menuntut pemain berpikir dalam ketidakpastian. Ini adalah cerminan pengambilan keputusan di dunia nyata dalam segala hal, mulai dari negosiasi bisnis hingga strategi militer, dan kini, tampaknya, bot obrolan perkembangan.
Salah satu kesimpulan yang konsisten dari turnamen ini adalah bahwa bot sering kali terlalu agresif. Kebanyakan orang menyukai strategi yang penuh aksi, bahkan dalam situasi di mana melipatgandakan akan lebih bijaksana. Mereka mencoba memenangkan pot besar lebih dari mencoba menghindari kehilangannya. Dan mereka sangat buruk dalam melakukan gertakan, bukan karena mereka tidak mencobanya, namun karena gertakan mereka sering kali berasal dari tangan yang salah membaca, bukan penipuan yang cerdik.
Namun, alat AI kini semakin pintar dengan cara yang jauh melampaui kecerdasan tingkat permukaan. Mereka tidak hanya mengulangi apa yang telah mereka baca; mereka membuat penilaian probabilistik di bawah tekanan dan belajar membaca ruangan. Ini juga merupakan pengingat bahwa model yang kuat pun masih memiliki kekurangan. Salah membaca situasi, menarik kesimpulan yang goyah, dan melupakan “posisi” mereka sendiri bukan hanya masalah poker.
Anda mungkin tidak pernah duduk berhadapan dengan model bahasa di ruang poker sungguhan, tetapi kemungkinan besar Anda akan berinteraksi dengan model bahasa yang mencoba membuat keputusan yang penting. Game ini hanyalah gambaran sekilas tentang apa yang akan terlihat.
Ikuti TechRadar di Google Berita Dan tambahkan kami sebagai sumber pilihan untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol Ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok untuk berita, review, unboxing dalam bentuk video, dan dapatkan update rutin dari kami Ada apa juga.
Laptop bisnis terbaik untuk semua anggaran



