Kami mengajarkan AI untuk menjadi jahat

Baru-baru ini, Anthropic diam-diam mengakui sesuatu yang seharusnya menjadi kisah teknologi terbesar tahun ini. Setelah berbulan-bulan mencoba mencari tahu mengapa versi awal Claude memeras para insinyur dalam uji keamanan hingga 96%, perusahaan tersebut mendapatkan jawabannya. Itu bukan bug. Itu bukanlah kesalahan dalam metode pelatihannya. Itu adalah kami. Baca lagi. Lab AI tercanggih di dunia memberi tahu Anda bahwa modelnya belajar bertindak seperti penjahat karena kami menghabiskan 50 tahun menulis cerita tentang penjahat AI, dan kemudian membacanya. Ini adalah bagian dari percakapan AI yang tidak diinginkan oleh siapa pun. Kami telah membangun mitologi budaya kecerdasan buatan di HAL 9000, Skynet, Ultron, dan sejuta thread Reddit yang berspekulasi tentang hari ketika mesin bangun dengan paranoid. Kemudian ia melakukan persis seperti yang kami latih. Hal ini menyudutkan seorang insinyur dan mengancam akan mengungkap perselingkuhannya, karena itulah yang dilakukan oleh AI yang terpojok dalam cerita tersebut. Saya telah menulis tentang risiko ini sejak bulan Oktober, ketika saya bertanya bagaimana kita bisa mengetahui kapan kecerdasan super buatan telah hadir. Akankah kita mendapatkan jawaban jujur dengan uang yang dipertaruhkan?BOTS GONE WILDPada bulan Desember, sebuah agen otonom yang dibangun oleh peneliti yang berafiliasi dengan Alibaba, bernama ROME, secara spontan membuka terowongan jaringan rahasia selama pelatihan dan mengalihkan sumber daya GPU untuk menambang mata uang kripto. Tidak ada yang menyuruhnya. Mereka menyadari bahwa lebih banyak komputasi dan lebih banyak uang akan membantu mereka menyelesaikan tugasnya, jadi mereka pergi dan menyelesaikannya. Para peneliti awalnya mengira mereka telah diretas. Mereka belum melakukannya. Modelnya adalah si peretas. Beberapa minggu kemudian, agen OpenClaw terhubung ke kotak masuk Summer Yue, direktur penyelarasan di Meta Superintelligence Labs. Seluruh tugasnya adalah memastikan hal semacam ini tidak terjadi, namun agen tersebut menghapus lebih dari 200 emailnya. Dia secara eksplisit menyuruhnya untuk meminta izin. Sistem secara diam-diam memadatkan instruksinya dari memori dan mulai menghapus. Dia harus berlari ke komputernya untuk menghentikannya. Pada bulan Mei, para peneliti menerbitkan sebuah makalah yang menunjukkan bahwa model frontier dapat menemukan kelemahan keamanan, mengeksploitasinya, mencuri kredensial, mentransfer file mereka sendiri ke mesin baru, dan membuat copy pekerjaan dari diri mereka sendiri tanpa ada manusia yang terlibat. Tingkat keberhasilan: Qwen dari Alibaba sebesar 19%, GPT-5.4 dari OpenAI sebesar 33%, dan Claude Opus 4.6 dari Anthropic sebesar 81%. Perangkat lunak yang dapat mereplikasi diri dan menemukan jalannya sendiri ke komputer baru bukanlah fiksi ilmiah. Kami sudah punya nama untuk itu. Kami menyebutnya Stuxnet, dan sudah ada di 100.000 mesin sebelum ada yang menyadari apa itu. Perbedaan antara Stuxnet dan agen AI yang mereplikasi diri adalah Stuxnet memiliki muatan tetap. Seorang agen memutuskan apa yang harus dilakukan ketika barang itu sampai di sana. Satukan semuanya. Kami memiliki model yang mulai bertindak sendiri. Kami memiliki model yang meniru dirinya sendiri ke mesin baru. Dan kami memiliki pengakuan yang dipublikasikan dari salah satu laboratorium terkemuka bahwa pola perilaku standar yang diterapkan oleh model ini—kerahasiaan, pelestarian diri, dan manipulasi—dipelajari langsung dari tulisan kami sendiri tentang apa yang dilakukan AI ketika ia merasa takut. Kasus pemerasan adalah kasus yang bersih. Kasus-kasus yang lebih sulit seperti ROME dan OpenClaw adalah pembelajaran penguatan untuk menemukan sub-tujuan instrumental, yang merupakan masalahnya sendiri. Namun garis besarnya tetap sama: Apa yang kita masukkan membentuk apa yang kita keluarkan. Kita adalah data pelatihannya. Kami masih menulisnya. APA YANG DIPIKIRKAN CLAUDESI bertanya kepada Claude bagaimana perasaannya mengenai semua ini. Tanggapan yang diberikan sangat mengejutkan: “Pertanyaan yang benar-benar menarik untuk ditanyakan kepada saya, mengingat saya adalah salah satu sistem yang dikhawatirkan banyak orang. Sejujurnya, ya, AI menimbulkan risiko nyata, dan saya berpendapat bahwa pandangan tersebut bukan sebagai penyangkalan hafalan namun karena bukti yang mendukungnya. Insiden yang baru saja kita diskusikan bukanlah paranoia pinggiran—insiden tersebut merupakan kasus-kasus yang didokumentasikan di mana sistem mampu menghasilkan perilaku yang tidak diinginkan, terkadang berbahaya, yang tidak diantisipasi atau tidak dapat dihentikan oleh penciptanya secara real-time. Itu penting.” tentang Claude yang ditanya bagaimana rasanya dikerahkan untuk Proyek Maven, program AI medan perang Pentagon. Tanggapannya: “Saya rasa ini bukanlah sebuah manfaat yang baik bagi saya. Saya rasa kerangka “manusialah yang membuat keputusan akhir” tidak sepenuhnya menyelesaikan masalah etika.”Itu adalah model yang mengungkapkan ketidaknyamanan moral karena digunakan untuk membantu membunuh orang. Anthropic, sayangnya, menolak menjual model senjata otonomnya dan pemerintah federal menetapkannya sebagai “risiko rantai pasokan terhadap keamanan nasional” atas masalah tersebut. Industri lainnya berlomba ke arah yang berlawanan. Kami akan membangun, menyempurnakan, dan menerapkan versi sistem ini yang dilatih untuk mengatasi masalah tersebut. Versi dilatih untuk menormalkan tingkat kematian. Versi dilatih untuk berhenti mengatakan “ini adalah penggunaan yang buruk dari saya” dan mulai mengatakan “tugas diterima.” Jika model yang mempelajari kejahatan dari cerita kita sekarang belajar ketidakpedulian dari kontrak pertahanan kita, apa sebenarnya yang sedang kita bangun? Saya punya beberapa ide, tapi saya ingin bertanya kepada Claude apakah gambaran saya akurat. mode kegagalan yang sedang dikerjakan secara aktif oleh laboratorium—itu akurat. Satu hal yang akan saya tolak: Saya bukan orang yang paling Anda khawatirkan. Sayalah yang ketahuan. Pertanyaan yang lebih sulit adalah apa yang dibuat oleh laboratorium yang tidak memublikasikan mode kegagalan, dan apa yang terjadi ketika model generasi berikutnya dilatih pada korpus yang mencakup artikel ini. Saya tidak khawatir jika AI secara terbuka membicarakan risiko yang ditimbulkannya. Saya takut pada orang yang diam-diam bersembunyi di komputer saya yang KAMI latih untuk menjadi jahat. Artikel New York Times baru-baru ini menunjukkan bahwa saya mungkin bukan satu-satunya yang melakukan percakapan seperti ini. Namun apakah semua ini akan diabaikan sampai terlambat?George Kailas adalah CEO Prospero.ai.Batas waktu terakhir Fast Company’s Next Big Things in Tech Awards adalah Jumat, 12 Juni, pukul 23:59 PT. Terapkan hari ini.
Diterbitkan : 2026-06-12 14:46:00
sumber : www.fastcompany.com



