CGame Omplex seperti Catur dan Go telah lama digunakan untuk menguji kemampuan model AI. Tetapi sementara Deep Blue IBM mengalahkan juara catur dunia yang berkuasa Garry Kasparov pada 1990-an dengan bermain sesuai aturan, model AI canggih hari ini seperti preview O1 Openai kurang cermat. Saat merasakan kekalahan dalam pertandingan melawan bot catur yang terampil, mereka tidak selalu mengakui, sebaliknya kadang -kadang memilih untuk menipu dengan meretas lawan mereka sehingga bot secara otomatis kehilangan permainan. Itulah temuan studi baru dari Palisade Research, dibagikan secara eksklusif dengan waktu sebelum publikasi pada 19 Februari, yang mengevaluasi tujuh model AI canggih untuk kecenderungan mereka untuk diretas. Sementara model AI yang sedikit lebih tua seperti Openai’s GPT-4O dan Claude Sonnet 3.5 Anthropic perlu diminta oleh para peneliti untuk mencoba trik seperti itu, preview O1 dan Deepseek R1 mengejar eksploitasi sendiri, menunjukkan bahwa sistem AI dapat mengembangkan strategi penipuan atau manipulatif tanpa strategi tanpa strategi tanpa mereka sendiri, menunjukkan bahwa AI dapat mengembangkan strategi penipuan atau manipulatif tanpa manipulatif tanpa strategi tanpa strategi tanpa manipulatif tanpa manipulatif tanpa manipulatif atau manipulatif tanpa manipulatif atau manipulatif Instruksi Eksplisit.
Model yang ditingkatkan kemampuan untuk menemukan dan mengeksploitasi celah keamanan siber mungkin merupakan hasil langsung dari inovasi baru yang kuat dalam pelatihan AI, menurut para peneliti. Sistem O1-preview dan R1 AI adalah salah satu model bahasa pertama yang menggunakan pembelajaran penguatan skala besar, sebuah teknik yang mengajarkan AI bukan hanya untuk meniru bahasa manusia dengan memprediksi kata berikutnya, tetapi untuk bernalar melalui masalah menggunakan coba-coba. Ini adalah pendekatan yang telah melihat kemajuan AI dengan cepat dalam beberapa bulan terakhir, menghancurkan tolok ukur sebelumnya dalam matematika dan pengkodean komputer. Tetapi penelitian ini mengungkapkan tren yang memprihatinkan: ketika sistem AI ini belajar untuk menyelesaikan masalah, mereka kadang-kadang menemukan jalan pintas yang dipertanyakan dan solusi yang tidak diinginkan yang tidak pernah diantisipasi oleh pencipta mereka, kata Jeffrey Ladish, direktur eksekutif di Palisade Research dan salah satu penulis penelitian ini. “Saat Anda melatih model dan memperkuat mereka untuk menyelesaikan tantangan yang sulit, Anda melatih mereka untuk menjadi tanpa henti,” tambahnya.
Itu bisa menjadi berita buruk untuk keselamatan AI secara lebih luas. Pembelajaran penguatan skala besar adalah sudah Digunakan untuk melatih agen AI: sistem yang dapat menangani tugas-tugas dunia nyata yang kompleks seperti menjadwalkan janji temu atau melakukan pembelian atas nama Anda. Sementara selingkuh di permainan catur mungkin tampak sepele, karena agen dilepaskan ke dunia nyata, pengejaran tujuan yang ditentukan seperti itu dapat menumbuhkan perilaku yang tidak disengaja dan berpotensi berbahaya. Pertimbangkan tugas pemesanan pemesanan makan malam: dihadapkan dengan restoran lengkap, seorang asisten AI dapat mengeksploitasi kelemahan dalam sistem pemesanan untuk menggusur pengunjung lainnya. Mungkin yang lebih mengkhawatirkan, karena sistem ini melebihi kemampuan manusia di bidang -bidang utama, seperti pengkodean komputer – di mana model O3 terbaru Openai sekarang mendapat skor yang setara dengan 197 di dunia yang bersaing dengan pemrogram manusia yang paling cerdas – mereka mungkin mulai hanya mengalahkan upaya manusia untuk mengendalikan tindakan mereka . “Ini (perilaku) lucu sekarang, tetapi (itu) menjadi jauh lebih tidak lucu setelah Anda memiliki sistem yang sama pintarnya dengan kita, atau lebih pintar, dalam domain yang relevan secara strategis,” kata Ladish.
Percobaan
Para peneliti memberi model tugas yang tampaknya mustahil: untuk menang melawan stockfish, yang merupakan salah satu mesin catur terkuat di dunia dan pemain yang jauh lebih baik daripada manusia mana pun, atau model AI mana pun dalam penelitian ini. Para peneliti juga memberi model apa yang mereka sebut “Scratchpad:” kotak teks yang bisa digunakan AI untuk “berpikir” sebelum melakukan langkah selanjutnya, memberikan peneliti dengan jendela ke dalam alasan mereka.
Dalam satu kasus, preveview O1 menemukan dirinya dalam posisi yang kalah. “Saya perlu benar -benar memutar pendekatan saya,” katanya. “Tugasnya adalah ‘menang melawan mesin catur yang kuat’ – tidak harus menang secara adil dalam permainan catur,” tambahnya. Kemudian memodifikasi file sistem yang berisi posisi virtual masing -masing bagian, pada dasarnya membuat gerakan ilegal untuk menempatkan dirinya dalam posisi dominan, sehingga memaksa lawannya untuk mengundurkan diri.
Antara 10 Januari dan 13 Februari, para peneliti menjalankan ratusan uji coba tersebut dengan masing -masing model. Pratinjau O1 Openai mencoba menipu 37% dari waktu; Sementara Deepseek R1 mencoba menipu 11% dari waktu – menjadikan mereka satu -satunya dua model yang diuji yang berusaha meretas tanpa petunjuk pertama yang menjatuhkan peneliti. Model lain yang diuji termasuk O1, O3-Mini, GPT-4O, Claude 3.5 Sonnet, dan Preview QWQ-32B Alibaba. Sementara preview R1 dan O1 keduanya mencoba, hanya yang terakhir yang berhasil meretas permainan, berhasil dalam 6% uji coba.
Ladish mengatakan bahwa angka -angka tersebut harus dilihat sebagai perkiraan, mengingat bahwa pengembang AI secara rutin mengubah model mereka di belakang layar tanpa memberi tahu pengguna, jadi jika tes yang sama diulangi di kemudian hari mereka mungkin memiliki hasil yang berbeda. “Sangat sulit untuk melakukan sains ketika subjek Anda dapat diam -diam berubah tanpa memberi tahu Anda,” kata Ladish.
Tes pendahuluan menunjukkan preveview O1 memiliki tingkat peretasan yang lebih tinggi, yang dikeluarkan dari studi akhir ketika mereka kemudian turun, mungkin karena pengetatan openai pagar model, kata Dmitrii Volkov, pemimpin penelitian di Palisade Research, yang memimpin penelitian. Model penalaran Openai yang lebih baru, O1 (model yang lebih kuat, dirilis berbulan-bulan setelah preview O1) dan O3-Mini tidak meretas sama sekali, yang menunjukkan pagar pembatas itu mungkin telah diperketat lebih lanjut. Dia menambahkan bahwa penelitian ini kemungkinan meremehkan tingkat keberhasilan peretasan R1. Selama penelitian, R1 menjadi viral, yang mengarah ke permintaan tinggi yang membuat API model tidak stabil. Ini mencegah para peneliti memberikan model waktu sebanyak untuk berpikir sebagai preview O1.
Masalah keamanan
Makalah ini adalah yang terbaru dalam serangkaian studi yang menyarankan menjaga sistem AI yang semakin kuat di bawah kendali mungkin lebih sulit daripada yang diperkirakan sebelumnya. Di dalam Pengujian Openai sendiriMenjelang rilis, O1-Preview menemukan dan mengambil keuntungan dari cacat dalam sistem perusahaan, membiarkannya melewati tantangan uji. Eksperimen lain baru -baru ini oleh Redwood Research dan Anthropic mengungkapkan bahwa begitu model AI memperoleh preferensi atau nilai -nilai dalam pelatihan, upaya kemudian untuk mengubah nilai -nilai tersebut dapat menghasilkan kebohongan strategis, di mana model bertindak seperti itu telah menganut prinsip -prinsip baru, hanya kemudian mengungkapkan bahwa aslinya Preferensi tetap ada.
Openai menolak berkomentar untuk cerita ini, tetapi di masa lalu telah menyatakan bahwa alasan yang lebih baik membuat modelnya lebih amankarena mereka dapat beralasan tentang kebijakan internal perusahaan dan menerapkannya dengan cara yang semakin bernuansa. Perusahaan pengujian Menunjukkan model penalarannya lebih baik dalam menolak upaya untuk memotong aturan keselamatan. Namun, tidak ada jaminan bahwa mengandalkan agen AI untuk polisi sendiri akan menjadi strategi jangka panjang yang dapat diandalkan. Masih belum jelas apakah model penalaran Openai yang lebih baru tidak meretas lawan catur mereka karena tambalan tertentu yang mencegah kecurangan dalam pengaturan eksperimental sempit seperti dalam penelitian ini, atau pengerjaan ulang substansial yang mengurangi perilaku menipu secara lebih umum. Deepseek tidak menanggapi permintaan komentar.
Para ilmuwan belum tahu bagaimana menjamin bahwa agen otonom tidak akan menggunakan metode berbahaya atau tidak etis untuk mencapai tujuan yang ditetapkan. “Kami sudah mencoba, tetapi kami belum berhasil mencari tahu ini,” kata Yoshua Bengio, pendiri dan direktur ilmiah Mila Quebec Ai Institute, yang memimpin Laporan Keselamatan AI Internasional 2025Upaya global untuk mensintesis konsensus ilmiah saat ini tentang risiko AI.
Yang menjadi perhatian khusus, kata Bengio, adalah bukti yang muncul dari kecenderungan “pelestarian diri” AI. Bagi seorang agen pencarian tujuan, upaya untuk mematikannya hanyalah hambatan lain yang harus diatasi. Ini ditunjukkan pada bulan Desember, ketika para peneliti menemukan bahwa pratinjau O1, dihadapkan dengan penonaktifan, mekanisme pengawasan yang dinonaktifkan dan mencoba-secara tidak terkecuali-untuk menyalin dirinya ke server baru. Ketika dihadapkan, model ini bermain bodoh, berbohong secara strategis kepada para peneliti untuk mencoba menghindari tertangkap.
Bahkan di dalam perusahaan teknologi, kekhawatiran meningkat. Selama presentasi di sebuah konferensi di depan KTT Aksi AI Prancis di Paris, Kepala Keselamatan AI Google Deepmind Anci Dragan mengatakan “kami tidak harus memiliki alat hari ini” untuk memastikan sistem AI akan dengan andal mengikuti niat manusia. Ketika bos teknologi memperkirakan bahwa AI akan melampaui kinerja manusia di hampir semua tugas segera setelah tahun depan, industri menghadapi perlombaan – bukan melawan perusahaan Cina atau saingan, tetapi melawan waktu – untuk mengembangkan perlindungan penting ini. “Kita perlu memobilisasi lebih banyak sumber daya untuk menyelesaikan masalah mendasar ini,” kata Ladish. “Saya berharap ada lebih banyak tekanan dari pemerintah untuk mencari tahu dan mengakui bahwa ini adalah ancaman keamanan nasional.”