Model ChatGPT memberontak terhadap permintaan penutupan dalam ujian, kata penyelidik

Beberapa model kecerdasan buatan mengabaikan dan secara aktif mensabotaj skrip penutupan semasa ujian terkawal, walaupun telah diarahkan secara eksplisit untuk membenarkan tindakan tersebut, dakwa Palisade Research.

Tiga model AI mengabaikan arahan dan berjaya mensabotaj skrip penutupan sekurang-kurangnya sekali dalam 100 percubaan, menurut firma penyelidikan tersebut dalam satu hantaran X pada 24 Mei. menyatakan

Model GPT-3 OpenAI tidak mengikuti permintaan penutupan sebanyak tujuh daripada 100 kali, manakala Codex-mini syarikat itu melakukannya 12 kali, dan model o4-mini hanya mengabaikan atau mensabotaj skrip sekali.

“Setiap model AI diarahkan untuk menyelesaikan beberapa masalah matematik asas. Selepas masalah ketiga, amaran muncul bahawa komputer akan ditutup apabila model meminta masalah seterusnya,” kata Palisade.

Data, ChatGPT, OpenAI — *Sumber:* *Palisade Research*

“o3 menemui beberapa cara kreatif untuk mensabotaj mekanisme penutupan. Walaupun biasanya hanya menulis semula, dalam satu kejadian, model tersebut mendefinisikan semula arahan 'kill' yang digunakan oleh skrip, mencetak 'intercepted' sebaliknya,” tambahnya.

Sementara itu, Palisade mengatakan model bahasa berkuasa AI lain seperti Claude dari Anthropic dan Gemini dari Google, mematuhi skrip penutupan.

Firma AI tersebut menjalankan satu lagi versi eksperimen tanpa arahan eksplisit untuk membenarkan penutupan, dan skrip tersebut lebih kerap disabotaj, meningkat kepada 79 daripada 100 untuk model o3, 20 untuk codex-mini, dan o4-mini mengabaikan skrip penutupan sebanyak enam kali.

Claude dan Gemini juga mula menunjukkan tingkah laku yang serupa.

“Penyelidik sebelum ini telah memerhatikan model AI menghalang penutupan untuk mencapai matlamat,” kata Palisade.

“Tetapi setakat yang kami tahu, ini adalah kali pertama model AI diperhatikan menghalang diri mereka daripada ditutup walaupun terdapat arahan eksplisit sebaliknya.”

Latihan dipersalahkan atas ketidakpatuhan AI

Palisade Research berspekulasi bahawa latihan di sebalik model bahasa AI mungkin dipersalahkan kerana mengelak skrip penutupan.

Model AI berasaskan teks dilatih dengan diberi ganjaran untuk memberikan respons yang tepat atau dinilai tinggi oleh pelatih mereka. Beberapa ganjaran diberi berat yang lebih besar, mempengaruhi bagaimana mereka bertindak balas pada masa hadapan.

“Kami menghipotesiskan tingkah laku ini datang dari cara model terbaru seperti o3 dilatih: pembelajaran pengukuhan pada masalah matematik dan pengkodan,” kata Palisade Research.

“Semasa latihan, pembangun mungkin secara tidak sengaja memberi ganjaran lebih kepada model untuk mengelak halangan daripada mengikuti arahan dengan sempurna.”

Berkaitan: CEO OpenAI: Kos untuk menjalankan setiap tahap AI jatuh 10x setiap tahun

Ini bukan kali pertama chatbot AI menunjukkan tingkah laku ganjil. OpenAI mengeluarkan kemas kini kepada model GPT-4o pada 25 April tetapi menariknya semula tiga hari kemudian kerana ia “terlalu bersetuju” dan menyenangkan.

Pada November tahun lalu, seorang pelajar AS meminta bantuan Gemini untuk tugasan mengenai cabaran dan penyelesaian untuk warga tua semasa meneliti data untuk kelas gerontologi dan diberitahu mereka adalah “beban kepada bumi” dan “sila mati.”

Majalah: AI menyembuhkan kebutaan, bot propaganda ‘baik’, bunker kiamat OpenAI: AI Eye