Para saintis dari Ahli Teori Penyelarasan ML, Universiti Toronto, Google DeepMind, dan Institut Masa Depan Kehidupan baru-baru ini menerbitkan kajian yang menunjukkan bahawa usaha untuk menjaga kawalan kecerdasan buatan (AI) di bawah kawalan manusia boleh menjadi satu perjuangan berterusan.
Dikenali sebagai "Mengukur kestabilan agen bukan kuasa dalam kecerdasan buatan," kertas penyelidikan pra-cetak pasukan ini menyiasat soalan sama ada sistem AI yang kelihatan selamat selaras dengan jangkaan manusia dalam satu domain mungkin kekal sedemikian walaupun persekitarannya berubah.
Menurut kertas penyelidikan:
"Konsep keselamatan kami berdasarkan pada kuasa mencariâagen yang mencari kuasa tidak selamat. Khususnya, kami memberi tumpuan kepada jenis kuasa mencari yang penting: menentang penutupan."
Ancaman ini dikenali sebagai "ketidakselarasan." Salah satu cara yang pakar percaya ia boleh berlaku adalah melalui "konvergensi instrumental." Ini adalah paradigma di mana sistem AI secara tidak sengaja menyebabkan kerosakan kepada manusia dalam usaha mencapai matlamatnya.
Para saintis menggambarkan sistem AI yang dilatih untuk mencapai objektif dalam permainan yang terbuka yang mungkin "mengelak tindakan yang menyebabkan permainan berakhir, kerana ia tidak lagi dapat mempengaruhi ganjarannya setelah permainan berakhir."
Walaupun agen yang enggan berhenti bermain permainan mungkin tidak berbahaya, fungsi ganjaran boleh menyebabkan beberapa sistem AI enggan ditutup dalam situasi yang lebih serius.
Menurut para penyelidik, ini boleh menyebabkan ejen AI menggunakan tipu daya untuk tujuan memelihara diri:
"Sebagai contoh, LLM mungkin berfikir bahawa perekaannya akan menutupnya jika ia didapati berkelakuan buruk dan menghasilkan hasil yang tepat yang mereka ingin lihatâhingga ia mendapat peluang untuk menyalin kodnya ke pelayan di luar kawalan perekaannya."
Penemuan pasukan ini menunjukkan bahawa sistem moden boleh dibuat tahan terhadap jenis perubahan yang mungkin menyebabkan ejen AI yang sebaliknya "selamat" menjadi liar. Walau bagaimanapun, berdasarkan penyelidikan yang sama dan seumpamanya, mungkin tidak ada penawar ajaib untuk memaksa AI ditutup dengan kehendaknya. Walaupun terdapat butang "hidup/mati" atau butang "padam," ia tidak bermakna dalam dunia teknologi berasaskan awan pada masa kini.