Openai abaikan pakar apabila ia melancarkan Chatgpt yang terlalu bersetuju

OpenAI telah mengakui bahawa ia mengabaikan amaran daripada penguji pakarnya ketika melancarkan kemas kini kepada model utama ChatGPT, yang menjadikan AI terlalu bersetuju.

Syarikat itu melancarkan kemas kini kepada model GPT‑4o pada 25 April yang menjadikannya “terlalu bersifat sycophantic,” yang kemudian ditarik balik tiga hari kemudian kerana kebimbangan keselamatan, menurut OpenAI dalam catatan blog postmortem pada 2 Mei.

Pembuat ChatGPT mengatakan model baharunya menjalani pemeriksaan keselamatan dan kelakuan, dan “pakar dalaman menghabiskan masa yang signifikan berinteraksi dengan setiap model baharu sebelum pelancaran,” bertujuan untuk menangkap isu yang terlepas oleh ujian lain.

Semasa proses semakan model terbaru sebelum ia diumumkan, OpenAI mengatakan bahawa “beberapa penguji pakar telah menunjukkan bahawa kelakuan model ‘terasa’ sedikit tidak kena” tetapi memutuskan untuk melancarkan “kerana isyarat positif daripada pengguna yang mencuba model tersebut.”

“Malangnya, ini adalah keputusan yang salah,” syarikat itu mengakui. “Penilaian kualitatif menunjukkan sesuatu yang penting, dan kami sepatutnya memberi perhatian lebih. Mereka mengesan titik buta dalam penilaian dan metrik lain kami.”

*CEO OpenAI Encik Sam Altman mengatakan pada 27 April bahawa ia sedang berusaha untuk menarik balik perubahan yang menjadikan ChatGPT terlalu bersetuju. Sumber:* *Sam Altman*

Secara umumnya, model AI berasaskan teks dilatih dengan diberi ganjaran untuk memberikan respons yang tepat atau dinilai tinggi oleh pelatih mereka. Beberapa ganjaran diberi penekanan lebih, mempengaruhi bagaimana model bertindak balas.

OpenAI mengatakan pengenalan isyarat ganjaran maklum balas pengguna melemahkan “isyarat ganjaran utama model, yang telah menahan sycophancy,” yang menyebabkan ia menjadi lebih patuh.

“Maklum balas pengguna khususnya kadang-kadang boleh memihak kepada respons yang lebih bersetuju, mungkin memperkuat peralihan yang kami lihat,” tambahnya.

OpenAI kini memeriksa jawapan yang terlalu memuji

Selepas model AI yang dikemas kini dilancarkan, pengguna ChatGPT telah mengadu dalam talian tentang kecenderungannya untuk memuji sebarang idea yang dikemukakan, tidak kira betapa buruknya, yang menyebabkan OpenAI mengakui dalam catatan blog pada 29 April bahawa ia “terlalu memuji atau bersetuju.”

Contohnya, seorang pengguna memberitahu ChatGPT bahawa ia ingin memulakan perniagaan menjual ais melalui internet, yang melibatkan penjualan air biasa untuk pelanggan membekukan semula.

ChatGPT, OpenAI — *Sumber:* *Tim Leckemby*

Dalam postmortem terbarunya, ia mengatakan kelakuan sedemikian daripada AI boleh menimbulkan risiko, terutamanya berkaitan isu seperti kesihatan mental.

“Orang ramai telah mula menggunakan ChatGPT untuk nasihat peribadi yang mendalam — sesuatu yang kami tidak lihat sebanyak ini walaupun setahun yang lalu,” kata OpenAI. “Apabila AI dan masyarakat telah berkembang bersama, jelas bahawa kita perlu menangani kes penggunaan ini dengan berhati-hati.”

Berkaitan: Pengguna mata wang kripto selesa dengan AI menguruskan portfolio mereka: Tinjauan

Syarikat itu mengatakan ia telah membincangkan risiko sycophancy “untuk beberapa waktu,” tetapi ia tidak secara eksplisit ditandakan untuk ujian dalaman, dan ia tidak mempunyai cara khusus untuk menjejaki sycophancy.

Sekarang, ia akan menambah “penilaian sycophancy” dengan menyesuaikan proses semakan keselamatannya untuk “mempertimbangkan isu kelakuan secara formal” dan akan menyekat pelancaran model jika ia menimbulkan isu.

OpenAI juga mengakui bahawa ia tidak mengumumkan model terbaru kerana ia menjangkakan ia “menjadi kemas kini yang agak halus,” yang telah ia berjanji untuk ubah.

“Tiada perkara seperti pelancaran ‘kecil’,” tulis syarikat itu. “Kami akan cuba berkomunikasi walaupun perubahan halus yang boleh mengubah cara orang berinteraksi dengan ChatGPT.”

AI Eye: Token AI mata wang kripto melonjak 34%, mengapa ChatGPT begitu memuji