ChatGPT lulus ujian neurologi untuk kali pertama

11 Dis 2023

LLM 4.0 dari OpenAI menjawab 85% soalan Lembaga Psikiatri dan Neurologi Amerika dengan betul, menunjukkan kemungkinan penggunaan teknologi ini yang "signifikan" pada masa depan.

ChatGPT lulus ujian neurologi untuk kali pertama — Berita

Kemaskini terkini OpenAI mengenai model bahasa besar (LLM) mereka, ChatGPT-4.0, telah lulus ujian neurologi klinikal dengan 85% jawapan yang betul dalam satu kajian konsep bukti. Penulis penyelidikan percaya bahawa selepas beberapa penalaan, LLM boleh mempunyai "aplikasi penting" dalam neurologi klinikal.

Keputusan eksperimen ini, yang dijalankan oleh sekumpulan penyelidik dari Hospital Universiti Heidelberg dan Pusat Penyelidikan Kanser Jerman di Heidelberg, telah diterbitkan pada 7 Disember. Ujian ini, yang dijalankan pada 31 Mei, melibatkan dua LLM, ChatGPT-3.5 dan versi terkini, ChatGPT-4.0.

Para penyelidik menggunakan bank soalan ujian neurologi dari Lembaga Psikiatri dan Neurologi Amerika dengan kohort kecil soalan dari Lembaga Neurologi Eropah.

Berkaitan: Demo Gemini Google kini dituduh sebagai 'palsu'

Manakala versi terdahulu ChatGPT mencapai 66.8%, menjawab 1,306 daripada 1,956 soalan dengan betul, model terkini, ChatGPT-4.0, mencapai 85% dengan 1,662 jawapan yang betul. Purata skor manusia adalah 73.8%. ChatGPT-4.0 melebihi pengguna manusia dalam soalan berkaitan tingkah laku, kognitif, dan psikologi dan berjaya "lulus" ujian neurologi, kerana 70% jawapan yang betul secara umumnya dianggap sebagai skor lulus dalam institusi pendidikan.

Walau bagaimanapun, kedua-dua model menunjukkan prestasi yang lemah dalam tugas yang memerlukan "pemikiran tahap tinggi" berbanding soalan yang hanya memerlukan "pemikiran tahap rendah".

Menurut kumpulan penyelidik yang menjalankan eksperimen ini, hasil ini menjadi cadangan untuk menggunakan LLM dalam neurologi klinikal selepas beberapa penyesuaian:

"Penemuan ini menunjukkan bahawa dengan penambahbaikan lanjut, model bahasa besar boleh mempunyai aplikasi penting dalam neurologi klinikal."

Para penyelidik menunjukkan bahawa masih terdapat beberapa kebimbangan. Walaupun terdapat perspektif yang jelas untuk menggunakan LLM dalam sistem sokongan dokumentasi dan pembuatan keputusan, ahli neurologi perlu berhati-hati dalam penggunaannya dalam praktik, kerana mereka masih tidak sempurna dalam tugas kognitif tahap tinggi. Berbicara kepada Cointelegraph, salah seorang penulis kajian ini, Dr. Varun Venkataramani, berkata:

"Kami melihat kajian kami lebih sebagai bukti konsep bagi keupayaan LLM. Masih ada pembangunan yang diperlukan dan mungkin juga penalaan khusus LLM untuk menjadikannya sesuai dengan neurologi klinikal."

Kecerdasan Buatan (AI) sudah bekerja dalam beberapa tugas utama dalam bidang kesihatan, seperti mencari penawar kanser untuk AstraZeneca atau memerangi penpreskripsi antibiotik yang berlebihan di Hong Kong.

Majalah: Ketakutan dan keraguan ahli politik mendorong cadangan pengaturan kripto di AS

Cointelegraph komited terhadap kewartawanan yang bebas dan telus. Artikel berita ini dihasilkan selaras dengan Dasar Editorial Cointelegraph dan bertujuan untuk menyediakan maklumat yang tepat serta tepat pada masanya. Pembaca digalakkan untuk mengesahkan maklumat secara bebas. Baca Dasar Editorial kami https://my.cointelegraph.com/editorial-policy