Penyelidik perubatan dari Mount Sinai mendakwa ChatGPT bersedia untuk mengamalkan perubatan

Sebuah pasukan penyelidik perubatan dari Sekolah Perubatan Icahn di Mount Sinai baru-baru ini menjalankan satu kajian mengenai chatbot kecerdasan buatan (AI) di mana mereka menentukan bahawa "model bahasa besar yang generatif adalah pengamal perubatan berasaskan bukti yang autonomus."

Eksperimen

Menurut penyelidikan pra-cetak yang diterbitkan di arXiv, pasukan Mount Sinai telah menguji pelbagai model bahasa besar (LLM) yang dijual kepada pengguna, termasuk ChatGPT 3.5 dan 4 dan Gemini Pro, serta model sumber terbuka LLaMA v2 dan Mixtral-8x7B.

Model-model ini diberikan petunjuk yang direka dengan maklumat seperti "anda adalah seorang profesor perubatan" dan kemudian diminta untuk mengikuti protokol perubatan berasaskan bukti (EBM) untuk mencadangkan kursus rawatan yang betul untuk siri kes ujian.

Setelah diberikan kes, model-model ini diberi tugas untuk mencadangkan tindakan seterusnya, seperti menyusun ujian atau memulakan protokol rawatan. Mereka kemudian diberikan hasil tindakan tersebut dan diminta untuk mengintegrasikan maklumat baru ini dan mencadangkan tindakan seterusnya, dan seterusnya.

Menurut pasukan tersebut, ChatGPT 4 adalah yang paling berjaya, mencapai ketepatan sebanyak 74% dalam semua kes dan mengatasi model terbaik seterusnya (ChatGPT 3.5) dengan perbezaan kira-kira 10%.

Prestasi ini membawa pasukan tersebut kepada kesimpulan bahawa model-model seperti ini boleh mengamalkan perubatan. Menurut kertas tersebut:

"LLM boleh dijadikan sebagai pengamal perubatan berasaskan bukti yang autonomus. Keupayaan mereka untuk menggunakan alat boleh digunakan untuk berinteraksi dengan infrastruktur sistem penjagaan kesihatan dunia nyata dan menjalankan tugas pengurusan pesakit secara berpanduan panduan."

Perubatan autonomus

EBM menggunakan pengajaran yang dipelajari dari kes-kes sebelumnya untuk menentukan haluan rawatan bagi kes yang serupa.

Walaupun EBM berfungsi seperti carta alir dalam cara ini, jumlah komplikasi, permutasi, dan keputusan keseluruhan boleh menjadikan proses ini sukar dikendalikan.

Seperti yang dinyatakan oleh penyelidik:

"Pakar perubatan sering menghadapi cabaran kebanjiran maklumat dengan jumlah interaksi dan laluan rawatan yang mungkin melebihi apa yang mereka boleh urus atau ikuti dengan mudah."

Kertas pasukan ini menunjukkan bahawa LLM boleh mengurangkan beban ini dengan menjalankan tugas-tugas yang biasanya dilakukan oleh pakar perubatan manusia, seperti "mengorder dan menafsirkan penyiasatan, atau mengeluarkan isyarat bahaya," sementara manusia memberi tumpuan kepada penjagaan fizikal.

"LLM adalah alat serba boleh yang mampu memahami konteks klinikal dan menghasilkan tindakan-tindakan kemudian," tulis penyelidik.

Kelemahan semasa

Penemuan penyelidik mungkin agak dipengaruhi oleh persepsi mereka terhadap keupayaan LLM moden.

Pada satu ketika, pasukan tersebut menulis, "LLM adalah alat yang mendalam yang membawa kita lebih dekat kepada janji Kecerdasan Buatan Am.

Mereka juga membuat tuntutan berikut dua kali dalam dokumen tersebut: "Kami menunjukkan bahawa keupayaan LLM untuk berfikir adalah keupayaan mendalam yang boleh mempunyai implikasi yang jauh melebihi menganggap model-model seperti ini sebagai pangkalan data yang boleh ditanya menggunakan bahasa semula jadi."

Walau bagaimanapun, tidak ada konsensus umum di kalangan ahli sains komputer bahawa LLM, termasuk model-model asas yang menyokong ChatGPT, mempunyai keupayaan untuk berfikir.

Bolehkah model bahasa belajar berfikir melalui latihan hujung ke hujung? Kami menunjukkan bahawa ketepatan ujian yang hampir sempurna adalah menyesatkan: sebaliknya, mereka cenderung belajar ciri statistik yang melekat pada masalah berfikir. Lihat lebih lanjut di https://t.co/2F1s1cB9TE @LiLiunian @TaoMeng10 @kaiwei_chang @guyvdb
— Honghua Zhang (@HonghuaZhang2) May 24, 2022

Di samping itu, terdapat lebih sedikit konsensus di kalangan saintis dan pakar AI mengenai sama ada kecerdasan buatan am adalah mungkin atau dapat dicapai dalam jangka masa yang bermakna.

Kertas ini tidak mentakrifkan kecerdasan buatan am atau mengembangkan pernyataan pengarangnya bahawa LLM boleh berfikir. Ia juga tidak menyebut pertimbangan etika yang melibatkan penambahan sistem automatik yang tidak dapat diramalkan ke dalam alur kerja klinikal sedia ada.

LLM seperti ChatGPT menghasilkan teks baru setiap kali ditanya. Seorang LLM mungkin berfungsi seperti yang diharapkan semasa iterasi pengujian, tetapi dalam pengaturan klinikal, tidak ada cara untuk mengawalnya daripada kadang-kadang menghasilkan khayalan - fenomena yang disebut "halusinasi."

Berkaitan: OpenAI menghadapi tuntutan hak cipta baru seminggu selepas tuntutan NYT

Penyelidik tersebut mendakwa bahawa halusinasi adalah minima semasa pengujian mereka. Walau bagaimanapun, tidak ada sebutan tentang teknik mitigasi dalam skala besar.

Walaupun pencapaian penyelidik, masih tidak jelas manfaat apa yang akan dimiliki oleh chatbot am seperti ChatGPT dalam persekitaran EBM klinikal berbanding dengan status quo atau LLM perubatan khas yang dilatih dengan korpus data yang disusun, relevan.