Pertarungan untuk membangunkan kecerdasan am buatan (AGI) masih jauh untuk ditempuhi, menurut penyelidik Apple yang mendapati bahawa model AI terkemuka masih menghadapi kesukaran dalam penaakulan.

Kemas kini terkini kepada model bahasa besar AI (LLM) terkemuka seperti ChatGPT OpenAI dan Claude Anthropic telah memasukkan model penaakulan besar (LRM), tetapi keupayaan asas, sifat penskalaan, dan batasan mereka "masih tidak difahami dengan mencukupi," kata penyelidik Apple dalam kertas kerja bulan Jun yang dipanggil "The Illusion of Thinking."

Mereka menyatakan bahawa penilaian semasa terutamanya memberi tumpuan kepada penanda aras matematik dan pengekodan yang telah ditetapkan, "menekankan ketepatan jawapan akhir."

Walau bagaimanapun, penilaian ini tidak memberikan pandangan tentang keupayaan penaakulan model AI, menurut mereka.

Penyelidikan ini berbeza dengan jangkaan bahawa kecerdasan am buatan hanya beberapa tahun lagi.

Penyelidik Apple menguji model AI "berfikir"

Penyelidik merangka pelbagai permainan teka-teki untuk menguji varian "berfikir" dan "tidak berfikir" Claude Sonnet, o3-mini dan o1 OpenAI, serta chatbot DeepSeek-R1 dan V3 melebihi penanda aras matematik standard.

Mereka mendapati bahawa "LRM hadapan menghadapi keruntuhan ketepatan sepenuhnya melebihi kerumitan tertentu," tidak menggeneralisasikan penaakulan dengan berkesan, dan kelebihan mereka hilang dengan peningkatan kerumitan, bertentangan dengan jangkaan untuk keupayaan AGI.

“Kami mendapati bahawa LRM mempunyai batasan dalam pengiraan tepat: mereka gagal menggunakan algoritma eksplisit dan berfikir secara tidak konsisten merentasi teka-teki.”
Apple
Pengesahan jawapan akhir dan jejak penaakulan pertengahan (carta atas), dan carta menunjukkan model tidak berfikir lebih tepat pada kerumitan rendah (carta bawah). Sumber: Penyelidikan Pembelajaran Mesin Apple 

Chatbot AI terlalu berfikir, kata penyelidik

Mereka mendapati penaakulan yang tidak konsisten dan cetek dengan model tersebut dan juga memerhatikan pemikiran berlebihan, dengan chatbot AI menghasilkan jawapan yang betul pada awalnya dan kemudian menyimpang ke dalam penaakulan yang salah.

Berkaitan: AI mengukuhkan peranan dalam Web3, mencabar DeFi dan permainan: DappRadar

Penyelidik menyimpulkan bahawa LRM meniru corak penaakulan tanpa benar-benar menginternalisasi atau menggeneralisasikannya, yang tidak mencapai tahap penaakulan AGI.

“Penemuan ini mencabar andaian yang berlaku tentang keupayaan LRM dan mencadangkan bahawa pendekatan semasa mungkin menghadapi halangan asas kepada penaakulan yang boleh digeneralisasikan.”
Apple
Ilustrasi empat persekitaran teka-teki. Sumber: Apple

Pertarungan untuk membangunkan AGI

AGI ialah matlamat utama dalam pembangunan AI, satu keadaan di mana mesin boleh berfikir dan berfikir seperti manusia dan setanding dengan kecerdasan manusia.

Pada bulan Januari, Ketua Pegawai Eksekutif OpenAI Encik Sam Altman mengatakan firma itu lebih dekat untuk membina AGI berbanding sebelum ini. “Kami kini yakin kami tahu cara membina AGI seperti yang kami fahami secara tradisional,” katanya pada masa itu.

Pada bulan November, Ketua Pegawai Eksekutif Anthropic Encik Dario Amodei mengatakan bahawa AGI akan melebihi keupayaan manusia dalam satu atau dua tahun akan datang. “Jika anda hanya melihat kadar di mana keupayaan ini meningkat, ia membuatkan anda berfikir bahawa kita akan sampai ke sana menjelang 2026 atau 2027,” katanya.

Majalah: Abaikan ramalan pekerjaan AI, AI baik untuk pekerjaan kata PWC: AI Eye