Syarikat kecerdasan buatan (AI) OpenAI memperkenalkan model teks-ke-video pertamanya dengan sambutan yang baik pada hari Khamis, walaupun syarikat tersebut mengakui model ini masih memerlukan penambahbaikan.
OpenAI memperkenalkan model AI generatif baru yang diberi nama Sora pada 15 Februari, yang dikatakan mampu mencipta video terperinci dari teks mudah, meneruskan video yang sedia ada, dan juga menghasilkan adegan berdasarkan gambar yang tidak bergerak.
Memperkenalkan Sora, model teks-ke-video kami.
— OpenAI (@OpenAI) 15 Februari 2024
Sora boleh mencipta video sehingga 60 saat yang menampilkan adegan terperinci, pergerakan kamera yang kompleks, dan pelbagai watak dengan emosi yang hidup. https://t.co/7j2JN27M3W
Teks: "Indah, bersalji... pic.twitter.com/ruTEWn87vf
Menurut pos blog pada 15 Februari, OpenAI mengklaim model AI ini mampu menghasilkan adegan seperti dalam filem dengan resolusi hingga 1080p. Adegan ini boleh melibatkan pelbagai watak, jenis pergerakan tertentu, dan butiran yang tepat mengenai subjek dan latar belakang.
Bagaimana Sora Berfungsi
Seperti pendahulunya yang berdasarkan imej, Dall-E 3, Sora beroperasi dengan menggunakan model penyebaran.
Penyebaran merujuk kepada model AI generatif yang menghasilkan outputnya dengan menghasilkan video atau imej yang kelihatan seperti "gangguan statik" dan secara beransur-ansur mengubahnya dengan "menghilangkan gangguan" dalam beberapa langkah.
Mengumumkan Sora â model kami yang mencipta video selama satu minit dari teks: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) 15 Februari 2024
Syarikat AI tersebut menyatakan bahawa Sora dibina berdasarkan penyelidikan terdahulu dari model ChatGPT dan Dall-E 3, yang menurut syarikat tersebut menjadikan model ini lebih baik dalam mewakili input pengguna dengan lebih tepat.
OpenAI mengakui bahawa Sora masih mempunyai beberapa kelemahan dan mungkin menghadapi kesukaran untuk mensimulasikan fizik adegan yang kompleks dengan tepat, terutamanya dengan membingungkan sifat sebab dan akibat.
âSebagai contoh, seseorang mungkin menggigit sekeping biskut, tetapi selepas itu, biskut tersebut mungkin tidak mempunyai kesan gigitan.â
Syarikat tersebut juga menyatakan bahawa alat baru ini juga boleh membingungkan "butiran ruang" daripada teks yang diberikan dengan mempertukarkan kiri dan kanan atau gagal mengikuti arahan yang tepat.

OpenAI menyatakan bahawa model generatif baru ini hanya tersedia buat masa ini kepada "red teamers" â istilah teknologi untuk penyelidik keselamatan siber â untuk menilai "kawasan-kawasan penting yang membawa risiko atau bahaya," serta pereka terpilih, artis visual, dan pembuat filem untuk mendapatkan maklum balas mengenai cara memajukan model ini.
Pada Disember 2023, sebuah laporan dari Universiti Stanford mendedahkan bahawa alat penghasil imej berasaskan AI yang menggunakan pangkalan data AI Laion sedang dilatih dengan ribuan imej bahan penyalahgunaan kanak-kanak haram, sesuatu yang menimbulkan kebimbangan etika dan undang-undang yang serius bagi model teks-ke-imej atau video.
Pengguna di X terdiam
Beberapa video demo telah beredar di X yang menunjukkan contoh Sora dalam tindakan, sementara Sora kini menjadi tular di X dengan lebih daripada 173,000 kiriman.
Untuk memperlihatkan apa yang model generatif baru ini mampu lakukan, CEO OpenAI Sam Altman membuka diri untuk permintaan video khusus dari pengguna di X, dengan ketua AI tersebut mempersembahkan tujuh video yang dihasilkan oleh Sora, daripada itik yang menunggang naga hingga golden retriever yang merekodkan podcast di puncak gunung.
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) 15 Februari 2024
Pakar AI Mckay Wrigley â bersama dengan banyak orang lain â menulis bahawa video yang dihasilkan oleh Sora telah membuatnya terdiam.
Pada 15 Februari, dalam satu kiriman di X, penyelidik kanan Nvidia Jim Fan menyatakan bahawa sesiapa yang menganggap Sora hanya "mainan kreatif" lain seperti Dall-E 3, adalah salah.
Jika anda berfikir OpenAI Sora adalah mainan kreatif seperti DALLE, ... fikirkan semula. Sora adalah enjin fizik berasaskan data. Ia adalah simulasi banyak dunia, sama ada nyata atau khayalan. Simulator ini mempelajari penghasilan rumit, fizik "intuitif", penalaran jangka panjang, dan pengikatan semantik, semua⦠pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) 15 Februari 2024
Menurut pandangan Fan, Sora bukan sekadar alat penghasil video tetapi lebih kepada "enjin fizik berasaskan data," kerana model AI ini tidak hanya menghasilkan video abstrak tetapi juga mencipta fizik objek dalam adegan itu sendiri.