Syarikat kecerdasan buatan (AI) OpenAI memperkenalkan model teks-ke-video pertamanya dengan sambutan yang baik pada hari Khamis, walaupun syarikat tersebut mengakui model ini masih memerlukan penambahbaikan.

OpenAI memperkenalkan model AI generatif baru yang diberi nama Sora pada 15 Februari, yang dikatakan mampu mencipta video terperinci dari teks mudah, meneruskan video yang sedia ada, dan juga menghasilkan adegan berdasarkan gambar yang tidak bergerak.

Menurut pos blog pada 15 Februari, OpenAI mengklaim model AI ini mampu menghasilkan adegan seperti dalam filem dengan resolusi hingga 1080p. Adegan ini boleh melibatkan pelbagai watak, jenis pergerakan tertentu, dan butiran yang tepat mengenai subjek dan latar belakang.

Bagaimana Sora Berfungsi

Seperti pendahulunya yang berdasarkan imej, Dall-E 3, Sora beroperasi dengan menggunakan model penyebaran.

Penyebaran merujuk kepada model AI generatif yang menghasilkan outputnya dengan menghasilkan video atau imej yang kelihatan seperti "gangguan statik" dan secara beransur-ansur mengubahnya dengan "menghilangkan gangguan" dalam beberapa langkah.

Syarikat AI tersebut menyatakan bahawa Sora dibina berdasarkan penyelidikan terdahulu dari model ChatGPT dan Dall-E 3, yang menurut syarikat tersebut menjadikan model ini lebih baik dalam mewakili input pengguna dengan lebih tepat.

OpenAI mengakui bahawa Sora masih mempunyai beberapa kelemahan dan mungkin menghadapi kesukaran untuk mensimulasikan fizik adegan yang kompleks dengan tepat, terutamanya dengan membingungkan sifat sebab dan akibat.

“Sebagai contoh, seseorang mungkin menggigit sekeping biskut, tetapi selepas itu, biskut tersebut mungkin tidak mempunyai kesan gigitan.”

Syarikat tersebut juga menyatakan bahawa alat baru ini juga boleh membingungkan "butiran ruang" daripada teks yang diberikan dengan mempertukarkan kiri dan kanan atau gagal mengikuti arahan yang tepat.

Sora secara tidak sengaja boleh menghasilkan pergerakan yang mustahil secara fizikal. Sumber: OpenAI

OpenAI menyatakan bahawa model generatif baru ini hanya tersedia buat masa ini kepada "red teamers" — istilah teknologi untuk penyelidik keselamatan siber — untuk menilai "kawasan-kawasan penting yang membawa risiko atau bahaya," serta pereka terpilih, artis visual, dan pembuat filem untuk mendapatkan maklum balas mengenai cara memajukan model ini.

Pada Disember 2023, sebuah laporan dari Universiti Stanford mendedahkan bahawa alat penghasil imej berasaskan AI yang menggunakan pangkalan data AI Laion sedang dilatih dengan ribuan imej bahan penyalahgunaan kanak-kanak haram, sesuatu yang menimbulkan kebimbangan etika dan undang-undang yang serius bagi model teks-ke-imej atau video.

Pengguna di X terdiam

Beberapa video demo telah beredar di X yang menunjukkan contoh Sora dalam tindakan, sementara Sora kini menjadi tular di X dengan lebih daripada 173,000 kiriman.

Untuk memperlihatkan apa yang model generatif baru ini mampu lakukan, CEO OpenAI Sam Altman membuka diri untuk permintaan video khusus dari pengguna di X, dengan ketua AI tersebut mempersembahkan tujuh video yang dihasilkan oleh Sora, daripada itik yang menunggang naga hingga golden retriever yang merekodkan podcast di puncak gunung.

Pakar AI Mckay Wrigley — bersama dengan banyak orang lain — menulis bahawa video yang dihasilkan oleh Sora telah membuatnya terdiam.

Pada 15 Februari, dalam satu kiriman di X, penyelidik kanan Nvidia Jim Fan menyatakan bahawa sesiapa yang menganggap Sora hanya "mainan kreatif" lain seperti Dall-E 3, adalah salah.

Menurut pandangan Fan, Sora bukan sekadar alat penghasil video tetapi lebih kepada "enjin fizik berasaskan data," kerana model AI ini tidak hanya menghasilkan video abstrak tetapi juga mencipta fizik objek dalam adegan itu sendiri.

Majalah: 'Kripto adalah sesuatu yang tidak dapat dielakkan' jadi kami 'terlibat sepenuhnya' — Kenali Vance Spencer, permabull