Model AI untuk video Sora oleh OpenAI menarik perhatian X, namun masih memiliki kelemahan

16 Feb 2024

Alat generasi video AI terbaru OpenAI, Sora, telah membuat pengguna media sosial terkagum-kagum dengan realisme yang ditunjukkannya, meskipun belum siap untuk dirilis secara publik sepenuhnya.

Model AI untuk video Sora oleh OpenAI menarik perhatian X, namun masih memiliki kelemahan — Berita

Syarikat kecerdasan buatan (AI) OpenAI memperkenalkan model teks-ke-video pertamanya dengan sambutan yang baik pada hari Khamis, walaupun syarikat tersebut mengakui model ini masih memerlukan penambahbaikan.

OpenAI memperkenalkan model AI generatif baru yang diberi nama Sora pada 15 Februari, yang dikatakan mampu mencipta video terperinci dari teks mudah, meneruskan video yang sedia ada, dan juga menghasilkan adegan berdasarkan gambar yang tidak bergerak.

Memperkenalkan Sora, model teks-ke-video kami.

Sora boleh mencipta video sehingga 60 saat yang menampilkan adegan terperinci, pergerakan kamera yang kompleks, dan pelbagai watak dengan emosi yang hidup. https://t.co/7j2JN27M3W

Teks: "Indah, bersalji... pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 15 Februari 2024

Menurut pos blog pada 15 Februari, OpenAI mengklaim model AI ini mampu menghasilkan adegan seperti dalam filem dengan resolusi hingga 1080p. Adegan ini boleh melibatkan pelbagai watak, jenis pergerakan tertentu, dan butiran yang tepat mengenai subjek dan latar belakang.

Bagaimana Sora Berfungsi

Seperti pendahulunya yang berdasarkan imej, Dall-E 3, Sora beroperasi dengan menggunakan model penyebaran.

Penyebaran merujuk kepada model AI generatif yang menghasilkan outputnya dengan menghasilkan video atau imej yang kelihatan seperti "gangguan statik" dan secara beransur-ansur mengubahnya dengan "menghilangkan gangguan" dalam beberapa langkah.

Mengumumkan Sora â model kami yang mencipta video selama satu minit dari teks: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) 15 Februari 2024

Syarikat AI tersebut menyatakan bahawa Sora dibina berdasarkan penyelidikan terdahulu dari model ChatGPT dan Dall-E 3, yang menurut syarikat tersebut menjadikan model ini lebih baik dalam mewakili input pengguna dengan lebih tepat.

OpenAI mengakui bahawa Sora masih mempunyai beberapa kelemahan dan mungkin menghadapi kesukaran untuk mensimulasikan fizik adegan yang kompleks dengan tepat, terutamanya dengan membingungkan sifat sebab dan akibat.

âSebagai contoh, seseorang mungkin menggigit sekeping biskut, tetapi selepas itu, biskut tersebut mungkin tidak mempunyai kesan gigitan.â

Syarikat tersebut juga menyatakan bahawa alat baru ini juga boleh membingungkan "butiran ruang" daripada teks yang diberikan dengan mempertukarkan kiri dan kanan atau gagal mengikuti arahan yang tepat.

*Sora secara tidak sengaja boleh menghasilkan pergerakan yang mustahil secara fizikal. Sumber: OpenAI*

OpenAI menyatakan bahawa model generatif baru ini hanya tersedia buat masa ini kepada "red teamers" â istilah teknologi untuk penyelidik keselamatan siber â untuk menilai "kawasan-kawasan penting yang membawa risiko atau bahaya," serta pereka terpilih, artis visual, dan pembuat filem untuk mendapatkan maklum balas mengenai cara memajukan model ini.

Pada Disember 2023, sebuah laporan dari Universiti Stanford mendedahkan bahawa alat penghasil imej berasaskan AI yang menggunakan pangkalan data AI Laion sedang dilatih dengan ribuan imej bahan penyalahgunaan kanak-kanak haram, sesuatu yang menimbulkan kebimbangan etika dan undang-undang yang serius bagi model teks-ke-imej atau video.

Pengguna di X terdiam

Beberapa video demo telah beredar di X yang menunjukkan contoh Sora dalam tindakan, sementara Sora kini menjadi tular di X dengan lebih daripada 173,000 kiriman.

Untuk memperlihatkan apa yang model generatif baru ini mampu lakukan, CEO OpenAI Sam Altman membuka diri untuk permintaan video khusus dari pengguna di X, dengan ketua AI tersebut mempersembahkan tujuh video yang dihasilkan oleh Sora, daripada itik yang menunggang naga hingga golden retriever yang merekodkan podcast di puncak gunung.

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) 15 Februari 2024

Pakar AI Mckay Wrigley â bersama dengan banyak orang lain â menulis bahawa video yang dihasilkan oleh Sora telah membuatnya terdiam.

Pada 15 Februari, dalam satu kiriman di X, penyelidik kanan Nvidia Jim Fan menyatakan bahawa sesiapa yang menganggap Sora hanya "mainan kreatif" lain seperti Dall-E 3, adalah salah.

Jika anda berfikir OpenAI Sora adalah mainan kreatif seperti DALLE, ... fikirkan semula. Sora adalah enjin fizik berasaskan data. Ia adalah simulasi banyak dunia, sama ada nyata atau khayalan. Simulator ini mempelajari penghasilan rumit, fizik "intuitif", penalaran jangka panjang, dan pengikatan semantik, semuaâ¦ pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) 15 Februari 2024

Menurut pandangan Fan, Sora bukan sekadar alat penghasil video tetapi lebih kepada "enjin fizik berasaskan data," kerana model AI ini tidak hanya menghasilkan video abstrak tetapi juga mencipta fizik objek dalam adegan itu sendiri.

Majalah: 'Kripto adalah sesuatu yang tidak dapat dielakkan' jadi kami 'terlibat sepenuhnya' â Kenali Vance Spencer, permabull

Cointelegraph komited terhadap kewartawanan yang bebas dan telus. Artikel berita ini dihasilkan selaras dengan Dasar Editorial Cointelegraph dan bertujuan untuk menyediakan maklumat yang tepat serta tepat pada masanya. Pembaca digalakkan untuk mengesahkan maklumat secara bebas. Baca Dasar Editorial kami https://my.cointelegraph.com/editorial-policy