Penyelidik di Google telah menerbitkan rancangan untuk model penyebaran masa dan ruang baru yang dipanggil Lumiere yang akan mengubah teks atau imej menjadi video AI realistik, dengan keupayaan untuk penyuntingan atas permintaan.
Lumiere direka untuk menggambarkan "gerakan realistik, pelbagai dan kohesen" melalui apa yang dipanggil "Seni Bina U-Net Masa-Ruang". Ini secara segera menghasilkan keseluruhan jangka masa video melalui satu laluan model.
Google baru sahaja mencapai terobosan video AI yang luar biasa dengan model penyebaran terkini, Lumiere.
â Encik Rowan Cheung (@rowancheung) 25 Januari 2024
2024 akan menjadi tahun yang besar untuk video AI, ingat kata-kata saya.
Inilah yang membezakan Lumiere daripada model video AI lain: pic.twitter.com/PulSjVZaCp
Dalam kertas tersebut, penyelidik menjelaskan:
"Dengan menggunakan penurunan dan peningkatan skala ruang dan (pentingnya) temporal serta memanfaatkan model penyebaran teks-ke-imej yang telah dilatih sebelumnya, model kami belajar untuk menghasilkan video resolusi rendah dengan kadar bingkai penuh dengan memprosesnya dalam pelbagai skala masa-ruang."
Ini bermakna pengguna boleh memasukkan huraian teks tentang apa yang mereka ingin lihat sebagai video atau memuat naik imej tetap dengan arahan dan menghasilkan video dinamik.
Pengguna telah membuat perbandingan Lumiere dengan ChatGPT tetapi untuk penghasilan video daripada teks dan imej, penstailan, penyuntingan, animasi, dan lain-lain, menurut kertas tersebut.
Walaupun penghasil video kecerdasan buatan lain sudah wujud, seperti Pika dan Runway, penyelidik berkata pendekatan satu laluan mereka terhadap dimensi data temporal yang berkaitan dengan penghasilan video adalah baru.
Encik Hila Chefer, penyelidik pelajar yang bekerja dengan Google, memuat naik contoh kebolehan model ini di platform media sosial X:
Pemerhatian utama Lumiere -
â Encik Hila Chefer (@hila_chefer) 24 Januari 2024
Sebaliknya menghasilkan video pendek dan menaikkan skala temporal, kami menjalankan penurunan bersama ruang dan *temporal* - meningkatkan kedua-dua panjang dan kualiti video yang dihasilkan pic.twitter.com/vTh6dtwcPD
Pengguna di X telah menyebut perkembangan ini sebagai "terobosan yang luar biasa" dan "terkini", malah berspekulasi bahawa penghasilan video akan "menjadi gila" dalam tahun hadapan.
Model video baru Google, Lumiere, boleh menstailkan gerakan dengan melihat pada satu imej, dan ia kelihatan sangat baik.
â Encik Nick St. Pierre (@nickfloats) 24 Januari 2024
Penghasilan video generatif akan menjadi gila tahun ini, kawan-kawan
pic.twitter.com/x1hNxpdHXR
Lumiere dilatih dengan set data 30 juta video dan kapsyen teks dan mempunyai keupayaan untuk menghasilkan 80 bingkai pada 16 bingkai setiap saat. Walau bagaimanapun, tidak ada sebutan mengenai sumber data yang digunakan oleh Google untuk melatih model ini - isu yang hangat dalam dunia AI dan undang-undang hak cipta.
Sejak ledakan model AI generatif yang tersedia untuk penggunaan awam, telah ada puluhan tuntutan berkaitan pelanggaran hak cipta yang difailkan terhadap pembangun atas penggunaan yang didakwa salah dalam latihan.
Salah satu kes yang paling menonjol adalah difailkan oleh The New York Times terhadap Microsoft dan OpenAI, pencipta ChatGPT, atas dakwaan penggunaan kerjanya secara "haram" untuk tujuan latihan.
Majalah: Pilihan token Crypto+AI, AGI akan mengambil 'masa yang lama', Galaxy AI ke 100 juta telefon: AI Eye