Google melancarkan pembangkit teks-ke-video AI yang realistik 'Lumiere'

26 Jan 2024

Konsep terbaru Google, Lumiere, adalah model penyebaran masa-ruang yang mengubah teks dan imej menjadi video AI realistik dengan kemampuan penyuntingan atas permintaan.

Google melancarkan pembangkit teks-ke-video AI yang realistik 'Lumiere' — Berita

Penyelidik di Google telah menerbitkan rancangan untuk model penyebaran masa dan ruang baru yang dipanggil Lumiere yang akan mengubah teks atau imej menjadi video AI realistik, dengan keupayaan untuk penyuntingan atas permintaan.

Lumiere direka untuk menggambarkan "gerakan realistik, pelbagai dan kohesen" melalui apa yang dipanggil "Seni Bina U-Net Masa-Ruang". Ini secara segera menghasilkan keseluruhan jangka masa video melalui satu laluan model.

Google baru sahaja mencapai terobosan video AI yang luar biasa dengan model penyebaran terkini, Lumiere.

2024 akan menjadi tahun yang besar untuk video AI, ingat kata-kata saya.

Inilah yang membezakan Lumiere daripada model video AI lain: pic.twitter.com/PulSjVZaCp
â Encik Rowan Cheung (@rowancheung) 25 Januari 2024

Dalam kertas tersebut, penyelidik menjelaskan:

"Dengan menggunakan penurunan dan peningkatan skala ruang dan (pentingnya) temporal serta memanfaatkan model penyebaran teks-ke-imej yang telah dilatih sebelumnya, model kami belajar untuk menghasilkan video resolusi rendah dengan kadar bingkai penuh dengan memprosesnya dalam pelbagai skala masa-ruang."

Ini bermakna pengguna boleh memasukkan huraian teks tentang apa yang mereka ingin lihat sebagai video atau memuat naik imej tetap dengan arahan dan menghasilkan video dinamik.

Pengguna telah membuat perbandingan Lumiere dengan ChatGPT tetapi untuk penghasilan video daripada teks dan imej, penstailan, penyuntingan, animasi, dan lain-lain, menurut kertas tersebut.

Walaupun penghasil video kecerdasan buatan lain sudah wujud, seperti Pika dan Runway, penyelidik berkata pendekatan satu laluan mereka terhadap dimensi data temporal yang berkaitan dengan penghasilan video adalah baru.

Berkaitan: AI deepfake memperdaya pengundi dan ahli politik menjelang pilihan raya AS 2024 - 'Saya fikir ia adalah nyata'

Encik Hila Chefer, penyelidik pelajar yang bekerja dengan Google, memuat naik contoh kebolehan model ini di platform media sosial X:

Pemerhatian utama Lumiere -
Sebaliknya menghasilkan video pendek dan menaikkan skala temporal, kami menjalankan penurunan bersama ruang dan *temporal* - meningkatkan kedua-dua panjang dan kualiti video yang dihasilkan pic.twitter.com/vTh6dtwcPD
â Encik Hila Chefer (@hila_chefer) 24 Januari 2024

Pengguna di X telah menyebut perkembangan ini sebagai "terobosan yang luar biasa" dan "terkini", malah berspekulasi bahawa penghasilan video akan "menjadi gila" dalam tahun hadapan.

Model video baru Google, Lumiere, boleh menstailkan gerakan dengan melihat pada satu imej, dan ia kelihatan sangat baik.

Penghasilan video generatif akan menjadi gila tahun ini, kawan-kawan

pic.twitter.com/x1hNxpdHXR
â Encik Nick St. Pierre (@nickfloats) 24 Januari 2024

Lumiere dilatih dengan set data 30 juta video dan kapsyen teks dan mempunyai keupayaan untuk menghasilkan 80 bingkai pada 16 bingkai setiap saat. Walau bagaimanapun, tidak ada sebutan mengenai sumber data yang digunakan oleh Google untuk melatih model ini - isu yang hangat dalam dunia AI dan undang-undang hak cipta.

Sejak ledakan model AI generatif yang tersedia untuk penggunaan awam, telah ada puluhan tuntutan berkaitan pelanggaran hak cipta yang difailkan terhadap pembangun atas penggunaan yang didakwa salah dalam latihan.

Salah satu kes yang paling menonjol adalah difailkan oleh The New York Times terhadap Microsoft dan OpenAI, pencipta ChatGPT, atas dakwaan penggunaan kerjanya secara "haram" untuk tujuan latihan.

Majalah: Pilihan token Crypto+AI, AGI akan mengambil 'masa yang lama', Galaxy AI ke 100 juta telefon: AI Eye

Cointelegraph komited terhadap kewartawanan yang bebas dan telus. Artikel berita ini dihasilkan selaras dengan Dasar Editorial Cointelegraph dan bertujuan untuk menyediakan maklumat yang tepat serta tepat pada masanya. Pembaca digalakkan untuk mengesahkan maklumat secara bebas. Baca Dasar Editorial kami https://my.cointelegraph.com/editorial-policy