Media sosial Meta telah memperkenalkan model kecerdasan buatan (AI) terbarunya untuk penyuntingan dan generasi konten, menurut sebuah pos blog pada 16 November.

Perusahaan ini sedang memperkenalkan dua model generatif yang didukung AI. Yang pertama, Emu Video, memanfaatkan model Emu sebelumnya dari Meta dan mampu menghasilkan klip video berdasarkan teks dan gambar. Model kedua, Emu Edit, difokuskan pada manipulasi gambar, menjanjikan ketepatan yang lebih tinggi dalam penyuntingan gambar.

Model-model ini masih dalam tahap penelitian, tetapi Meta mengatakan hasil awalnya menunjukkan potensi penggunaan bagi para kreator, seniman, dan animator.

Meta memperlihatkan model generatif baru mereka, Emu Edit. Sumber: Meta

Menurut catatan blog Meta, Video Emu telah dilatih dengan pendekatan "difaktorkan", membahagikan proses latihan kepada dua langkah untuk membolehkan model responsif kepada input yang berbeza:

"Kami membahagikan proses ini kepada dua langkah: pertama, menghasilkan gambar berdasarkan teks, dan kemudian menghasilkan video berdasarkan teks dan gambar yang dihasilkan. Pendekatan 'faktorisasi' atau pemisahan ini dalam generasi video memungkinkan kami melatih model generasi video dengan efisien."

Model yang sama dapat "menganimasikan" gambar berdasarkan teks. Menurut Meta, Emu Video hanya menggunakan dua model resapan untuk menghasilkan video berukuran 512x512 selama empat detik dengan kecepatan 16 frame per detik, bukan menggunakan "rangkaian model yang dalam".

Emu Edit, yang difokuskan pada manipulasi gambar, akan memungkinkan pengguna untuk menghapus atau menambahkan latar belakang pada gambar, melakukan transformasi warna dan geometri, serta penyuntingan lokal dan global gambar.

"Kami berpendapat bahwa tujuan utama bukan hanya menghasilkan gambar yang 'dapat dipercaya'. Sebaliknya, model harus fokus pada mengubah piksel yang relevan dengan permintaan penyuntingan dengan tepat," catat Meta, mengklaim model mereka mampu mengikuti instruksi dengan tepat:

"Sebagai contoh, apabila menambah teks 'Aloha!' pada topi besbol, topi itu sendiri harus kekal tidak berubah."

Meta melatih Emu Edit menggunakan tugas visi komputer dengan kumpulan data 10 juta gambar yang disintesis, masing-masing dengan gambar input dan deskripsi tugas, serta gambar output yang ditargetkan. "Kami percaya ini adalah kumpulan data terbesar jenisnya hingga saat ini," kata perusahaan tersebut.

Model Emu yang baru dikeluarkan oleh Meta dilatih menggunakan 1,1 miliar data, termasuk foto dan keterangan yang dibagikan oleh pengguna di Facebook dan Instagram, CEO Mark Zuckerberg mengungkapkan saat acara Meta Connect pada bulan September.

Regulator-regulator sedang memperhatikan dengan cermat alat berbasis AI dari Meta, yang mengakibatkan pendekatan peluncuran yang hati-hati oleh perusahaan teknologi tersebut. Baru-baru ini, Meta mengungkapkan bahawa mereka tidak akan memperbolehkan kempen politik dan pengiklan menggunakan alat AI mereka untuk membuat iklan di Facebook dan Instagram. Namun, aturan umum periklanan platform tersebut tidak mencakup aturan yang mengatur AI secara khusus.