Tiga AI Generatif Baru dari Google untuk Berkreasi: Veo, Imagen 3 dan Lyria

Google memperbarui model pada alat Imagen dan meluncurkan Imagen 3, belum lama ini.

VP Product Management Google, Eli Collins, dalam sebuah keterangan memperkenalkan bahwa Imagen 3, model text-to-image terbaru dari Google ini bisa menghasilkan gambar dengan tingkat detail yang sangat baik.

Alat AI (kecerdasan buatan) ini akan membuat gambar menjadi fotorealistik dan hidup, dengan jauh lebih minim artefak visual yang mengganggu bila dibandingkan model sebelumnya (Imagen dan Imagen 2).

Imagen 3 dapat memahami natural language (bahasa alami) dengan lebih baik, maksud yang terkandung dalam perintah, dan memasukkan detail-detail kecil dari perintah yang panjang.

"Pemahaman tingkat lanjut yang dimiliki model ini membantunya menguasai berbagai macam gaya visual," kata Collins, seperti dikutip pada Kamis (23/5/2024).

Contoh penggunaan alat tersebut bisa kamu lihat lewat gambar serigala pada head artikel ini, yang dibuat menggunakan Imagen 3 dengan perintah teks seperti berikut:

'Gambar close up seekor serigala yang berpose anggun dengan latar belakang abu-abu, dalam foto beresolusi tinggi dengan detail gambar yang halus, dengan gaya foto stok dan gradasi warna dalam gaya hiper-realistis.'

"Imagen 3 juga merupakan model terbaik kami untuk merender teks, yang selama ini menjadi tantangan bagi model pembuatan gambar. Dengan kemampuan ini, model kami kini dapat membuat pesan ulang tahun kustom, memberi judul pada presentasi, dan lain-lain," tutur Eli.

Sementara itu, Senior Research Director di Google, Douglas Eck, menjelaskan bahwa perusahaan juga memiliki model Veo, alat canggih yang bisa membuat video berdefinisi tinggi lewat perintah teks.

Seakan mengingatkan kita dengan Sora milik OpenAI, Veo dapat membuat video beresolusi 1080p dalam berbagai gaya sinematik dan visual, serta berdurasi lebih dari satu menit.

Dengan pemahaman tingkat lanjut tentang bahasa alami dan semantik visual, Veo dapat membuat video yang hampir mewakili visi kreatif pengguna. Model ini dapat menangkap konteks dan nuansa yang ada di dalam perintah, serta menampilkan detail yang disebutkan dalam perintah yang panjang.

Menurut Douglas Eck, model ini memberikan kendali kreatif yang jauh lebih besar, serta mampu memahami istilah-istilah sinematik seperti 'timelapse' atau 'aerial shot dari suatu landscape.'

Veo juga bisa membuat video yang konsisten dan koheren, sehingga manusia, hewan, dan objek terlihat bergerak secara realistis sepanjang adegan.

"Veo dibangun berdasarkan karya model video generatif kami selama bertahun-tahun, termasuk Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, dan Lumiere — menggabungkan arsitektur, hukum penskalaan, dan teknik baru lainnya untuk meningkatkan kualitas dan resolusi output video," jelasnya.

Perusahaan mengklaim, mereka telah melakukan uji keselamatan, menerapkan filter, memasang pengaman, dan melibatkan tim mereka dalam proses inti pengembangan.

Selain itu, mulai hari ini, semua gambar, audio, teks, dan video yang dibuat AI Google akan diberi watermark (tanda air) oleh SynthID.

Berikutnya, tim AI Google berkolaborasi bersama sejumlah musisi, penulis lagu, dan produser musik, untuk mengembangkan teknologi musik AI generatif Lyria.

Hadir berkat kemitraan dengan YouTube, Lyria dapat dimanfaatkan untuk membuat musik dengan AI.

"Sebagai bagian dari kolaborasi ini, kami telah mengembangkan serangkaian alat musik AI bernama Music AI Sandbox. Alat-alat ini dirancang untuk membuka ruang kreativitas baru, memungkinkan para musisi untuk membuat musik instrumental baru dari awal, mentransformasi suara dengan cara baru, dan banyak lagi," demikian dijabarkan lebih lanjut oleh Google.