Tim Fundamental AI Research (FAIR) di Meta, baru saja merilis secara publik empat (4) model alat bantu penelitian.
Alat-alat bertenaga kecerdasan buatan (AI) tersebut, termasuk model pembuatan gambar-ke-teks (text-to-image) dan teks-ke-musik (text-to-music), model prediksi multi-token, dan teknik untuk mendeteksi ucapan yang dihasilkan AI.
Meta Chameleon adalah alat bantu yang diklaim dapat memproses serta menghasilkan teks dan gambar.
Chameleon adalah keluarga model modal campuran yang dapat memahami dan menghasilkan gambar dan teks.
"Sama seperti manusia yang dapat memproses kata dan gambar secara bersamaan, Chameleon juga dapat memproses dan menyampaikan gambar dan teks secara bersamaan," ungkap Meta seperti diakses Senin (24/6/2024).
Baca Juga: Galaxy M15 5G: Hadir dalam Paket Edisi Khusus Free Fire, Simak Spesifikasinya
Meskipun sebagian besar model bahasa besar biasanya memiliki hasil unimodal (misalnya mengubah teks menjadi gambar), Chameleon dapat mengambil kombinasi teks dan gambar apa pun sebagai masukan dan juga mengeluarkan kombinasi teks dan gambar apa pun.
Prediksi Multi-Token
Prediksi multi-token akan membantu pengguna dalam melatih model AI, untuk dapat memprediksi kata dengan lebih cepat.
Dilatih dengan teks dalam jumlah besar, model bahasa besar (LLM) memiliki tujuan pelatihan sederhana: memprediksi kata berikutnya. Meskipun pendekatan ini sederhana dan terukur, namun juga tidak efisien.
Hal ini membutuhkan beberapa kali lipat lebih banyak teks, daripada yang dibutuhkan anak-anak untuk mempelajari tingkat kefasihan bahasa yang sama.
Baca Juga: Redmi Note 13 Pro 5G Kini Punya Warna Baru
Sekadar diingat, pada April 2024, Meta mengusulkan pendekatan baru untuk membangun LLM yang lebih baik dan lebih cepat dengan menggunakan prediksi multi-token.
Dengan menggunakan pendekatan tersebut, tim di Meta FAIR melatih model bahasa untuk memprediksi beberapa kata di masa depan sekaligus – alih-alih menggunakan pendekatan satu per satu.
"Dalam semangat ilmu pengetahuan terbuka yang bertanggung jawab, kami merilis model yang telah dilatih sebelumnya, untuk penyelesaian kode di bawah lisensi non-komersial dan hanya untuk penelitian," demikian penjelasan pihak Meta.
JASCO
AI Generatif telah memungkinkan orang untuk mengeksplorasi kreativitas mereka dengan cara baru, seperti dengan mengubah pesan teks menjadi klip musik.
Model teks-ke-musik seperti MusicGen beroperasi dengan mengandalkan masukan teks untuk pembuatan musik. Sementara itu model baru Meta, JASCO, mampu menerima berbagai masukan, seperti akord atau ketukan, untuk meningkatkan kontrol atas keluaran musik yang dihasilkan.
Hal ini memungkinkan penggabungan simbol dan audio dalam model pembuatan teks-ke-musik yang sama.
Hasilnya menunjukkan bahwa, JASCO sebanding dengan baseline yang dievaluasi dengan mempertimbangkan kualitas generasi.
Baca Juga: 5 Tips Memulai Nutrisi yang Baik untuk Aktivitas Lari
Baca Juga: 83% Pemberi Pinjaman untuk UMKM Mitra KoinWorks Adalah Anak Muda
"Sekaligus memungkinkan kontrol yang jauh lebih baik dan lebih fleksibel terhadap musik yang dihasilkan," lanjut mereka.
AudioSeal
Alat yang berikut ini, membantu penggunanya dalam mendeteksi ucapan yang dihasilkan oleh AI.
Meta FAIR meyakini, AudioSeal merupakan teknik watermarking audio pertama, yang dirancang khusus untuk deteksi lokal ucapan yang dihasilkan AI.
"AudioSeal memungkinkan untuk menentukan segmen yang dihasilkan AI dalam cuplikan audio yang lebih panjang," tulis penjelasan Meta.
Tidak seperti metode tradisional yang mengandalkan algoritma decoding kompleks, pendekatan deteksi lokal AudioSeal memungkinkan deteksi lebih cepat dan efisien.
Desain ini meningkatkan kecepatan deteksi hingga 485 kali lipat dibandingkan metode sebelumnya, sehingga cocok untuk aplikasi skala besar dan real-time.
"AudioSeal dirilis di bawah lisensi komersial. Ini hanyalah salah satu dari beberapa penelitian bertanggung jawab, yang telah kami bagikan untuk membantu mencegah penyalahgunaan alat AI generatif," imbuh tim.