OpenAI kali ini menawarkan suatu fitur terbaru dari pengembangan DALL-E 1 dan 2.
Jika pada kedua fitur yang disebut tadi, kita dapat membuat karya lukisan lewat tulisan dengan gambar yang kita mau, lewat pengembangan terbaru ini mereka membuat pengembangan dengan membuat software yang dapat menciptakan karya tiga dimensi.
Sama seperti pendahulunya, software tersebut menggunakan point cloud 3D dari pesan teks. Dengan hal itu, penggemar teknologi kecerdasan buatan (Artificial Intelligence/AI) dapat beralih dari teks ke gambar 2D ke model 3D dengan gambar secara generatif.
OpenAI merilis sebuah publikasi ilmiah mereka, pada 16 desember 2022 dengan judul Point-E: A System for Generating 3D Point Clouds from Complex Prompts. Tulisan itu mereka unggah di laman Git Hub, kemudian kami lansir pada Rabu (21/12/2022).
Di dalamnya disebutkan, jika perusahaan mempunyai tujuan untuk menggabungkan manfaat dari kedua kategori dengan memasangkan teks-ke-gambar dengan model gambar-ke-3D.
Mereka menggunakan model text to image, memanfaatkan korpus besar atau yang dimaksud teks dan gambar secara berpasangan. Hal itu memungkinkan untuk menawarkan sebuah petunjuk yang beragam dan kompleks.
Sedangkan untuk model 3D, mereka dilatih untuk memasangkan kumpulan data yang lebih kecil untuk gambar dan 3D.
Pandangan mereka dalam paper menjelaskan, metode mereka ini masih membutuhkan banyak evaluasi dibandingkan teknik yang lebih canggih. Namun dalam konteks ini mereka mampu menghasilkan sampel dalam waktu yang cukup singkat, dengan objek 3D yang berkualitas lebih tinggi.
Jadi, dalam penerapan teknologi ini, untuk dapat menghasilkan sebuah objek 3D, pertama-tama kita harus membuat sampel gambar menggunakan text-to-image model, lalu sampel tersebut akan dikondisikan dengan model 3D yang sesuai dengan gambar sampel.
"Dua langkah tersebut dapat dilakukan hanya dalam beberapa detik, tanpa harus menggunakan sebuah pengoptimalan yang cukup lama," tulis mereka.
Metode mereka tidak melatih sebuah model generatif tunggal yang secara langsung menghasilkan point cloud. Namun metode mereka membuat proses pembentukannya menjadi tiga langkah.
Pertama, mereka memunculkan tampilan sintetik yang dikondisikan pada keterangan teks. Langkah kedua, Point-E akan menghasilkan titik-titik kasar awan yang berjumlah 1.024 titik, yang dikondisikan dengan pandangan sintetik awal. Berikutnya, mereka menghasilkan point cloud yang lebih bagus dengan jumlah 4.096 titik, dikondisikan pada titik sebelumnya dan tampilan sintetis.
Untuk dapat menghasilkan tampilan sintetik bersyarat dari teks, mereka menggunakan 3 miliar parameter, dengan model GLIDE yang disesuaikan dengan model 3D, lalu di render dari set data yang mereka punya.
Untuk menghasilkan point cloud beresolusi rendah, mereka menggunakan model difusi invarian. Sementara untuk upsampel dari point cloud pada gambar, mereka menggunakan sebuah model difusi yang sama. Namun, hal itu hanya sebuah penambahan atau opsi pada point cloud yang beresolusi lebih rendah.
Selanjutnya, render 3D tersebut diubah menjadi bentuk jerat dengan menggunakan alat Blender. Menurut laman Analytics India Mag, algoritma dibuat dengan fokus pada realitas virtual, game, dan desain industri. Karena dapat menghasilkan sebuah objek 3D hingga 600x lebih cepat dari daripada metode saat ini.
Sebagai informasi tambahan, semua hasil karya dari Point-E dapat digunakan untuk aplikasi metaverse, atau tugas intensif dari 3D lainnya seperti pemrosesan pasca untuk produksi sebuah film.
Sementara Dall-E telah merevolusi proses pembuatan teks-ke-gambar, Point-E bertujuan melakukan hal yang sama untuk ruang 3D.
Mungkin perusahaan OpenAI menjadi perusahaan yang terbaru untuk terjun dalam generator pembuat objek 3D, tapi tentunya bukan yang pertama.
Engadget mengulas, pada wwal tahun ini Google merilis Dream Fashion dengan menggunakan versi yang lebih luas, yaitu Dream Fields. Sebuah sistem generatif yang diluncurkan pada 2021, dapat menghasilkan sebuah objek 3D tanpa menggunakan data sampel 3D.