Techverse.asia - OpenAI hari ini meluncurkan GPT-4o, sebuah iterasi model GPT-4 yang mendukung produk unggulannya, ChatGPT. GPT-4o - 'o' adalah singkatan dari omni yang mengacu pada kemampuan model untuk menangani teks, ucapan, dan video, yang berarti semua masukan dan keluaran diproses oleh jaringan neural yang sama.
Hal ini berbeda dengan model OpenAI sebelumnya, GPT-3.5 dan GPT-4, yang memungkinkan pengguna untuk mengajukan pertanyaan hanya dengan berbicara, tapi kemudian menyalin ucapan tersebut ke dalam teks. Hal ini juga menghilangkan nada dan emosi serta membuat interaksi menjadi lebih lambat.
Baca Juga: Bocoran Spek Oppo A60 yang Bakal Meluncur di Indonesia Pekan Depan
GPT-4o akan diluncurkan secara berulang di seluruh pengembang perusahaan dan produk konsumen selama beberapa minggu ke depan. Ini akan gratis untuk semua pengguna, dan untuk pengguna berbayar akan terus memiliki batas kapasitas hingga lima kali lipat dari pengguna gratis OpenAI.
Chief Technology Officer (CTO) OpenAI Mira Murati menjelaskan bahwa GPT-4o memberikan kecerdasan yang setingkat dengan GPT-4, namun meningkatkan kemampuan GPT-4 di berbagai modalitas dan media.
“GPT-4o mencakup suara, teks, dan penglihatan. Dan ini sangat penting, karena kami melihat masa depan interaksi antara diri kita sendiri dan mesin,” katanya dalam presentasi yang disiarkan langsung di kantor OpenAI di San Francisco, Amerika Serikat pada Selasa (14/5/2024) waktu Indonesia.
Menurutnya, GPT-4o sangat meningkatkan pengalaman di chatbot bertenaga kecerdasan buatan milik perusahaan yaitu ChatGPT. Platform ini telah lama menawarkan mode suara yang mentranskripsikan tanggapan chatbot menggunakan model text-to-speech, tapi GPT-4o meningkatkannya, memungkinkan pengguna berinteraksi dengan ChatGPT lebih seperti seorang asisten.
Baca Juga: Meta Menambahkan Chatbot Kecerdasan Buatannya yang Didukung Llama 3, Tersedia di 4 Aplikasinya
Misalnya, pengguna bisa mengajukan pertanyaan kepada ChatGPT yang didukung GPT-4o dan menyela ChatGPT saat sedang menjawab. Model ini memberikan respons secara real-time, dan bahkan dapat menangkap nuansa suara pengguna, sebagai respons menghasilkan suara dalam berbagai gaya emosi yang berbeda, termasuk bernyanyi.
GPT-4o juga meningkatkan kemampuan visi ChatGPT. Dengan adanya foto - atau layar desktop - ChatGPT kini dapat dengan cepat menjawab pertanyaan terkait, mulai dari topik mulai dari 'Apa yang terjadi dalam kode perangkat lunak ini?' hingga 'Kemeja merek apa yang dikenakan orang ini?'
Fitur-fitur ini akan berkembang lebih jauh di masa depan. Meskipun saat ini GPT-4o dapat melihat gambar menu dalam bahasa lain dan menerjemahkannya, di masa depan, model tersebut dapat memungkinkan ChatGPT, misalnya, untuk menonton pertandingan olahraga langsung dan menjelaskan peraturannya kepada audiens.
Baca Juga: OpenAI Meluncurkan Fitur Memory, Bisa Melupakan Obrolan di ChatGPT
“Kami tahu bahwa model-model ini semakin kompleks, namun kami ingin pengalaman interaksi benar-benar menjadi lebih alami, mudah, dan bagi kamu untuk tidak fokus pada tampilan antarmuka (UI) sama sekali, tetapi cukup fokus pada kolaborasi dengan ChatGPT,” papar dia.
“Selama beberapa tahun terakhir, kami sangat fokus pada peningkatan kecerdasan model ini. Namun ini pertama kalinya kami benar-benar membuat langkah maju yang besar dalam hal kemudahan penggunaan,” tambahnya.
GPT-4o juga lebih multibahasa, klaim OpenAI, dengan peningkatan kinerja dalam sekitar 50 bahasa. Dan pada Antarmuka Pemrograman Aplikasi (API) di OpenAI serta layanan Microsoft Azure OpenAI, GPT-4o disebut-sebut dua kali lebih cepat, setengah harga, dan memiliki batas kecepatan lebih tinggi dibandingkan GPT-4 Turbo.
Saat ini, suara bukan bagian dari API GPT-4o untuk semua pelanggan. OpenAI, dengan alasan risiko penyalahgunaan, mengatakan bahwa mereka berencana untuk meluncurkan dukungan untuk kemampuan audio baru GPT-4o terlebih dahulu kepada 'sekelompok kecil mitra tepercaya' dalam beberapa minggu mendatang.
Baca Juga: AI Milik Apple Ingin Kalahkan GPT-4, Mampu Pahami Petunjuk Konteks