OpenAI Merilis Advanced Voice Mode

OpenAI merilis fitur suara ChatGPT yang sangat realistis kepada beberapa pengguna yang membayar.

Fitur yang telah dirilis sejak Selasa (30/7/2024) itu disebut sebagai Advanced Voice Mode.

OpenAI memberikan akses untuk bercakap-cakap dengan chatbot suara ini baru kepada pengguna GPT-4o.

"Versi alfa akan tersedia untuk sekelompok kecil pengguna ChatGPT Plus hari ini. OpenAI mengatakan, fitur tersebut akan diluncurkan secara bertahap untuk semua pengguna Plus, pada musim gugur 2024," demikian dilansir dari TechCrunch, Rabu (31/7/2024).

Dalam pengumuman perusahaan, OpenAI menyebut bahwa Advanced Voice Mode ini adalah versi lanjutan dari Voice Mode yang sudah ada sebelumnya.

Namun, Advanced Voice Mode ini diklaim akan "menawarkan percakapan yang lebih alami dan real-time, memungkinkan Anda untuk menyela kapan saja, serta merasakan dan merespons emosi Anda."

Dukungan untuk percakapan suara hadir September lalu di ChatGPT, dan versi yang lebih canggih mendapatkan demo publik pada Mei, tulis Engadget.

Ketika OpenAI kali pertama memamerkan suara GPT-4o pada Mei 2024, fitur tersebut mengejutkan pengguna dengan respons cepat dan kemiripan yang luar biasa dengan suara manusia sungguhan – khususnya satu suara manusia.

Di saat itu, suara yang dihasilkan adalah suara Sky, dan menyerupai suara seorang aktris populer, Scarlett Johansson.

Segera setelah demo suara GPT-4o OpenAI, Johansson berkomentar bahwa ia tidak terima 'suaranya dikloning' tanpa izin. Ia bahkan menyewa penasihat hukum untuk membela pernyataan itu.

OpenAI membantah telah menggunakan suara Johansson, kemudian menghapus suara yang ditampilkan dalam demonya. Selanjutnya pada Juni 2024, OpenAI mengatakan akan menunda peluncuran Advanced Voice Mode untuk meningkatkan langkah-langkah keamanannya.

GPT-4o bersifat multimodal dalam membangun kemampuan suaranya, bukan tiga model terpisah yang digunakan oleh solusi audio sebelumnya. Dengan demikian, mengurangi latensi ketika pengguna sedang bercakap-cakap dengan chatbot.

Model ini juga mampu memproses tugas-tugas tanpa bantuan model tambahan.

OpenAI mengklaim, GPT-4o dapat merasakan intonasi emosional dalam suara pengguna, termasuk kesedihan, kegembiraan, atau nyanyian.

Dalam masa uji coba, pengguna ChatGPT Plus akan melihat langsung betapa hiperrealistisnya Advanced Voice Mode OpenAI.

OpenAI mengatakan pihaknya merilis suara baru ChatGPT secara bertahap untuk memantau penggunaannya secara ketat. Orang-orang dalam kelompok alfa akan mendapatkan peringatan di aplikasi ChatGPT, diikuti oleh email berisi petunjuk tentang cara menggunakannya.

Dalam beberapa bulan sejak demo OpenAI, perusahaan tersebut mengatakan telah menguji kemampuan suara GPT-4o, dengan lebih dari 100 red teamer eksternal yang berbicara dalam 45 bahasa berbeda.

OpenAI mengatakan, laporan tentang upaya keamanan ini akan dirilis pada awal Agustus.

Tambahan informasi, suara Sky yang ditampilkan dalam demo OpenAI pada Mei tidak lagi tersedia di ChatGPT.

Juru bicara OpenAI, Lindsay McCallum, mengatakan bahwa ChatGPT tidak dapat meniru suara orang lain, baik individu maupun tokoh masyarakat, dan akan memblokir keluaran yang berbeda yang muncul.

OpenAI berupaya menghindari kontroversi deepfake. Mereka juga mengatakan telah memperkenalkan filter baru untuk memblokir permintaan tertentu yang berpotensi melanggar hak cipta audio.