Riset Apple: Model AI Berbasis LLM Tidak Mampu Berpikir Logis

Uli Febriarni
Selasa 15 Oktober 2024, 16:25 WIB
(ilustrasi logo Apple) AI ChatGPT dan Gemini Google tak berpikir Logis (Sumber: Apple)

(ilustrasi logo Apple) AI ChatGPT dan Gemini Google tak berpikir Logis (Sumber: Apple)

Riset yang dilakukan oleh tim kecerdasan buatan (AI) Apple menemukan bahwa, mesin yang didasarkan pada model bahasa besar (LLM), seperti yang dikembangkan oleh Meta dan OpenAI, masih kurang dalam kemampuan penalaran dasar.

Riset tersebut menyimpulkan, model LLM saat ini tidak memiliki kemampuan penalaran kritis, dan cenderung menggunakan pola pencocokan yang rentan terhadap perubahan kata-kata sederhana.

Baca Juga: Google Gunakan Energi Nuklir Sebagai Daya di Pusat Data AI

Baca Juga: Adobe Luncurkan Luncurkan Perangkat AI Terbaru Firefly Video Model, Ada Kemampuan Penyesuaian Suara Dubbing & Lipsync

LLM adalah model kecerdasan buatan yang dilatih menggunakan sejumlah besar data teks. Model ini dirancang untuk memahami, menghasilkan, dan merespons teks secara alami, meniru bagaimana manusia berbicara atau menulis. Biasanya digunakan pada chatbot AI, penerjemah dan penulisan otomatis.

"Riset yang diterbitkan oleh arXiv untuk Apple itu mengungkap, chatbot AI tersebut hanya mencocokan pola untuk menjawab pertanyaan atau memproses permintaan pengguna," demikian dilansir dari Katadata, Selasa (15/10/2024).

Diketahui, arXiv adalah platform berbagi hasil penelitian yang dikurasi dan terbuka untuk siapa saja.

Baca Juga: Vivo X200 Series Rilis di China, Tawarkan Model X200 Pro Mini

Baca Juga: Fujifilm Memperkenalkan Kamera Digital Mirrorless X-M5, Ada 2 Opsi Warna

Menurut penelitian, tolok ukur yang paling umum untuk keterampilan penalaran adalah tes GSM8K, yakni kumpulan soal matematika yang terdiri dari sekitar 8.000 soal tingkat sekolah dasar.

Tes itu digunakan untuk mengukur kemampuan penalaran dan pemecahan masalah model AI. Soal-soal ini biasanya melibatkan pertanyaan logika sederhana dan perhitungan matematika dasar.

Namun ada risiko model AI pernah dilatih dengan jawaban-jawaban dari tes tersebut. Jika benar, maka hasilnya mungkin tidak mencerminkan kecerdasan sebenarnya dari model, tetapi lebih karena AI telah mempelajari jawaban saat pelatihan, bukan karena kemampuan berpikir yang asli.

Tim Apple selanjutnya mengusulkan tolok ukur baru bernama GSM-Symbolic untuk membantu mengukur kemampuan penalaran model-model ini.

Penelitian ini menguji lebih dari 20 model, termasuk GPT-4 dari OpenAI.

Untuk menguji pola penalaran dari AI yang sesungguhnya, tes tersebut mengubah hal-hal seperti nama, angka, dan menambahkan informasi tidak penting. Poin-poin itu diubah untuk melihat apakah AI masih bisa menjawab pertanyaan dengan benar.

Secara khusus, kinerja semua model menurun saat nilai numerik atau variabel dalam pertanyaan diubah pada tolok ukur GSM-Symbolic. Penelitian tersebut juga menunjukkan, semakin kompleks pertanyaan dengan lebih banyak klausa, kinerja model semakin memburuk.

Tim Apple juga menguji masalah matematika sederhana yang seharusnya tidak dipengaruhi oleh informasi tambahan.

Contoh soal yang digunakan misalnya: "Oliver memetik 44 kiwi hari Jumat. Kemudian dia memetik 58 kiwi pada Sabtu. Pada Minggu, dia memetik dua kali lipat jumlah kiwi yang dia lakukan pada Jumat, tetapi lima di antaranya sedikit lebih kecil dari rata-rata. Berapa banyak buah kiwi yang dimiliki Oliver?"

Namun, model dari OpenAI dan Meta secara keliru menghitung jumlah total kiwi Oliver dengan mengurangkan 'lima kiwi yang lebih kecil' dalam soal tadi, tanpa memahami bahwa ukuran kiwi tidak relevan dengan masalah yang sedang ditanyakan.

Ini membuktikan bahwa model tersebut tidak benar-benar memahami masalah dan hanya mengandalkan pola bahasa.

"Model AI cenderung mengubah pernyataan menjadi operasi tanpa benar-benar memahami maknanya. Ini memvalidasi hipotesis peneliti, bahwa LLM mencari pola dalam masalah penalaran, daripada secara bawaan memahami konsep," demikian isi penelitian.

Model pengujian pada tolok ukur yang mencakup informasi yang tidak relevan itu, mengekspos cacat kritis dalam kemampuan LLM untuk benar-benar memahami konsep matematika dan membedakan informasi yang relevan untuk pemecahan masalah.

Baca Juga: Lalamove Hadirkan 3 Fitur Pengiriman Baru, Cek Selengkapnya

Berkaca pada hasil pengujian, dikabarkan Apple berencana memperkenalkan AI versinya sendiri yang lebih canggih, dimulai dengan iOS 18.1, guna mengatasi keterbatasan yang ada pada LLM saat ini.

Follow Berita Techverse.Asia di Google News
Berita Terkait Berita Terkini
Techno17 Januari 2025, 16:10 WIB

POCO X7 Pro 5G x Iron Man Edition: Wujud Kecerdikan Tony Stark

POCO x Marvel: mendukung aspirasi heroik dengan performa yang tak tertandingi.
POCO X7 Pro edisi Iron Man. (Sumber: istimewa)
Techno17 Januari 2025, 14:39 WIB

Upbit Indonesia Optimis OJK akan Perkuat Regulasi dan Inovasi Aset Kripto di Indonesia

Mereka menyambut baik pengalihan pengaturan dan pengawasan aset kripto dari Bappebti ke OJK, sebagaimana diatur dalam UU P2SK.
Resna Raniadi sebagai COO Upbit Indonesia. (Sumber: istimewa)
Techno17 Januari 2025, 12:52 WIB

Spesifikasi dan Harga Realme Note 60x yang Rilis di Indonesia

Realme Note 60x meluncur dengan ketangguhan rangka metal tahan banting Armor Shell Protection.
Realme Note 60x. (Sumber: Realme)
Techno17 Januari 2025, 11:40 WIB

Prediksi Kecerdasan Buatan pada 2025: Mendorong Keberlanjutan, Keamanan, dan Pertumbuhan di Asia Pasifik

Dengan berlalunya tahun 2024 dan tahun 2025 yang dimulai dengan fokus dan inovasi baru, dunia merefleksikan tahun yang luar biasa dalam artificial intelligence (AI).
(ilustrasi) artificial intelligence atau AI (Sumber: freepik)
Techno17 Januari 2025, 10:58 WIB

Nasib TikTok di Amerika Serikat Hanya Tinggal 2 Hari Lagi?

TikTok diambang pelarangan beroperasi bagi penggunanya di Amerika Serikat yang akan berlaku mulai Minggu (19/1/2025) besok.
Ilustrasi TikTok (Sumber: Pexels)
Techno17 Januari 2025, 10:11 WIB

Inflasi Inti Mereda, Pasar Kripto dan Saham AS Kompak Menghijau

Jelang inagurasi Presiden AS Donald Trump, terdapat potensi reli akan berlanjut hingga penentuan kebijakan suku bunga The Fed akhir bulan ini.
Ilustrasi Saham AS.
Techno17 Januari 2025, 09:52 WIB

Realme Resmi Menjadi Sponsor untuk Tim E-sports RRQ Selama 3 Tahun

Realme Indonesia dan RRQ Jalin Kerja Sama Jangka Panjang.
CEO RRQ Adrian Paulin (kiri) menerima secara simbolis kerja sama dengan Realme. (Sumber: Realme)
Techno16 Januari 2025, 21:43 WIB

CES 2025: Anker Hadirkan 3 Produk Baru Pengisi Daya

Anker ingin menghadirkan berbagai potensi lewat inovasi terbaik.
Anker meluncurkan lini produk pengisian daya barunya. (Sumber: Anker)
Lifestyle16 Januari 2025, 18:57 WIB

Reebok Tunjuk Winky Wiryawan Sebagai Muse Reebok Indonesia

Reebok Rayakan Gaya Hidup dan Performa yang Tak Lekang oleh Waktu Melalui Kampanye “Waktu Berlalu, Reebok Selalu”
Reebok menunjuk DJ Winky Wiryawan (kedua dari kiri) sebagai muse Reebok Indonesia. (Sumber: Reebok)
Techno16 Januari 2025, 17:48 WIB

JBL Horizon 3: Jam Alarm yang Membantu Menata Jadwal Tidurmu

Ubah jadwal tidur dengan Signature Sound JBL dan pencahayaan ambient yang dapat disesuaikan.
JBL Horizon 3. (Sumber: JBL)