Google ingin membuat robotnya lebih pintar, mereka merilis model pembelajaran AI Robotic Transformer (RT-2).
RT-2 adalah versi baru dari apa yang disebut perusahaan sebagai model vision-language-action (VLA). Model ini mengajarkan robot untuk mengenali pola visual dan bahasa dengan lebih baik, untuk menginterpretasikan instruksi dan menyimpulkan objek apa yang paling cocok untuk permintaan tersebut.
Kepala Robotika di Google DeepMind, Vincent Vanhoucke, meyakini betul bahwa robot membutuhkan banyak praktik untuk melatih kemampuan mereka di 'dunia nyata', itulah yang membedakan robot dengan chatbot.
Baca Juga: Samsung Galaxy Tab S9 Series: Nyaman dengan Vapor Chamber dan S Pen Bertekstur
Misalnya dalam konteks memahami 'buah apel'. Chatbot mungkin hanya dilatih tentang apel.
"Katakanlah, mempelajari segala sesuatu yang perlu diketahui tentang apel: bagaimana apel itu tumbuh, sifat fisiknya, atau bahkan yang konon mendarat di kepala Sir Isaac Newton. Sedangkan robot harus dapat mengenali apel dalam konteks, membedakannya dari bola merah, memahami seperti apa bentuknya, dan yang terpenting, mengetahui cara mengambilnya," ujarnya, dikutip dari keterangan resmi, Sabtu (29/7/2023).
Seorang inovator robot, lanjut dia, sudah mengetahui bahwa pelatihan robot bukan sekadar membutuhkan miliaran titik data, tetapi juga penerapan secara langsung, di setiap objek, lingkungan, tugas, dan situasi di dunia fisik. Ini prospek yang sangat memakan waktu dan mahal, tidak praktis bagi para inovator.
"Belajar adalah usaha yang menantang, dan terlebih lagi untuk robot," tuturnya di laman blog perusahaan.
Dengan sejumlah kecil data pelatihan robot, sistem dapat mentransfer konsep yang tertanam dalam data pelatihan bahasa dan penglihatannya untuk mengarahkan tindakan robot; bahkan untuk tugas yang belum pernah dilatih untuk melakukannya.
Baca Juga: Nicki Minaj Jadi Karakter di Game Call of Duty
Baca Juga: CFO Spotify Paul Vogel Mengisyaratkan Akan Terjadi Lebih Banyak PHK
Vanhoucke kembali memberikan permisalan. Misalnya, jika kita ingin sistem sebelumnya dapat membuang sampah, maka kita harus melatih robot secara eksplisit agar dapat mengidentifikasi sampah, memungut dan membuangnya.
Dan karena RT-2 mampu mentransfer pengetahuan dari sekumpulan besar data web, RT-2 sudah memiliki gagasan tentang 'apa itu sampah' dan dapat mengidentifikasinya tanpa pelatihan eksplisit.
"Ia bahkan memiliki ide bagaimana membuang sampah, meskipun tidak pernah dilatih untuk melakukan tindakan tersebut. Dan ia juga bisa memikirkan tentang sifat abstrak dari sampah: apa yang dulunya sekantong keripik atau kulit pisang menjadi sampah setelah Anda memakannya. RT-2 mampu memahami hal itu dari data pelatihan bahasa penglihatannya dan melakukan pekerjaannya," jelas dia.
Di dalam pengujian model RT-2 melalui lebih dari 6.000 uji coba, tim menemukan bahwa RT-2 berfungsi sebaik model sebelumnya, RT-1. Khususnya, pada tugas dalam data pelatihannya, atau tugas 'terlihat'. Dan itu hampir menggandakan kinerjanya pada novel, skenario tak terlihat menjadi 62% dari 32% RT-1.
"Dengan kata lain, dengan RT-2, robot dapat belajar lebih banyak seperti kita, mentransfer konsep yang dipelajari ke situasi baru," lanjutnya.
RT-2 tidak hanya menunjukkan bagaimana kemajuan AI mengalir dengan cepat ke dalam robotika, tetapi juga menunjukkan janji yang sangat besar untuk robot yang lebih umum.
Laman Google DeepMind menjelaskan, dalam uji coba, para peneliti menguji RT-2 dengan lengan robot di dapur kantor.
Mereka meminta lengan robotnya untuk memutuskan memilih minuman yang tepat untuk diberikan kepada orang yang kelelahan (Red Bull). Mereka juga menyuruh robot untuk memindahkan kaleng Coke ke gambar Taylor Swift dan memindahkan kaleng mendekati kotak berwarna biru.
Model baru dilatih di web dan data robotika, memanfaatkan kemajuan penelitian dalam model bahasa besar seperti Bard milik Google dan menggabungkannya dengan data robot (seperti sambungan mana yang akan dipindahkan).
"Itu juga mengerti arah dalam bahasa selain bahasa Inggris," ungkap laman tersebut.
Robot membutuhkan lebih banyak instruksi hanya untuk melakukan sesuatu yang sederhana bagi manusia. Misalnya, membersihkan minuman yang tumpah. Manusia secara naluriah tahu apa yang harus dilakukan: mengambil gelasnya, mengambil sesuatu untuk membersihkan kekacauan itu, membuangnya, dan lain kali berhati-hatilah, ulas The Verge.
Sebelumnya, mengajar robot membutuhkan waktu lama. Para peneliti harus memprogram arah secara individual. Namun dengan kekuatan model VLA seperti RT-2, robot dapat mengakses kumpulan informasi yang lebih besar untuk menyimpulkan apa yang harus dilakukan selanjutnya.
Meski terdengar sempurna, The New York Times yang dikabarkan melihat langsung demo robot RT-2 ini, menemukan ketidaksempurnaan. Misalnya, robot salah mengidentifikasi rasa soda dan salah mengidentifikasi buah sebagai warna putih.