Buka kunci pencernaan editor secara gratis
Roula Khalaf, editor FT, memilih cerita favoritnya di buletin mingguan ini.
Google DeepMind telah meluncurkan model kecerdasan buatan untuk robotika yang dipuji sebagai tonggak dalam pencarian panjang untuk membuat mesin tujuan umum lebih berguna dan praktis di dunia sehari-hari.
Model robotika baru perusahaan, yang disebut Gemini Robotics dan Gemini Robotics-ER, dirancang untuk membantu robot beradaptasi dengan lingkungan yang kompleks dengan memanfaatkan kemampuan penalaran model bahasa besar untuk menyelesaikan tugas-tugas dunia nyata yang rumit.
Menurut Google DeepMind, robot yang dilatih menggunakan model barunya dapat melipat rubah origami, mengatur meja sesuai dengan instruksi verbal, kabel headphone bungkus dan membanting bola basket miniatur melalui lingkaran. Perusahaan ini juga bermitra dengan Start-up Apptronik untuk membangun robot humanoid menggunakan teknologi ini.
Perkembangan ini terjadi sebagai kelompok teknologi, termasuk Tesla dan Openai, dan perusahaan baru berlomba untuk membangun “otak” AI yang dapat mengoperasikan robotika secara mandiri dalam gerakan yang dapat mengubah berbagai industri, dari manufaktur ke perawatan kesehatan.
Jensen Huang, Kepala Eksekutif Chipmaker Nvidia, mengatakan tahun ini bahwa penggunaan AI generatif untuk menggunakan robot pada skala mewakili peluang multi-miliar dolar yang akan “membuka jalan ke” industri teknologi terbesar yang pernah ada di dunia “.
Kemajuan dalam robotika canggih sangat lambat dalam beberapa dekade terakhir, dengan para ilmuwan secara manual mengkodekan setiap gerakan yang dibuat robot. Berkat teknik AI baru, para ilmuwan telah mampu melatih robot untuk beradaptasi lebih baik dengan lingkungan mereka dan Pelajari keterampilan baru lebih cepat.
“Robotika Gemini dua kali lebih umum daripada model terbaik kami sebelumnya, benar -benar membuat lompatan yang signifikan terhadap robot tujuan umum,” kata Kanishka Rao, insinyur perangkat lunak utama di Google DeepMind.
Untuk membuat model robotika Gemini, Google menggunakan model bahasa Gemini 2.0 dan dilatih secara khusus untuk mengontrol robot. Ini memberi robot dorongan dalam kinerja dan memungkinkan mereka untuk melakukan tiga hal: menyesuaikan dengan berbagai situasi baru, menanggapi dengan cepat instruksi verbal atau perubahan di lingkungan mereka, dan cukup cekatan untuk memanipulasi objek.
Kemampuan beradaptasi seperti itu akan menjadi anugerah bagi mereka yang mengembangkan teknologi, karena salah satu hambatan besar untuk robotika adalah bahwa mereka berkinerja baik di laboratorium, tetapi buruk dalam pengaturan yang kurang terkendali.
Untuk mengembangkan robotika Gemini, Google DeepMind mengambil keuntungan dari pemahaman luas tentang dunia yang dipamerkan oleh model bahasa besar yang dilatih pada data dari Internet. Misalnya, robot dapat beralasan bahwa ia harus mengambil cangkir kopi menggunakan dua jari.
“Ini tentu saja merupakan perkembangan yang menarik di bidang robotika yang tampaknya membangun kekuatan Google dalam data dan perhitungan skala yang sangat besar,” kata Ken Goldberg, seorang profesor robotika di University of California, Berkeley, yang bukan bagian dari penelitian ini.
Dia menambahkan bahwa salah satu aspek paling baru dari model robotika baru ini adalah mereka berjalan dengan lancar di cloud, mungkin karena mereka dapat memanfaatkan akses Google ke model bahasa yang sangat besar yang membutuhkan daya komputer yang substansial.
“Ini adalah upaya yang sangat komprehensif dengan hasil yang meyakinkan mulai dari penalaran spasial hingga manipulasi yang cekatan. Ini adalah bukti yang cukup menarik bahwa model basis (visi-bahasa) yang lebih kuat dapat menyebabkan kinerja manipulasi yang lebih baik, ”kata Russ Tedrake, seorang profesor di Massachusetts Institute of Technology dan Wakil Presiden Penelitian Robotika di Toyota Research Institute.
“Gemini adalah langkah penting,” kata Goldberg. Namun, “masih banyak yang harus dilakukan sebelum robot tujuan umum siap untuk diadopsi”.