سال 2024 در زمینه هوش مصنوعی و رباتیک هیجانانگیز خواهد بود و از یادگیری گرفته تا طراحی محصول، هیجان زیادی در مورد پتانسیل کاربردهای مختلف این دو فناوری وجود دارد. محققان DeepMind Robotics گوگل یکی از معدود تیمهایی هستند که پتانسیل این فضا را بررسی میکنند و اکنون با انتشار یک پست جدید به تحقیقات خود در زمینه ارائه درک بهتر به رباتها اشاره کردهاند.
محققان گوگل در این پست که با عنوان «تشکیل آینده رباتیک پیشرفته» منتشر شده است به پیشرفتهای مختلفی در زمینه رباتیک اشاره کردهاند. AutoRT یکی از این سیستمها است که با استفاده از یک مدل زبان بصری (VLM) برای آگاهی بهتر از یک موقعیت معرفی شده است. در واقع AutoRT میتواند گروهی از رباتها که مجهز به دوربین هستند را مدیریت کند تا بتواند طرح محیط و شیء درون آن را به دست بیاورد.
در همین حال، با کمک مدل زبان بزرگ میتوان وظایفی را به ربات ارائه کرد که توسط سختافزار انجام میشوند. به عقیده دانشمندان، LLMها باعث میشوند تا قابلیتهای بیشتری در دسترس رباتها قرار بگیرد و بهطور مؤثر بتوانند دستورات زبان طبیعی را درک کنند و نیاز به مهارتهای کدنویسی را کاهش میدهد.
محققان گوگل در طول ماههای گذشته در حال آزمایش این سیستم بودهاند. AutoRT میتواند تا 20 ربات و در مجموع 52دستگاه مختلف را با یکدیگر مدیریت کند. در مجموع، DeepMind حدود 77 هزار آزمایش که شامل بیش از 6000 وظیفه میشود را انجام داده است.
سیستم دیگر تیم گوگل RT-Trajectory نام دارد که با ورودیهایی ویدیویی به ربات آموزش میدهد. در حال حاضر تیمهای زیادی در حال بررسی استفاده از ویدیوهای یوتوب برای آموزش رباتها هستند، اما RT-Trajectory سطح جدیدی را برای این کار ارائه میکند.
به گفته DeepMind این سیستم در مقایسه با مدل هوش مصنوعی RT-2 که اخیراً برای حرفزدن با رباتها معرفی شده بود، در زمینه آموزش دو برابر عملکرد بهتری داشته است، یعنی 63 درصد در مقایسه با 29 درصد.