Эксперты MIT разрабатывают PIGINet, чтобы помочь бытовым роботам вдвое сократить время планирования
ДомДом > Новости > Эксперты MIT разрабатывают PIGINet, чтобы помочь бытовым роботам вдвое сократить время планирования

Эксперты MIT разрабатывают PIGINet, чтобы помочь бытовым роботам вдвое сократить время планирования

May 28, 2023

Вам домой доставляют новенького домашнего робота, и вы просите его приготовить вам чашку кофе. Несмотря на то, что он знает некоторые базовые навыки из предыдущей практики на моделируемой кухне, он может предпринять слишком много действий — включить кран, спустить воду в туалете, опорожнить контейнер для муки и так далее. Но есть небольшое количество действий, которые могут быть полезны. Как роботу определить, какие действия разумны в новой ситуации? Он мог бы использовать PIGINet, новую систему, целью которой является эффективное расширение возможностей домашних роботов по решению проблем. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) используют машинное обучение, чтобы сократить типичный итеративный процесс планирования задач, который учитывает все возможные действия. PIGINet исключает планы задач, которые не могут удовлетворить требования отсутствия коллизий, и сокращает время планирования на 50–80 процентов при обучении только на 300–500 задачах. Обычно роботы пробуют различные планы задач и итеративно совершенствуют свои действия, пока не находят осуществимое решение, что может быть неэффективным и отнимать много времени, особенно при наличии подвижных и шарнирно-сочлененных препятствий. Может быть, например, после приготовления вы захотите убрать в шкаф все соусы. Решение этой проблемы может занять от двух до восьми шагов в зависимости от того, как выглядит мир в данный момент. Нужно ли роботу открывать несколько дверей шкафа или внутри шкафа есть какие-либо препятствия, которые нужно переместить, чтобы освободить место? Вы не хотите, чтобы ваш робот работал раздражающе медленно — и будет еще хуже, если он сгорит ужин, пока думает. Обычно считается, что домашние роботы следуют заранее заданным рецептам выполнения задач, что не всегда подходит для разнообразных или меняющихся сред. . Итак, как же PIGINet позволяет избежать этих предопределенных правил? PIGINet — это нейронная сеть, которая учитывает «планы, изображения, цели и исходные факты», а затем прогнозирует вероятность того, что план задачи может быть уточнен для поиска осуществимых планов движения. Проще говоря, он использует преобразователь-кодер, универсальную и современную модель, предназначенную для работы с последовательностями данных. Входной последовательностью в данном случае является информация о том, какой план задачи рассматривается, образы окружающей среды и символические кодировки исходного состояния и желаемой цели. Кодер объединяет планы задач, изображение и текст для создания прогноза относительно осуществимости выбранного плана задач. Храня вещи на кухне, команда создала сотни смоделированных сред, каждая из которых имеет разную планировку и конкретные задачи, требующие перестановки предметов между прилавками, холодильниками, шкафами, раковинами и кастрюлями. Измеряя время, необходимое для решения проблем, они сравнили PIGINet с предыдущими подходами. Один правильный план действий может включать в себя открытие левой дверцы холодильника, снятие крышки кастрюли, перемещение капусты из кастрюли в холодильник, перемещение картофеля в холодильник, взятие бутылки из раковины, постановку бутылки в раковину, взятие помидор или размещение помидора. PIGINet значительно сократил время планирования на 80 процентов в более простых сценариях и на 20–50 процентов в более сложных сценариях, которые имеют более длинные последовательности планирования и меньше обучающих данных. «Такие системы, как PIGINet, используют возможности методов, управляемых данными, для эффективного решения знакомых случаев. , но все же может прибегнуть к методам планирования «основных принципов» для проверки предложений, основанных на обучении, и решения новых проблем, предлагая лучшее из обоих миров, предоставляя надежные и эффективные универсальные решения для широкого спектра проблем», — говорит MIT. Профессор и главный исследователь CSAIL Лесли Пэк. Использование в PIGINet мультимодальных вложений во входной последовательности позволило лучше представить и понять сложные геометрические отношения. Использование данных изображения помогло модели понять пространственное расположение и конфигурации объектов, не зная трехмерных сеток объектов, для точной проверки столкновений, что позволяет быстро принимать решения в различных средах. Одной из основных проблем, с которыми пришлось столкнуться при разработке PIGINet, была нехватка качественных обучающих данных, поскольку все осуществимые и неосуществимые планы должны создаваться традиционными планировщиками, а это, во-первых, медленно. Однако, используя предварительно обученные модели языка видения и приемы увеличения данных, команда смогла решить эту проблему, продемонстрировав впечатляющее сокращение времени планирования не только для проблем с видимыми объектами, но и с нулевым обобщением для ранее невидимых объектов. «Потому что каждый дома В другом случае роботы должны быть адаптируемыми специалистами по решению проблем, а не просто следовать рецептам. Наша ключевая идея — позволить универсальному планировщику задач генерировать возможные планы задач и использовать модель глубокого обучения для выбора перспективных. В результате получился более эффективный, адаптируемый и практичный бытовой робот, способный ловко перемещаться даже в сложных и динамичных средах. Более того, практическое применение PIGINet не ограничивается домашними хозяйствами», — говорит Чжутян Ян, аспирант MIT CSAIL и ведущий автор работы. «Наша будущая цель — дальнейшее совершенствование PIGINet, чтобы предлагать альтернативные планы задач после выявления неосуществимых действий, что еще больше ускорит создание осуществимых планов задач без необходимости использования больших наборов данных для обучения планировщика общего назначения с нуля. Мы считаем, что это может революционизировать способы обучения роботов во время разработки, а затем их применение в каждом доме». «В этой статье рассматривается фундаментальная проблема внедрения робота общего назначения: как извлечь уроки из прошлого опыта, чтобы ускорить процесс принятия решений в неструктурированной среде, наполненной большим количеством шарнирных и подвижных препятствий», — говорит Бомджун Ким, доктор философии '20. , доцент Высшей школы искусственного интеллекта Корейского института науки и технологий (KAIST). «Основным узким местом в таких задачах является то, как определить план задачи высокого уровня, чтобы существовал план движения низкого уровня, реализующий план высокого уровня. Обычно вам приходится колебаться между планированием движения и планированием задач, что приводит к значительной вычислительной неэффективности. Работа Чжутяня решает эту проблему, используя обучение для устранения невыполнимых планов задач, и является шагом в многообещающем направлении». Ян написал статью вместе с научным сотрудником NVIDIA Кэланом Гарреттом SB '15, MEng '15, PhD '21; профессора факультета электротехники и информатики Массачусетского технологического института и члены CSAIL Томас Лосано-Перес и Лесли Кельблинг; и старший директор по исследованиям в области робототехники NVIDIA и профессор Вашингтонского университета Дитер Фокс. Команда получила поддержку AI Singapore и грантов Национального научного фонда, Управления научных исследований ВВС и Исследовательского управления армии. Частично этот проект был реализован, когда Ян был стажером в NVIDIA Research. Их исследования будут представлены в июле на конференции Robotics: Science and Systems.