Мы переживаем революцию в области искусственного интеллекта: в последнее десятилетие появились практически полезные помощники на основе ИИ, системы ИИ, способные генерировать фотореалистичные изображения и видео, и даже модели, способные предсказывать структуру белков. Но, несмотря на все эти достижения, человеческий интеллект значительно опережает ИИ, когда дело касается физического мира. Перефразируя парадокс Моравека, можно сказать, что победа в шахматной партии или открытие нового лекарства — это «простые» задачи для ИИ, но чтобы сложить рубашку или убрать со стола, нужно решить одни из самых сложных инженерных задач, которые когда-либо существовали. Чтобы создать системы искусственного интеллекта, обладающие такой же физической гибкостью, как у людей, нам нужен новый подход — нам нужно сделать системы искусственного интеллекта воплощёнными, чтобы они могли обладать физическим интеллектом.
Старт ап Physical Intelligence разработал универсальную базовую модель робота, которую назвали π0 (пи-ноль). Это первый шаг к долгосрочной цели — разработке искусственного физического интеллекта, чтобы пользователи могли просто просить роботов выполнять любые задачи, как они могут просить об этом большие языковые модели (LLM) и чат-ботов. Как и LLM, модель обучается на обширных и разнообразных данных и может следовать различным текстовым инструкциям. В отличие от больших языковых моделей, он обрабатывает изображения, текст и действия и приобретает физический интеллект, обучаясь на опыте взаимодействия с роботами и напрямую выводя низкоуровневые команды для двигателей с помощью новой архитектуры. Он может управлять различными роботами, и его можно либо попросить выполнить желаемую задачу, либо настроить для решения сложных задач.
Перспектива универсальной политики в отношении роботов
Современные роботы — узкие специалисты. Промышленные роботы запрограммированы на повторяющиеся движения в заданных условиях: они многократно выполняют одну и ту же сварку в одном и том же месте на сборочной линии или кладут один и тот же предмет в одну и ту же коробку. Даже такое простое поведение требует тщательной ручной настройки, а более сложное поведение в беспорядочной реальной среде, например в доме, просто невозможно. ИИ может изменить это, позволив роботам обучаться и следовать инструкциям пользователя, так что программировать новое поведение будет так же просто, как сказать роботу, что вы хотите от него, и робот сам сможет понять, как адаптировать своё поведение к окружающей среде. Но для этого нужны данные. Языковые модели и другие базовые модели извлекают данные из интернета, используя значительную часть всех доступных документов. Такого хранилища данных о роботах не существует, поэтому, чтобы робот мог освоить новый навык, необходимо собрать большой объём данных с помощью этого конкретного робота и для этого конкретного приложения.
Если бы мы могли обучить одного универсального робота, который мог бы выполнять широкий спектр различных задач и управлять широким спектром различных роботов, мы бы справились с этой проблемой: такой модели потребовалось бы лишь немного данных от каждого робота и от каждого приложения. Точно так же, как человек может быстро освоить новый навык, опираясь на опыт всей жизни, такой универсальный робот мог бы выполнять новые задачи, используя лишь небольшое количество данных. Это не первый случай, когда модель-универсал побеждает специалиста в его же собственной задаче: языковые модели вытеснили более специализированные системы обработки языка именно потому, что они могут лучше решать эти специализированные задачи, опираясь на своё разнообразное и универсальное предварительное обучение. Точно так же, как LLM обеспечивают базовую модель для языка, эти универсальные политики для роботов обеспечат базовую модель для физического интеллекта.
Чтобы достичь этого, необходимо решить серьёзные технические проблемы. Первый шаг — π0, модель-прототип, которая сочетает в себе крупномасштабный сбор данных о множестве задач и множестве роботов с новой сетевой архитектурой, позволяющей создать наиболее способного и ловкого универсального робота на сегодняшний день. Это лишь небольшой первый шаг на пути к разработке действительно универсальных моделей роботов, который даёт представление о том, что будет дальше.
Смесь тренировок для разных вариантов применения
Первый прототип универсального робота обучается на крупнейшем на сегодняшний день наборе данных о взаимодействии роботов. Полный набор данных для обучения включает в себя как данные из открытых источников, так и большой и разнообразный набор данных о ловких действиях, которые собраны с помощью 8 разных роботов. Задачи в этом наборе данных задействуют различные аспекты ловкости робота и охватывают широкий спектр реальных задач, которые могут быть поставлены перед этими роботами: от мытья посуды до упаковки предметов в конверты, складывания одежды, прокладки кабелей, сборки коробок, подключения к электросети, упаковки еды в контейнеры и сбора и выбрасывания мусора. Основная цель при выборе этих задач — не решить какую-то конкретную задачу, а дать модели общее представление о физических взаимодействиях — первоначальную основу для физического интеллекта.
Наследование семантического понимания в масштабе Интернета
Помимо обучения на множестве различных роботов, π0 наследует семантические знания и визуальное понимание, полученные в результате предварительного обучения в интернет-масштабе, начиная с предварительно обученной модели «зрение-язык» (Vision language model- VLM). VLM обучаются моделированию текста и изображений в интернете. К широко используемым VLM относятся GPT-4V и Gemini. Старт ап использует VLM с 3 миллиардами параметров в качестве отправной точки и адаптирует её для управления роботом в реальном времени.
Задача Physical Intelligence — разработать базовые модели, которые смогут управлять любым роботом для выполнения любой задачи. Эксперименты показывают, что такие модели могут управлять различными роботами и выполнять задачи, с которыми не справлялись предыдущие системы обучения роботов, например, складывать бельё в корзину для стирки или собирать картонную коробку. В ближайшем будущем будут достигнуты значительные успехи, но первые результаты рисуют многообещающую картину будущего базовых моделей роботов: универсальные алгоритмы с широкими возможностями, которые наследуют семантическое понимание, полученное в результате предварительного обучения в интернет-масштабе, объединяют данные из множества различных задач и платформ роботов и обеспечивают беспрецедентную ловкость и физические возможности.