Генерирование реалистичного 3D мира

Стоя на кухне, вы с лязгом сталкиваете несколько металлических мисок со столешницы в раковину и накидываете полотенце на спинку стула. В другой комнате раздается звук падения нескольких неустойчиво сложенных деревянных кубиков и эпической аварии игрушечного автомобиля. Это взаимодействие с окружающей средой — лишь часть того, что люди ежедневно испытывают дома, но хотя этот мир может казаться реальным, он таковым не является.

Новое исследование ученых из Массачусетского технологического института, Лаборатории искусственного интеллекта MIT-IBM Watson, Гарвардского университета и Стэнфордского университета позволяет создать богатый виртуальный мир, напоминающий «Матрицу». Их платформа, названная ThreeDWorld (TDW), моделирует аудио- и визуальную среду с высокой точностью, как внутри, так и вне помещений, и позволяет пользователям, объектам и мобильным агентам взаимодействовать, как в реальной жизни и в соответствии с законами физики. Ориентация объектов, физические характеристики и скорости рассчитываются и выполняются для жидкостей, мягких тел и твердых объектов по мере взаимодействия, имитируя столкновения и звуки ударов.

TDW был разработан гибким и адаптивным. Генерируя фотореалистичные сцены и аудио рендеринг в реальном времени, он дает возможность скомпоновать аудио-визуальный набор, реагирующий и изменяющийся в процессе взаимодействия внутри сцены. Посредством данной технологии могут быть созданы различные типы роботов-агентов и аватаров в рамках управляемой симуляции для выполнения, например, планирования и выполнения задач. А используя виртуальную реальность (VR), человеческое внимание и игровое поведение в пространстве можно воспроизвести и данные реального мира.

«Мы пытаемся создать универсальную симуляционную платформу, которая имитирует интерактивную насыщенность реального мира для различных приложений ИИ», — говорит ведущий автор исследования Чуан Ган, научный сотрудник лаборатории ИИ MIT-IBM Watson.

Создание реалистичных виртуальных миров, с помощью которых можно изучать поведение человека и обучать роботов, было мечтой исследователей ИИ и когнитивных наук. «Большая часть ИИ в настоящее время основана на контролируемом обучении, которое опирается на огромные массивы данных изображений или звуков, прокомментированных человеком, — говорит Джош МакДермотт, доцент кафедры мозга и когнитивных наук (BCS) и руководитель проекта MIT-IBM Watson AI Lab. Составление таких описаний стоит дорого, что в результате образует узкое место для исследований. А для физических свойств объектов, таких как масса, которая не всегда очевидна для человека, ярлыки могут быть вообще недоступны. Симулятор, подобный TDW, обходит эту проблему, генерируя сцены, в которых известны все параметры и аннотации. Многие конкурирующие симуляторы были мотивированы этой проблемой, но были разработаны для конкретных приложений; благодаря своей гибкости TDW предназначен для многих приложений, которые плохо подходят для других платформ.

Еще одно преимущество TDW, отмечает МакДермотт, заключается в том, что она обеспечивает контролируемые условия для понимания процесса обучения и облегчения совершенствования ИИ роботов. Роботизированные системы, которые полагаются на метод проб и ошибок, можно обучать в среде, где им нельзя причинить физический вред. Кроме того, «многие из нас в восторге от того, какие двери открывают подобные виртуальные миры для проведения экспериментов на людях, чтобы понять человеческое восприятие и познание. Есть возможность создавать очень богатые сенсорные сценарии, при этом сохраняя полный контроль и полное знание того, что происходит в окружающей среде».

Как это устроено

Работа началась как сотрудничество между группой профессоров Массачусетского технологического института, а также исследователей из Стэнфорда и IBM, связанных индивидуальными исследовательскими интересами в области слуха, зрения, познания и перцептивного интеллекта. TDW объединила их в одну платформу. «Нас всех заинтересовала идея создания виртуального мира для обучения систем искусственного интеллекта, которые мы могли бы использовать в качестве моделей мозга», — говорит МакДермотт, изучающий человеческий и машинный слух. «Поэтому мы подумали, что такая среда, где можно было бы иметь объекты, взаимодействующие друг с другом, а затем получать от них реалистичные сенсорные данные, будет ценным способом начать изучение».

Для достижения этой цели исследователи построили TDW на платформе Unity3D Engine и взяли на себя обязательство включить визуальную и слуховую визуализацию данных без какой-либо анимации. Симуляция состоит из двух компонентов: Сборка, которая рендерит изображения, синтезирует звук и запускает физические симуляции; и контроллер, который представляет собой интерфейс на основе Python, где пользователь посылает команды сборке. Исследователи создают и наполняют сцену, используя обширную библиотеку 3D-моделей объектов, таких как предметы мебели, животные и транспортные средства. Эти модели точно реагируют на изменения освещения, а их материальный состав и ориентация в сцене диктуют их физическое поведение в пространстве. Динамические модели освещения точно имитируют освещенность сцены, создавая тени и затемнения, соответствующие времени суток и углу падения солнца. Команда также создала меблированные виртуальные планы этажей, которые исследователи могут заполнить агентами и аватарами. Для синтеза реалистичного звука TDW использует генеративные модели звуков ударов, которые возникают при столкновениях или других взаимодействиях объектов в рамках симуляции. TDW также моделирует ослабление шума и реверберацию в соответствии с геометрией пространства и объектов в нем.

Два физических движка в TDW обеспечивают деформации и реакции между взаимодействующими объектами — один для жестких тел, другой для мягких объектов и жидкостей. TDW выполняет мгновенные расчеты массы, объема и плотности, а также любых сил трения и других сил, действующих на материалы. Это позволяет моделям машинного обучения узнать, как объекты с различными физическими свойствами будут вести себя вместе.

Пользователи, агенты и аватары могут оживлять сцены несколькими способами. Исследователь может непосредственно приложить силу к объекту с помощью команд контроллера, чтобы буквально привести в движение виртуальный шар. Аватары могут быть наделены полномочиями действовать или вести себя определенным образом в пространстве — например, с помощью шарнирных конечностей, способных выполнять эксперименты с заданиями. Наконец, VR-шлемы и телефоны могут позволить пользователям взаимодействовать с виртуальной средой, потенциально генерируя данные о поведении человека, на которых будут обучаться модели машинного обучения.

Более богатый опыт ИИ

Чтобы испытать и продемонстрировать уникальные функции, возможности и приложения TDW, команда провела ряд тестов, сравнивая наборы данных, созданные TDW и другими виртуальными симуляторами. Команда обнаружила, что нейронные сети, обученные на снимках изображения сцены со случайным расположением углов камеры из TDW, превзошли снимки из других симуляторов в тестах на классификацию изображений и приблизились к показателям систем, обученных на реальных изображениях. Исследователи также создали и обучили модель классификации материалов на аудиоклипах небольших объектов, падающих на поверхности в TDW, и попросили ее определить типы взаимодействующих материалов. Они обнаружили, что TDW значительно превосходит своего конкурента. Дополнительное тестирование падающих объектов с помощью нейронных сетей, обученных на TDW, показало, что сочетание аудио и зрения является наилучшим способом определения физических свойств объектов, что мотивирует дальнейшее изучение аудиовизуальной интеграции.

TDW оказывается особенно полезным для разработки и тестирования систем, которые понимают, как физические события в сцене будут развиваться во времени. Это включает в себя проверку того, насколько хорошо модель или алгоритм делает физические предсказания, например, устойчивости стопок объектов или движения объектов после столкновения — люди учатся многим из этих понятий в детстве, но многие машины должны продемонстрировать эту способность, чтобы быть полезными в реальном мире. TDW также позволила сравнить человеческую любознательность и предсказания с возможностями машинных агентов, предназначенных для оценки социальных взаимодействий в различных сценариях.

Ган отмечает, что эти приложения — лишь вершина айсберга. Расширяя возможности физического моделирования TDW для более точного отображения реального мира, «мы пытаемся создать новые эталоны для развития технологий ИИ и использовать эти эталоны для решения многих новых проблем, которые до сих пор было трудно изучать». Как вы думаете, какое место займет эта разработка в мире технологий? Чтобы закрепить свои позиции, проекту понадобится домен в зоне .digital и тогда сомнения отпадут.

источник