Выявление «слепых зон» искусственного интеллекта

Новая модель, разработанная исследователями MIT и Microsoft, выявляет случаи, когда автономные системы «обучаются» на примерах, не соответствующих реальности. Инженеры могут использовать эту модель для беспилотных автомобилей и автономных роботов.
Например, системы искусственного интеллекта, управляющие беспилотными автомобилями, виртуозно моделируют ситуации, которые могут произойти на дороге с транспортным средством. Однако иногда автомобиль совершает неожиданную ошибку в реальном мире, потому что происходят события, которые должны были бы, но не повлияли на поведение транспортного средства. Давайте представим себе беспилотный автомобиль, который не обучили и, что более важно, не обладающий датчиками, необходимыми для того, чтобы четко различать разнообразные ситуации. Этот автомобиль не опознает в большой белой машине с красными мигающими огнями скорую помощь, и встретив такую машину на шоссе, он не будет знать, что нужно замедлиться и уступить дорогу. Он не воспримет ее, не распознает большую белую машину.
В нескольких докладах, представленных на прошлогодней конференции «Автономные агенты и многоагентные системы» и предстоящей конференции «Ассоциация развития искусственного интеллекта», исследователи описывают модель, которая использует человеческое участие в выявлении этих «слепых зон» обучения.
Как и в случае с традиционными методами обучения, исследователи используют симуляцию с помощью искусственного интеллекта. Но затем человек тестирует и контролирует действия системы в реальном мире, сообщая, если система допускает или намеревается совершить какие-либо ошибки. Затем исследователи объединяют данные обучения и информацию, полученную от человека, после чего вносят изменения в модель. Это позволяет искусственному интеллекту точнее определять ситуации, в которых системе потребуется больше информации о том, как правильно действовать.

Исследователи протестировали свой метод с помощью видеоигр, при этом смоделированный человек корректировал изученный путь персонажа на экране. Следующим шагом является, собственно, само объединение традиционного обучения и человеческого участия.
«Модель помогает автономным системам узнать о том, что им еще неизвестно», — говорит один из соавторов, Рамия Рамакришнан, аспирант Лаборатории информатики и искусственного интеллекта. «Симуляции, предназначенные для обучения, не соответствуют реальной обстановке на дорогах, машины могут совершать ошибки, попадать в аварии. Суть идеи состоит в том, чтобы использовать людей для безопасного преодоления этого разрыва между симуляцией и реальным миром, и мы можем уменьшить количество таких ошибок».

Обратная связь.

Некоторые традиционные методы обучения обеспечивают обратную связь с человеком во время реальных тестовых прогонов, но это относится только к обновлениям. Эти действия не выявляют слепые зоны, которые бы сделали поведение на дорогах безопасней.
Сначала искусственный интеллект проходит тренировку в симуляции, где формируется его представление о наилучшем действии в представленной ситуации. Следует отметить, что при этом вариативность выбора ограниченна самой симуляцией. Затем система переходит на новый этап – в реальный мир, где уже человек оценивает ее действия, и сигнализирует об ошибках в случае недопустимого поведения.
Обучить машину можно двумя путями: демонстрацией или исправлением.
В первом случае человек действует в реальности, в то время как система наблюдает и сравнивает действия человека с тем, как сама бы поступила в данном случае. Так, к примеру, происходит обучение беспилотных автомобилей. Человек ведет машину, и система выдает сигнал, если действие человека не совпадает с запланированным машиной поведением. Совпадения и несоответствия с поступками человека дает информацию о том, приемлемо или неприемлемо то или иное действие искусственного интеллекта.
Второй вариант – внесение человеком исправлений, когда система совершает действие. В таком случае он занимает место водителя, но ничего не предпринимает, пока беспилотный автомобиль двигается по запланированному маршруту без отклонений от плана. Однако, если машина начнет совершать ошибку, то человек берется за руль – и система понимает, что ее действие в данной ситуации недопустимо.
Итак, в результате влияния человека, машина получает список событий, каждому из которых соответствует маркер «допустимо» или «неприемлемо». Казалось бы, все проблемы решены? Но нет. К сожалению, система воспринимает многие ситуации, как идентичные. Если вернуться к истории о скорой помощи, то можно привести следующий пример: беспилотный автомобиль мог много раз ехать по трассе с большой белой машиной, не замедляясь и не останавливаясь. И только в одном случае — когда эта машина была скорой помощью — система получила сигнал о неправильности своих действий.
Конечная цель состоит в том, чтобы подобное были обозначено как слепые пятна. Но это выходит за рамки простого анализа приемлемых и неприемлемых действий для каждого события. Например, если система выполняла правильные действия в подобном описанному случае девять раз из десяти, то при анализе все будет говорить о том, что такую ситуацию можно обозначить как безопасную.
«Но поскольку неприемлемые действия случаются гораздо реже, чем приемлемые, система в конечном итоге будет считать правильными целый ряд ситуаций, которые могут быть чрезвычайно опасными», — говорит Рамакришнан.
Итак, исследователи использовали алгоритм Давида-Скена. Это метод машинного обучения, который обычно используется для краудсорсинга для обработки шума меток. Этот алгоритм принимает в качестве входных данных список событий, каждое из которых имеет набор меток. Затем он объединяет все данные и определяет закономерности для неприемлемых и безопасных ситуаций. Используя эту информацию, он присваивает ей статус «допустимо» или же «слепое пятно». В конце концов, формулируется что-то типа карты, где каждой ситуации из исходного обучения присваивается низкая или высокая вероятность того, что она будет слепым пятном для системы.

«В реальности система может использовать полученную информацию для того, чтобы действовать более осторожно и разумно. Если данная модель предупреждает, что машина с высокой вероятностью столкнулась с «слепой зоной», система может запросить у человека информацию о приемлемости действий», — подводит итог своей работе Рамакришнан.

Источник:  Rob Matheson , MIT News «Identifying artificial intelligence ‘blind spots'»

Поделиться