Система распознавания речи достигла человеческого уровня

Компания MICROSOFT создала программу распознавания речи, которая может потягаться с профессиональным стенографистом.

Эта система еще не совершенна, но на сегодняшний день уже гораздо ближе к способностям человека, ведь исследовательская группа Microsoft, занимающаяся искусственным интеллектом может похвастаться новым достижением в разработке систем распознавания речи. Программой, над которой они работают, достигнут самый низкий в истории уровень ошибок при распознавании речи. 5,9 процентов ошибок – этот показатель точности продемонстрировало их детище, что сравнимо с профессиональным стенографистом. Система способна распознавать слова так же ясно, как два человека, ведущие беседу между собой.

Основой для системы стали фрагменты нейронной сети Toolkit от Microsoft, код которой находится в открытом доступе. The Microsoft Cognitive Toolkit — ранее известный как CNTK – предоставляет возможность использования прототипа искусственного интеллекта для обработки массивов данных посредством обучения. Он обеспечивает бескомпромиссное масштабирование, высокую скорость процессов и совместим с такими языками программирования, как С++ и Python, что позволяет настроить любой из встроенных алгоритмов обучения, или использовать свои.

3-638

Будучи полностью поглощенной идеей воплощения этого проекта, команда разработчиков смогла добиться своей цели, хотя на полноценную разработку ушли годы.
Этот достижение обратит на себя внимание не только фанатов ИИ, исследователей, скрупулезно отслеживающих мельчайшие детали. Разницу сможет заметить и обычный человек, который пообщается с ИИ-ассистентом. Казалось бы, такая беседа – что-то из области фантастики, но если учесть, что распознавание речи постепенно становится одним из основных интерфейсов, то этот день не за горами. Точность распознавания является основополагающей для любого успешного взаимодействия с пользователем, и уже скоро ИИ-ассистент будет понимать своего владельца, как живой собеседник. Исчезнет проблема, когда из-за нечеткости произношения приходится повторять слова по несколько раз.

В прочем, не смотря на восторженные комментарии и оптимистичные оценки, система распознавания речи еще не совершенна. Проблема, над которой еще трудятся, состоит в том, что машина не может реагировать на речевые нюансы.  Системе предстоит научиться различать подтекст таких слов, как «ага» «эээ» «ммм», являющих подтверждением сказанного и сигналом к продолжению динамиком речи, или, напротив, выражающим неуверенность, требующим повтора сказанного и звуками, которыми человек иногда просто занимает паузу. Междометия и слова паразиты, иногда содержащие диаметрально противоположный смысл, пока что недоступны для распознавания. Остается утешаться тем, что люди периодически сталкиваются с той же проблемой, но в идеале роботы должны будут превратиться в даже более понимающих слушателей, чем собратья-люди.

Что примечательно, система также споткнулась на слове «я», часто опуская его полностью и игнорируя, что могло бы послужить хорошим сюжетом для антиутопии и научной фантастики.

Кто же такой, по мнению системы, «я»?

Поделиться