Microsoft Research: моментальный многоязычный переводчик
Компания Microsoft Research создала алгоритм распознавания речи, основанный на глубоких нейронных сетях (Deep Neural Networks). Электронный переводчик распознает слова буквально на лету, а затем переводит их голосом, напоминающим голос говорящего.
Впервые о новом алгоритме блог Inside Microsoft Research написал еще летом, указывая, что глубокие нейронные сети уже в ближайшем будущем начнут использоваться в Microsoft Audio Video Indexing Service, позволяя индексировать звуковые файлы и осуществлять по ним поиск.
Презентация технологии прошла в китайском городе Тяньцзине. Провел ее Рик Рашид (Rick Rashid), директор по разработкам Microsoft Research. «Надеюсь, что в ближайшие несколько лет языковые барьеры между людьми падут окончательно», – заявил он. И переводчик повторил то же самое по-китайски, причем почти тем же голосом, что у самого спикера, вызвав гром аплодисментов (видео этого выступления можно посмотреть на YouTube).
В настоящее время в мире насчитывается примерно 5 тыс. языков. Начавшаяся в конце XX века глобализация делает людей все более мобильными – и все больше обостряет проблему межязыкового взаимодействия. Решение этой задачи средствами ИТ сделало бы возможным общение любого жителя планеты со всеми остальными ее жителями. К примеру, на конференциях можно было бы легко провести презентацию на языке, которого не знаешь.
Подобные технологии разрабатываются уже долгое время. Так, компания IBM в 2007 году создала для нужд американских солдат в Ираке универсальный звуковой аудиопереводчик, способный понимать 50 тыс. английских и 100 тыс. арабских слов. Устройство получило название MASTOR (Multilingual Automatic Speech-to-Speech Translator). Подробнее об этом можно прочитать в разделе “Pioneering Machine-Aided Translation” официального сайта компании IBM. А компания Google в 2010 году начала работу над устройством, которое могло бы переводить разговор с одного языка на другой по телефону в режиме реального времени.
В свою очередь, переводчик Microsoft, кроме простого распознавания слов и сопоставления его со значением в словаре, обучен «моделировать» активность человеческого мозга, чтобы точнее понимать сказанное. Достигается это благодаря машинному переводчику на основе искусственных нейронных сетей. Такая сеть представляет собой математическую модель, принцип организации и функционирования которой сходен с сетями нейронных клеток живых организмов. Переводчик на базе искусственных нейронных сетей способен устанавливать гораздо более сложные зависимости между входными и выходными данными, чем решения, построенные на иных принципах. То есть он может обучаться, в частности, появляется способность предполагать смысл сказанного собеседником благодаря знанию фраз, которые он говорил ранее.
«Глубокое» нейронное изучение, в отличие от простого нейронного изучения, добавляет предположение о том, что речь собеседника организована в несколько уровней абстракции. Это позволяет улучшить обучаемость системы. Возможность учитывать различные уровни абстракции напрямую зависит от производительности вычислительных устройств.
Таким образом, по мере роста мощностей аппаратных устройств можно ожидать все более качественной работы искусственных нейронных сетей и все меньшего количества ошибок в переводе. А ведь именно высокая вероятность ошибки главная проблема всех компьютерных машинных переводчиков. Ситуация ухудшается в случае принадлежности говорящих к разным языковым группам. Например, английский язык относится к германской группе индоевропейской семьи языков, а китайский – к китайско-тибетской языковой суперсемье. Различия между ними очень велики, и сделать правильный перевод нелегко, к тому же одно и то же слово может означать два и более разных по смыслу вариантов перевода в другом языке. По этим причинам процентное количество ошибок при переводе далеких друг от друга языков остается все еще высоким. В отличие, например, от перевода языков родственных – к примеру, русского и украинского.
Microsoft Research разрабатывала технологию в тесном сотрудничестве с Университетом Торонто. Работа длилась порядка двух лет, но, несмотря на успехи, программа, по словам г-на Рашида, все еще ошибается приблизительно в одном слове из семи-восьми.