Останутся ли переводчики-китаисты без работы?

Специалисты Microsoft объявили о создании системы машинного перевода c китайского на английский язык, которая переводит новости не хуже человека. Специалисты Microsoft использовали искусственный интеллект, который позволяет МП достичь так называемого уровня «человеческого паритета» — отсутствие статистической разницы между переводом машины и профессионального переводчика. Конец ли это для профессии переводчика?

Первые шаги

Впервые в истории термин «машинный перевод» ввел Уоррен Уивер (Warren Weaver) в далеком 1949 году в Меморандуме о переводе. Спустя два года исследователи Массачусетского технологического университета (MIT) начали обширные научные изыскания в данной области под руководством Йегошуа Бар-Хилелля, пионера в области МП и формальной лингвистики. Российские ученые проблемой МП заинтересовались в 1955 году, одновременно с коллегами из Японии и Великобритании.

В 1957 году Китай стал четвертой в мире страной, занявшейся развитием машинного перевода. Ученые из Китайской академии наук попытались создать МП для перевода с китайского на русский, для чего в Институте языков была создана специальная исследовательская группа. Рост интереса к новой технологии подтолкнул открытие в США первых научных объединений по развитию МП: Ассоциации машинного перевода и компьютерной лингвистики (1962) и Комитета по изучению машинного перевода при Национальной академии наук (ALPAC) (1964).
Вплоть до 1966 года члены ALPAC пытались добиться от машин перевода, эквивалентного человеческому. Вскоре они пришли к выводу, что на том уровне технологий это было невозможно. Зато к 1995 году собрали обширную базу машинных переводов абстрактных выражений с французского, английского, немецкого и испанского. Компания Trados в 1989 году выпустила на мировой рынок технологию памяти переводов, которая позволяла человеку не переводить одни и те же предложения повторно.

В 1991 году исследователи Харьковского университета создали программу машинного перевода с языковых пар русский-английский и немецкий-украинский. В Китае вплоть до 1991 года МП не мог добиться значительных успехов, но появление первых негосударственных машинных систем для перевода изменило ситуацию. Первой такой программой стала Transtar, после которой вышли государственные IMC/ EC системы, вышедшие на новый уровень качества перевода по сравнению со своими предшественниками.

С распространением интернета наступила золотая эра технологий МП. На рубеже веков появились сервисы, позволяющие переводить небольшие куски текстов онлайн: Systran (1996), AltaVista Babelfish (1997), Google Translate (2006) и MOSES (2007). В прошлом году в мир ворвались нейронные сети и машинное обучение, и начался новый этап развития МП.
Microsoft одними из первых запустил страницу публичной демонстрации возможностей МП на основе нейронных сетей и опубликовал подробный документ с описаниями методов обучения системы. В марте 2017 года Google внедрил нейросеть Neural Machine Translation (NMT) и начал публичное тестирование на русском языке. В мае Facebook создал инструмент faiseq на основе сверточных нейронных сетей, которые преимущественно используются для эффективного распознавания изображений, и скорость перевода увеличилась в 9 раз. Но обилие доступных сервисов, внедрение технологии машинного обучения и нейронных сетей не решило главной проблемы рядовых пользователей — низкое качество переводов. Смысл переводимых текстов терялся за ворохом стилистических, лексических и даже грамматических ошибок.
Microsoft одними из первых запустил страницу публичной демонстрации возможностей МП на основе нейронных сетей и опубликовал подробный документ с описаниями методов обучения системы. В марте 2017 года Google внедрил нейросеть Neural Machine Translation (NMT) и начал публичное тестирование на русском языке. В мае Facebook создал инструмент faiseq на основе сверточных нейронных сетей, которые преимущественно используются для эффективного распознавания изображений, и скорость перевода увеличилась в 9 раз. Но обилие доступных сервисов, внедрение технологии машинного обучения и нейронных сетей не решило главной проблемы рядовых пользователей — низкое качество переводов. Смысл переводимых текстов терялся за ворохом стилистических, лексических и даже грамматических ошибок.

Исторический рубеж

Microsoft одними из первых запустил страницу публичной демонстрации возможностей МП на основе нейронных сетей и опубликовал подробный документ с описаниями методов обучения системы. В марте 2017 года Google внедрил нейросеть Neural Machine Translation (NMT) и начал публичное тестирование на русском языке. В мае Facebook создал инструмент faiseq на основе сверточных нейронных сетей, которые преимущественно используются для эффективного распознавания изображений, и скорость перевода увеличилась в 9 раз. Но обилие доступных сервисов, внедрение технологии машинного обучения и нейронных сетей не решило главной проблемы рядовых пользователей — низкое качество переводов. Смысл переводимых текстов терялся за ворохом стилистических, лексических и даже грамматических ошибок.
Сверточная нейронная сеть. Фото: Хабрахабр
Улучшение алгоритмов и внедрение нейросетей в МП не уменьшили количество смысловых проблем при использовании сервисов, подобных Google Translate. До сих пор есть риск столкнуться с курьезными результатами перевода даже самых простых предложений типа «This conference is gonna make me miss my train», где вместо логичного «Из-за этой конференции я пропущу поезд» получите «Эта конференция заставит скучать меня по моему поезду». Английский глагол miss многозначный, а компьютер «не понял» контекста.

Подобные погрешности — та самая преграда для разработчиков, из-за которой МП не может достичь уровня «человеческого паритета» и стать соперником людям. Но в скором времени ситуация может в корне поменяться благодаря внедрению в машинные переводчики технологий ИИ. Первым успешным применением ИИ в области анализа языка стала технология Switchboard по распознаванию устной речи, которая используется в голосовом помощнике Cortana от Microsoft. В августе 2017 разработчики сообщили, что достигли порога в 5% ошибок при транскрипции речи живых людей, что стало новым рекордом для речевых алгоритмов.
Впервые о достижении уровня «человеческого паритета» МП стало известно прошлой осенью на конференции WMT17. Специалисты Microsoft из Азии и США представили работу новой программы на тестовой выборке новостей newtest2017. Специалисты наняли двуязычных оценщиков, чтобы сравнить результаты программы и двух профессиональных переводчиков. В ходе тестирования оценщики сравнили более двух тысяч переведенных предложений с китайского на английский, взятых из различных новостных статей.

Оценки полученных машинных переводов показали, что технология Microsoft впервые в истории добилась результатов, не отличимых от человеческих. Интерес специалистов Microsoft к языковой паре английский-китайский вполне объясним: число людей говорящих в 2017 году достигло рекордной отметки в 1,2 млрд человек (для сравнения численность испаноговорящих населения равняется 512 млн человек, а англоязычного – 1,1 млрд человек). Сложность языка и вариативность переводческих техник также стала определяющим фактором для тестирования его в формате МП.

Результаты объединенной исследовательской группы Microsoft из Пекина, Редмонда и Вашингтона были высоко оценены Сюэдун Хуаном, техническим специалистом Microsoft в области речи, естественного языка и машинного перевода. Преодолеть языковые барьеры, чтобы люди больше общались друг с другом, это фантастика. И очень, очень благородное дело». Однако прошедшие тесты не решают таких проблем машинного перевода, как апробирование технологии в режиме реального времени.
Арул Менезес (Arul Menezes), соруководитель научно-исследовательских работ группы Microsoft по машинному переводу, отметил широкие перспективы использования данной технологии. По мнению Менезеса, ученые в скором времени адаптируют систему для перевода других языковых пар и текстов с более сложной грамматикой и лексикой.

Искусственный интеллект — шаг к пониманию друг друга

Технологический прорыв Microsoft стал возможен только благодаря развитию ИИ и его обучению с помощью глубоких нейронных сетей. Машина сама смогла находить ключевые признаки для дальнейшей классификации объектов от простого к сложному. В отличие от статистического перевода, основанного на параллельном анализе двуязычных текстов, ИИ позволил создать более плавные и естественные переводы с использованием широкого контекста слов и предложений.

Инновационный подход команды Microsoft заключается в комбинировании нескольких методов глубокого обучения, при которых машина имитирует работу человеческого мозга. Одним из таких методов стала техника dual learning (англ. двойное обучение), когда машина видит собственные ошибки при переводе предложений с китайского на английский. Для этого использовался параллельный перевод экспертов с английского на китайский в качестве образца. Исследователи также применяли метод deliberation networks (англ. вдумчивые сети), суть которого сводится к множественному переводу одного и того же предложения до получения наилучшего результата. Как подчеркивают разработчики, подобный подход позволяет совершенствовать и улучшать реакции машины, адаптируя ее для перевода более сложных текстов.
Группа исследователей Microsoft, чья технология достигла уровня человеческого паритета. Фото: Microsoft
Для повышения точности машинных переводов разработали две новые технологии: joint training и agreement regularization. Joint training (англ. совместное обучение) подразумевает последовательное получение новых пар предложений при переводе одних и тех же текстов с английского на китайский и обратно, в результате чего увеличивается точность перевода. При использовании agreement regularization (англ. унификация соответствия) отрывки считываются системой слева направо и наоборот для повышения достоверности интерпретации текстов. Разработчики Microsoft считают, что их новые методы помогут не только другим исследователям машинного перевода, но и станут базой для дальнейших прорывов в применении искусственного интеллекта.
Хотя новая технология Microsoft вышла на ранее не достижимое качество машинного перевода, система еще не может соревноваться с людьми в стилистической адаптации переводимых текстов. В любом переводе есть множество нюансов, которые машина пока не способна осознать и адаптировать. Даже два человека-переводчика могут предложить несколько абсолютно разных, но верных переводов одного и того же отрывка. В переводе не существует строго определенных ответов, как в точных науках. Люди могут выразить одну мысль с помощью разных слов и выражений, используя образное мышление. Именно образное мышление — это главная человеческая особенность, недоступная даже самой продвинутой машине. «Машинный перевод намного сложнее простого распознавания образов, — отметил Мин Чжоу, заместитель директора исследовательского отделения Microsoft в Азии. — А люди используют разные слова для выражения одного понятия, и нельзя сказать, какое из слов правильное».

Отсутствие творческого и абстрактного мышления — главная слабость сверхумных машин будущего и главное преимущество человечества в мире автоматизированного производства, считает Виктор Майер-Шонбергер, профессор Оксфордского университета: «Даже если компьютеры станут умнее нас, им не превзойти человека в креативности. Способность к творчеству — одно из определяющих человеческих качеств, наряду с иррациональными идеями или сложными эмоциями», — уверен Майер-Шонбергер.

Специалисты по техническим решениям для перевода тоже скептически относятся к потенциальной замене профессиональных переводчиков. Иван Смольников, генеральный директор ABBYY Language Services, в своей колонке для издания Slon подчеркнул, что машинный перевод может быть лишь технической поддержкой, дополнительным инструментом для ускорения работы специалиста.

История развития синологии (науки об изучении Китая и китайского языка, – прим. автора) подтверждает: язык – это живое существо, а его изучение невозможно без человеческого общения. Китайский язык – один из наиболее показательных примеров. Он хранит в себе тысячелетнюю историю страны и ее жителей, их философию и культуру, которые в могут интерпретировать только люди.

Источник: EKD