Машинный перевод

Материал из Циклопедии
Перейти к навигации Перейти к поиску

Машинный перевод — это процесс, при котором текст или речь переводится с одного естественного языка на другой посредством искусственного интеллекта автоматически, без необходимости вмешательства человека. Первоначальные работы по использованию компьютеров для решения подобных задач опирались на словарные базы и лингвистические правила, современные системы основываются на вероятностных методах, таких как статистический машинный перевод и нейросетевой машинный перевод[1].

История машинного перевода[править]

Идеи по созданию алгоритмов для перевода с одного языка на другой зародились до появления компьютеров. В 1930-х годах французский инженер армянского происхождения Жорж Артцруни создал двуязычный автоматический словарь с использованием перфоленты. Памятью машины служила бумажная лента, на которой построчно парами записывались слова на двух разных языках. Параллельно первой ленте шла вторая, на которой каждой паре слов соответствовала определенная комбинация отверстий. Искомое слово вводилось в машину с помощью клавиатуры и кодировалось набором штырьков. Затем запускался мотор, протягивающий обе ленты, и машина сравнивала наборы отверстий на второй ленте с расположением штырьков. Когда обнаруживалось совпадение, машина останавливалась, показывая в окошках слова с первой ленты[2].

В 1933 году советский инженер Пётр Смирнов-Троянский изобрел «машину для подбора и печатания слов при переводе с одного языка на другой». Изобретение Троянского представляло собой стол с наклонной поверхностью и фотокамерой, совмещённой с печатной машинкой. Клавиши машинки позволяли кодировать морфологическую и грамматическую информацию. На изобретение Смирновым-Троянским было получено авторское свидетельство[3], однако его идеи опередили своё время и нашли применение только в 1950-е годы[4].

Идея применения ЭВМ для перевода была озвучена в 1947 году в США. Её предложил математик Уоррен Уивер, работавший в Фонде Рокфеллера, обратившийся с письмом к Норберту Винеру:

«Для ЮНЕСКО и для конструктивного и мирного будущего планеты самая серьезная проблема — это перевод, потому что она касается непосредственно коммуникации между людьми. ...я задался вопросом, возможно ли построить компьютер, который будет переводить»

В июле 1949 года Уивер подготовил меморандум «Translation» (англ. translation — перевод), в котором обобщил текущие замыслы и предложения в области машинного перевода, опиравшиеся на достижения криптоанализа шифров, теории информации Клода Шеннона и представления о принципах, объединяющих все естественные языки, накопленные к тому времени. В последующие годы несколько американских университетов начали разрабатывать системы машинного перевода на базе ЭВМ[4]. Важным событием в развитии машинного перевода стал Джорджтаунский эксперимент, который был проведён 7 января 1954 года в Нью-Йорке, в штаб-квартире корпорации IBM. В рамках этого эксперимента компьютер IBM 701 впервые в мире перевел 60 предложений с русского на английский язык.

В пресс-релизе корпорации отмечалось, что девушка, не знающая русский язык, набрала русские сообщения на перфокартах, а машинный мозг «с бешеной скоростью в две с половиной строки в секунду» выдал их перевод на английский[4].

Изначальные системы представляли собой в основном массивные двуязычные словарные базы и наборы правил, по которым для каждого слова исходного языка находился соответствующий эквивалент на другом языке. Однако, специалисты быстро поняли, что синтаксические правила для создания правильного порядка слов являются чрезмерно сложными. Таким образом, машинный перевод потребовал более организованных методов синтаксического анализа. В 1950-1960-е годы исследования в области машинного перевода проходили под влиянием новых лингвистических теорий, особенно моделей формальных грамматик, таких как генеративная грамматика, грамматика зависимостей и стратификационная грамматика[4].

В 1964 году правительство США создало специальную Консультативную комиссию по автоматической обработке языка (ALPAC). Эта комиссия в 1966 году выпустила доклад, утверждающий, что системы машинного перевода не были рентабельными: перевод машиной был медленнее, менее качественным и вдвое дороже, чем услуги человеческих переводчиков. ALPAC сделала заключение, что дальнейшие инвестирования в этой области нецелесообразны. Этот отчёт значительно затормозил развитие машинного перевода в Соединённых Штатах и отразился на проведении работ в Европе.

Однако исследования продолжались. На статью о Джорджтаунском эксперименте обратил внимание основоположник советской кибернетики Алексей Ляпунов и вскоре создал в Математическом институте исследовательскую группу. За ним последовал Дмитрий Панов из Института точной механики и вычислительной техники (ИТМиВТ), а к 1958 году машинным переводом в Советском Союзе занимались уже 79 различных учреждений. В 1971 году в Ленинграде, при ЛГПИ им. Герцена (ныне – РГПУ им. Герцена), по инициативе профессора Раймонда Пиотровского, была создана Научно-исследовательская лаборатория инженерной лингвистики. Специалисты лаборатории активно занимались разработкой технологий для автоматической обработки текста. (Впоследствии, в 1991 году бывшие сотрудники лаборатории под руководством Светланы Соколовой основали компанию PROMT).

В 1970 году Военно-воздушные силы США внедрили систему SYSTRAN, а в 1976 году её начала использовать Европейская комиссия для межъязыкового перевода растущих объемов документации. В Канаде в том же году была запущена Meteo — система, разработанная Монреальским университетом для перевода метеорологических прогнозов. В Советском Союзе исследования в 1960-х годах были сосредоточены на научно-технической документации, переводимой с английского на русский и обратно. Во главу угла была поставлена скорость доступа к информации, а не точность перевода[4].

К началу 1980-х годов основные системы машинного перевода работали на базах компьютеров-мейнфреймов. Помимо системы SYSTRAN, к этому времени поддерживавшей множество языковых пар, существовали системы Logos, переводившие с английского на немецкий и французский, система Панамериканской организации здравоохранения для пар английский-испанский, система METAL MT, разработанная Техасским университетом в Остине и фирмой Siemens, а также японские системы для пар английский-японский.

С появлением персональных компьютеров и текстовых процессоров появились более доступные и дешёвые системы машинного перевода. Среди таких продуктов выделялись разработки компаний ALPS, Weidner Communications, Linguistic Products и Globalink, а также множество японских компаний, выпускающих микрокомпьютеры для машинного перевода, таких как Sharp, NEC, OKI, Mitsubishi, Sanyo и других. В 1990-х годах начались исследования по машинному переводу разговорной речи[4]. В дальнейшем, в 2019 году разработчики российской компании PROMT представили новую технологию машинного перевода на основе нейронных сетей — PROMT Neura.

Сейчас в этой области существуют быстрые онлайн-сервисы, сложные клиент-серверные решения для бизнеса и мобильные переводчики, работающие как через интернет, так и в офлайн-режиме.

Методы машинного перевода[править]

Машинный перевод на основе правил[править]

 → Машинный перевод на основе правил

Машинный перевод на основе правил — RBMT (от англ. rule-based machine translation) — технология машинного перевода на основе лингвистической информации об исходном языке и языке перевода. Такая информация извлекается, как правило, из словарей (как лингвистических, так и переводных), описаний грамматики языков и обобщается в виде формализуемых правил, охватывающих основные семантические, морфологические и синтаксические закономерности каждого языка. На основе таких правил исходный текст последовательно, по предложениям преобразуется в текст перевода.

Системы машинного перевода на основе правил делятся на три группы:

  • системы пословного перевода;
  • системы машинного перевода на основе трансформации — преобразуют структуры исходного языка в грамматические конструкции языка перевода;
  • системы, использующие промежуточный искусственный язык — интерлингву — промежуточную (семантическую) модель текста в качестве общего посредника для всех языковых пар.

Статистический машинный перевод[править]

 → Статистический машинный перевод

Статистический метод в машинном переводе базируется на сопоставлении большого количества наборов языковых пар. Эти языковые пары состоят из текстов, где одно предложение дано на одном языке, а другое предложение является его аналогом на другом языке. Эффективность статистического машинного перевода возрастает пропорционально количеству языковых пар и точности их соответствия.

Примером таких языковых массивов могут служить парламентские документы, представляющие собой записи парламентских сессий. Парламентские документы издаются в Канаде, Гонконге и иных странах. Официальные бумаги Европейского экономического сообщества переводятся на 11 языков. Организация объединённых наций также публикует свои документы на нескольких языках. Эти материалы оказались чрезвычайно ценными ресурсами для статистического машинного перевода.

Нейронный машинный перевод[править]

 → Нейронный машинный перевод

Нейронный машинный перевод (англ. Neural Machine Translation, NMT) — подход к машинному переводу, в котором используется искусственная нейронная сеть. Модели NMT отличаются от методов машинного перевода, основанных на статистике фраз тем, что используют глубинное обучение и обучение признакам, что позволяет добиться максимальной эффективности перевода[5][6][7].

Майкрософт использует похожую технологию для перевода речи (в том числе в Майкрософт Переводчике и Skype Переводчике)[8]. Гарвардской группой по обработке естественного языка была выпущена OpenNMT, система нейронного машинного перевода с открытым исходным кодом[9]. Яндекс.Переводчик имеет гибридную модель: свой вариант перевода предлагает и статистическая модель, и нейросеть. После этого самообучающаяся технология CatBoost будет выбирать лучший из полученных результатов[10].

Качество перевода[править]

Факторами, от которого зависит качество перевода, являются:

  • тематика исходного текста;
  • стиль написания;
  • грамматическая родственность языков;
  • синтаксическая и лексическая родственность языков.

Перевод литературных произведений с помощью машинного перевода зачастую оказывается неудовлетворительным. Однако при работе с технической документацией, при наличии специализированных машинных словарей и небольших поправок системы на тип текста, возможно достижение переводов приемлемого уровня, требующих только минимальной редакционной доработки. Чем более формализован текст оригинала, тем выше вероятность получения качественного перевода. Наилучшие результаты машинного перевода, как правило, получаются при работе с техническими текстами (различные описания и инструкции) и с формализованными стилями написания текста[1].

См. также[править]

Литература[править]

  • И. М. Богуславский Автоматический перевод // БРЭ
  • О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
  • Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: Издательская группа URSS, 2017.

Примечания[править]

  1. 1,0 1,1 Машинный перевод текстов. Справочник Автор 24 (2024-02-19). Проверено 9 октября 2024.
  2. От системы Кирхера до «электронного мозга»: как развивался машинный перевод. TechInsider (2023-04-26). Проверено 8 октября 2024.
  3. Машина для подбора и печатания слов при переводе с одного языка на другой или на нескольких языках одновременно. А. с. СССР № 40995, 1935 г.
  4. 4,0 4,1 4,2 4,3 4,4 4,5 Hutchins, John The history of machine translation in a nutshell англ. // hutchinsweb.me.uk. — 2014.
  5. Wołk, Krzysztof; Marasek, Krzysztof Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts англ. // Procedia Computer Science : journal. — 2015. — Vol. 64. — № 64. — С. 2—9. — DOI:10.1016/j.procs.2015.08.456
  6. Kalchbrenner, Nal; Blunsom, Philip Recurrent Continuous Translation Models // Proceedings of the Association for Computational Linguistics. — 2013.
  7. Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet Sequence to sequence learning with neural networks // NIPS. — 2014.
  8. Microsoft Translator launching Neural Network based translations for all its speech languages – Translator. Архивировано из первоисточника 10 мая 2017. Проверено 4 мая 2017.
  9. OpenNMT - Open-Source Neural Machine Translation англ.. opennmt.net. Архивировано из первоисточника 16 марта 2017. Проверено 22 марта 2017.
  10. В «Яндекс.Переводчик» встроили нейросеть с фантазией - CNews. Архивировано из первоисточника 8 октября 2017. Проверено 9 октября 2024.

Ссылки[править]

 
Общие определения
Анализ текста

Сегментация текста[en] • Частеречная разметка • Поверхностный синтаксический анализ[en] • Обработка сложных слов[en] • Извлечение коллокаций[en] • Стемминг • Лемматизация • Распознавание именованных сущностей[en] • Разрешение кореферентности • Анализ тональности текста • Извлечение концептов[en] • Синтаксический анализ • Разрешение лексической многозначности • Извлечение терминологии[en] • Извлечение информации • Идентификация языка • Определение регистра[en]

Реферирование[en]
Машинный перевод
Идентификация
и сбор данных
Тематическая модель
Рецензирование
Интерфейс
на естественном языке
[en]
Nuvola apps Talk.PNG
Философия

Автономный агентТест ТьюрингаКитайская комната

Направления

Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронные сети Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Эволюционные алгоритмы Экспертная система

Применение

Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ

Исследователи

Норберт Винер Алан Тьюринг В. М. Глушков Г. С. Осипов Э. В. Попов Д. А. Поспелов М. Г. Гаазе-Рапопорт Т. А. Гаврилова В. Ф. Хорошевский Г. С. Поспелов Марвин Мински Джон Маккарти Фрэнк Розенблатт Чарльз Бэббидж Аллен Ньюэлл Герберт Саймон Ноам Хомский Джуда Перл Сеймур Пейперт Клод Шеннон Джозеф Вейценбаум Патрик Винстон В. К. Финн

Организации

Государственный университет информатики и искусственного интеллекта Machine Intelligence Research Institute

Знание.Вики

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Знание.Вики» («znanierussia.ru») под названием «Машинный перевод», расположенная по следующим адресам:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?».