Машинный перевод

Не следует путать с Автоматизированный перевод.

Эта статья о переводчиках — компьютерных программах; о переводчиках-людях см.: Переводчик.

Машинный перевод — это процесс, при котором текст или речь переводится с одного естественного языка на другой посредством искусственного интеллекта автоматически, без необходимости вмешательства человека. Первоначальные работы по использованию компьютеров для решения подобных задач опирались на словарные базы и лингвистические правила, современные системы основываются на вероятностных методах, таких как статистический машинный перевод и нейросетевой машинный перевод^[1].

История машинного перевода[править]

Идеи по созданию алгоритмов для перевода с одного языка на другой зародились до появления компьютеров. В 1930-х годах французский инженер армянского происхождения Жорж Артцруни создал двуязычный автоматический словарь с использованием перфоленты. Памятью машины служила бумажная лента, на которой построчно парами записывались слова на двух разных языках. Параллельно первой ленте шла вторая, на которой каждой паре слов соответствовала определенная комбинация отверстий. Искомое слово вводилось в машину с помощью клавиатуры и кодировалось набором штырьков. Затем запускался мотор, протягивающий обе ленты, и машина сравнивала наборы отверстий на второй ленте с расположением штырьков. Когда обнаруживалось совпадение, машина останавливалась, показывая в окошках слова с первой ленты^[2].

В 1933 году советский инженер Пётр Смирнов-Троянский изобрел «машину для подбора и печатания слов при переводе с одного языка на другой». Изобретение Троянского представляло собой стол с наклонной поверхностью и фотокамерой, совмещённой с печатной машинкой. Клавиши машинки позволяли кодировать морфологическую и грамматическую информацию. На изобретение Смирновым-Троянским было получено авторское свидетельство^[3], однако его идеи опередили своё время и нашли применение только в 1950-е годы^[4].

Идея применения ЭВМ для перевода была озвучена в 1947 году в США. Её предложил математик Уоррен Уивер, работавший в Фонде Рокфеллера, обратившийся с письмом к Норберту Винеру:

«Для ЮНЕСКО и для конструктивного и мирного будущего планеты самая серьезная проблема — это перевод, потому что она касается непосредственно коммуникации между людьми. ...я задался вопросом, возможно ли построить компьютер, который будет переводить»

В июле 1949 года Уивер подготовил меморандум «Translation» (англ. translation — перевод), в котором обобщил текущие замыслы и предложения в области машинного перевода, опиравшиеся на достижения криптоанализа шифров, теории информации Клода Шеннона и представления о принципах, объединяющих все естественные языки, накопленные к тому времени. В последующие годы несколько американских университетов начали разрабатывать системы машинного перевода на базе ЭВМ^[4]. Важным событием в развитии машинного перевода стал Джорджтаунский эксперимент, который был проведён 7 января 1954 года в Нью-Йорке, в штаб-квартире корпорации IBM. В рамках этого эксперимента компьютер IBM 701 впервые в мире перевел 60 предложений с русского на английский язык.

В пресс-релизе корпорации отмечалось, что девушка, не знающая русский язык, набрала русские сообщения на перфокартах, а машинный мозг «с бешеной скоростью в две с половиной строки в секунду» выдал их перевод на английский^[4].

Изначальные системы представляли собой в основном массивные двуязычные словарные базы и наборы правил, по которым для каждого слова исходного языка находился соответствующий эквивалент на другом языке. Однако, специалисты быстро поняли, что синтаксические правила для создания правильного порядка слов являются чрезмерно сложными. Таким образом, машинный перевод потребовал более организованных методов синтаксического анализа. В 1950-1960-е годы исследования в области машинного перевода проходили под влиянием новых лингвистических теорий, особенно моделей формальных грамматик, таких как генеративная грамматика, грамматика зависимостей и стратификационная грамматика^[4].

В 1964 году правительство США создало специальную Консультативную комиссию по автоматической обработке языка (ALPAC). Эта комиссия в 1966 году выпустила доклад, утверждающий, что системы машинного перевода не были рентабельными: перевод машиной был медленнее, менее качественным и вдвое дороже, чем услуги человеческих переводчиков. ALPAC сделала заключение, что дальнейшие инвестирования в этой области нецелесообразны. Этот отчёт значительно затормозил развитие машинного перевода в Соединённых Штатах и отразился на проведении работ в Европе.

Однако исследования продолжались. На статью о Джорджтаунском эксперименте обратил внимание основоположник советской кибернетики Алексей Ляпунов и вскоре создал в Математическом институте исследовательскую группу. За ним последовал Дмитрий Панов из Института точной механики и вычислительной техники (ИТМиВТ), а к 1958 году машинным переводом в Советском Союзе занимались уже 79 различных учреждений. В 1971 году в Ленинграде, при ЛГПИ им. Герцена (ныне – РГПУ им. Герцена), по инициативе профессора Раймонда Пиотровского, была создана Научно-исследовательская лаборатория инженерной лингвистики. Специалисты лаборатории активно занимались разработкой технологий для автоматической обработки текста. (Впоследствии, в 1991 году бывшие сотрудники лаборатории под руководством Светланы Соколовой основали компанию PROMT).

В 1970 году Военно-воздушные силы США внедрили систему SYSTRAN, а в 1976 году её начала использовать Европейская комиссия для межъязыкового перевода растущих объемов документации. В Канаде в том же году была запущена Meteo — система, разработанная Монреальским университетом для перевода метеорологических прогнозов. В Советском Союзе исследования в 1960-х годах были сосредоточены на научно-технической документации, переводимой с английского на русский и обратно. Во главу угла была поставлена скорость доступа к информации, а не точность перевода^[4].

К началу 1980-х годов основные системы машинного перевода работали на базах компьютеров-мейнфреймов. Помимо системы SYSTRAN, к этому времени поддерживавшей множество языковых пар, существовали системы Logos, переводившие с английского на немецкий и французский, система Панамериканской организации здравоохранения для пар английский-испанский, система METAL MT, разработанная Техасским университетом в Остине и фирмой Siemens, а также японские системы для пар английский-японский.

С появлением персональных компьютеров и текстовых процессоров появились более доступные и дешёвые системы машинного перевода. Среди таких продуктов выделялись разработки компаний ALPS, Weidner Communications, Linguistic Products и Globalink, а также множество японских компаний, выпускающих микрокомпьютеры для машинного перевода, таких как Sharp, NEC, OKI, Mitsubishi, Sanyo и других. В 1990-х годах начались исследования по машинному переводу разговорной речи^[4]. В дальнейшем, в 2019 году разработчики российской компании PROMT представили новую технологию машинного перевода на основе нейронных сетей — PROMT Neura.

Сейчас в этой области существуют быстрые онлайн-сервисы, сложные клиент-серверные решения для бизнеса и мобильные переводчики, работающие как через интернет, так и в офлайн-режиме.

Методы машинного перевода[править]

Машинный перевод на основе правил[править]

→ Машинный перевод на основе правил

Машинный перевод на основе правил — RBMT (от англ. rule-based machine translation) — технология машинного перевода на основе лингвистической информации об исходном языке и языке перевода. Такая информация извлекается, как правило, из словарей (как лингвистических, так и переводных), описаний грамматики языков и обобщается в виде формализуемых правил, охватывающих основные семантические, морфологические и синтаксические закономерности каждого языка. На основе таких правил исходный текст последовательно, по предложениям преобразуется в текст перевода.

Системы машинного перевода на основе правил делятся на три группы:

системы пословного перевода;
системы машинного перевода на основе трансформации — преобразуют структуры исходного языка в грамматические конструкции языка перевода;
системы, использующие промежуточный искусственный язык — интерлингву — промежуточную (семантическую) модель текста в качестве общего посредника для всех языковых пар.

Статистический машинный перевод[править]

→ Статистический машинный перевод

Статистический метод в машинном переводе базируется на сопоставлении большого количества наборов языковых пар. Эти языковые пары состоят из текстов, где одно предложение дано на одном языке, а другое предложение является его аналогом на другом языке. Эффективность статистического машинного перевода возрастает пропорционально количеству языковых пар и точности их соответствия.

Примером таких языковых массивов могут служить парламентские документы, представляющие собой записи парламентских сессий. Парламентские документы издаются в Канаде, Гонконге и иных странах. Официальные бумаги Европейского экономического сообщества переводятся на 11 языков. Организация объединённых наций также публикует свои документы на нескольких языках. Эти материалы оказались чрезвычайно ценными ресурсами для статистического машинного перевода.

Нейронный машинный перевод[править]

→ Нейронный машинный перевод

Нейронный машинный перевод (англ. Neural Machine Translation, NMT) — подход к машинному переводу, в котором используется искусственная нейронная сеть. Модели NMT отличаются от методов машинного перевода, основанных на статистике фраз тем, что используют глубинное обучение и обучение признакам, что позволяет добиться максимальной эффективности перевода^[5]^[6]^[7].

Майкрософт использует похожую технологию для перевода речи (в том числе в Майкрософт Переводчике и Skype Переводчике)^[8]. Гарвардской группой по обработке естественного языка была выпущена OpenNMT, система нейронного машинного перевода с открытым исходным кодом^[9]. Яндекс.Переводчик имеет гибридную модель: свой вариант перевода предлагает и статистическая модель, и нейросеть. После этого самообучающаяся технология CatBoost будет выбирать лучший из полученных результатов^[10].

Качество перевода[править]

Факторами, от которого зависит качество перевода, являются:

тематика исходного текста;
стиль написания;
грамматическая родственность языков;
синтаксическая и лексическая родственность языков.

Перевод литературных произведений с помощью машинного перевода зачастую оказывается неудовлетворительным. Однако при работе с технической документацией, при наличии специализированных машинных словарей и небольших поправок системы на тип текста, возможно достижение переводов приемлемого уровня, требующих только минимальной редакционной доработки. Чем более формализован текст оригинала, тем выше вероятность получения качественного перевода. Наилучшие результаты машинного перевода, как правило, получаются при работе с техническими текстами (различные описания и инструкции) и с формализованными стилями написания текста^[1].

См. также[править]

Литература[править]

И. М. Богуславский Автоматический перевод // БРЭ
О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: Издательская группа URSS, 2017.

Примечания[править]

↑ ^1,0 ^1,1 Машинный перевод текстов. Справочник Автор 24 (2024-02-19). Проверено 9 октября 2024.
↑ От системы Кирхера до «электронного мозга»: как развивался машинный перевод. TechInsider (2023-04-26). Проверено 8 октября 2024.
↑ Машина для подбора и печатания слов при переводе с одного языка на другой или на нескольких языках одновременно. А. с. СССР № 40995, 1935 г.
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 Hutchins, John The history of machine translation in a nutshellангл. // hutchinsweb.me.uk. — 2014.
↑ Wołk, Krzysztof; Marasek, Krzysztof Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Textsангл. // Procedia Computer Science : journal. — 2015. — том 64. — № 64. — С. 2—9. — DOI:10.1016/j.procs.2015.08.456
↑ Kalchbrenner, Nal; Blunsom, Philip Recurrent Continuous Translation Models // Proceedings of the Association for Computational Linguistics. — 2013.
↑ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet Sequence to sequence learning with neural networks // NIPS. — 2014.
↑ Microsoft Translator launching Neural Network based translations for all its speech languages – Translator. Архивировано из первоисточника 10 мая 2017. Проверено 4 мая 2017.
↑ OpenNMT - Open-Source Neural Machine Translationангл.. opennmt.net. Архивировано из первоисточника 16 марта 2017. Проверено 22 марта 2017.
↑ В «Яндекс.Переводчик» встроили нейросеть с фантазией - CNews. Архивировано из первоисточника 8 октября 2017. Проверено 9 октября 2024.

Ссылки[править]

Обработка естественного языка ↑ [+]
Общие определения	Корпус текстов • Речевой корпус^[en] • Стоп-слова • Мешок слов^[en] • AI-полнота • N-грамма (Биграмма^[en], Триграмма^[en])
Анализ текста	Сегментация текста^[en] • Частеречная разметка • Поверхностный синтаксический анализ^[en] • Обработка сложных слов^[en] • Извлечение коллокаций^[en] • Стемминг • Лемматизация • Распознавание именованных сущностей^[en] • Разрешение кореферентности • Анализ тональности текста • Извлечение концептов^[en] • Синтаксический анализ • Разрешение лексической многозначности • Извлечение терминологии^[en] • Извлечение информации • Идентификация языка • Определение регистра^[en]
Реферирование^[en]	Извлечение предложений^[en] • Генерация реферата • Многодокументное реферирование^[en] • Упрощение текста^[en]
Машинный перевод	Автоматизированный • Гибридный • Интерлингвальный^[en] • На основе правил • На основе примеров^[en] • На основе словаря^[en] • Статистический • Синхронный • Трансферный^[en]
Идентификация и сбор данных	Распознавание речи • Синтез речи • Оптическое распознавание символов • Генерация текста
Тематическая модель	Размещение патинко • Латентное размещение Дирихле • Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] • Конкордансер^[en] • Предективный ввод текста • Система проверки грамматики^[en] • Система проверки правописания • Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Автоматизированный онлайн-помощник^[en] • Виртуальный собеседник • Вопросно-ответная система • Голосовой интерфейс • Интерактивная литература

Искусственный интеллект ↑ [+]
Философия	Автономный агент Тест Тьюринга Китайская комната
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронные сети Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Норберт Винер Алан Тьюринг В. М. Глушков Г. С. Осипов Э. В. Попов Д. А. Поспелов М. Г. Гаазе-Рапопорт Т. А. Гаврилова В. Ф. Хорошевский Г. С. Поспелов Марвин Мински Джон Маккарти Фрэнк Розенблатт Чарльз Бэббидж Аллен Ньюэлл Герберт Саймон Ноам Хомский Джуда Перл Сеймур Пейперт Клод Шеннон Джозеф Вейценбаум Патрик Винстон В. К. Финн
Организации	Государственный университет информатики и искусственного интеллекта Machine Intelligence Research Institute
Связанное	ИИ-паранойя ИИ-фобия Синтетические данные
Искусственный интеллект

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Знание.Вики» («znanierussia.ru») под названием «Машинный перевод», расположенная по следующим адресам:

—	https://baza.znanierussia.ru/mediawiki/index.php/Машинный_перевод
—	«https://znanierussia.ru/articles/Машинный_перевод»

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?».

[:0-1] 1,0 ^1,1 Машинный перевод текстов. Справочник Автор 24 (2024-02-19). Проверено 9 октября 2024.

[2] От системы Кирхера до «электронного мозга»: как развивался машинный перевод. TechInsider (2023-04-26). Проверено 8 октября 2024.

[3] Машина для подбора и печатания слов при переводе с одного языка на другой или на нескольких языках одновременно. А. с. СССР № 40995, 1935 г.

[Hutchins_2014-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 Hutchins, John The history of machine translation in a nutshellангл. // hutchinsweb.me.uk. — 2014.

[5] Wołk, Krzysztof; Marasek, Krzysztof Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Textsангл. // Procedia Computer Science : journal. — 2015. — том 64. — № 64. — С. 2—9. — DOI:10.1016/j.procs.2015.08.456

[6] Kalchbrenner, Nal; Blunsom, Philip Recurrent Continuous Translation Models // Proceedings of the Association for Computational Linguistics. — 2013.

[7] Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet Sequence to sequence learning with neural networks // NIPS. — 2014.

[8] Microsoft Translator launching Neural Network based translations for all its speech languages – Translator. Архивировано из первоисточника 10 мая 2017. Проверено 4 мая 2017.

[9] OpenNMT - Open-Source Neural Machine Translationангл.. opennmt.net. Архивировано из первоисточника 16 марта 2017. Проверено 22 марта 2017.

[10] В «Яндекс.Переводчик» встроили нейросеть с фантазией - CNews. Архивировано из первоисточника 8 октября 2017. Проверено 9 октября 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Машинный перевод

Содержание

История машинного перевода[править]

Методы машинного перевода[править]

Машинный перевод на основе правил[править]

Статистический машинный перевод[править]

Нейронный машинный перевод[править]

Качество перевода[править]

См. также[править]

Литература[править]

Примечания[править]

Ссылки[править]

Навигация

Машинный перевод

История машинного перевода[править]

Методы машинного перевода[править]

Машинный перевод на основе правил[править]

Статистический машинный перевод[править]

Нейронный машинный перевод[править]

Качество перевода[править]

См. также[править]

Литература[править]

Примечания[править]

Ссылки[править]

Навигация

Поиск