Машинный перевод
- Не следует путать с Автоматизированный перевод.
- Эта статья о переводчиках — компьютерных программах; о переводчиках-людях см.: Переводчик.
Машинный перевод — это процесс, при котором текст или речь переводится с одного естественного языка на другой посредством искусственного интеллекта автоматически, без необходимости вмешательства человека. Первоначальные работы по использованию компьютеров для решения подобных задач опирались на словарные базы и лингвистические правила, современные системы основываются на вероятностных методах, таких как статистический машинный перевод и нейросетевой машинный перевод[1].
История машинного перевода[править]
Идеи по созданию алгоритмов для перевода с одного языка на другой зародились до появления компьютеров. В 1930-х годах французский инженер армянского происхождения Жорж Артцруни создал двуязычный автоматический словарь с использованием перфоленты. Памятью машины служила бумажная лента, на которой построчно парами записывались слова на двух разных языках. Параллельно первой ленте шла вторая, на которой каждой паре слов соответствовала определенная комбинация отверстий. Искомое слово вводилось в машину с помощью клавиатуры и кодировалось набором штырьков. Затем запускался мотор, протягивающий обе ленты, и машина сравнивала наборы отверстий на второй ленте с расположением штырьков. Когда обнаруживалось совпадение, машина останавливалась, показывая в окошках слова с первой ленты[2].
В 1933 году советский инженер Пётр Смирнов-Троянский изобрел «машину для подбора и печатания слов при переводе с одного языка на другой». Изобретение Троянского представляло собой стол с наклонной поверхностью и фотокамерой, совмещённой с печатной машинкой. Клавиши машинки позволяли кодировать морфологическую и грамматическую информацию. На изобретение Смирновым-Троянским было получено авторское свидетельство[3], однако его идеи опередили своё время и нашли применение только в 1950-е годы[4].
Идея применения ЭВМ для перевода была озвучена в 1947 году в США. Её предложил математик Уоррен Уивер, работавший в Фонде Рокфеллера, обратившийся с письмом к Норберту Винеру:
- «Для ЮНЕСКО и для конструктивного и мирного будущего планеты самая серьезная проблема — это перевод, потому что она касается непосредственно коммуникации между людьми. ...я задался вопросом, возможно ли построить компьютер, который будет переводить»
В июле 1949 года Уивер подготовил меморандум «Translation» (англ. translation — перевод), в котором обобщил текущие замыслы и предложения в области машинного перевода, опиравшиеся на достижения криптоанализа шифров, теории информации Клода Шеннона и представления о принципах, объединяющих все естественные языки, накопленные к тому времени. В последующие годы несколько американских университетов начали разрабатывать системы машинного перевода на базе ЭВМ[4]. Важным событием в развитии машинного перевода стал Джорджтаунский эксперимент, который был проведён 7 января 1954 года в Нью-Йорке, в штаб-квартире корпорации IBM. В рамках этого эксперимента компьютер IBM 701 впервые в мире перевел 60 предложений с русского на английский язык.
В пресс-релизе корпорации отмечалось, что девушка, не знающая русский язык, набрала русские сообщения на перфокартах, а машинный мозг «с бешеной скоростью в две с половиной строки в секунду» выдал их перевод на английский[4].
Изначальные системы представляли собой в основном массивные двуязычные словарные базы и наборы правил, по которым для каждого слова исходного языка находился соответствующий эквивалент на другом языке. Однако, специалисты быстро поняли, что синтаксические правила для создания правильного порядка слов являются чрезмерно сложными. Таким образом, машинный перевод потребовал более организованных методов синтаксического анализа. В 1950-1960-е годы исследования в области машинного перевода проходили под влиянием новых лингвистических теорий, особенно моделей формальных грамматик, таких как генеративная грамматика, грамматика зависимостей и стратификационная грамматика[4].
В 1964 году правительство США создало специальную Консультативную комиссию по автоматической обработке языка (ALPAC). Эта комиссия в 1966 году выпустила доклад, утверждающий, что системы машинного перевода не были рентабельными: перевод машиной был медленнее, менее качественным и вдвое дороже, чем услуги человеческих переводчиков. ALPAC сделала заключение, что дальнейшие инвестирования в этой области нецелесообразны. Этот отчёт значительно затормозил развитие машинного перевода в Соединённых Штатах и отразился на проведении работ в Европе.
Однако исследования продолжались. На статью о Джорджтаунском эксперименте обратил внимание основоположник советской кибернетики Алексей Ляпунов и вскоре создал в Математическом институте исследовательскую группу. За ним последовал Дмитрий Панов из Института точной механики и вычислительной техники (ИТМиВТ), а к 1958 году машинным переводом в Советском Союзе занимались уже 79 различных учреждений. В 1971 году в Ленинграде, при ЛГПИ им. Герцена (ныне – РГПУ им. Герцена), по инициативе профессора Раймонда Пиотровского, была создана Научно-исследовательская лаборатория инженерной лингвистики. Специалисты лаборатории активно занимались разработкой технологий для автоматической обработки текста. (Впоследствии, в 1991 году бывшие сотрудники лаборатории под руководством Светланы Соколовой основали компанию PROMT).
В 1970 году Военно-воздушные силы США внедрили систему SYSTRAN, а в 1976 году её начала использовать Европейская комиссия для межъязыкового перевода растущих объемов документации. В Канаде в том же году была запущена Meteo — система, разработанная Монреальским университетом для перевода метеорологических прогнозов. В Советском Союзе исследования в 1960-х годах были сосредоточены на научно-технической документации, переводимой с английского на русский и обратно. Во главу угла была поставлена скорость доступа к информации, а не точность перевода[4].
К началу 1980-х годов основные системы машинного перевода работали на базах компьютеров-мейнфреймов. Помимо системы SYSTRAN, к этому времени поддерживавшей множество языковых пар, существовали системы Logos, переводившие с английского на немецкий и французский, система Панамериканской организации здравоохранения для пар английский-испанский, система METAL MT, разработанная Техасским университетом в Остине и фирмой Siemens, а также японские системы для пар английский-японский.
С появлением персональных компьютеров и текстовых процессоров появились более доступные и дешёвые системы машинного перевода. Среди таких продуктов выделялись разработки компаний ALPS, Weidner Communications, Linguistic Products и Globalink, а также множество японских компаний, выпускающих микрокомпьютеры для машинного перевода, таких как Sharp, NEC, OKI, Mitsubishi, Sanyo и других. В 1990-х годах начались исследования по машинному переводу разговорной речи[4]. В дальнейшем, в 2019 году разработчики российской компании PROMT представили новую технологию машинного перевода на основе нейронных сетей — PROMT Neura.
Сейчас в этой области существуют быстрые онлайн-сервисы, сложные клиент-серверные решения для бизнеса и мобильные переводчики, работающие как через интернет, так и в офлайн-режиме.
Методы машинного перевода[править]
Машинный перевод на основе правил[править]
→ Машинный перевод на основе правил
Машинный перевод на основе правил — RBMT (от англ. rule-based machine translation) — технология машинного перевода на основе лингвистической информации об исходном языке и языке перевода. Такая информация извлекается, как правило, из словарей (как лингвистических, так и переводных), описаний грамматики языков и обобщается в виде формализуемых правил, охватывающих основные семантические, морфологические и синтаксические закономерности каждого языка. На основе таких правил исходный текст последовательно, по предложениям преобразуется в текст перевода.
Системы машинного перевода на основе правил делятся на три группы:
- системы пословного перевода;
- системы машинного перевода на основе трансформации — преобразуют структуры исходного языка в грамматические конструкции языка перевода;
- системы, использующие промежуточный искусственный язык — интерлингву — промежуточную (семантическую) модель текста в качестве общего посредника для всех языковых пар.
Статистический машинный перевод[править]
→ Статистический машинный перевод
Статистический метод в машинном переводе базируется на сопоставлении большого количества наборов языковых пар. Эти языковые пары состоят из текстов, где одно предложение дано на одном языке, а другое предложение является его аналогом на другом языке. Эффективность статистического машинного перевода возрастает пропорционально количеству языковых пар и точности их соответствия.
Примером таких языковых массивов могут служить парламентские документы, представляющие собой записи парламентских сессий. Парламентские документы издаются в Канаде, Гонконге и иных странах. Официальные бумаги Европейского экономического сообщества переводятся на 11 языков. Организация объединённых наций также публикует свои документы на нескольких языках. Эти материалы оказались чрезвычайно ценными ресурсами для статистического машинного перевода.
Нейронный машинный перевод[править]
Нейронный машинный перевод (англ. Neural Machine Translation, NMT) — подход к машинному переводу, в котором используется искусственная нейронная сеть. Модели NMT отличаются от методов машинного перевода, основанных на статистике фраз тем, что используют глубинное обучение и обучение признакам, что позволяет добиться максимальной эффективности перевода[5][6][7].
Майкрософт использует похожую технологию для перевода речи (в том числе в Майкрософт Переводчике и Skype Переводчике)[8]. Гарвардской группой по обработке естественного языка была выпущена OpenNMT, система нейронного машинного перевода с открытым исходным кодом[9]. Яндекс.Переводчик имеет гибридную модель: свой вариант перевода предлагает и статистическая модель, и нейросеть. После этого самообучающаяся технология CatBoost будет выбирать лучший из полученных результатов[10].
Качество перевода[править]
Факторами, от которого зависит качество перевода, являются:
- тематика исходного текста;
- стиль написания;
- грамматическая родственность языков;
- синтаксическая и лексическая родственность языков.
Перевод литературных произведений с помощью машинного перевода зачастую оказывается неудовлетворительным. Однако при работе с технической документацией, при наличии специализированных машинных словарей и небольших поправок системы на тип текста, возможно достижение переводов приемлемого уровня, требующих только минимальной редакционной доработки. Чем более формализован текст оригинала, тем выше вероятность получения качественного перевода. Наилучшие результаты машинного перевода, как правило, получаются при работе с техническими текстами (различные описания и инструкции) и с формализованными стилями написания текста[1].
См. также[править]
Литература[править]
- И. М. Богуславский Автоматический перевод // БРЭ
- О. С. Кулагина. О современном состоянии машинного перевода // Математические вопросы кибернетики, вып. 3, М.: Наука, 1991, стр. 5—50. Библиография из 140 названий. ISBN 5-02-014323-5.
- Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: Издательская группа URSS, 2017.
Примечания[править]
- ↑ 1,0 1,1 Машинный перевод текстов. Справочник Автор 24 (2024-02-19). Проверено 9 октября 2024.
- ↑ От системы Кирхера до «электронного мозга»: как развивался машинный перевод. TechInsider (2023-04-26). Проверено 8 октября 2024.
- ↑ Машина для подбора и печатания слов при переводе с одного языка на другой или на нескольких языках одновременно. А. с. СССР № 40995, 1935 г.
- ↑ 4,0 4,1 4,2 4,3 4,4 4,5 Hutchins, John The history of machine translation in a nutshell англ. // hutchinsweb.me.uk. — 2014.
- ↑ Wołk, Krzysztof; Marasek, Krzysztof Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts англ. // Procedia Computer Science : journal. — 2015. — Vol. 64. — № 64. — С. 2—9. — DOI:10.1016/j.procs.2015.08.456
- ↑ Kalchbrenner, Nal; Blunsom, Philip Recurrent Continuous Translation Models // Proceedings of the Association for Computational Linguistics. — 2013.
- ↑ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet Sequence to sequence learning with neural networks // NIPS. — 2014.
- ↑ Microsoft Translator launching Neural Network based translations for all its speech languages – Translator. Архивировано из первоисточника 10 мая 2017. Проверено 4 мая 2017.
- ↑ OpenNMT - Open-Source Neural Machine Translation англ.. opennmt.net. Архивировано из первоисточника 16 марта 2017. Проверено 22 марта 2017.
- ↑ В «Яндекс.Переводчик» встроили нейросеть с фантазией - CNews. Архивировано из первоисточника 8 октября 2017. Проверено 9 октября 2024.
Ссылки[править]
![]() | Одним из источников, использованных при создании данной статьи, является статья из википроекта «Знание.Вики» («znanierussia.ru») под названием «Машинный перевод», расположенная по следующим адресам:
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий. Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?». |
---|