Автоматизированное рецензирование

Материал из Циклопедии
Перейти к навигации Перейти к поиску

Инструменты компьютерного рецензирования (CAR) — это части программного обеспечения, основанные на алгоритмах сравнения и анализа текста. Эти инструменты фокусируются на различиях между двумя документами, принимая во внимание шрифт каждого документа посредством интеллектуального анализа.

Обнаружение различий[править]

Интеллектуальный анализ, используемый инструментами CAR, определяет, что различия не имеют одинакового значения в зависимости от их типа и/или поля/предмета документа. Например, разница в числе не имеет одинакового значения, если это число — дата, цена, номер страницы, номер рисунка, часть адреса, номер сноски, номер позиции списка, номер заголовка и т. д.

  • разница в номере заголовка или номере элемента списка может не представлять интереса, если эти числа будут впоследствии пересчитаны перед печатью или публикацией инструментом обработки текста,
  • разница между небольшими числами, такими как «1» и «один» или «1» и «1-й», часто представляет второстепенный интерес, в зависимости от темы и области документа
  • В то время как некоторые другие различия чисел могут нанести большой ущерб документу.

Эти инструменты интересны в различных приложениях:

  • сравнение между документом и его обновленной/модифицированной версией. Основная цель — выделить изменения, внесенные третьим лицом или программой обработки текста.
  • сравнение между документом, отредактированным в двух форматах файлов: Word, TXT, PDF, HTML, XML. Основная цель — выделить различия, вызванные модификацией формата или программой преобразования/переформатирования. Часто простые проблемы с преобразованием кодировки символов могут привести к катастрофе.

Для перевода[править]

Инструменты компьютерного рецензирования для перевода (CART) — это инструменты CAR, способные управлять многоязычными сравнениями. Это подразумевает возможность сопоставления каждой части текста одного документа с другим с учётом специфики каждого языка: форматы даты/числа, пунктуация (например, французские/английские кавычки) и т. д. Лучшие инструменты CART способны находить соответствия между группами существительных или слов, что подразумевает поиск терминологических и синтаксических элементов с помощью лингвистических анализаторов.

Примеры применения[править]

  • Автор книги обновляет свой документ (часто в формате Word), получая пробные оттиски из типографии (часто в формате PDF) или переводы на другой язык.
  • Менеджер контента веб-сайта, который должен обеспечить обновление и согласованность версий HTML-страниц на разных языках.
  • Печатник, который должен обеспечить последовательность и качество своего процесса, возможно, используя собственные форматы XML/SGML, некоторые автоматические процедуры, возможные ручные вмешательства, выполняемые им самим или субподрядчиком.
  • Редактор, через который проходят документы от всех участников.
  • «История» MediaWiki на каждой странице является инструментом CAR

Ссылки[править]

 
Общие определения
Анализ текста

Сегментация текста[en] • Частеречная разметка • Поверхностный синтаксический анализ[en] • Обработка сложных слов[en] • Извлечение коллокаций[en] • Стемминг • Лемматизация • Распознавание именованных сущностей[en] • Разрешение кореферентности • Анализ тональности текста • Извлечение концептов[en] • Синтаксический анализ • Разрешение лексической многозначности • Извлечение терминологии[en] • Извлечение информации • Идентификация языка • Определение регистра[en]

Реферирование[en]
Машинный перевод
Идентификация
и сбор данных
Тематическая модель
Рецензирование
Интерфейс
на естественном языке
[en]