Оптическое распознавание символов
Оптическое распознавание символов (англ. optical character recognition, OCR) — это процесс, который позволяет преобразовать изображения рукописного, машинописного или печатного текста в текстовые данные, используемые в компьютерах (например, в текстовых редакторах). Эта технология широко используется для представления книг и документов в цифровом формате, для автоматизации различных бизнес-процессов, а также для размещения текста на веб-ресурсах. OCR позволяет пользователям редактировать текст, выполнять поиск по словам и фразам, компактно сохранять данные, показывать или печатать материал без потери качества, осуществлять анализ текста и применять к нему различные способы обработки, такие как перевод, форматирование или озвучивание. Данная технология является важным направлением исследований в областях распознавания паттернов, алгоритмов ИИ и машинного зрения[1].
В ранних версиях программы могли распознавать только один шрифт, впоследствии были созданы «умные» системы, способные с высокой точностью одновременно распознавать различные шрифты. Современные системы способны работать и с рукописным текстом, некоторые OCR-системы также могут восстанавливать оригинальное форматирование текста, включая изображения, колонки и другие графические элементы.
История[править]
В 1929 году Густав Таушек (нем. Gustav Tauschek) зарегистрировал патент на метод оптического распознавания текста в Германии. Вскоре после этого, в 1933 году, в США патент на подобное изобретение получил Пол В. Гендель (англ. Paul W. Handel). Таушек также получил американский патент на свою методику в 1935 году. Его разработка включала механическое устройство, использующее шаблоны и фотодетектор для распознавания текста.
В 1950 году криптоаналитик из АНБ, Дэвид Х. Шепард (англ. David H. Shepard), изучая проблему конвертации печатных сообщений для их обработки компьютером, создал устройство для её решения. Получив патент в США, он опубликовал информацию об этом в «Вашингтон Дэйли Ньюз» (27 апреля 1951) и «Нью-Йорк Таймс» (26 декабря 1953). После этого Шепард основал компанию по разработке интеллектуальных машин и вскоре представил на рынок первые коммерческие OCR-системы.
Первая коммерчески доступная система была внедрена в «Ридерс дайджест» в 1955 году, а вторая — продана компании «Стандарт ойл» для обработки чеков с кредитных карт. К концу 1950-х годов другие системы Шепарда были проданы, включая устройство для американских ВВС для чтения и передачи машинописных сообщений через телетайп. Позднее IBM получила лицензию на использование патентов Шепарда[2].
В 1965 году «Ридерс дайджест» и «Ар-Си-Эй» (англ. Radio Corporation of America) начали совместную разработку устройства для чтения документов, использующего OCR-технологию, для оцифровки серийных номеров купонов «Ридерс дайджест» из рекламных объявлений. Для этого использовался специальный барабанный принтер «Ар-Си-Эй» для печати на документах (шрифт OCR-A). Устройство для чтения документов напрямую взаимодействовало с компьютером RCA 301. С его помощью обрабатывалось до 1500 документов в минуту, причём каждый экземпляр тщательно проверялся, а неподдающиеся обработке документы отбраковывались.
Американская почтовая служба в 1965 году начала использовать машины с оптическими распознавателями текста, разработанные на базе исследований Якова Рабиновича. В Европе первопроходцем в использовании OCR-технологий стал британский почтовый сервис. В Канаде подобные системы начали эксплуатироваться почтовой службой в 1971 году. В пункте сортировки OCR-системы считывали имя и адрес адресата и наносили на конверт штрихкод особенными чернилами, светящимися под ультрафиолетом, чтобы избежать путаницы, вызванной человеческим фактором при заполнении адреса на конверте.
В 1974 году Рэймонд Курцвейл основал компанию «Курцвейл компьютер продактс», начав разработку первой системы OCR, способной распознавать печатный текст независимо от шрифта. Курцвейл также придавал большое значение созданию устройства для речевого воспроизводства текста, что открыло бы доступ к написанному незрячим людям. Разработка включала создание двух ключевых устройств — планшетного сканера на базе ПЗС-матрицы и синтезатора речи. Окончательный продукт был представлен 13 января 1976 года на пресс-конференции, проводимой Курцвейлом и лидерами Национальной федерации слепых.
В 1978 году компания «Курцвейл компьютер продактс» запустила в продажу первую коммерчески успешную OCR-программу интерпретирования символов. Через два года Курцвейл продал свою компанию гиганту «Ксерокс», заинтересованному в дальнейшем развитии технологий распознавания текста. «Курцвейл компьютер продактс» была реорганизована в дочернюю компанию под названием «Скансофт»[3].
Первая российская программа для распознавания кириллицы называлась «AutoR» и была создана компанией «ОКРУС». Её распространение началось в 1992 году и она функционировала под управлением операционной системы DOS, предоставляя достаточно высокую скорость и качество распознавания на компьютерах семейства IBM PC/XT с процессором Intel 8088 и тактовой частотой 4,77 МГц. В начале 90-х годов компания Hewlett-Packard включала программу «AutoR» в комплект поставки своих сканеров для российского рынка. Алгоритм «AutoR» отличался компактностью, быстродействием и полной независимостью от применённого в тексте шрифта. Он был разработан и протестирован еще в 60-х годах двумя выпускниками МФТИ — Г. М. Зенкиным и А. П. Петровым. Их метод распознавания был опубликован в журнале «Биофизика» в номере 12, (вып. 3), за 1967 год. Сегодня алгоритм Зенкина-Петрова используется в нескольких приложениях для распознавания графических символов. В 1996 году компания Paragon Software Group разработала технологию PenReader на основе этого алгоритма.
Впоследствии Г. М. Зенкин продолжил свою работу над PenReader в компании Paragon Software Group[4]. Его метод нашел свое воплощение в одноимённом товаре фирмы[5]. В 1993 году российская компания ABBYY представила свою технологию для распознавания текстов, на базе которой разработаны различные корпоративные решения и программы для широкого круга пользователей. Среди них стоит отметить программу ABBYY FineReader, мобильные приложения для распознавания текстовой информации, а также систему ABBYY FlexiCapture для ввода документов и данных. Лицензию на использование технологий распознавания текстов ABBYY OCR приобрели международные технологические гиганты, включая Fujitsu, Panasonic, Xerox и Samsung, а также EMC и прочие[6].
Современное состояние технологии оптического распознавания текста[править]
Точное распознавание символов латинского алфавита в настоящее время возможно лишь при наличии чётких изображений, таких как сканы напечатанных документов. В таких случаях уровень точности превышает 99%, а абсолютная точность достигается только при последующей корректировке человеком. Трудности с распознаванием рукописного «печатного» текста и стандартного рукописного текста, а также текстов других форматов (особенно с большим числом символов) остаются объектом активных исследований.
Точность различных методов может существенно отличаться в зависимости от специфики написанного. Например, если в тексте встречается специализированное слово, не предусмотренное обработкой в соответствующей версии программного обеспечения (ПО), вероятность ошибки может возрасти.
Распознавание символов в режиме онлайн значительно сложнее оптического распознавания. Последний метод работает со статическим текстом, тогда как онлайн-распознавание должно учитывать движение при написании текста. К примеру, в системах онлайн-распознавания, таких как PenPoint OS или планшетных ПК, можно определить направление письма — справа налево или слева направо. Для изображений с рукописным «печатным» текстом можно достичь точности в 80% — 90%, однако изображение может быть преобразовано с ошибками. Подобная технология может найти применение лишь в ограниченных случаях[7].
Более высокие показатели могут быть достигнуты при использовании контекстной информации. К примеру, распознавание целых слов из словаря является более простой задачей, чем сканирование и идентификация отдельных символов, в частности это позволяет определить, к какой части речи относится слово, является ли оно глаголом или существительным. Для более сложных задач в распознавании применяются интеллектуальные системы, такие как нейронные сети. Для калибровки таких систем разработана стандартная база данных MNIST, включающая изображения рукописных цифр.
См. также[править]
- CAPTCHA
- Распознавание символов нейронной сетью
- Распознавание образов
- Распознавание речи
- Распознавание нот[en]
- Распознавание музыки
- Таблица сравнения программного обеспечения для распознавания текстов
Примечания[править]
- ↑ Маслов И. А. Оптическое распознавание символов в информационных системах. Проверено 5 октября 2024.
- ↑ OCR — Оптическое распознавание символов (2002-06-01). Архивировано из первоисточника 6 октября 2024. Проверено 5 октября 2024.
- ↑ Kurzwail Computer Products англ.. Kurzweil Technologies, Inc. Проверено 5 октября 2024.
- ↑ Новый PenReader теперь доступен для iPhone, iPod touch и iPad. apps4all.ru. Архивировано из первоисточника 13 августа 2016. Проверено 5 октября 2024.
- ↑ Россияне выпустили приложение для рукописного ввода на iPhone и iPad - CNews. CNews.ru. Архивировано из первоисточника 17 января 2016. Проверено 5 октября 2024.
- ↑ ABBYY научила Samsung Galaxy S4 распознавать текст на изображениях. Архивировано из первоисточника 27 января 2016. Проверено 5 октября 2024.
- ↑ Виталий Мишин OCR и OСV: распознавание и верификация символов для производств. ООО «Малленом Системс» (2020-11-25). Проверено 5 октября 2024.
Ссылки[править]
- Unicode OCR — Hex Range: 2440-245F Архивная копия от 27 июня 2010 на Wayback Machine Оптическое распознавание символов в Юникоде англ.
- Оптическое распознавание символов в Linux Архивная копия от 2 апреля 2013 на Wayback Machine
![]() ↑ [+] | |
---|---|
Принтер | |
Виды |
Лазерный • Матричный • Струйный • Сублимационный • Светодиодный • Твердочернильный • Интернет-принтер |
Расходные материалы |
Бумага офисная • Заправка картриджей • Печатный картридж • Тонер • Фотобумага |
Программное и аппаратное обеспечение | |
Технологии |
Жёлтые точки • Линиатура растра • Система непрерывной подачи чернил • Электрография • |
Другие устройства | |
Сканер | |
Виды | |
Программное обеспечение |
SANE • Simple Scan • TWAIN • XSane • Оптическое распознавание символов |
Технологии | |
Модели | |
Комбинированные устройства | |
Копировальный аппарат (копир) • Многофункциональное устройство (МФУ) |
![]() | Одним из источников, использованных при создании данной статьи, является статья из википроекта «Знание.Вики» («znanierussia.ru») под названием «Оптическое распознавание символов», расположенная по следующим адресам:
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий. Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?». |
---|