Оптическое распознавание символов

Файл:Iconocr.png

Оптическое распознавание символов (англ. optical character recognition, OCR) — это процесс, который позволяет преобразовать изображения рукописного, машинописного или печатного текста в текстовые данные, используемые в компьютерах (например, в текстовых редакторах). Эта технология широко используется для представления книг и документов в цифровом формате, для автоматизации различных бизнес-процессов, а также для размещения текста на веб-ресурсах. OCR позволяет пользователям редактировать текст, выполнять поиск по словам и фразам, компактно сохранять данные, показывать или печатать материал без потери качества, осуществлять анализ текста и применять к нему различные способы обработки, такие как перевод, форматирование или озвучивание. Данная технология является важным направлением исследований в областях распознавания паттернов, алгоритмов ИИ и машинного зрения^[1].

В ранних версиях программы могли распознавать только один шрифт, впоследствии были созданы «умные» системы, способные с высокой точностью одновременно распознавать различные шрифты. Современные системы способны работать и с рукописным текстом, некоторые OCR-системы также могут восстанавливать оригинальное форматирование текста, включая изображения, колонки и другие графические элементы.

История[править]

В 1929 году Густав Таушек (нем. Gustav Tauschek) зарегистрировал патент на метод оптического распознавания текста в Германии. Вскоре после этого, в 1933 году, в США патент на подобное изобретение получил Пол В. Гендель (англ. Paul W. Handel). Таушек также получил американский патент на свою методику в 1935 году. Его разработка включала механическое устройство, использующее шаблоны и фотодетектор для распознавания текста.

В 1950 году криптоаналитик из АНБ, Дэвид Х. Шепард (англ. David H. Shepard), изучая проблему конвертации печатных сообщений для их обработки компьютером, создал устройство для её решения. Получив патент в США, он опубликовал информацию об этом в «Вашингтон Дэйли Ньюз» (27 апреля 1951) и «Нью-Йорк Таймс» (26 декабря 1953). После этого Шепард основал компанию по разработке интеллектуальных машин и вскоре представил на рынок первые коммерческие OCR-системы.

Первая коммерчески доступная система была внедрена в «Ридерс дайджест» в 1955 году, а вторая — продана компании «Стандарт ойл» для обработки чеков с кредитных карт. К концу 1950-х годов другие системы Шепарда были проданы, включая устройство для американских ВВС для чтения и передачи машинописных сообщений через телетайп. Позднее IBM получила лицензию на использование патентов Шепарда^[2].

В 1965 году «Ридерс дайджест» и «Ар-Си-Эй» (англ. Radio Corporation of America) начали совместную разработку устройства для чтения документов, использующего OCR-технологию, для оцифровки серийных номеров купонов «Ридерс дайджест» из рекламных объявлений. Для этого использовался специальный барабанный принтер «Ар-Си-Эй» для печати на документах (шрифт OCR-A). Устройство для чтения документов напрямую взаимодействовало с компьютером RCA 301. С его помощью обрабатывалось до 1500 документов в минуту, причём каждый экземпляр тщательно проверялся, а неподдающиеся обработке документы отбраковывались.

Американская почтовая служба в 1965 году начала использовать машины с оптическими распознавателями текста, разработанные на базе исследований Якова Рабиновича. В Европе первопроходцем в использовании OCR-технологий стал британский почтовый сервис. В Канаде подобные системы начали эксплуатироваться почтовой службой в 1971 году. В пункте сортировки OCR-системы считывали имя и адрес адресата и наносили на конверт штрихкод особенными чернилами, светящимися под ультрафиолетом, чтобы избежать путаницы, вызванной человеческим фактором при заполнении адреса на конверте.

В 1974 году Рэймонд Курцвейл основал компанию «Курцвейл компьютер продактс», начав разработку первой системы OCR, способной распознавать печатный текст независимо от шрифта. Курцвейл также придавал большое значение созданию устройства для речевого воспроизводства текста, что открыло бы доступ к написанному незрячим людям. Разработка включала создание двух ключевых устройств — планшетного сканера на базе ПЗС-матрицы и синтезатора речи. Окончательный продукт был представлен 13 января 1976 года на пресс-конференции, проводимой Курцвейлом и лидерами Национальной федерации слепых.

В 1978 году компания «Курцвейл компьютер продактс» запустила в продажу первую коммерчески успешную OCR-программу интерпретирования символов. Через два года Курцвейл продал свою компанию гиганту «Ксерокс», заинтересованному в дальнейшем развитии технологий распознавания текста. «Курцвейл компьютер продактс» была реорганизована в дочернюю компанию под названием «Скансофт»^[3].

Первая российская программа для распознавания кириллицы называлась «AutoR» и была создана компанией «ОКРУС». Её распространение началось в 1992 году и она функционировала под управлением операционной системы DOS, предоставляя достаточно высокую скорость и качество распознавания на компьютерах семейства IBM PC/XT с процессором Intel 8088 и тактовой частотой 4,77 МГц. В начале 90-х годов компания Hewlett-Packard включала программу «AutoR» в комплект поставки своих сканеров для российского рынка. Алгоритм «AutoR» отличался компактностью, быстродействием и полной независимостью от применённого в тексте шрифта. Он был разработан и протестирован еще в 60-х годах двумя выпускниками МФТИ — Г. М. Зенкиным и А. П. Петровым. Их метод распознавания был опубликован в журнале «Биофизика» в номере 12, (вып. 3), за 1967 год. Сегодня алгоритм Зенкина-Петрова используется в нескольких приложениях для распознавания графических символов. В 1996 году компания Paragon Software Group разработала технологию PenReader на основе этого алгоритма.

Впоследствии Г. М. Зенкин продолжил свою работу над PenReader в компании Paragon Software Group^[4]. Его метод нашел свое воплощение в одноимённом товаре фирмы^[5]. В 1993 году российская компания ABBYY представила свою технологию для распознавания текстов, на базе которой разработаны различные корпоративные решения и программы для широкого круга пользователей. Среди них стоит отметить программу ABBYY FineReader, мобильные приложения для распознавания текстовой информации, а также систему ABBYY FlexiCapture для ввода документов и данных. Лицензию на использование технологий распознавания текстов ABBYY OCR приобрели международные технологические гиганты, включая Fujitsu, Panasonic, Xerox и Samsung, а также EMC и прочие^[6].

Современное состояние технологии оптического распознавания текста[править]

Точное распознавание символов латинского алфавита в настоящее время возможно лишь при наличии чётких изображений, таких как сканы напечатанных документов. В таких случаях уровень точности превышает 99%, а абсолютная точность достигается только при последующей корректировке человеком. Трудности с распознаванием рукописного «печатного» текста и стандартного рукописного текста, а также текстов других форматов (особенно с большим числом символов) остаются объектом активных исследований.

Точность различных методов может существенно отличаться в зависимости от специфики написанного. Например, если в тексте встречается специализированное слово, не предусмотренное обработкой в соответствующей версии программного обеспечения (ПО), вероятность ошибки может возрасти.

Распознавание символов в режиме онлайн значительно сложнее оптического распознавания. Последний метод работает со статическим текстом, тогда как онлайн-распознавание должно учитывать движение при написании текста. К примеру, в системах онлайн-распознавания, таких как PenPoint OS или планшетных ПК, можно определить направление письма — справа налево или слева направо. Для изображений с рукописным «печатным» текстом можно достичь точности в 80% — 90%, однако изображение может быть преобразовано с ошибками. Подобная технология может найти применение лишь в ограниченных случаях^[7].

Более высокие показатели могут быть достигнуты при использовании контекстной информации. К примеру, распознавание целых слов из словаря является более простой задачей, чем сканирование и идентификация отдельных символов, в частности это позволяет определить, к какой части речи относится слово, является ли оно глаголом или существительным. Для более сложных задач в распознавании применяются интеллектуальные системы, такие как нейронные сети. Для калибровки таких систем разработана стандартная база данных MNIST, включающая изображения рукописных цифр.

См. также[править]

Примечания[править]

↑ Маслов И. А. Оптическое распознавание символов в информационных системах. Проверено 5 октября 2024.
↑ OCR — Оптическое распознавание символов (2002-06-01). Архивировано из первоисточника 6 октября 2024. Проверено 5 октября 2024.
↑ Kurzwail Computer Productsангл.. Kurzweil Technologies, Inc. Проверено 5 октября 2024.
↑ Новый PenReader теперь доступен для iPhone, iPod touch и iPad. apps4all.ru. Архивировано из первоисточника 13 августа 2016. Проверено 5 октября 2024.
↑ Россияне выпустили приложение для рукописного ввода на iPhone и iPad - CNews. CNews.ru. Архивировано из первоисточника 17 января 2016. Проверено 5 октября 2024.
↑ ABBYY научила Samsung Galaxy S4 распознавать текст на изображениях. Архивировано из первоисточника 27 января 2016. Проверено 5 октября 2024.
↑ Виталий Мишин OCR и OСV: распознавание и верификация символов для производств. ООО «Малленом Системс» (2020-11-25). Проверено 5 октября 2024.

Ссылки[править]

Unicode OCR — Hex Range: 2440-245F Архивная копия от 27 июня 2010 на Wayback Machine Оптическое распознавание символов в Юникоде англ.
Оптическое распознавание символов в Linux Архивная копия от 2 апреля 2013 на Wayback Machine

Обработка естественного языка ↑ [+]
Общие определения	Корпус текстов • Речевой корпус^[en] • Стоп-слова • Мешок слов^[en] • AI-полнота • N-грамма (Биграмма^[en], Триграмма^[en])
Анализ текста	Сегментация текста^[en] • Частеречная разметка • Поверхностный синтаксический анализ^[en] • Обработка сложных слов^[en] • Извлечение коллокаций^[en] • Стемминг • Лемматизация • Распознавание именованных сущностей^[en] • Разрешение кореферентности • Анализ тональности текста • Извлечение концептов^[en] • Синтаксический анализ • Разрешение лексической многозначности • Извлечение терминологии^[en] • Извлечение информации • Идентификация языка • Определение регистра^[en]
Реферирование^[en]	Извлечение предложений^[en] • Генерация реферата • Многодокументное реферирование^[en] • Упрощение текста^[en]
Машинный перевод	Автоматизированный • Гибридный • Интерлингвальный^[en] • На основе правил • На основе примеров^[en] • На основе словаря^[en] • Статистический • Синхронный • Трансферный^[en]
Идентификация и сбор данных	Распознавание речи • Синтез речи • Оптическое распознавание символов • Генерация текста
Тематическая модель	Размещение патинко • Латентное размещение Дирихле • Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] • Конкордансер^[en] • Предективный ввод текста • Система проверки грамматики^[en] • Система проверки правописания • Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Автоматизированный онлайн-помощник^[en] • Виртуальный собеседник • Вопросно-ответная система • Голосовой интерфейс • Интерактивная литература

Принтер

Виды

Лазерный • Матричный • Струйный • Сублимационный • Светодиодный • Твердочернильный • Интернет-принтер

Расходные материалы

Бумага офисная • Заправка картриджей • Печатный картридж • Тонер • Фотобумага

Программное
и аппаратное обеспечение

JetDirect • Виртуальный принтер

Принт-сервер	CUPS • Samba • Novell Open Enterprise Server
Протоколы	IPP • LPD

Технологии

Жёлтые точки • Линиатура растра • Система непрерывной подачи чернил • Электрография •

Другие устройства

Плоттер • Фильм-рекордер

Сканер

Виды

Планетарный • Ручной • Сканер кинопленки • Фильм-сканер

Программное обеспечение

SANE • Simple Scan • TWAIN • XSane • Оптическое распознавание символов

Технологии

Оцифровка книг • Поточное сканирование документов

Модели

Colortrac

Комбинированные устройства

Копировальный аппарат (копир) • Многофункциональное устройство (МФУ)

Искусственный интеллект ↑ [+]
Философия	Автономный агент Тест Тьюринга Китайская комната
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронные сети Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Норберт Винер Алан Тьюринг В. М. Глушков Г. С. Осипов Э. В. Попов Д. А. Поспелов М. Г. Гаазе-Рапопорт Т. А. Гаврилова В. Ф. Хорошевский Г. С. Поспелов Марвин Мински Джон Маккарти Фрэнк Розенблатт Чарльз Бэббидж Аллен Ньюэлл Герберт Саймон Ноам Хомский Джуда Перл Сеймур Пейперт Клод Шеннон Джозеф Вейценбаум Патрик Винстон В. К. Финн
Организации	Государственный университет информатики и искусственного интеллекта Machine Intelligence Research Institute
Связанное	ИИ-паранойя ИИ-фобия Синтетические данные
Искусственный интеллект

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Знание.Вики» («znanierussia.ru») под названием «Оптическое распознавание символов», расположенная по следующим адресам:

—	https://baza.znanierussia.ru/mediawiki/index.php/Оптическое_распознавание_символов
—	«https://znanierussia.ru/articles/Оптическое_распознавание_символов»

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?».

[1] Маслов И. А. Оптическое распознавание символов в информационных системах. Проверено 5 октября 2024.

[2] OCR — Оптическое распознавание символов (2002-06-01). Архивировано из первоисточника 6 октября 2024. Проверено 5 октября 2024.

[3] Kurzwail Computer Productsангл.. Kurzweil Technologies, Inc. Проверено 5 октября 2024.

[4] Новый PenReader теперь доступен для iPhone, iPod touch и iPad. apps4all.ru. Архивировано из первоисточника 13 августа 2016. Проверено 5 октября 2024.

[5] Россияне выпустили приложение для рукописного ввода на iPhone и iPad - CNews. CNews.ru. Архивировано из первоисточника 17 января 2016. Проверено 5 октября 2024.

[6] ABBYY научила Samsung Galaxy S4 распознавать текст на изображениях. Архивировано из первоисточника 27 января 2016. Проверено 5 октября 2024.

[7] Виталий Мишин OCR и OСV: распознавание и верификация символов для производств. ООО «Малленом Системс» (2020-11-25). Проверено 5 октября 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Оптическое распознавание символов

Содержание

История[править]

Современное состояние технологии оптического распознавания текста[править]

См. также[править]

Примечания[править]

Ссылки[править]

Навигация

Оптическое распознавание символов

История[править]

Современное состояние технологии оптического распознавания текста[править]

См. также[править]

Примечания[править]

Ссылки[править]

Навигация

Поиск