Что такое OCR, ICR и Parascript ICR?

01.12.2013
На протяжении многих лет, компании, работающие с технологиями распознавания (в том числе и компания Parascript) пытались создать аббревиатуры, чтобы разграничить понятия OCR, ICR и технологий для эффективного чтения многих типов и стилей почерка, в том числе рукописного. В итоге, Parascript не встретил того, кто интересовался бы распознаванием естественного рукописного текста. Люди интересовались только ICR. Ниже приведен краткий обзор различий между OCR, ICR и ICR от Parascript, которая распознает тексты, написанные в свободной, естественной манере.

обзор технологий распознавания, OCR, ICR, Parascript ICR

OCR

Технология оптического распознавания символов (OCR) рассматривает сканированные изображения отпечатанного текста и преобразует их в электронные текстовые данные. Несмотря на то, что самые усовершенствованные системы могут распознавать почти все виды шрифта, они работают только с печатными текстами и отклоняют рукописные. Отпечатанные буквы ровно располагаются на странице, позволяя OCR читать один символ за другим. Когда все символы в слове распознаны, слово сравнивается со списком возможных вариантов для окончательного утверждения результата. Любой текст, который не является идеальным, вызовет трудности даже у самой усовершенствованной OCR системы, что отразится на значительном снижении точности обработки некачественных изображений. Например, когда символы разъединяются вследствие плохого качества изображения, либо, если несколько символов сливаются из-за размытого или темного фона между ними, точность распознавания может уменьшиться на целых 20 процентов.

ICR

Технология интеллектуального распознавания рукописного печатного текста (ICR) в основном используется при распознавании текста, написанного от руки печатными буквами. ICR способна распознавать раздельные символы написанные от руки.

Не удивительно, что задача распознавания человеческого почерка гораздо более сложная, чем распознавание простых печатных текстов, так как не существует двух людей с одинаковым почерком. Такие факторы, как настроение, окружающая среда, стресс — все это в совокупности изменяет почерк, заставляя человека писать символы каждый раз по-разному. Как и OCR, ICR выполняет распознавание посимвольно и начинает с разделения слов на составляющие компоненты. Поэтому, при ICR распознавании важно, чтобы буквы не были написаны небрежно либо соединены вместе.

ICR является более надежным средством в обработке рукопечатного текста, чем OCR. Словари применяются после процесса распознавания, а не во время него. Поэтому, если правильное предположение не было сделано во время сегментации символов и процесса распознания, проверка со словарем может не улучшить результат и значительно снизить точность.

Parascript ICR

OCR и ICR обеспечивают высокую точность при распознавании печатного и рукопечатного текста, но неэффективны при работе с текстом, написанным в свободной, естественной манере (где буквы связаны между собой и могут быть неразборчивы). Технология Parascript ICR учитывает, что элементы почерка имеют динамическую структуру. Почерк, сокращенный до его базовых элементов, по сути, является движениями, произведенными пишущим инструментом. Некоторые символы олицетворяют суть всех рукописных стилей. Например, уклон характеризует траекторию почерка. Parascript называет этот уклон элементом XR. Его можно обнаружить во всех буквах. Объединенные элементы XR образуют, по сути, форму всех букв.

ICR Parascript, распознавание рукописного текста
Технология Parascript ICR фокусируется на строении написанного слова. Наподобие того, как люди ищут смысл, чтобы прочитать слова, в которых частично переставлены буквы (yuo cna lkiley raed tihs wthiuot a pborlem) Parascript ICR добивается подобного распознавания на основе контекстного подхода. Обрабатывая результаты во время процесса распознавания, Parascript ICR создает высокоточные ответы, которые в свою очередь приводят к более высокому уровню распознавания, чем те, которые проверяются в конце процесса.

Такой подход также будет полезен при необходимости распознать печатный текст, который имеет слишком плохое качество для распознавания с помощью OCR.
Теги: OCR, ICR

автоматизация ввода документов, распознавание документов, распознавание рукописного текста   услуги распознавания и ввода документов, распознавание рукописного текста


Читать другие новости...