Насколько точна система распознавания рукописного текста?

27.11.2013
При работе с печатным текстом хорошего качества OCR распознает символы практически со 100 процентной точностью (99,9%). Разнообразные стили написания, отличающиеся друг от друга пробелы, особенности почерка — все эти факторы делают распознавание рукописного текста гораздо более сложной задачей, чем распознавание печатного текста или даже текста, который написан от руки печатными буквами. Таким образом, системы распознавания, которые читают естественный рукописный текст, не могут гарантировать ту точность, с которой OCR распознает печатный текст. Тем не менее, подобные системы могут удовлетворить высокие требования к точности путем внедрения сложных алгоритмов, разработанных конкретно для этой цели.

Одним из параметров, который присущ качественной системе распознавания рукописного текста, является порог достоверности, благодаря которому пользователь может управлять процентом принятых ответов в отношении процента отказов. Говоря проще, более низкий порог достоверности даст результат с большим количеством распознанных ответов и с большим количеством ошибок, при том, как более высокий порог достоверности даст меньше распознанных ответов, которые содержат меньше ошибок. Ответы, которые не соответствуют порогу принятия, направляются на проверку осуществляемую человеком (верификацию). Этот подход не исключает человеческий труд, но в значительной мере его уменьшает. Это помогает гарантировать точность принятых ответов на приемлемом уровне и даже превосходить точность человека.

Существует несколько факторов, которые влияют на общий процент распознавания (принятые системой распознанные ответы с ошибками и без) и точность распознавания в каждом конкретном случае. К ним относятся: качество изображения, тип полей, тип документов, наличие контекста, и многое другое. Современные системы распознавания рукописного текста применяют различные механизмы, которые позволяют максимизировать точность распознавания в каждом конкретном случае. К ним относится механизм голосования, кроссвалидация данных, использование контекстной информации.

В зависимости от применения, соотношение между принятыми автоматически распознанными ответами и ответами, которые были отклонены (т.е. отправлены на дополнительную ручную проверку), может отличаться. Например, лучшие системы распознающие поле суммы на американских чеках могут распознавать 90% общего объема чеков при уровне ошибки в 1%. Подобным образом система, которую почтовая служба США (USPS) использует для распознавания адреса на конвертах, позволяет распознавать 95% общего объема корреспонденции при уровне ошибки в 2%.

Уже только две эти системы влияют практически на каждого американца, доказывая, что технология распознавания рукописного текста эффективно удовлетворяет наши ежедневные потребности.
Теги: ICR, OCR

автоматизация ввода документов, распознавание документов, распознавание рукописного текста   услуги распознавания и ввода документов, распознавание рукописного текста


Читати інші новини...