Распознавание данных: ошибки и отказы

26.12.2013
При распознавании различных данных существует три возможных исхода: правильный ответ, ошибка и отказ (распознаватель говорит: "Я не могу уверенно построить ни одной гипотезы ответа – передай это на ручную обработку человеку"). В данной статье мы сосредоточимся на понимании ошибок и отказов, а также на том, как найти правильный баланс между ними.
распознавание данных, ошибки в распознавании, отказ от распознавания
Ошибки относят к тем случаям, когда программа распознавания выдает неверный результат. Проблема в том, что невозможно понять, ошибка ли это на самом деле, если у вас нет ни альтернативного мнения, ни достоверной информации помимо самой картинки (то есть того, что называют контекстом).
Если у вас есть достаточно большой объем тестовых изображений с известными фактическими данными, которые называют эталонными значениями, вы можете получить статистические измерения того, как часто эти ошибки происходят. Статистическая оценка частоты ошибок называется уровнем ошибки. Для того чтобы уровень ошибки был статистически значимым, нужно проводить измерения на такой выборке данных, на которой встречается хотя бы несколько десятков ошибок. Это означает, что если вам необходимо измерить уровень ошибки в 1%, общий объем проверяемых изображений должен составлять порядка 5000.
Проблема с появлением ошибок присуща не только компьютерам. Люди также их делают. Но человеческие ошибки отличаются от тех, которые допускаются в процессе автоматического распознавания. Многие человеческие ошибки связаны не с распознаванием, а с вводом (опечатки при быстром вводе). Комбинируя автоматическое распознавание с валидацией (проверка попадания даты в указанный диапазон, числа в определенный интервал и т.д) или с использованием результатов ввода данных человеком, можно значительно снизить уровень ошибки. В наиболее развитых технологиях распознавания используются алгоритмы голосования, что значительно снижает уровень ошибки, так как конечный результат представляет собой сочетание результатов, выданных несколькими различными подсистемами распознавания. Голосование позволяет достичь более низкого уровня ошибки, чем даже при ручном вводе в два прохода (т. е. вводе данных двумя независимыми операторами с последующей выверкой расхождений). Но даже эти алгоритмы не могут полностью исключить наличия какого-то процента ошибок и система должна правильно обрабатывать ошибочные ситуации.


Отказы относят к тем случаям, когда программа распознавания не может дать гарантированный ответ. Это может быть связано с неспособностью обрабатывать некоторые конкретные входные данные, либо с необходимостью гарантировать определенный уровень ошибки, минимально приемлемый для данного приложения. Элементы, на распознавание которых дан отказ, обычно обрабатываются вручную или требуют повторного сканирования и дальнейшей обработки.


Вот здесь начинается самое интересное — баланс между ошибками и отказами. В зависимости от потребностей, мы можем либо уменьшить количество отказов за счет увеличения уровня ошибки, или уменьшить уровень ошибки за счет увеличения процента отказов.
Снижение отказов за счет увеличения уровня ошибки позволяет компаниям обрабатывать больше информации автоматически, без необходимости вмешательства человека, что приводит к снижению затрат на обработку. Это целесообразно в тех случаях, когда наличие данных с ошибками не наносит ущерба, например, при обработке квитанций на журнальную подписку.
С другой стороны, снижение уровня ошибки за счет увеличения процента отказов приводит к тому, что проверяется больше данных, что подходит в тех случаях, когда каждая ошибка на счету или разрешен минимальный допуск ошибок, например, при обработке чеков.
Теги: OCR, ICR

автоматизация ввода документов, распознавание документов, распознавание рукописного текста   услуги распознавания и ввода документов, распознавание рукописного текста


Читать другие новости...