FormXtra Capture. Описание

Решение для распознавания документов.Описание


FormXtra Form Definition Studio (Настройка)

Инструмент для создания гибких описаний документа, при помощи которого указывают какую информацию из документа извлекать, как распознавать и каким образом полученные данные экспортировать.Этапы работы программы:

  • Регистрация форм

    Данный этап позволяет задать структуру документов (пакет, документы пакета, листы документа) и установить шаблоны, которые будут исполнять роль классификации файлов изображений. При задании шаблонов указывают неизменный графический элемент – зону регистрации, которая присутствует и остается постоянной на всех формах (любой тип текста или логотип). Обязательным условием является тестирование, при котором пользователь, выбирая случайные файлы изображений, соответствующие определенному шаблону, может проанализировать количество форм, которые прошли регистрацию, т.е. идеально соответствуют шаблону. В случае, когда не все файлы проходят регистрацию, проводят смену шаблона и повторяют тестирование. Таким образом, подбирается наилучший шаблон, который регистрирует максимальное количество файлов.

  • Определение полей

    Следующим шагом после завершения регистрации будет определение местоположения полей, где находится интересующая пользователя информация, и которые будут участвовать в распознавании. Этот шаг включает в себя еще и определение различных параметров созданного поля (его тип, язык распознавания, стиль написания, степень очистки и прочее). Качество распознавания в большей степени зависит от корректности и точности установки любого из этих параметров.
    По умолчанию любое созданное поле будет распознаваться при помощи собственного движка(Parascript OCR, Parascript ICR). В дополнении к этому существует возможность задать встроенный движок стороннего производителя (ABBYY FineReader Engine, CuneiForm).Обычно, это необходимо в случаях, когда извлекается особо важная информация или существуют высокие требования к качеству распознавания.

  • Распознавание полей

    На этой стадии происходит распознавание полей, заданных в предыдущем шаге. Для получения точной оценки результатов, необходимо задать эталонные значения для полей, которые принимали участие в распознавании. Form Definition Studio имеет удобный редактор для быстрого наполнения полей эталонными значениями, с их последующим сохранением в файл.
    После ввода эталонных значений, пользователю будет доступна различная статистическая информация (количество распознанных и нераспознанных полей, количество достоверно распознанных и неуверенно распознанных полей, количество ошибок и прочее). На основании этой информации можно сделать вывод о допустимом проценте ошибок и качестве распознавания. Для увеличения точности полученного результата допустимо изменение ранее заданных параметров (координаты поля, степень очистки, стиль написания и прочее), после чего вся статистика автоматически пересчитается и появится возможность вновь ее проанализировать.

  • Скрипты

    Посредством скриптов (C#, Visual Basic.Net) можно значительно расширить и дополнить функционал обработки документов. Решение позволяет использовать все стандартные функции .Net и собственные классы. Для написания скриптов не требуется установка Visual Studio, все действия выполняются в Form Definition Studio. Программист имеет доступ ко всем процессам описания форм, распознавания и вывода результатов.
    Приведем несколько примеров использования скриптов:

    • Форма содержит таблицу. Один из столбцов таблицы имеет сквозную нумерацию. Программист может получить результаты распознавания нескольких ячеек идущих подряд, затем, уяснив закономерность, принудительно установить значения всем ячейкам столбца.
    • Документ содержит данные контрагента (название, индивидуальный номер, адрес, телефон и прочее). Распознав индивидуальный номер, можно обратиться к внешнему источнику данных (например, базе данных) и получить остальные данные контрагента для дальнейшего использования.
  • Настройка выходных данных

    Form Definition Studio имеет в своем составе все необходимые инструменты для формирования и настройки выходных данных. Существует возможность конкретизировать структуру данных (задать необходимые поля для экспорта, расположить их в нужном порядке, предопределить их размер, задать значения по умолчанию). Пользователь может выполнить распознавание тестовой партии документов и получить результирующие данные для просмотра, согласно заданной структуре. Выходные данные могут быть экспортированы в виде текстовых файлов или таблиц баз данных (txt, xml, БД через OLEDB\ODBC, SharePoint).



FormXtra Administrator (Обработка)

FormXtra Administrator предоставляет пользователю полный контроль над всеми процессами обработки. Администратор имеет возможность проводить мониторинг работы системы на общем и детальном уровнях. Программа позволяет:

  • Получить упрощенный анализ в виде графических диаграмм

    В режиме реального времени на экран администратора выводится полная статистика о состоянии обрабатываемых документов — от их сканирования и распознавания до перепроверки аудитором и выводом в базу данных.

  • Получить полный, развернутый анализ

    Программа обеспечивает получение всесторонней статистической информации о состоянии процесса обработки: просмотр результатов идентификации типа документа, просмотр предварительных результатов распознавания (без учета данных, которые были отправлены системой на верификацию), просмотр реальных результатов распознавания, отчет о производительности и качестве работы каждого аудитора.

  • Управлять процессом обработки распознавания документов

    Помимо функций анализа и контроля FormXtra Administrator дает возможность администратору управлять процессами обработки. Администратор может снять с обработки любой пакет документов, который имеет плохое качество. После получения более качественных сканированных материалов, администратор может вновь добавить пакет в обработку.



Capture (Обработка)

Capture – это один из инструментов FormXtra этапа обработки, который служит для импорта изображений и дальнейшей загрузки файлов в базу данных системы.
Файлы изображений могут попадать на обработку несколькими способами:

  • Используя сканер

    Программа имеет широкие возможности для удобной и производительной работы. В зависимости от типа используемого сканера, можно сканировать как по одному листу, так и пакет документов. Наиболее интересные возможности:

    • обработка исключительных ситуаций (остановить сканирование, удалить файлы с дефектами, повторить сканирование);
    • управление настройками сканирования (разрешение, тип сканирования, режим, контрастность, яркость, сжатие и прочее);
    • использование предопределенного разделителя заданий (лист с некоторым штрихкодом) при обработке разносторонних пакетов документов, если того требует задача.

    В настоящее время возможно подключение сканеров с интерфейсом ISIS.

  • Путем импорта из некоторой папки компьютера

    В таком варианте пользователь вправе использовать понравившийся ему софт для задач извлечения изображений из бумажных документов. Интерфейс обмена (ISIS, TWAIN) не имеет существенной роли, так как в большинстве, программа по умолчанию, идущая в комплекте поставки со сканером, имеет нужный драйвер.

  • Программно

    Используя платформу .Net и классы, идущие в комплекте с решением  можно решать любые задачи импорта изображений. Это может быть работа с протоколами FTP (POP3) или загрузка изображений «на лету» из горячей папки. Также следует упомянуть о широком наборе методов для коррекции и преобразованию файлов: устранение углового перекоса и шума, вращения и пр. (Deskew, Despeckle, Rotate).

Для работы с файлами изображений имеется удобный инструментарий с возможностями для их просмотра и коррекции. Следует упомянуть и о детальной статистике при работе с Capture, благодаря которой пользователю доступна информация об отправленных, переданных, обрабатываемых файлах. Также дополнительно ведется логирование по всем действиям работы программы.



TotalKeying (Обработка)

После того, как документ был классифицирован и распознан, некоторые поля нуждаются в дополнительной проверке — верификации. Вызвано это тем, что печатный материал или сканированная копия могут иметь плохое качество. В результате, система не может самостоятельно принять решение и сомневается в результате, поэтому необходимо участие человека (аудитора).

Программа TotalKeying отображает аудитору спорные моменты в документе, а он в свою очередь, должен подтвердить или опровергнуть гипотезу системы о результате распознавания поля. Основные причины попадания данных на верификацию:

  • Низкий процент распознавания

    На предварительном этапе работы с помощью Form Definition Studio для каждого поля задают должный уровень надежности распознавания. Если по каким-либо причинам уровень надежности не достигнут, то поле автоматически попадает на верификацию.

  • Программная валидация

    Скрипты дополняют и расширяют функционал обработки документов, их создают на предварительном этапе работы с помощью Form Definition Studio . В качестве примера можно рассмотреть квитанцию, на которой фигурирует рукописный адрес. Номера домов или квартир практически никогда не имеют четырехзначных значений. Если система распознала на должном уровне подобное поле, то будет не лишним перепроверить эти данные. Скрипт (бизнес-правило) принудительно пошлет поле на проверку.

Для удобной работы аудитора программа TotalKeying имеет различные опции и настройки. Пользователь может масштабировать изображение, настраивать цвет различных элементов (фон, поле, маркер) и прочее.