12. ocr. Выполняет распознавание текста ЭОД с использованием библиотеки Tesseract. 13. one.


ПО «Фрагмент»
Наименование программыОбщее описание
Документ
на PAGEREF Last_page \h 29 листах
Правообладатель – ООО «ЭЛАР»

АННОТАЦИЯ
Настоящий документ содержит описание назначения и функциональных характеристик программного обеспечения (далее – ПО) «Фрагмент».
СОДЕРЖАНИЕ
TOC \o "1-4" \h \z \u 1Назначение ПО «Фрагмент» PAGEREF _Toc490643912 \h 42Описание ПО «Фрагмент» PAGEREF _Toc490643913 \h 62.1Общие сведения PAGEREF _Toc490643914 \h 62.2Структура ПО PAGEREF _Toc490643915 \h 62.3Системные требования PAGEREF _Toc490643916 \h 83Описание функционирования PAGEREF _Toc490643917 \h 93.1Элементы интерфейса PAGEREF _Toc490643918 \h 93.2Сортировка записей PAGEREF _Toc490643919 \h 113.3Установка фильтров PAGEREF _Toc490643920 \h 133.4Изменение ширины столбцов таблицы PAGEREF _Toc490643921 \h 143.5Изменение порядка отображения столбцов таблицы PAGEREF _Toc490643922 \h 153.6Варианты нарезки образов PAGEREF _Toc490643923 \h 153.7Формат данных результатов обработки PAGEREF _Toc490643924 \h 163.8Описание процесса обработки ЭОД PAGEREF _Toc490643925 \h 173.8.1Настройка рабочих папок PAGEREF _Toc490643926 \h 183.8.2Работа с проектом PAGEREF _Toc490643927 \h 183.8.3Работа с видами документов PAGEREF _Toc490643928 \h 233.8.4Настройка распознавания документа PAGEREF _Toc490643929 \h 243.8.5Разметка документа PAGEREF _Toc490643930 \h 243.8.6Загрузка примеров страниц PAGEREF _Toc490643931 \h 253.8.7Автоматическая классификация документов PAGEREF _Toc490643932 \h 253.8.8Сайт настройки модели автоклассификации PAGEREF _Toc490643933 \h 263.8.9Создание передачи ЭОД на обработку PAGEREF _Toc490643934 \h 263.8.10Настройка ввода результатов ретроконверсии PAGEREF _Toc490643935 \h 273.8.11Процесс обработки PAGEREF _Toc490643936 \h 273.8.11.1Проверка выполненных настроек PAGEREF _Toc490643937 \h 273.8.11.2Обработка ЭОД PAGEREF _Toc490643938 \h 283.8.11.3Формирование передачи на ввод PAGEREF _Toc490643939 \h 293.8.11.4Анализ ошибки PAGEREF _Toc490643940 \h 29
Назначение ПО «Фрагмент»ПО «Фрагмент» предназначено для «нарезки» электронных образов конфиденциальных или секретных документов (далее – ЭОД) на отдельные «обезличенные» части, не содержащие конфиденциальной, секретной или полной персональной информации; передачи на ретроконверсию выгруженных на внешние носители «обезличенных» фрагментов ЭОД и окончательной «сборки» полученных результатов ретроконверсии для формирования итоговых данных.ПО «Фрагмент» обеспечивает выполнение следующих функций:
ведения последовательности этапов обработки ЭОД;
создания заданий (передач) на загрузку ЭОД, подлежащих обработке;
разметки ЭОД с выделением отдельных сущностей, например, ФИО, Адрес, Дата и т.д.;
ведения шаблонов «нарезки» ЭОД;
автоматической классификации и разметки разных видов ЭОД на основе математических алгоритмов;
OCR распознавания текста ЭОД;
«нарезки», с использованием имеющихся шаблонов, на фрагменты ЭОД, не имеющих смысловой нагрузки, но достаточных для ввода данных операторами;
проверки нарезанных фрагментов ЭОД с возможностью просмотра оригинального ЭОД и внесения изменений, при необходимости, в выполненную разметку ЭОД;
выгрузки проверенных фрагментов ЭОД на внешний носитель для передачи операторам на ретроконверсию (индексирование);
импорта результатов ретроконверсии, поступающих в формате XML–файлов, и автоматической сборки всех возвращенных фрагментов ЭОД в единую запись БД с помощью кодировочной таблицы в БД (по приходу всех фрагментов).
Описание ПО «Фрагмент»Общие сведенияПО «Фрагмент» использует библиотеки, компоненты и сервисы с открытым кодом.
Для настройки и управления ПО «Фрагмент» реализован Web-интерфейс.
ПО «Фрагмент» имеет модульную архитектуру, позволяющую заменять отдельные блоки другими без доработок. ПО «Фрагмент» поддерживает следующие возможности расширения:
замена библиотеки OCR;
замена блока нарезки ЭОД;
замена и подключение новых вариантов автоматической нарезки.
ПО «Фрагмент» не хранит оригинальные ЭОД или «нарезанные» фрагменты ЭОД. На время обработки отдельным сервисам, входящим в состав ПО «Фрагмент», предоставляется доступ к сетевым дискам или внешним носителям для чтения и записи ЭОД или «нарезанных» фрагментов ЭОД.
Отдельный сервис ПО «Фрагмент» ведет БД учета выполненных операций обработки ЭОД, обеспечивает хранение информации, необходимой для построения итоговых данных на основе данных отдельных «нарезанных» фрагментов ЭОД.
Структура ПОПО «Фрагмент» включает в свой состав сервисы, представленные в REF _Ref485737054 \h Табл. 1.
Табл. 1 – Сервисы ПО «Фрагмент»
№ Сервис Назначение
1 backgroundtasksrunnerВыполняет фоновые задачи обслуживания БД и файловых хранилищ ПО «Фрагмент»
2 classenqueueСоздает задания на классификацию ЭОД, выполняемую сервисом автоклассификации3 classdequeueЗагружает результаты автоклассификации ЭОД в файловое хранилище ПО «Фрагмент»
4 classtrainСоздает задания на построение модели автоклассификации ЭОД для сервиса автоклассификации5 entityextractorРазмечает области ЭОД, соответствующие сущностям ФИО, Адрес, Дата и др.
6 exportВыгружает нарезанные фрагменты ЭОД на внешний носитель
7 exportresultsВыгружает финальные результаты обработки на внешний носитель
8 hotfolderСервис горячих папок. Выполняет автоматическую загрузку ЭОД и результатов индексирования в файловое хранилище и БД ПО «Фрагмент»
9 imageloaderВыполняет анализ входящих передач со сканирования и формирует задания на обработку ПО «Фрагмент» для отдельных папок передачи
10 mainСервис управления + сайт
11 markerВыполняет разметку ЭОД по шаблону
12 ocrВыполняет распознавание текста ЭОД с использованием библиотеки Tesseract13 oneВыполняет «нарезку» фрагментов ЭОД по результатам разметки, предварительно выполненной сервисами marker и entityextractor14 qarkselectionФормирует выборку ЭОД для выполнения контроля качества ввода
15 qaselectionФормирует выборку ЭОД для выполнения контроля качества «нарезки» фрагментов ЭОД
16 rkloaderВыполняет загрузку результатов ввода в БД ПО «Фрагмент»
17 routerВыполняет маршрутизацию заданий на обработку образов между этапами обработки
18 docclassifierСервис автоклассификации документов по распознанному тексту ЭОД
Системные требованияСервер, на который устанавливается ПО «Фрагмент», должен удовлетворять следующим требованиям:
Intel Core i5 ;
частота 2,8 ГГц;
оперативная память от 16 Гб;
объем жесткого диска от 250 Гб.
Для корректной работы ПО «Фрагмент» на компьютере должно быть установлено следующее программное обеспечение:
ОС Linux:
CentOs x64 7+;
Red Hat Enterprise Linux x64 7+;
Debian x64 8+;
Fedora x64 23+;
ОС Micosoft:
Windows 7+;
Windows Server 2012 R2+;
СУБД: PostgeSQL 9.2+;
Дополнительные пакеты:
Microsoft .NET Core 1.1;
OpenCV 3.2;
Libgdiplus;
Tesseract 3.04;
R 3.3.3;
RTextTools.
Описание функционированияЭлементы интерфейсаДля начала работы с ПО «Фрагмент» необходимо ввести в адресной строке браузера адрес доступа к ПО «Фрагмент», например: http://10.4.16.42:2017.
В процессе функционирования ПО «Фрагмент» существует возможность перехода на страницу работы с выбранным объектом при нажатии на строке с его названием, реализованного в виде ссылки.
При наведении курсора мыши на управляющий элемент интерфейса пользователю отображается контекстная подсказка, например, о его назначении, функциональном статусе.
В процессе выполнения определенных действий пользователю выдаются диалоговые окна, требующие от пользователя их подтверждений.
Для подтверждения выполняемых действий используются кнопки «OK».
Кнопки «Сохранить» или «Применить» используются для сохранения внесенной информации.
Кнопка «Отмена» используется для отказа от выполняемых действий или отказа от сохранения внесенной информации.
Информация о результатах выполненных действий выдается в виде сообщений.
Обработка ЭОД выполняется с помощью создаваемого проекта.
На страницах, отображаемых при функционировании ПО «Фрагмент», используются следующие управляющие элементы (иконки):
– обновление данных в области страницы;
– переход на страницу администрирования;
– переход на страницу выполнения первичных настроек выбранного этапа;
– переход на страницу редактирования настроек выбранного этапа;
– создание папки;
Примечание – Иконка появляется в том случае, если папка, указанная при настройке не существует, и ее необходимо создать.
– переход на страницу работы с проектом;
– сворачивание панели со списком проектов;
– разворачивание панели со списком проектов;
– переход на страницу со списком проектов;
– открытие списка содержимого проекта;
– закрытие списка содержимого проекта;
– удаление выбранного объекта;
– добавление объекта;
– приостановка проекта;
– возобновление работы проекта;
– блокировка обработки папок;
– разблокировка обработки папок;
– отключение автоматического обновления данных;
– включение автоматического обновления данных;
– выбор типов сущностей для извлечения при распознавании;
– выгрузка «нарезанных» ЭОД для ввода (передачи на ретроконверсию);
Примечание – Иконка появляется в области проекта на странице списка проектов, если на этапе «Формирование передач на ввод» есть хотя бы одна папка, ожидающая обработки.
– загрузка результатов ввода (ретроконверсии);
Примечание – Иконка появляется в области проекта на странице списка проектов, если на этапе «Ожидание результатов ввода» есть хотя бы одна папка, ожидающая обработки.
– отображение всей страницы ЭОД в области просмотра;
– масштабирование страницы ЭОД по ширине области просмотра;
– увеличение масштаба отображения ЭОД;
– уменьшение масштаба отображения ЭОД;
– переход в режим просмотра ЭОД;
– переход в режим редактирования ЭОД;
– переход к следующей странице примеров ЭОД;
– переход к предыдущей странице примеров ЭОД;
– переход к первой странице примеров ЭОД;
– переход к последней странице примеров ЭОД.
Для выхода из ПО «Фрагмент» необходимо нажать на кнопку , расположенную в правой части вкладки, открытой в используемом браузере.
Сортировка записейПри работе с таблицами в ПО «Фрагмент» предусмотрена возможность выполнения сортировки списка записей в таблицах.
Выполнение сортировки показано на примере работы с таблицей типов полей.
Список типов полей на странице работы с выбранным видом документа во вкладке «Общие параметры» может быть отсортирован по:
названию поля;
префиксу имени файла;
количеству использований полей определенных типов в размеченных ЭОД.
По умолчанию сортировка выполняется по названию поля по возрастанию данных в алфавитном порядке (от А до Я).

Рис. 1. Сортировка по возрастанию в алфавитном порядке значений названий полей
В столбцах полей, которые не участвуют в сортировке, стоит символ .
Для изменения порядка сортировки следует подвести курсор к названию столбца, по которому планируется выполнить сортировку, и нажать левую кнопку мыши. Если поле уже участвовало в сортировке, будет изменен ее порядок ( REF _Ref486497102 \h Рис. 2). Символ указывает на то, что сортировка выполнена в порядке убывания.

Рис. 2. Сортировка по убыванию в алфавитном порядке значений названий полей
Если поле не участвовало в сортировке, будет выполнена сортировка по выбранному значению в порядке возрастания.
Установка фильтровПри работе с таблицами в ПО «Фрагмент» предусмотрена возможность выполнения поиска значений (задания фильтра отображения):
в списке передач по проекту;
Поиск значений установленного фильтра выполняется в столбцах: Название и Путь к источнику.
Если по заданному фильтру не задано значений, информация об этом будет выдана пользователю.
Примечание – Удаление заданного текста фильтра выполняется вручную с помощью клавиш Backspace и Delete на клавиатуре.
в области «Загрузка результатов ввода» фильтр устанавливается по Состоянию и/или Тексту;
Значение поля Состояние выбирается из списка, открывающегося с помощью кнопки .
Если по заданному фильтру не задано значений, информация об этом будет выдана пользователю.
Для удаления заданного фильтра по Состоянию следует нажать кнопку , стоящую справа от установленного значения фильтра. После удаления фильтра в списке будут отображаться все существующие записи.
в списке ошибок по проекту фильтр устанавливается по Этапу и/или Тексту;
Значение поля Этап выбирается из списка, открывающегося с помощью кнопки .
Если по заданному фильтру не задано значений, информация об этом будет выдана пользователю.
Для удаления заданного фильтра по Этапу следует нажать кнопку , стоящую справа от установленного значения фильтра.
в области «Рабочие папки» фильтр устанавливается по Этапу, Состоянию и/или Тексту;
Значение поля Этап выбирается из списка, открывающегося с помощью кнопки .
Значение поля Состояние выбирается из списка, открывающегося с помощью кнопки .
Если по заданному фильтру не задано значений, информация об этом будет выдана пользователю
Для удаления заданного фильтра по Этапу и/или Состоянию следует нажать кнопку , стоящую справа от установленного значения фильтра.
Изменение ширины столбцов таблицыПри работе с таблицами в ПО «Фрагмент» предусмотрена возможность изменения ширины столбца.
Для изменения ширины столбца следует подвести курсор к правой части столбца, ширину которого планируется изменить (появится символ ), нажать левую кнопку мыши, удерживая ее, переместить курсор до нужной ширины и отпустить кнопку мыши.
Ширина столбца будет изменена.
Изменение порядка отображения столбцов таблицыПри работе с таблицами в ПО «Фрагмент» предусмотрена возможность изменения порядка отображения столбцов.
Для изменения порядка отображения столбцов таблицы следует подвести курсор к заголовку столбца, порядок следования которого планируется изменить, нажать левую кнопку мыши, удерживая ее, переместить курсор в нужное место таблицы и отпустить кнопку мыши.
Порядок отображения столбцов будет изменен.
Примечание – Изменение порядка отображения столбцов в таблице доступно только на сайте настройки модели автоклассификации.
Варианты нарезки образовВ ПО «Фрагмент» реализована возможность подключения разных вариантов «нарезки» образов и настройки их через интерфейс ПО.
Возможные типы нарезки образов представлены в REF _Ref487526493 \h Табл. 2.
Табл. 2 – Возможные типы нарезки образов
Тип разметки Описание
Фиксированный шаблон Пользователь размечает страницу – отмечает прямоугольные области, для каждой области дает название и тип. Тип указывается в виде строки произвольного формата.
Дополнительно пользователь может задать привязку шаблона к линиям, пересечениям линий или баркодам на документе. При наличии такой привязки, сервис будет выполнять линейное преобразование шаблона для наилучшего наложения на ЭОД с учетом найденных привязок. В случае невозможности наложить шаблон на ЭОД с использованием привязок, ПО накладывает шаблон без коррекции и отмечает ЭОД как подлежащий ручной проверке.
После наложения на ЭОД шаблона ПО вырезает фрагменты, соответствующие его областям, и сохраняет каждый фрагмент в отдельный файл. Файлу дается имя, содержащее случайное текстовое значение и префикс, соответствующий типу поля. Если при наличии привязок, не для всех из них удалось найти положение на ЭОД, то ЭОД отмечается как подлежащий проверке.
Выделение всех ФИО, Адресов и Названий Организаций, строк фиксированного формата Пользователь выбирает какие типы данных нужно вырезать. Поддерживаются типы: ФИО, Адрес, Название Организации, Строка заданного формата. Тип «Строка заданного формата» задается в виде маски или регулярного выражения.
ПО распознает текст на ЭОД, находит фрагменты текста, удовлетворяющие заданным условиям и отмечает их для вырезания.
Автоклассификация по тексту и фиксированные шаблоны для разных документов Является расширением режима «Фиксированный шаблон». Пользователь дополнительно настраивает возможные виды документов, задает для каждого вида шаблон и предоставляет ЭОД с примерами документов.
ПО выполняет автоматическую классификацию по тексту и наложение соответствующего шаблона.
ПО отмечает ЭОД с низкой достоверностью классификации как подлежащие ручной проверке
Все файлы подготовленных «нарезанных» образов получают дату/время создания и модификации – 2001-01-01 0:00 (можно изменить в настройках).
Формат данных результатов обработки
В процессе функционирования ПО используются следующие форматы данных:
ПО принимает результаты обработки подготовленных образов в формате xml. Для каждого подготовленного образа должен быть получен отдельный файл xml с результатами обработки. Файлы xml должны быть названы так же как соответствующие им подготовленные образы.
ПО формирует результаты обработки оригинальных образов в формате xml, собирая данные из всех файлов с результатами обработки подготовленных имиджей в один файл для каждого оригинального имиджа.
ПО поддерживает загрузку файлов с результатами РК из горячих папок.
ПО поддерживает загрузку результатов ретроконверсии (РК) и выгрузку готовых данных через REST Web-сервис.
Описание процесса обработки ЭОДНа главной странице ПО «Фрагмент» можно выполнить следующие действия:
перейти к странице администрирования;
создать проект;
создать передачи для проекта;
выгрузить образы (имиджи) для ввода;
загрузить результаты ввода;
перейти к странице работы с выбранным проектом;
перейти к странице работы со списком этапов выбранного проекта;
перейти к странице работы с передачами по выбранному проекту;
перейти к странице просмотра ошибок по выбранному проекту;
перейти к странице работы с видами документов по выбранному проекту;
перейти к странице настройки хранилища рабочих файлов;
перейти к странице настройки рабочих папок ПО «Фрагмент».
Настройка рабочих папокПервый шаг, который необходимо выполнить для первичной работы с ПО «Фрагмент» – выполнить настройки путей доступа к рабочим папкам, с которым работает ПО.
На странице настройки рабочих папок ПО выполняются настройки путей доступа к файловым папкам:
результатам распознавания (OCR);
результатам авторазметки;
промежуточным результатам нарезки;
выгрузки нарезанных фрагментов ЭОД для ретроконверсии (имиджей для РК);
финальных результатам;
данных классификации образов;
примеры документов;
Ftp сервиса автоклассификации.
Работа с проектомПосле настройки всех рабочих папок можно переходить к работе с проектами.
Следующий шаг при первичной работе с ПО «Фрагмент» – это создание проекта.
Примечания:
Может быть создано несколько проектов для работы с разными видами документов.
Разные проекты могут включать в себя дополнительные этапы обработки, например: при необходимости выделения сущностей из текста или использования контроля качества.
Проект включает в себя последовательность этапов обработки ЭОД, настройки подготовки ЭОД, информацию о загруженных партиях, полученных после обработки данных.

Рис. 3. Последовательность этапов обработки проекта
Последовательность этапов обработки проекта поддерживает следующие этапы, представленные в REF _Ref485823008 \h Табл. 3.
Табл. 3 – Этапы проекта
Этап Присутствует в каждом проекте Примечания
Загрузка Да Используется для создания заданий (передач) на загрузку ЭОД, подлежащих обработке
Распознавание Нет Используется для настройки языка распознавания. Этап появляется после настройки разметки по тексту или в случае наличия более одного вида документа
Автоматическая классификация документов Нет Используется для создания задания на классификацию документов. Этап появляется в проекте при наличии в проекте более одного вида документов. Этап становится активным после успешного обучения классификации модели.
Загрузка результатов автоклассификацииНет Используется для загрузки в ПО успешных результатов работы этапа автоматической классификации документов. Этап появляется в проекте при наличии в проекте более одного вида документов.
Разметка по шаблону Да Выполняет разметку ЭОД по настроенному шаблону.
Разметка по тексту Нет Используется для выделения сущностей размеченных полей ЭОД при невозможности формализации текста размеченных полей.
Нарезка Да Автоматическая обработка ЭОД, формирование подготовленных «нарезанных» фрагментов ЭОД и запись их на внешний носитель для временного хранения.
Система считает ЭОД успешно обработанными, только если все «нарезанные» фрагменты ЭОД успешно обработаны.
Формирование передач на ввод Да Используется для объединения обработанных на этапе «Нарезка» папок в передачи на ввод.
Формирование контрольной выборки Нет Используется для выбора из подготовленных к передаче на ввод «нарезанных» фрагментов ЭОД для выполнения контроля качества
Контроль качества Нет Ручной просмотр выбранных или всех подготовленных к передаче «нарезанных» фрагментов ЭОД. Обязательно просматриваются ЭОД, для которых не удалось выполнить разметку автоматически.
Пользователь просматривает «нарезанные» фрагменты ЭОД и сравнивает их с исходным ЭОД.
При необходимости пользователь исправляет разметку в исходном ЭОД.
Нарезка исправленногоНет Выполняет повторную нарезку для ЭОД, которые подверглись ручным исправлениям на предыдущем этапе.
Выгрузка нарезанных образов Да Выполняет передачу «нарезанных» фрагментов ЭОД, для которых был успешно пройден этап «Контроль качества» (при условии его наличия) на внешний носитель для передачи на РК с носителя для временных копий.
Ожидание результатов ввода Да Показывается количество папок, для которых фрагменты ЭОД были переданы на ретроконверсию (ввод), но результаты ввода пока не получены, или получены не полностью.
Загрузка результатов ввода Да Выполняет загрузку результатов ввода (ретроконверсии) в БД Системы. После окончания загрузки выполняется поиск папок на этапе «Ожидание результатов ввода», для которых получены результаты ввода для всех фрагментов ЭОД. Такие папки переводятся на этап «Формирование контрольной выборки результатов ввода» (при его наличии) или «Выгрузка готового».
Формирование контрольной выборки результатов ввода Нет Используется для выбора из полученных результатов ввода данных для выполнения контроля качества
Контроль качества ввода Нет Ручной просмотр выбранных или всех подготовленных результатов ввода для пакетной выгрузки результатов обработки ЭОД
Выгрузка готовогоДа Пакетная выгрузка результатов обработки для исходных ЭОД, которые дошли до этого этапа. Обработка завершена Да Окончание процесса обработки ЭОД
По умолчанию создается проект, включающий в себя следующие 9 этапов обработки:
Загрузка;
Разметка по шаблону;
Нарезка;
Формирование передачи на ввод;
Выгрузка нарезанных образов;
Ожидание результатов ввода;
Загрузка результатов ввода;
Выгрузка готового;
Обработка завершена.
Если в проекте не были сделаны или сделаны неверно настройки какого-либо этапа, то строка с этим этапом будет выделена красным цветом, и пользователю будет выдана соответствующая информация в области «Обратите внимание», например, как показано на REF _Ref485906287 \h Рис. 4.

Рис. 4. Страница созданного проекта
В ПО «Фрагмент» реализована возможность приостановки и повторного запуска, как целого проекта, так и отдельных его этапов.
Работа с видами документовПосле того как создан проект, следует указать, какие виды документов могут обрабатываться, и выполнить разметку документа.
Информация о необходимости выполнения разметки документа после создания нового вида документа будет отображать в области «Обратите внимание», и строка с этапом «Разметка по шаблону», как показано в примере, приведенном на REF _Ref487529219 \h Рис. 5, все еще будет выделена красным цветом.

Рис. 5. Этапы проекта с сообщением о необходимости выполнения разметки ЭОД
Настройка распознавания документаЭтап распознавания документов добавляется в список этапов проекта в следующих случаях:
после выполнения разметки по тексту;
в случае наличия более одного вида документов.
Распознанный текст необходим для классификации ЭОД для выполнения последующей «нарезки».
Настройка распознавания текста ЭОД заключается в установке языка распознавания.
Разметка документаДля того чтобы обеспечить обработку ЭОД определенного вида по шаблону, необходимо выполнить разметку каждой страницы (при условии многостраничного документа) документа.
Примечание – Одна страница документа – один ЭОД.
Разметка документа включает в себя:
разметку по шаблону;
разметку по тексту.
Разметка по шаблону включает в себя следующие шаги:
выбор файла, загружаемого в хранилище ПО «Фрагмент»;
выбор в загруженном ЭОД областей, подлежащих разметке, и назначение им полей необходимого типа.
Этап «Разметка по шаблону» на странице работы с этапами будет отображаться в сером цвете, что означает, что данный этап находится в состоянии приостановки. Это делается для того, чтобы ПО не взяло в обработку ЭОД до окончания процесса настройки. Пользователь должен сам инициировать запуск работы данного этапа.
Если какой-то фрагмент текста сложно формализовать, то его можно выделить в отдельное поле и для этого поля выполнить разметку по тексту.
Разметка по тексту включает в себя следующие шаги:
выбор в загруженном ЭОД областей, подлежащих разметке по тексту, и назначение им полей необходимого типа;
выбор сущностей, которые будут выделяться при распознавании текста данного поля.
Загрузка примеров страницДля обработки ЭОД определенного вида необходимо выполнить загрузку в хранилище ПО примеры страниц данного вида документа. Рекомендуется загружать не менее 10 примеров страниц.
Автоматическая классификация документовЭтап «Автоматическая классификация документов» появляется в проекте при наличии в проекте более одного вида документов.
После выполнения разметки документов необходимо перейти к настройке (обучению) автоматической классификации поступающих на обработку ЭОД. Выполняется распознавание и классификация ЭОД на основе выполненной разметки и загруженных примеров.
Если при настройке видов документов были выполнены не все настройки, то пользователю будет выдано об этом соответствующее сообщение. Прежде всего, необходимо исправить ошибки настройки, чтобы стала доступной кнопка запуска обучения.
Сайт настройки модели автоклассификацииНа странице создания модели автоклассификации указывается следующая информация:
используемые при автоклассификации ЭОД алгоритмы;
путь к эталонной выборке, где для заданных видов документов лежат примеры образов и примеры файлов с распознанной информацией в формате XML.
Созданная модель используется для анализа выбора эталонных образов и используемых при классификации алгоритмов. На базе результатов выполненного анализа делается вывод о необходимости и целесообразности использования тех или иных алгоритмов, а также о правильности подобранных примеров ЭОД выбранных видов документов.
На основании этих выводов будут подбираться более правильные ЭОД при загрузке примеров страниц и выполняться более точный выбор необходимых и достаточных для классификации ЭОД алгоритмов при построении реальной модели классификации документов.
Создание передачи ЭОД на обработкуНастройка передачи ЭОД для загрузки к «нарезке» может выполняться двумя способами:
созданием горячей папки;
созданием передачи.
Может быть создано несколько горячих папок.
При использовании горячих папок в процессе работы, отсканированные ЭОД ПО «Фрагмент» копируется из источника, доступ к которому осуществляется по логину и паролю, в рабочую папку, доступ к которой открыт любому анонимному пользователю без логина и пароля. Рабочая папка получает то же имя, что и папка в источнике с добавлением к нему суффикса с датой и временем ее создания. Например, для папки в источнике «Передача 1», при переносе ее в рабочую папку 01 июня 2017 года в 12:00 будет создана рабочая папка «Передача 1_20170601_120000». Это позволит в дальнейшем ещё раз скопировать в источник папку с названием «Передача 1» и успешно получить из нее новую рабочую папку с другим именем.
При создании передачи на обработку указываются путь к папке с ЭОД для загрузки, название передачи и приоритет обработки заданной папки с ЭОД.
Настройка ввода результатов ретроконверсииНастройка ввода результатов ретроконверсии для загрузки в БД и хранилище ПО «Фрагмент» может выполняться двумя способами:
созданием горячей папки ввода результатов ретроконверсии;
настройкой пути для задания на загрузку результатов ввода.
Может быть создано несколько горячих папок.
При использовании горячих папок в процессе работы ПО «Фрагмент» результаты ретроконверсии копируются из источника, доступ к которому осуществляется по логину и паролю, в рабочую папку, доступ к которой открыт любому анонимному пользователю без логина и пароля.
Процесс обработкиПроверка выполненных настроекПеред запуском процесса обработки рекомендуется выполнить проверку выполненных настроек.
Сделать это можно на странице работы с этапами обработки во вкладке «Настройки». Следует нажать последовательно левую кнопку мыши на строке каждого из этапов проекта, проанализировать информацию, отображаемую в области «Обратите внимание» и убедиться, что отображается сообщение «Проблем настройки не обнаружено».
Обработка ЭОДПосле проверки всех настроек проекта можно переходить к непосредственной работе с ЭОД, выполнив следующие шаги:
поместить полученные в результате сканирования ЭОД в папку;
создать передачу на обработку этой папки.
Автоматически запустится процесс обработки папки с ЭОД.
Для отслеживания процесса обработки следует перейти на страницу работы с данным проектом и далее на страницу просмотра этапов обработки.
На странице просмотра этапов обработки динамически, в зависимости от этапа выполнения будут отображаться цифры, информирующие о том, на каком этапе находится процесс обработки ЭОД.
Примечание – На странице просмотра этапов обработки отображается не статистическая информация, а оперативная.
Если слева от записей этапов обработки ЭОД стоит иконка , это означает, что процесс обработки ЭОД будет выполняться автоматически при условии корректной обработки на предыдущем этапе.
Если в процессе обработки были обнаружены ошибки, передача на следующий этап может быть не выполнена.
Помимо этапов автоматической обработки ЭОД в процессе обработки присутствуют этапы, требующие участия пользователя. Слева от записей таких этапов стоит иконка .
Этапами, требующими участия пользователя, относятся:
Формирование передачи на ввод;
Контроль качества;
Контроль качества ввода.
Формирование передачи на вводФормировать передачу на ввод следует при ненулевом значении ожидающих обработок папок.
Анализ ошибкиЕсли на каком-то этапе процесса обработки обнаруживается ошибка, следует для данного этапа просмотреть журнал событий.

Приложенные файлы

  • docx 7789104
    Размер файла: 381 kB Загрузок: 0

Добавить комментарий