Введення стандартних форм і форматованих документів

МІНІСТЕРСТВО КУЛЬТУРИ І ТУРИЗМУ УКРАЇНИ

ХАРКІВСЬКА ДЕРЖАВНА АКАДЕМІЯ КУЛЬТУРИ

Кафедра інформаційних технологій

Курсова робота з дисципліни «Електронний документообіг»

ВВЕДЕННЯ СТАНДАРТНИХ ФОРМ І форматувати документ

Харків-2009

ЗМІСТ

ВСТУП

РОЗДІЛ 1 СТАНДАРТНІ ФОРМИ І ЇХ КЛАСИФІКАЦІЯ

1.1 Поняття та ознаки класифікації стандартних форм

1.2 Типи стандартних форм в залежності від застосування

Висновки до розділу 1

РОЗДІЛ 2 ВВЕДЕННЯ І ОБРОБКА СТАНДАРТНИХ ФОРМ

2.1 Етапи введення і обробки форматованих документів

2.2 Основні принципи потокового введення форм

2.3Требованія до систем масового введення стандартних форм

2.4 Підходи до реалізації систем обробки форм

Висновки до розділу 2

РОЗДІЛ 3 СИСТЕМИ МАСОВОГО ВВЕДЕННЯ СТАНДАРТНИХ ФОРМ

3.1 Система ABBYY Fine Reader Form

3.2 Система Cognitive Forms

Висновки до розділу 3

ВИСНОВОК

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

ВСТУП

Останнім часом проблема масового введення даних стала особливо актуальною. Число документів постійно зростає, а разом з ними збільшуються проблеми по введенню і обробці великих обсягів даних в обчислювальних системах. Необхідність обробки структурованих і неструктурованих форм документів, спочатку виконаних на папері, виникає в діяльності великої кількості державних, акціонерних і приватних підприємств. Стало очевидно, що для організації управління і контролю необхідно, щоб будь-яка інформаційна одиниця, породжена на рівні окремого громадянина чи окремого підприємства, відразу опинилася в інформаційній системі і була доступна в будь-який момент для аналізу та узагальнення. За світовою статистикою, приблизно 80% всіх документів, що використовуються в бізнесі, складають форми. Вони виникають практично в будь-якому бізнесі, пов'язаному з обслуговуванням клієнтів, а також у діяльності державних органів, зайнятих збором даних про фізичних та юридичних осіб. Таким чином, існує необхідність автоматизації і повсюдного впровадження систем масового введення форм, що істотно полегшить їх обробку. Як наслідок, підвищиться продуктивність і ефективність роботи підприємств і організацій вцілому.

Об'єктом дослідження є стандартні форми.

Предмет дослідження - ввід стандартних форм і форматованих документів.

Мета дослідження - розгляд принципів введення і обробки стандартних форм.

Завдання дослідження:

Проаналізувати основну літературу по темі курсової роботи.
Визначити поняття та класифікацію стандартних форм.
Розглянути основні етапи введення й обробки форматованих документів.
Встановити основні вимоги до систем масового введення форм.
Розглянути системи масового введення форм, розроблені різними фірмами.

Методика дослідження - системний аналіз літературних джерел та Інтернет сайтів.

Основні роботи, присвячені даній темі - це джерела 1, 3, 4, 10, 11, 13. Сутність поняття «стандартна форма» викладено у джерелах 10, 13. У джерелі 1 описані ознаки стандартних форм, покладені в основу їх класифікації. Застосування стандартних форм і їх типологія, в залежності від застосування в тій чи іншій галузі управління, наведено в джерелах 1, 7, 8, 11. Етапи введення і обробки форматованих документів розглянуті в джерелах 1, 2, 10, 11, 13. Більш докладно етап сканування викладений у джерелі 1, сегментація і технології розпізнавання - в джерелах 1, 10, 11. Принципи потокового введення стандартних форм освячені в джерелі 3. Вимоги до систем масового введення і обробки стандартних форм, а також підходи до їх реалізації розглянуті в джерелах 1, 2, 11. Компанії, що пропонують рішення по розробці систем масового введення стандартних форм і спішність їх розробок описані в джерелах 3-6, 10, 11, 13-15.

Тема досить повно освячена на сайтах Інтернет, книг і статей з даної теми дуже мало.

1 СТАНДАРТНІ ФОРМИ І ЇХ КЛАСИФІКАЦІЯ

1.1 Поняття та ознаки класифікації стандартних форм

Стандартні форми - однотипні документи, використовувані головним чином у великих організаціях, пов'язаних з масовим обслуговуванням клієнтів. Для зручності їх обробки, інформація, що містить відповідь на одне і те ж питання, в різних документах заноситься у фіксований по відношенню до кордонів документа полі.

Основні відмінності стандартної форми - це однаковий розмір документів і фіксоване положення ліній розграфки [10].

На Заході замість поняття «система обробки форм» використовується термін «Document Capturing» (тобто захоплення документа). Загалом наближенні ринок Document Capturing (тільки його програмна частина) в світі оцінюється приблизно в 300 млн. дол, при цьому досить швидко розвиваючись.

Сутність системи обробки форм зводиться до розпізнавання документа певного формату в загальному випадку з друкарським або рукопечатним заповненням. Завдання розпізнавання полягає в знаходженні якихось відомих полів, а результатом роботи програми звичайно є не просто текстовий документ, а певна запис у деякій базі даних [13].

Основою класифікації стандартних форм можуть бути такі ознаки:

1 ознака - спосіб нанесення інформації (друкований текст, рукописний текст, мітки).

Спосіб нанесення інформації визначає вибір технології розпізнавання.

Мітки, друкований і рукописний тексти можуть застосовуватися в документах як єдиний вид інформації або в будь-якому взаємному поєднанні. Так, виборчі бюлетені використовують меточний спосіб, у той час як прайс-листи - друкований, а анкети - в основному рукописний і меточний.

2 ознака - геометрична варіативність полів.

Розташування всіх полів і записів у них повинно бути строго фіксоване щодо опорних елементів: рамок, ліній, постійних надрукованих записів, спеціальних маркерів.

Всі спеціально підготовлені для машинної обробки документи мають цим якістю.

3 ознака - наявність явних роздільників полів.

Ця ознака часто присутній у таблицях і відіграє суттєву роль у виділенні значущих полів [1].

На Заході існують певні стандарти і правила щодо заповнення значущих полів форм, що в подальшому полегшує їх обробку. Так, наприклад, німецькі компанії CGK, AEG мають свої правила заповнення стандартних форм, яких зобов'язані дотримуватися їх клієнти. Зокрема в цих системах лінії розграфки документів наносяться іншим кольором (наприклад, червоним або зеленим) в порівнянні з кольором заповнювача. Це робиться для того, щоб видалити лінії ще на етапі сканування за рахунок установки колірного фільтра в скануючий пристрій [10].

1.2 Типи стандартних форм в залежності від застосування

Ринок застосування систем обробки форм визначається спектром бізнес-додатків, в яких вони використовуються. Як правило, ці бізнес-додатки займаються обробкою циркулюючої між підприємством і його клієнтами інформації.

В якості основних систем обробки форм можна виділити наступні:

1. Обробка факсів.

У світі щорічно передається більше 50 млрд факсимільних повідомлень, і, хоча електронна пошта витісняє цей вид комунікації, факс залишається поки що одним із провідних засобів обміну інформацією. Головна проблема при роботі з факсами - обробка вхідних факсимільних повідомлень і автоматичне їх розподіл по одержувачам на базі інформації, яка знаходиться у заголовку повідомлення. Для невеликих підприємств це не є серйозною проблемою. А для компаній з декількома тисячами співробітників, кожен з яких хоча б раз на тиждень отримує одне повідомлення - це суттєва проблема. Крім звичайних факсимільних повідомлень компанія також може приймати факсом замовлення та іншу більш важливу бізнес-інформацію.

2. Обробка державних форм.

Державними формами є, наприклад, податкові декларації, платіжні доручення по оплаті податків та інші.

Уряди багатьох країн намагаються прискорити обробку вступників звітів від населення і компаній. У зв'язку із збільшення чисельності населення і додаванням нових податків державою, процес обробки звітів і контролю виконання по платежах, які повинні відповідати цим звітам, перетворюється в жахливу проблему. Вирішення цієї проблеми реалізується набором додаткового персоналу, або грамотної автоматизацією процесу.

3. Обробка різних рахунків і замовлень на товари.

Так, наприклад у США щодня обробляється 65 млн рахунків при вартості процесу в 125 млн доларів. Підраховано, що застосування технологій обробки форм зберігає кожен день більше 40 млн доларів.

В даний час замовлення на товари все більше стають орієнтованими на Internet, але все ж залишається великий відсоток продажів за каталогами, поштою і т.д.

4. Маркетингові дослідження та опитування.

В якості основного виду опитування можна привести систему, яка обробляє результати голосування на виборах. У залежності від виборчих законів, прийнятих в тій або іншій країні, розміри форм можуть коливатися від однієї до декількох десятків сторінок [1,8].

Існує великий клас завдань, при вирішенні яких необхідно вводити інформацію з форм, повна стандартизація яких неможлива. Такі форми називаються гнучкими. Типовим прикладом гнучкої форми є банківське платіжне доручення.

Інший приклад - обробка вхідної кореспонденції при занесенні в систему документообігу. У будь-якому листі існують загальні атрибути: відправник, одержувач, дата, номер і т.д. Очевидно, що положення цих полів у документі може бути будь-яким, а значить, для вирішення задачі автоматичного введення цих атрибутів також потрібна технологія введення гнучких форм. Розпізнавання гнучких форм засноване на описі форми, що включає всіляку інформацію, яка може допомогти системі знайти те чи інше поле [7,9,11].

Висновки до розділу 1

Стандартними формами є однотипні документи, що мають апріорну структуру. Вони використовую головним чином у великих організаціях, пов'язаних з масовим обслуговуванням клієнтів. Сутність системи обробки форм зводиться до розпізнавання документа певного формату в загальному випадку з друкарським або рукопечатним заповненням полів, фіксованих по відношенню до кордонів документа. Ознаками класифікації стандартних форм виступають: спосіб нанесення інформації, геометрична варіативність полів і наявність явних роздільників полів.

Стандартні форми використовуються в різних бізнес-додатках, що займаються циркуляцією інформації між підприємствами і клієнтами. Серед основних систем обробки форм можна виділити наступні: обробка факсів, оброблення державних форм, обробка різних рахунків і замовлень на товари, маркетингові дослідження та опитування, обробка банківських платіжних доручень та ін

2 ВВЕДЕННЯ І ОБРОБКА СТАНДАРТНИХ ФОРМ

2.1 Етапи введення і обробки форматованих документів

У стандартних форм, на відміну від інших типів документів, структура даних відома до моменту розпізнавання. Ця перевага істотно полегшує введення інформації з форми в поле бази даних, а також дозволяє зробити це практично без участі людини.

До основних етапів введення стандартних форм відносять:

1. Підготовка обробки нової форми

2. Сканування

3. Сегментація отриманого зображення

4. Розпізнавання значущих полів

5. Верифікація

6. Збереження даних у полях бази даних

На першому етапі - етапі підготовки обробки нової форми за допомогою спеціального редактора форм створюється план документа з незаповненими полями. Для кожного значущого поля визначається тип даних і правила перевірки коректності введених даних. За допомогою редактора експорту визначається зв'язок між значущими полями і полями бази даних, куди дані будуть поміщатися після введення.

На другому етапі - етапі сканування відбувається отримання графічного образу документа за допомогою технологій сканування. При виборі сканерів слід враховувати його характеристики, наприклад, можливості сканера по роботі з різними типами і кількістю документів, продуктивність і надійність сканера, а також якість одержуваного зображення (тобто роздільну здатність сканера). При цьому якість друку відіграє дуже велику роль. Вигідніше витратити трохи більше грошей під час друку документа, а потім заощадити значні суми при скануванні і розпізнаванні [1,2].

На третьому етапі - сегментації зображення відбувається виділення значущих полів і опорних елементів для полегшення процесу розпізнавання.

Текстове представлення документа є однією з головних вимог, що дозволяє проводити пошук, сортування і модифікацію документів.

Тому важливим етапом є четвертий етап - конвертація документа в текстовий файл за допомогою програм розпізнавання [1,11].

Для розпізнавання значущих полів використовується кілька спеціальних технологій:

OCR (Optical Character Recognition) - технологія оптичного розпізнавання друкованих символів, тобто перекладу сканованого зображення друкованих символів у їх текстове представлення.

ICR (Intelligent Character Recognition) - розпізнавання роздільних друкованих символів, написаних від руки у спеціальних вікнах-шаблони для дотримання однакових розмірів символів. А також рукописних цифр, наприклад, як на поштових конвертах. (Цю технологію називають інтелектуальним розпізнаванням).

OMR (Optical Mark Recognition) - розпізнавання відміток. Зазвичай відмітками виступають перекреслені хрест-навхрест або зазначені галочками квадрати або кола (checkbox).

Використовується також технологія розпізнавання штрих-кодів.

При розпізнаванні використовуються різні методи для покращення якості отримуваних зображень. Наприклад, поворот, вирівнювання, застосування різних фільтрів для усунення плям, видалення фону і т.д. [1,11,13].

На п'ятому етапі відбувається верифікація документа, тобто перевірка якості розпізнавання і виправлення помилок. Великі вимоги в даному разі пред'являються до методів перевірки введених даних.

Використовуються такі режими верифікації:

Контекстна верифікація для перевірки текстових полів;
Групова верифікація для перевірки цифрових даних;
Верифікація полів форми за наперед визначеними правилами

Для підвищення надійності даних використовують додаткові механізми, такі як застосування словників і таблиць, що визначаються користувачем. Як правило, системи включають спеціальні вбудовані засоби для визначення спеціальних процедур перевірки для кожного поля документа.

І на шостому етапі розпізнані та перевірені дані зберігаються в полях бази даних. Сумарна кількість документів, які повинні бути занесені в базу даних для подальшої обробки тільки в одній організації, може досягати декількох тисяч і навіть десятків тисяч на день [1,10].

Отже, більш широке впровадження систем обробки форм не тільки звільнить сотні людей від неефективного стомлюючого праці, а й дасть реальну економію, знизить кількість друкарських помилок, підвищить точність і відповідно достовірність даних, що вводяться [8,13].

Виконання двох основних процесів, сегментації документа і читання тексту документа із значущих полів, припускає обробка форматується документів.

Сегментація - це знаходження опорних елементів та обчислення щодо них положення значущих полів.

Ці процеси можуть бути виконані послідовно і незалежно, якщо поля повністю визначені своїми візуальними характеристиками. Така ситуація характерна для машинозчитуваних форм і документів з явними розділювачами полів у вигляді ліній або великих проміжків.

У документах, що не мають чітко визначеного положення полів і явних роздільників між ними, немає принципово іншого способу, як прочитати текст і по його змісту скоригувати результати попередньої сегментації. Приклад характерного випадку помилкової геометричній сегментації та її подальшої корекції після читання наведено на рис.1.

Рис.1. Приклад геометричній сегментації полів форми та результату її корекції

Очевидно, що різна складність структури і її візуальна варіативність породжують найширший спектр рішень.

У машинозчитуваних формах завдання сегментації ускладнюється безліччю факторів: перешкодами на опорних елементах, зміщенням тексту в полях, спотвореннями форми документа в процесі сканування (наприклад, дефекти у вигляді розриву і топографічної бруду, прилягання тексту до граничних лініях полів тощо). Внаслідок цього навіть початково проста схема обробки багаторазово ускладнюється.

Документи, що не мають строго заданої геометрії, але, тим не менш, використовують явно задані роздільники (наприклад, таблиці з роздільниками у вигляді горизонтальних і вертикальних прямих), обробляються досить надійно. Якщо лінії безперервні, а текст їх не стосується, то принципових складнощів при обробці не виникає. На практиці ці умови забезпечуються далеко не завжди, тому доводиться користуватися апріорними відомостями про характер можливих розривів, знаходити частини ізольованих від тексту ліній і т.д. Але при цьому характеристики пристрою документа повинні бути чітко визначені [1,2].

2.2 Основні принципи потокового введення форм

При введенні даних з форм доцільно дотримуватися наступних принципів:

1. Пакетна обробка даних.

Сенс цього принципу полягає в тому, що однотипні форми в рамках системи об'єднуються в так звані пакети. Іншими словами, на програмному рівні однотипні форми розглядаються як вміст якогось відокремленого контейнера. Кожен такий пакет має унікальний ідентифікатор. Подібне рішення дозволяє структурувати потік даних, що вводяться. Цей принцип дає певні переваги: по-перше, з кожним пакетом можуть бути пов'язані свої програмні установки, по-друге, для потокової системи введення структурування полегшує адміністрування, маршрутизацію потоків і подальше зберігання даних.

2. Розподіл функцій операторів.

Потужні системи введення даних зазвичай функціонують за принципом конвеєра. Спеціалізація підвищує продуктивність праці, а також дозволяє практично необмежено масштабувати систему. Наприклад, завжди можна збільшити кількість місць операторів сканування, не втручаючись в роботу операторів розпізнавання, верифікаторів, і так далі.

3.Масштабіруемость системи.

Завдяки розподілу функцій між операторами, система виявляється складається з вузькоспеціалізованих модулів. При цьому кількість модулів кожного виду визначається тільки особливостями конкретної ситуації і може бути при необхідності легко змінено. Ця особливість роблять систему більш гнучкою і керованою, що істотно здешевлює комплекс введення в цілому.

4. Черговість завдань.

Важливим для таких систем є поняття маршруту руху пакета. Пакети рухаються по системі не довільним чином, а відповідно до заданої схемою маршрутизації. Найпростішим прикладом схеми маршрутизації може служити лінійна схема: станція сканування - станція розпізнавання - станція верифікації - станція коригування - станція експорту. Основна перевага системи, що використовує черги завдань, - рівномірний розподіл навантаження по всіх ресурсів (операторам) системи. Як тільки, наприклад, оператор верифікації звільнився від завдання і повідомив про свою готовність продовжити роботу, на його робоче місце доставляється черговий пакет форм, що стоїть наступним у черзі пакетів на верифікацію [3].

2.3 Вимоги до систем масового введення стандартних форм

Основні вимоги до систем обробки форм:

1. Відповідність пред'являються функціональним вимогам.

Рішення про впровадження системи обробки форм, а також вибір того чи іншого додатка повинні проводитися з урахуванням, в першу чергу, типу оброблюваних документів і виду містяться в них даних. Для одних цілей використання таких додатків може бути ефективно, в той час як для інших, навпаки, - вести до зайвих витрат.

Оскільки проводиться обробка образів документів з розпізнаванням які у них даних, вони повинні бути спроектовані з урахуванням максимально зручного сканування, а дані - внесені таким чином, щоб їх було зручно розпізнавати. Крім типу документів і виду даних потрібно оцінити кількість підлягає обробці інформації. Найбільш ефективним є застосування систем у тих випадках, коли за день обробляються сотні або більше форм (ряд систем дозволяє впоратися і з кількома тисячами документів).

2. Точність розпізнавання.

Модуль розпізнавання тексту вбудований в систему обробки форм. Існують два його різновиди, засновані на технологіях оптичного розпізнавання: OCR, яка застосовується до надрукованим машинним способом символів, і так зване інтелектуальне розпізнавання - ICR, здатне працювати з написаними вручну символами. Перша з технологій з'явилася давно і зараз добре опрацьована і широко поширена. Незважаючи на те, що ICR базується на концепції нейронних мереж, що почала свій розвиток відносно недавно, сьогодні це теж досить популярна і досконала технологія.

У табл.1 наведені основні характеристики методів розпізнавання.

Таблиця 1

Характеристики методів розпізнавання

Метод	Точність розпізнавання,%	Відсоток нерозпізнаних символів	Відсоток символів, розпізнаних помилково
Вручну	97-98	-	3
OCR	99,5	1-2	0,1
ICR	90-95	10-30	0,9-2

Як видно з таблиці, жоден з доступних способів не гарантує повної відсутності помилок у тексті, проте чим вище точність розпізнавання і менше кількість не розпізнаних символів, тим більша ймовірність того, що вкладені гроші окупляться швидше. Користувачі систем OCR та ICR стикаються з помилками двох типів: по-перше, це символи, які система взагалі не здатна розпізнати, і, по-друге, - ті, що розпізнаються помилково. Причому останні найбільш небезпечні, так як помилка, цілком ймовірно, може залишитися непоміченою. Перших також не повинно бути занадто багато, інакше редагування затягується на тривалий термін, і ефективніше ввести інформацію вручну. Діапазон значень, зазначених в таблиці, залежить від рівня систем: дорожчі, як правило, забезпечують кращі показники.

3. Наявність ефективної системи редагування.

Не можна побудувати системи з 100%-м розпізнаванням форм і цілком виключити дії людини. Але їх треба мінімізувати і побудувати систему так, щоб людина з максимальною зручністю і швидкістю виправляв виявлені помилки. Краще за все при редагуванні мати перед очима вміст форми повністю (або частини форми), де виділені «сумнівне» розпізнані символи. Оператор переглядає і вносить необхідні зміни, після чого підтверджує введення даних.

4. Настроюваність системи.

Найкращі системи обробки форм базуються на відкритій платформі, що має на увазі просту інтеграцію з існуючими системами і майбутніми рішеннями. Вони також повинні бути налаштовані на вимоги конкретного замовника і змінюватися згідно мінливих зовнішніх умов без програмування. Настроюваність системи обробки форм має на увазі:

Наявність підтримки сканерів різних типів, а також різного роду плат обробки зображень документів. Розвинені системи повинні включати спеціалізовані інтерфейси конкретного типу сканерів, які забезпечують максимально можливу для даного типу сканера продуктивність.
Наявність редактора форм, налаштовувати систему на нові форми.
Наявність редактора схем обробки документів. Системи початкового рівня дозволяють налаштовувати систему через єдині області у файловій системі. Системи наступного рівня мають у своєму складі редактор схем, який, наприклад, дає можливість перемаршрутізіровать документ конкретній людині чи певної групи користувачів при настанні якої-небудь заздалегідь описаного події. У зв'язку з тим, що бізнес-правила можуть змінюватися досить часто, необхідно мати у складі системи засіб, який дозволяє досить швидко перенастроювати її без змін у коді.
Наявність відкритого інтерфейсу підключення різних модулів розпізнавання. Залежно від типу форми можна, для підвищення якості розпізнавання, підключити той чи інший модуль, який найбільш підходить для даного типу форми.
Наявність редактора схем експорту в базу даних. Дані, які витягуються при обробці форми, повинні бути передані або в базу даних для зберігання, або в інші бізнес-додатки для обробки.
Наявність редактора схем імпорту в архівну систему. Крім передачі даних в інші бізнес-додатки іноді необхідно передавати і власне зображення форм (нерозпізнані) або частини зображення. Це потрібно для організації подальшого доступу і перевірки відповідності розпізнаних даних і початкової форми, з якою вони були узяті.
Можливість нарощування функцій системи [1, 2, 11].

2.4 Підходи до реалізації систем обробки форм

В ідеалі системи повинні включати всі функції, необхідні для сканування, обробки, виправлення та експорту даних, і в той же час надавати можливості нарощування функціоналу.

Існують два підходи для реалізації систем обробки форм: компонентний і монолітний.

При компонентному методі система обробки форм складається з компонентів, які розробляються і подаються різними виробниками. У разі компонентного підходу, замовник має можливість отримати додаток, що має оптимізованим для своїх потреб набором функціональності. Проблема в даному підході полягає у відповідальності за інтегроване рішення і подальше його обслуговування. В якості компонентів розглядаються: компоненти роботи зі сканерами, з платами обробки зображень; компоненти обробки зображень і розпізнавання зображень.

При монолітному підході вся система поставляється одним виробником, наприклад розробником систем розпізнавання зображень. При зосередженні відповідальності за всю систему в одних руках необхідно відзначити деякі недоліки.

По-перше, вузькість підходу виробника монолітних систем визначається його корінням. Так, виробники систем розпізнавання і обробки форм зазвичай запевняють, що головне в системі - це модуль розпізнавання їх виробництва, а все інше не так важливо.

По-друге, не можна гарантувати, що система від одного виробника здатна підтримувати на високому рівні всі функціональні особливості.

По-третє, неможливо замінити який-небудь елемент на більш якісний іншого виробника.

І, нарешті, не можна модернізувати систему своїми силами, і, як наслідок цього, виникає сильна залежність від однієї компанії-виробника [1].

Висновки до розділу 2

Введення інформації з полів форми до бази даних, включає кілька етапів: підготовка обробки форми, сканування, сегментація отриманого зображення, розпізнавання значущих полів, верифікація, збереження даних у полях бази даних. Причому сегментацію зображення форми і вилучення даних із значущих полів увазі обробка форм.

При введенні форм доцільно дотримуватися певних принципів, брати до уваги основні вимоги, що пред'являються до систем масового введення форм і враховувати підходи до їх реалізації. Це забезпечить реальну економію, знизить кількість друкарських помилок, підвищить точність і відповідно достовірність даних, що вводяться, а також звільнить сотні людей від неефективного стомлюючого праці.

3 СИСТЕМИ МАСОВОГО ВВЕДЕННЯ СТАНДАРТНИХ ФОРМ

Існує кілька сотень компаній, які пропонують рішення або компоненти систем обробки форм по всьому світу. Вибір рішення, найбільш відповідає потребам замовника і є оптимальним за вартістю, - непросте завдання. Вибираючи систему обробки форм, слід орієнтуватися на особливості організації та види переважаючих у ній форм.

Великих успіхів у розробці систем масового введення і розпізнавання форм досягли наші вітчизняні компанії. Найбільш відомими системами введення форм є системи «ABBYY Fine Reader Form» і «Cognitive Forms».

3.1 Система ABBYY Fine Reader Form

Система Fine Reader Form призначена для автоматичного введення даних із стандартних форм і форматованих документів в інформаційні системи і бази даних.

Переваги системи:

Реалізація пілотного проекту та прийняття рішення про впровадження за його результатами.
Легкість настройки на будь-які види форм - як структуровані, так і гнучкі.
Зменшення часу на введення даних з паперових форм у 10 разів.
Підвищення точності підсумкових даних завдяки підтримці технологій OCR, ICR, OMR і технології розпізнавання штрих-кодів.
Швидка окупність системи завдяки розумній вартості і низьким витратам на впровадження.

Сімейство ABBYY Form Reader 6.5 включає в себе:

просту у впровадженні та вивченні систему ABBYY Form Reader 6.5 Desktop Edition для використання на локальній робочій станції.
розподілене і легко масштабується, ABBYY Form Reader 6.5 Enterprise Edition для потокового введення великих обсягів даних;
засіб розробки ABBYY Form Reader 6.5 Developer Edition для інтеграції функцій Form Reader в зовнішні застосування;
інструментарій ABBYY Flexi Capture Studio 1.5 для створення на базі ABBYY Form Reader з технологією ABBYY Flexi Capture рішень для обробки гнучких форм і документів.

ABBYY Form Reader успішно використовують банки, страхові компанії, маркетингові агентства і виробничі компанії, державні установи та навчальні заклади, торгові компанії та медичні організації.

ABBYY Form Reader здатний обробляти будь-які типи форм, відповідні простим вимогам машіночітаемості, автоматично сортує бланки, перевіряє комплектацію багатосторінкових форм, не вимагає втручання оператора на етапах сканування та розпізнавання.

Система припускає автоматичний контроль результатів розпізнавання за допомогою перехресних перевірок, правил контролю сум, звірок за словниками і базам даних. Існує можливість створити власні правила перевірки, в тому числі з підключенням списків та словників, і використовувати їх для контролю якості введених даних.

Використання локальної версії ABBYY Form Reader дозволяє силами одного співробітника вводити щодня від 500 до 1000 сторінок в залежності від складності форми і апаратної конфігурації. Якщо обсяг робіт з введення даних збільшиться, користувач протягом дня зможе модифікувати існуючий комплекс, перейшовши на версію з більшою продуктивністю. Щоб збільшити швидкість обробки форм на 1000 сторінок на день, досить встановити Form Reader на ще одне робоче місце [3,4,12].

Fine Reader Bank - система автоматизованого введення платіжних доручень - також є продуктом розробки компанії ABBYY. Fine Reader Bank - готове додаток, в основі якого лежить технологія розпізнавання гнучких форм [5,6].

3.2 Система Cognitive Forms

Компанія Cognitive Technologies розробила систему для введення й обробки форм - Cognitive Forms. Процес її роботи здійснюється наступним чином.

Оператор на станції сканування поміщає пачку документів у пристрій автоматичної подачі сканера. Натисканням клавіші запускається процес потокового сканування документів.

Підсистема розпізнавання - Cognitive Form-Reader в автоматичному режимі управляє розпізнаванням і контекстної перевіркою правильності розпізнавання.

На станції візуального контролю (модуль редагування Cognitive Form Editor) оператор має можливість візуально контролювати і редагувати розпізнані поля форм перед експортом до бази даних.

У підсистемі опису форм (Cognitive Form Designer) проводиться комп'ютерне опис оброблюваних форм, що використовується на всіх етапах процесу вводу від розпізнавання до експорту в базу даних.

Підсистема експорту результатів формує текстове представлення документа перед його записом у базу даних, з остаточною перевіркою на допустимість значень експортованих даних. Реєстрація запису здійснюється користувачем після введення і перевірки певної кількості документів.

Одним з важливих елементів Cognitive Forms є система контролю за правильністю введення інформації. Її основна функція полягає в тому, щоб точність розпізнавання на виході становила 100%, забезпечуючи при цьому мінімальний ступінь стомлюваності оператора. Людина контролює лише ті дані, які не задовольняють вимогам правильності розпізнавання.

Слова документа, що містять сумнівно розпізнані символи або автоматично виправлені підсистемою контекстного контролю, підсвічуються. Операторові не потрібно перевіряти всі зміст тексту і порівнювати його з вихідним документом. Це гарантує меншу стомлюваність оператора і відповідно 100%-ву точність введення інформації в найвідповідальніших операціях. Експорт до бази даних здійснюється клієнтом системи після введення певної кількості форм.

Завдяки гнучкої модульної організації системи є можливість простого масштабування для збільшення продуктивності введення.

Система працює за принципом максимальної автоматизації введення. Всі операції, пов'язані з навігацією за формою, розпізнаванням, контекстним контролем за коректністю введення і експортом в базу даних, відбуваються без участі оператора.

Участь оператора може знадобитися тільки на стадії остаточного контролю перед експортом до бази даних.

За описом помітно, що в системі обробки форм Cognitive Forms яскраво представлені всі етапи введення стандартних форм, а також система є масштабованої і відкритою, що дає їй переваги [10,13,14,15].

Висновки до розділу 3

З кількох сотень компаній, що пропонують рішення або компоненти систем обробки форм, найбільш відомими є системи «ABBYY Fine Reader Form» і «Cognitive Forms». Вони пропонують різні модулі введення і обробки форм. Організація може придбати як всю систему, так і окремі модулі. Крім того, багато компаній розробляють свої власні рішення, ліцензуючи у виробників модулі обробки. Отже, у виборі системи масового введення слід орієнтуватися на особливості організації та форми, що переважають у ній.

ВИСНОВОК

У діяльності великої кількості державних, акціонерних і приватних підприємств виникає необхідність обробки структурованих і неструктурованих форм документів, спочатку виконаних на папері. Зазвичай під цим розуміється початковий введення інформації з паперового документа в інформаційну систему підприємства і, потім, власне обробка даних в СУБД і прикладних інформаційних системах.

Сумарна кількість документів, які повинні бути занесені в базу даних для подальшої обробки тільки в одній організації, може досягати декількох тисяч і навіть десятків тисяч на день. Можна уявити, в якому масштабі подібні роботи проводяться в цілому по Україні. На це витрачаються величезні кошти, в той час як проблема може бути вирішена набагато більш ефективно.

Із зростанням кількості документів ростуть і проблеми по введенню і обробці великих обсягів даних в обчислювальних системах. Практично в будь-якому бізнесі, пов'язаному з обслуговуванням клієнтів, а також у діяльності державних органів, зайнятих збором даних про фізичних та юридичних осіб, виникають стандартні форми.

Стандартними формами є однотипні, мають апріорну структуру документи, які класифікуються за такими ознаками: спосіб нанесення інформації, геометрична варіативність полів і наявність явних роздільників полів.

Здійснення автоматизованого введення форм до бази даних передбачає виконання кількох етапів: підготовка обробки форми, сканування, сегментація отриманого зображення, розпізнавання значущих полів, верифікація, збереження даних у полях бази даних. Причому сам процес обробки форми включає саме сегментацію зображення форми і вилучення даних із значущих полів.

Дотримання певних принципів при введенні форм звільнить сотні людей від неефективного стомлюючого праці. Облік основних вимог, що пред'являються до систем масового введення форм, а також облік підходів до їх реалізації забезпечить реальну економію, знизить кількість друкарських помилок, підвищить точність і відповідно достовірність даних, що вводяться.

Часом необізнаність начальства та неефективна організація роботи призводять до того, що в комп'ютер вручну вбиваються тисячі однотипних друкованих та рукопечатних форм. Обсяги подібного праці просто величезні. Якщо в організації обробляється 100 і більше форм на день, то недоцільність автоматизації їх введення виключається, так як автоматизація економічно себе виправдає.

Найбільш відомими системами, що пропонують рішення або компоненти систем обробки форм, є «ABBYY Fine Reader Form» і «Cognitive Forms». Вони пропонують різні модулі введення і обробки форм. Організація може придбати як всю систему, так і окремі модулі. Крім того, багато компаній розробляють свої власні рішення, ліцензуючи у виробників модулі обробки.

Отже, автоматизацію введення форм можуть дозволити собі великі організації з великим обсягом документообігу. Автоматизація скоротить витрати на ручне введення даних з форм і підвищить ефективність роботи організації в цілому.

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

Ас Єє в, Г. Г. методологія електронного документообігу: динамічні Архіви / Г.Г. Асєєв / / Вісн. Кн. Палати. - 2005. - № 11. - С. 22-25
Асєєв, Г.Г. Електронний документообіг. Підручник / Г.Г. Асєєв. - К.: Кондор, 2007. - 500 с.
ABBYY: Як правильно організувати автоматизований введення документів. [Електронний ресурс]. - Режим доступу: http://www.scandocs.ru/page.jsp?pk=node_1185012951516 (5)
А BBYY Form Reader. [Електронний ресурс]. - Режим доступу: http://www.radius-soft.ru/products/document159.shtml (6)
ABBYY Form Reader 6.5. [Електронний ресурс]. - Режим доступу: http: / / www. Itprogress. Ru / products _ ABBYY. Html (14)
Гулінін, В. Іванова, Г. Документооборотние засоби: одиннадцатилетка конференції-виставки DOCFLOW в дії. [Електронний ресурс]. - Режим доступу: http://www.buhcomp.ru/htm/new_namb/arhive_ 2005/07/statyi/statya_3.shtml (9)
Журавльова, Н. Система електронного документообігу: вигоди експлуатації для співробітників різних відділів компанії / Н. Журавльова / / Секретарська справа. - 2007. - № 5. - С. 31-37 (8)
Івахненков, С.В. Інформаційні Технології в організації бухгалтерського Обліку та аудиту: Навч. посіб. / С.В. Івахненков. - 3-тє вид., Віпр. І доп. - К.: Знання, 2006. - 350 с. (10)
Комова, М.В. Діловодство: Навч. посіб. / М.В. Комова; Національний ун-т «Львівська політехніка». - Львів: Тріада плюс, 2006. - 220 с. (11)
Нікольський, М. Технологія обробки стандартних форм документів. [Електронний ресурс]. - Режим доступу: http://www.bmw2.ru/tekhnologiya-obrabotki-standartnikh.html (1)
Пахчанян, А. Технології масового введення даних. [Електронний ресурс]. - Режим доступу: http://www.iemag.ru/articles/detail.php?ID=2634 (4)
Полонська, Є. Замінник терпіння / Є. Полонська / / Комп'ютери + програми. - 2004. - № 1. - С. 78-81 (7)
Прохоров, А. Системи автоматичного розпізнавання форм. [Електронний ресурс]. - Режим доступу: http://www.compress.ru/article.aspx?id=12211&iid=470 (2)
Уланов, Д. Рішення Cognitive і Fujitsu полегшать введення стандартних форм. [Електронний ресурс]. - Режим доступу: http://www.cognitive.ru/products/faq-forms.htm (12)
Шашенкова, Є. Cognitive Forms Network - коробковий варіант програмного продукту для масового введення стандартних форм документів. [Електронний ресурс]. - Режим доступу: http://www.osp.ru/cw/2006/16/1155120/ (13)

Посилання (links):

http://www.buhcomp.ru/htm/new_namb/arhive_% 202005/07/statyi/statya_3.shtml

http://www.bmw2.ru/tekhnologiya-obrabotki-standartnikh.html (1)

http://www.iemag.ru/articles/detail.php?ID=2634 (4)

http://www.compress.ru/article.aspx?id=12211&iid=470 (2)

http://www.cognitive.ru/products/faq-forms.htm (12)

http://www.osp.ru/cw/2006/16/1155120/