ДИПЛОМНИЙ ПРОЕКТ
Випускна кваліфікаційна робота дипломованого фахівця
Спеціальність 230102
Автоматизовані системи обробки інформації та управління
АВТОМАТИЗОВАНА ІНТЕЛЕКТУАЛЬНА СИСТЕМА КЛАСИФІКАЦІЇ ІНФОРМАЦІЙНИХ ПОВІДОМЛЕНЬ ЗАСОБІВ МАСОВОЇ ІНФОРМАЦІЇ
Зміст
Введення
1. Огляд та аналіз існуючих систем
2. Загальносистемні рішення
2.1 Пояснювальна записка до технічного проекту
2.2 Опис схеми організаційної структури управління інформаційних та аналітичних технологій апарату адміністрації Тульської області
2.3 Опис автоматизуються функцій і схеми функціональної структури АІС «Класифікатор»
2.4 Опис постановки завдання
3 Інформаційне забезпечення
3.1 Перелік вхідних даних
3.2 Перелік вихідних даних і документів
3.3 Опис інформаційного забезпечення АІС «Класифікатор»
3.4 Опис організації інформаційної бази
4 Математичне забезпечення
4.1 Математична постановка задачі класифікації інформаційних повідомлень ЗМІ
4.2 Опис методу нечіткого пошуку
4.3 Опис запитів
4.4 Опис схеми роботи системи
5. Технічне забезпечення
5.1 Опис комплексу технічних засобів
5.2 Інструкція з експлуатації комплексу технічних засобів
6 Програмне забезпечення
6.1 Опис програмного забезпечення
6.2 Опис контрольного прикладу
7 Організаційне забезпечення
7.1 Опис організаційної структури
7.2 Керівництво користувача
Висновок
Бібліографічний список
Програми
1. Структура вхідних і вихідних документів
2. Текст програми.
ВСТУП
При сучасному рівні розвитку інформаційних технологій використання комп'ютера для зберігання будь-яких видів інформації стає єдиним способом, що надає найширші можливості по управлінню інформацією.
В даний час йде постійний і швидкий ріст обсягів інформації. Значну частину цієї інформації складають текстові дані. У зв'язку з цим постає проблема створення засобів доступу до текстової інформації.
Технічно існує можливість доступу до значної частини наявних текстів, але практично доступна лише мала частина. Це пов'язано з недосконалістю засобів доступу. Сучасні засоби пошуку, каталогізації, опису текстів не задовольняють наростаючим потребам користувачів. Потрібно їх розвиток у напрямку підвищення ефективності пошуку інформації та спрощення взаємодії з користувачем.
Можливим шляхом вирішення проблеми є створення техніко-інформаційних засобів опису сенсу наявних текстів з можливістю подальшого осмисленого пошуку в масиві текстової інформації. Причому великі і постійно збільшуються обсяги текстової інформації вимагають, щоб такі кошти працювали в автоматичному режимі.
Найбільш важливим напрямком автоматизації діяльності підприємств є використання сучасних інформаційних технологій для зберігання, систематизації та ефективної обробки інформації, що надходить з різних джерел, а також використання цієї інформації з метою вироблення рекомендацій для прийняття управлінських рішень.
Проблема використання великого обсягу накопичених даних є ключовою в багатьох організаціях. Проблема роботи з великою кількістю інформації має два аспекти:
- Автоматичний збір інформації;
- Автоматичний розбір надійшла інформації з даної тематики, проведений на основі аналізу тексту документа.
У зв'язку з цим, по-перше, з'являється завдання завантаження інформації в систему. Процес завантаження полягає у занесення даних з носія інформації у сховищі даних. Постачають інформацію оперативні системи далеко не завжди володіють достатнім рівнем якості даних, тому процес завантаження цих даних в сховищі не обмежується простим копіюванням, а включає в себе очищення, погодження та контроль якості. Сховища даних завантажують і постійно оновлюють величезні об'єми даних з різних джерел, тому ймовірність потрапляння в них "брудних даних" вельми висока. Тому з'являється проблема пошуку і вибірки необхідної інформації з великих масивів текстових даних.
Ефективність пошуку у великому інформаційному масиві істотно підвищиться, якщо його розбити на частини по деякому критерію, пов'язаному з цілями пошуку. Отже, по-друге, постає проблема класифікації повідомлень. Для вирішення задачі аналізу текстової інформації та подальшого автоматичного розподілу її по необхідних тематиками необхідно в першу чергу сформувати рубрикатор, тобто задати список рубрик і словник, найбільш точно характеризують досліджувану область знань. Класифікація документів дозволяє звузити область пошуку і не тільки збільшити його швидкість, але і значно підвищити точність результатів. Тому технології автоматичної класифікації документів відводиться важливе місце в системах керування електронним документообігом.
Суть задачі класифікації полягає в автоматичному розподілі що у систему документів в залежності від їх типу та утримання за рубриками.
В даний час в структурі обласної виконавчої влади відповідальність за наповнення інформаційного тонусу в регіоні покладено на управління інформаційних та аналітичних технологій апарату адміністрації Тульської області (УІАТ ТО), одним із завдань якого є створення умов для задоволення інформаційних потреб органів влади, населення.
З метою забезпечення інформацією органів влади і населення все більше увага приділяється вдосконаленню професійної майстерності робочого персоналу відділу технологій відображення інформації (ОТОІ) УІАТ ТО, підвищенню оперативності та ефективності роботи. ОТОІ здійснює свою діяльність у сфері управління процесами створення та впровадження передових інформаційних технологій і в сфері управління питаннями графічної обробки і відображення інформації.
Впровадження системи автоматизації в технологічні процеси відділів з управління інформацією дозволяє максимально використовувати їх можливості:
- Автоматизація процесу завантаження інформаційних повідомлень ЗМІ в інформаційну базу системи дозволяє поліпшити якість даних, виявити і видалити помилки невідповідностей в даних;
- Автоматизація процесу пошуку дозволяє частково зняти навантаження з працівника і скоротити час з відстеження необхідної інформації;
- Автоматизація процесу класифікації інформаційних повідомлень ЗМІ дозволяє автоматично розподілити надходять в систему інформаційні повідомлення в залежності від їх типу та утримання за рубриками.
Управління процесами у відділах по управлінню інформацією повинно виконуватися в режимі реального часу для більш успішного розвитку підприємства. Також необхідні такі можливості, щоб система швидко реагувала на виникаючі зміни.
Одним із шляхів підвищення ефективності діяльності відділів з управління інформацією є вдосконалення роботи процесів щодо формування інформації. Тому важливе місце посідає проблема автоматизації роботи консультанта ОТОІ, пов'язаної з обробкою інформації та присвоєння їй класифікуючих атрибутів.
1 ОГЛЯД І АНАЛІЗ ІСНУЮЧИХ СИСТЕМ КЛАСИФІКАЦІЇ ІНФОРМАЦІЇ
В даний час завдання автоматичного рознесення інформаційного потоку за тематичними рубриками є однією з найважливіших в області обробки інформації в системах електронного документообігу. Головна увага при організації робіт з управління інформацією зосереджено на проблему автоматизації процесів класифікації інформаційних повідомлень ЗМІ. Найбільш актуальними є задачі завантаження інформаційних повідомлень в інформаційну базу, обробки текстової та цифрової інформації, перехід до структурованих повідомленнями, оперативне коректування структури рубрикатора і словника.
В даний час у відділах документообігу почалося активне використання програмних продуктів для автоматизації процесу класифікації.
Найбільшого поширення у відділах документообігу отримали програмні продукти: пошуково-аналітична система «Галактика-Зум», система «Термін-5», інформаційно-аналітична система «Астарта», інформаційно-аналітична система INLINE Technologies.
Кожен із варіантів має свої переваги і недоліки. Найбільш поширені зарубіжні системи добре налагоджені, але мають набагато вищу вартість, недостатньо пристосовані до прийнятих в організаціях технологіям, стандартам і форматам, що вимагає їх серйозною і дорогої адаптації.
Відставання вітчизняних систем пояснюється в основному тим, що за відсутності значних фінансових інвестицій російські системи використовують в якості базового програмного забезпечення безкоштовні або дешеві пакети програм, які не призначені для створення високотехнологічних систем.
Враховуючи ситуацію, що склалася, доцільно здійснити аналіз вітчизняних систем з метою доопрацювання їх до рівня повної конкурентоспроможності.
Розглянемо ряд автоматизованих систем по процесу класифікації інформації.
Пошуково-аналітична система «Галактика-Зум» призначена для компаній і організацій, яким необхідно автоматизувати процес класифікації.
Програма надає наступні можливості:
- Визначення «інформаційного портрета» запитуваної теми, тобто набір упорядкованих за значимістю ключових слів і словосполучень, характерний саме для даної вибірки;
- Рішення задачі ранжування документів вибірки за значимістю - за найбільшим відповідності інфопортрету вибірки кількості значущих тем і їх рангу в даному документі;
- Коригування отриманих інфопортретов;
- Порівняння інфопортрета документа з інфопортретамі рубрик, з відсікання малохарактерні інфопортретов.
Інформаційно-аналітична система «Астарта» призначена для компаній і організацій, яким необхідно автоматизувати і кардинальним чином підвищити ефективність збору, обробки та аналізу неструктурованої інформації, одержуваної з Інтернету, друкованих матеріалів, ЗМІ і т.д. Програмне рішення базується на технології «Євфрат» і призначений для збору, обробки та аналізу неструктурованої інформації, одержуваної з Інтернету, друкованих матеріалів ЗМІ та інших джерел.
До недоліків даних систем можна віднести наступне:
- Незручний для роботи інтерфейс;
- Відсутність достатньо повного словника для процесу класифікації інформаційних повідомлень;
- Відсутність необхідних для ефективної роботи функцій формування рекомендацій для прийняття рішень і звітів.
Таким чином, враховуючи можливості та недоліки існуючих систем, необхідно розробити систему, яка надавала б наступні можливості:
- Створення інформаційної бази для автоматизованого процесу класифікації статей за категоріями рубрикатора;
- Завантаження інформаційних повідомлень ЗМІ в інформаційну базу;
- Обробка текстової та цифрової інформації з використанням методу нечіткого пошуку;
- Класифікація інформаційних повідомлень з використанням методу ранжування;
- Можливість оперативного коригування структури рубрикатора і словника;
- Формування рекомендацій для прийняття рішень;
- Формування звітів.
2 загальносистемних рішень
2.1 Пояснювальна записка до технічного проекту
Повне найменування системи: Автоматизована інтелектуальна система класифікації інформаційних повідомлень засобів масової інформації (ЗМІ). Умовне позначення: АІС «Класифікатор».
Замовник: Управління інформаційних та аналітичних технологій апарату адміністрації Тульської області (УІАТ ТО), відділ технологій відображення інформації (ОТОІ).
Розробник: студентка Тульського державного університету факультету Економіки і права кафедри Автоматизованих інформаційних і керуючих систем групи 730211 Жіренкова Ірина Юріївна.
Планові терміни початку і закінчення роботи зі створення системи:
- Початок робіт: 1 вересня 2006 року;
- Закінчення робіт: 1 грудня 2006 року.
Розробляється АІС «Класифікатор» призначена для забезпечення більш зручною, ефективної та якісної роботи консультанта ОТОІ, пов'язаної з обробкою інформації та присвоєння їй класифікуючих атрибутів.
Метою створення системи є автоматизація процесу класифікації інформаційних повідомлень ЗМІ. Система дозволить звільнити людину від необхідності рутинної роботи з відстеження необхідної інформації, що належить до тієї чи іншої рубриці, а також скоротити час на їх обробку.
АІС «Класифікатор» включає в себе такі підсистеми:
1) підсистема ведення інформаційної бази;
підсистема обробки інформаційних повідомлень ЗМІ;
підсистема налаштування параметрів;
підсистема класифікації інформаційних повідомлень ЗМІ.
Підсистема ведення інформаційної бази повинна виконувати наступні функції:
1) формування інформаційної бази;
2) додавання запису;
3) зміна запису;
4) видалення запису;
5) збереження запису.
Підсистема обробки інформаційних повідомлень ЗМІ повинна виконувати наступні функції:
відкриття списку текстових файлів в каталозі;
відкриття файлу;
зчитування рядки з файлу;
запис інформаційних повідомлень ЗМІ в базу;
5) закриття файлу.
Підсистема настройки параметрів повинна виконувати наступні функції:
1) визначення каталогу з файлами;
2) настройка розширення файлів з вихідними даними;
3) настройка параметрів класифікації.
Підсистема класифікації інформаційних повідомлень ЗМІ повинна виконувати наступні функції:
1) пошук записів за різними ключами словника з допомогою методу нечіткого пошуку;
2) класифікація повідомлень за результатами пошуку;
3) формування рекомендацій для прийняття рішень;
4) формування звітів.
Інформаційне забезпечення організовано у відповідності з принципами розвитку, сумісності, стандартизації та уніфікації.
Вхідними даними є:
- Інформаційні повідомлення ЗМІ;
- Параметри класифікації;
- Рубрикатор тим;
- Словник.
Вихідними даними є результати класифікації інформаційних повідомлень ЗМІ.
Вихідними документами є:
- Звіт за результатами класифікації;
- Звіт за обробленими повідомленнями ЗМІ.
АІС «Класифікатор» була розроблена в середовищі програмування Borland Delphi 7.0, основним інструментом якого є Object Pascal. На магнітних носіях відомості про повідомлення зберігаються у вигляді бази, яка розроблена в системі MS Access. Самі інформаційні повідомлення зберігаються у файлах на жорсткому диску. Програмне забезпечення реалізовано за допомогою модульного принципу та функціонує незалежно від апаратної частини.
Для функціонування АІС «Класифікатор» розроблений комплекс технічних засобів, що включає в себе ПЕОМ на базі процесора Intel Celeron з тактовою частотою 2 ГГц, клавіатуру, мишу, монітор SVGA, 2 Гбайт на жорсткому диску, 512 Мбайт оперативної пам'яті (RAM), операційну систему Windows Me, 2000, XP.
Для введення системи в експлуатацію необхідна персональна ЕОМ з набором периферійних пристроїв робочого місця. Також необхідно провести ознайомлення консультанта ОТОІ з принципами роботи даної системи.
2.2 Опис схеми організаційної структури управління інформаційних та аналітичних технологій апарату адміністрації Тульської області
Керує управлінням інформаційних та аналітичних технологій апарату адміністрації Тульської області начальник управління. У безпосередньому підпорядкуванні у начальника перебуває заступник начальника управління. У заступника у підпорядкуванні певну кількість підрозділів (відділів). Схема організаційної структури управління інформаційних та аналітичних технологій наведена на малюнку 2.1.
ОТОІ здійснює свою діяльність у сфері управління процесами створення та впровадження передових інформаційних технологій і в сфері управління питаннями графічної обробки і відображення інформації.
Основними завданнями та функціями відділу є:
- Участь у підготовці управлінських рішень (нормативно-правових актів губернатора і адміністрації Тульської області) у сфері інформатизації;
- Участь в організації інформаційної взаємодії федеральних і регіональних органів влади, органів місцевого самоврядування шляхом відпрацювання технології виготовлення і розповсюдження інформаційних та інформаційно-правових електронних і друкованих бюлетенів і збірників;
- Підготовка довідкових, інформаційних та аналітичних матеріалів з метою підвищення інформованості та компетентності представників органів влади;
- Збір та обробка інформації про діяльність органів виконавчої влади, апарату адміністрації Тульської області, органів місцевого самоврядування регіону з метою створення державних інформаційних ресурсів;
- Технічне, інформаційне, лінгвістичне, організаційна участь у наповненні сайту (порталу) адміністрації Тульської області, включаючи розробку інтернет-сторінок;
- Підготовка пропозицій щодо застосування в органах виконавчої влади нових технічних засобів і комп'ютерних технологій введення, обробки і відображення графічної, текстової, гіпертекстової, аудіо-та відеоінформації;
- Підготовка інформаційних матеріалів для публікації у федеральних виданнях.
З метою організації інформаційного обміну між структурними підрозділами обласної адміністрації, муніципальними утвореннями області та органами влади регіонів економічного Центру Росії
здійснюється випуск інформаційно-правового періодичного видання «Вісник адміністрації Тульської області», періодичних електронних бюлетенів «Досвід регіонів» і «В Тулі та області».
Підготовка цих матеріалів включає в себе розробку тематики та композиційної структури кожного випуску, стилістичне та технічне редагування матеріалів.
Основоположними принципами організації випуску інформаційних матеріалів є:
- Відповідність завданням, що вирішуються місцевими органами влади;
- Оперативність та достовірність наданої інформації;
- Читабельність матеріалів, що випускаються (технічна грамотність, дохідливість викладу, лаконічність).
Необхідно автоматизувати роботу консультанта, який від Центру урядового зв'язку (ЦПЗ) по Тульській області регулярно отримує об'ємний масив інформації, заснований на публікаціях ЗМІ різних регіонів. Перед спеціалістом департаменту стоїть завдання переробити його до читабельного обсягу і зручною для користувачів форми.
Посадова інструкція консультанта відділу технологій відображення інформації
Ефективно організовує службову діяльність у взаємозв'язку з державними органами та органами місцевого самоврядування Тульської області, державними і муніципальними службовцями Тульської області, організаціями, громадянами.
Володіє сучасними засобами, методами і технологією роботи з інформацією та документами.
Володіє оргтехнікою та засобами комунікації.
Розробляє проекти законів та інших нормативних правових актів з напряму діяльності.
Веде службовий документообіг, виконує службові документи, готує проекти відповідей на звернення організацій, громадян.
Систематизує та готує аналітичний, інформаційний матеріал, в тому числі для засобів масової інформації.
7. Здійснює збір, обробку та надання інформації про діяльність регіональних і муніципальних органів влади області у вигляді інформаційних (електронних і друкованих) бюлетенів, збірників, буклетів і т.д.
8. Готує матеріали для сайту (порталу) адміністрації Тульської області.
9. Визначає тематику, терміни подання та оформлення аналітичних та інших матеріалів, що розміщуються в офіційному інформаційно-правовому виданні «Вісник адміністрації Тульської області», електронних інформаційних бюлетенях та на сайті адміністрації області.
2.3 Опис автоматизуються функцій і схеми функціональної структури АІС «Класифікатор»
Використовуючи методологію IDEF 0 при проектуванні АІС «Класифікатор» була отримана її функціональна модель.
Головною функцією системи (А0) є автоматизація процесу класифікації інформаційних повідомлень ЗМІ. Для реалізації даної функції необхідно реалізувати наступні функції:
А0 Автоматизувати процес класифікації інформаційних повідомлень ЗМІ
А1 Обробити інформаційні повідомлення ЗМІ
А11 Відкрити файл
А12 Вважати інформаційні повідомлення з файлу
А13 Сформувати повідомлення ЗМІ для занесення в інформаційну базу
А2 Вести інформаційну базу
А21 Створити інформаційну базу
А22 Додати запис
А23 Змінити запис
А24 Видалити запис
А25 Зберегти запис
А3 Налаштувати параметри
А31 Визначити каталог з файлами
А32 Поставити розширення файлів
А33 Налаштувати параметри класифікації
А4 Виконувати класифікацію інформаційних повідомлень ЗМІ
А41 Знайти запис за різними ключами словника
А42 Класифікувати інформаційних повідомлень ЗМІ
А43 Видавати результати класифікації
А5 Формувати звіти
Дерево вузлів, розробленої моделі представлено на малюнку 2.2. Контекстна діаграма А-0 і її дочірні діаграми представлені у додатку Б.
2.4 Опис постановки завдання
Метою створення системи є автоматизація процесу класифікації інформаційних повідомлень ЗМІ. Комплекс завдань, що реалізуються розробляється системою, повинен забезпечувати зручну, швидку і якісну роботу консультанта ОТОІ.
Основними завданнями АІС «Класифікатор» будуть наступні:
- Створення інформаційної бази для автоматизованого процесу класифікації статей до тієї чи іншої категорії;
- Завантаження інформаційних повідомлень ЗМІ в базу;
- Обробка текстової та цифрової інформації з використанням методу нечіткого пошуку;
- Класифікація інформаційних повідомлень з використанням методу ранжування;
- Відкритість структури рубрикатора і словника, то є можливість оперативної їх коригування;
- Формування рекомендацій для прийняття рішень;
- Формування звітів.
Вхідний інформацією для реалізації завдань системи є:
- Інформаційні повідомлення ЗМІ;
- Параметри класифікації;
- Рубрикатор тим;
- Словник.
Вихідними даними є результати класифікації інформаційних повідомлень ЗМІ.
Вихідними документами є:
- Звіт за результатами класифікації;
- Звіт за обробленими повідомленнями ЗМІ.
3 ІНФОРМАЦІЙНЕ ЗАБЕЗПЕЧЕННЯ
3.1 Перелік вхідних даних
Для розробки АІС «Класифікатор» використовуються такі вхідні дані:
- Інформаційні повідомлення ЗМІ;
- Параметри класифікації;
- Рубрикатор тим;
- Словник.
3.2 Перелік вихідних даних і документів
Вихідними даними будуть результати класифікації інформаційних повідомлень ЗМІ.
Вихідними документами будуть:
- Звіт за результатами класифікації;
- Звіт за обробленими повідомленнями ЗМІ.
3.3 Опис інформаційного забезпечення АІС «Класифікатор»
3.3.1 Опис структури вхідних інформаційних повідомлень і вихідних даних і документів
Інформаційні повідомлення ЗМІ готуються у вигляді текстових файлів.
Текстові файли формуються у форматі MS DOS в кодуванні ASCII.
Ім'я текстового файлу складається з власного імені, що займає 6 знакомест, і 3 символів розширення. Порядок утворення імені текстового файлу має наступну структуру:
ГГЧЧММ. Smi,
де ГГ - найменування міста, з якого прийшло інформаційне повідомлення (2 знакоместа);
ГГ - число місяця (2 знакоместа), за яке підготовлено інформаційне повідомлення;
ММ - місяць, у якому підготовлено інформаційне повідомлення;
smi - розширення інформаційного повідомлення ЗМІ.
3.3.2 Опис структури інформаційної частини повідомлення ЗМІ
Текстовий файл сформований без розбивки на сторінки зі збереженням оригінальної структури публікацій (абзаци, червоні рядки та ін.)
До складу текстового файлу може входити декілька інформаційних повідомлень.
При формуванні текстового файлу з 1-ої позиції на окремому рядку без пропуску рядків введена інформаційна частина повідомлення.
Інформаційна частина повідомлення має наступну структуру:
АТ ХХХХХХХ
== / ЗМІ
01/ХХХХ
02/ДДММГГ
03/ХХХХХХХХ
04/ХХХХХХХХ
05/ХХ
06/ключевие слова і текст статті
07/наіменованіе статті
08/автор статті
===
де АТ ХХХХХХХ - адреса відправника;
АТ - великі літери російського алфавіту;
ХХХХХХХ - семизначний код відправника.
Між літерами (АТ) і кодом допускається один пробіл.
== / - Ознака початку інформаційної частини (два символи "дорівнює" і слеш - справа наліво);
ЗМІ - приналежність повідомлення ЗМІ.
Кожне інформаційне повідомлення відокремлюється цим набором символів.
Далі заповнюються атрибути з 1-ї позиції по 8-ю:
01 / - чотиризначний код джерела інформації (код або найменування газети);
02 / - дата публікації у форматі ДДММГГ;
03 / - шести-або восьмизначний код регіону;
04 / - найменування населеного пункту (або його 8-розрядний код), про який пишеться в статті газети.
Атрибут заповнюється великими літерами без вказівок р., п., смт. Під населеним пунктом мається на увазі місто, село, але не район області, не район міста.
05 / - двозначний код галузі, про яку йде мова відповідно до класифікатора галузей. Якщо в статті газети зачіпається кількох галузей, то код кожної з них дається окремим рядком з покажчиком - 05 /;
06 / - ключові слова та текст статті.
Перший рядок атрибута - ключові слова по тематиці, відображеної в статті. Ключові слова відокремлюються один від одного крапкою. Наприклад:
Бюджет. Заборгованість.
Зміст статті, що відбиває істота порушеної проблеми. Воно має необмежену довжину, але з урахуванням обмежень обсягу повідомлень в мережах. Продовження статті у другій та наступних рядках починається з 4-ій позиції, довжина рядка повинна бути не більше 55 знаків.
07 / - найменування статті. Заноситься в атрибут повністю, як в оригіналі статті газети;
08 / - автор статті.
Всі значення атрибутів заносяться відразу ж після слеша без пропуску порожніх знакомест.
=== - Ознака завершення інформаційного повідомлення (три символи "дорівнює").
Приклад заповнення інформаційної частини повідомлення наведено в додатку В.
3.3.3 Основні вимоги, що пред'являються до підготовки повідомлень ЗМІ в частині орфографії
До підготовки інформаційних повідомлень ЗМІ пред'являються наступні вимоги:
1. Текст повідомлення готується у вигляді текстового файлу.
2. Інформація в текстовому файлі розміщується в одну колонку і не форматується.
3. Текстовий файл формується без розбиття на сторінки зі збереженням оригінальної структури публікацій (абзаци, червоні рядки та ін.)
4. Інформація в текстовий файл вводиться великими та малими буквами як в статті газети.
5. У текстовий файл вводяться найменування рубрики, підзаголовок (якщо вони присутні) і текст статті окремими абзацами.
6. Абзаци, перелік пунктів і т.п. в тексті не відокремлюються "порожній" рядком.
7. Російські слова тексту не повинні містити літер латинського алфавіту; римські цифри - російських букв.
8. Текст не повинен містити незакінчених пропозицій і обривів у словах.
9. У текстовий файл не заносяться:
- Рекламні вставки, фотографії, таблиці, графіки, діаграми та інші графічні матеріали;
- Назва міста, що стоїть на початку або в кінці тексту статті, так як воно заноситься в атрибут 04 /;
- Спецсимволи, відсутні на клавіатурі ПЕОМ.
Якщо в кінці тексту статті є посилання на джерело, з якого надрукований текст, то вона заноситься на першому рядку перед текстом. Наприклад:
За матеріалами російського радіо.
10. Якщо до статті газети дається анотація чи коментар, виділені
іншим шрифтом, укладені або не укладені в рамку, то вони вводяться після тексту статті в звичайному шрифті без рамки, відокремлюючи словами:
Коментар (прізвище автора).
11. Прізвище від ініціалів відокремлюється пробілом.
12. Слова тексту, надруковані в розрядку (через пробіл) вводяться разом. Ключові слова в тексті повинні бути повними без розривів і скорочення.
13. Абревіатури вводяться без крапок і розрядки.
14. Скорочення типу: т.д., т.п., ц.р., п.р. вводяться без розрядки.
15. У числах між цифрами не повинно бути пробілів.
16. Римські цифри вводити латинською регістрі великими літерами. Наприклад: XXIV.
17. Спецсимволи, що зустрічаються в математичних формулах, мають бути замінені на літери російського або латинського алфавіту.
18. Хімічні елементи, одиниці виміру, математичні вирази та інша інформація вводиться в текстовий файл у відповідності з таблицею значень (додаток Г).
19. Примітка (виноска) вводиться в текстовий файл з нового рядка після тексту, відокремлюється рискою. Наприклад:
_________________
(Прім.2) - ...
*) ....
20. Якщо в газеті під одним найменуванням кілька повідомлень з різних регіонів, то кожне повідомлення оформляється окремим текстовим файлом.
21. Якщо стаття газети має продовження в наступному номері газети, то її текстовий файл готується звичайним способом, а в кінці тексту з нового рядка вводиться: «Продовження в N». Якщо стаття є продовженням попереднього номера газети, то на початку тексту вводиться: «Початок в N».
22. Текст повідомлення повинен бути відредагований. Всі спецсимволи в
тексті повинні бути замінені наступним чином:
- Лапки («») на лапки ("");
- Номер (№) на номер (латинська літера N);
- Довге тире (¾) на тире (-);
- Буква (е) на букву (е);
- Апостроф (') на твердий знак.
Характерними помилками в текстових файлах є:
- Орфографічні помилки в російських словах: пропуск букв (и), зайва (і) літера (и), заміна літер (и), латинська (і) літера (и);
- Слова написані разом без пробілу;
- В складних словосполученнях пропуск дефіса;
- Після скорочення і розділових знаків відсутній пробіл;
- Пропуск точки у скороченні та в одиницях виміру;
- Замість коми стоїть крапка і навпаки;
- Замість номера (латинської літери N) стоїть інший символ.
Параметри класифікації включають в себе завдання кількості збігів по назві статті, за текстом статті та за ключовими словами тексту статті. Тут же задається поріг нечіткого пошуку у відсотках від 40 до 100. Чим вище відсоток, тим чіткіше пошук.
Рубрикатор тим являє собою перелік рубрик на паперових носіях та має наступну структуру:
- Рубрики 1-го рівня;
- Рубрики 2-го рівня, що розкривають суть рубрик 1-го рівня;
- Рубрики 3-го рівня, що розкривають суть рубрик 2-го рівня;
- Рубрики 4-го рівня, що розкривають суть рубрик 3-го рівня.
Рубриками 3-го і 4-го рівнів відповідають свої словники, що представляють собою перелік ключових слів. Рубрикатор тим і словник наведені у додатку Д.
Результати класифікації інформаційних повідомлень ЗМІ містять код рубрики, найменування рубрики, кількість збігів за назвою, тексту, ключовими словами статті, і остаточний результат
класифікації.
Звіт за результатами класифікації містить дані по кожній статті: дату, вибраний файл, назва статті, ключові слова статті, автора, текст статті, кількість збігів за назвою, текстом і ключовими словами статті.
Звіт за обробленими повідомленнями ЗМІ містить результати класифікації по кожному файлу і включає: дату, назву статті, ключові слова статті, автора, текст статті та зіставлені рубрики.
Структура вихідних даних і документів представлена в додатку Е.
3.4 Опис організації інформаційної бази
3.4.1 Опис організації внутримашинной бази
Всі відомості про повідомлення ЗМІ зберігаються в базі даних, яка складається з наступних таблиць:
- Статті;
- Газета;
- Регіон;
- Галузь;
- Довідник галузей;
- Рубрики;
- Класифікація;
- Рубрикатор 1;
- Рубрикатор 2;
- Рубрикатор 3;
- Рубрикатор 4;
- Словник рубрикатора 3;
- Словник рубрикатора 4.
Їх опис представлено в таблицях 3.1 - 3.13 відповідно.
Таблиця 3.1 - Таблиця «Статті»
Первинний ключ | Атрибути | Тип даних | Опис |
Код газети | Числовий | Довжина 2 символи | |
Код регіону | Числовий | Довжина 8 символів | |
Номер статті | Лічильник | Послідовне значення | |
Унікальний ключ | Найменування | Текстовий |