Роль парсерів та їх використання для накопичення даних у бд

Ім'я файлу: КМ-1-4М Новицький Реферат.docx
Розширення: docx
Розмір: 25кб.
Дата: 18.12.2022
скачати

Міністерство освіти і науки України

Національний університет харчових технологій

Кафедра інформаційних систем

Реферат

на тему «Роль парсерів та їх використання для накопичення даних у БД»

з дисципліни «Клієнт-серверні технології розроблення баз даних»

Виконав

Студент групи КМ-1-4М

Новицький В.В.

Київ-2021

Зміст

Вступ 3

Парсер 4

База даних 7

Висновок 9

Список використаних джерел 10

Вступ

Накопичення інформації в базі даних та підтримка її у актуальному стані є найважливішою частиною роботи з базою даних. На даний момент кількість інформації, що потрібно виділяти, оброблювати та зберігати занадто велика для людини, тому було створений спеціальний тип програмного забезпечення як парсери.

Парсер, також називають синтаксичним аналізатором, використовують для перетворення вхідних даних у заданий структурований формат для подальшого використання бізнес-логікою. Використання парсерів обумовлено великим об’ємом інформації, що надходить до системи.

Парсер

Парсер – це не лише програмне забезпечення, що оброблює вхідні дані, а і цілий клас програмних продуктів. Основний принцип роботи парсера полягає у наступному:

Програма-парсер отримує на вхід інформацію, що відповідаю певному типу. Це може бути, наприклад, звичайний текст із книжки, key-value текстовий документ, JSON-файл, XML-файл, CSV-файл, файл з текстом програми на деякій мові програмування;
Дані, що виділяються із вхідного масиву зазвичай залежить від конкретного парсера, але деякі дозволяють задавати правила пошуку за допомогою регулярних виразів;
Наприкінці, вихідні дані подаються у зручному вигляді для подальшого використання людиною та/або наступними програмними засобами.

Також парсером називають процес автоматизованого збору загальнодоступної інформації з інтернету, що виконується без використання API сайтів. Тобто процес є схожим на пошук інформації звичайною людиною, що просто відкриває сайте та шукає конкретну інформацію, але даний процес виконується значно швидше.

У бізнесі парсери використовуються для прискорення та оптимізації роботи. Завдяки використанню комп’ютерних ресурсів стає можливим оброблювати велику кількість інформації в реальному часі без помилок через людський фактор. Прикладом використання можна вважати збір інформації з сайтів магазинів для вивчення ситуації на ринку, моніторинг екологічних новин у регіоні, збір даних із соціальних мереж про потенціальних клієнтів, моніторинг позицій в пошукових системах.

У програмуванні парсер використовується для переведення текстового коду, написаного людиною, у зрозумілий для компілятора та/або інтерпретатора вигляд. Зазвичай кожен компілятор має свій власний парсер.

Парсери поділяються на серверні та локальні.

Перевагою серверних парсерів є відсутність необхідності завантажувати додаткове програмне забезпечення та мати значні обчислювальні ресурси. Таким чином задавши необхідні параметри пошуку та бажаний вивід результатів користувач може без проблем виконати обробку певної інформації. Прикладами серверних парсерів можна є import.io, octoparce, parsehub. Серверні парсери орієнтовані на вирішення бізнес задач. Такі застосунки пропонується цілодобовий моніторинг інформації та мають інтуїтивно-зрозумілий графічний вивід інформації.

Локальні парсери також мають схожий функціонал, але до них також слід ще відносити парсери компіляторів та підпрограм пошуку тексту в середовищах розробки програмного забезпечення. Прикладом локального парсингу є парсер коду програми: він сканує код, що написаний розробником, усі бібліотеки та модулі, що використовує розробник, зберігає ці дані в базу даних, а потім, коли користувач скористається функцією завершення вводу коду, то середовище розробки виведе результати.

Не слід плутати парсери із звичайними конверторами форматів. Наприклад, якщо програма робить перетворення CSV-файлу в sql-базу даних, то дана програма не є парсером, оскільки не виконує пошуку у вхідних даних.

База даних

Базою даних називають впорядкований набір даних, що зберігається відповідно до схеми даних. Завдяки логічному структуруванні даних, об’єм пам’яті, що вони займають є досить оптимальним. В базовому вигляді база даних представляє собою місце в пам’яті, де зберігаються дані, алгоритми, які виконується операції вводу-виводу, та серверний інтерфейс за допомогою якого користувач може виконувати взаємодію з базою даних.

Більша кількість мов програмування мають вбудовані модулі для роботи з різними типами баз даних. Це робить можливим написання програмних застосунків на потрібній мові програмування з можливістю швидкого збереження накопичених даних.

Парсинг та завантаження даних в базу даних може виконуватися, наприклад, за допомогою DTS (data transformation service). DTS – це служба перетворення даних, набір об’єктів та програмних засобів, які дозволяють автоматично виконувати операції вилучення, перетворення та завантаження даних в базу даних та з неї. DTS входив в ранні версії Microsoft SQL Server і завжди використовувався саме з ним, хоча його можна було використовувати і з іншими базами даних.

DTS дозволяє перетворювати та завантажувати данні із різних джерел за допомогою OLE DB, ODBC та текстових файлів в будь-яку базу даних. Також DTS дозволяє автоматизувати імпорт та експорт по графіку та виконувати різні додаткові функції, такі як FTP-завантаження файлів та виконання зовнішніх програм. Є можливість альтернативного методу контролю версій і резервного копіювання пакетів при використанні разом із системою контролю версій, такою як Microsoft Visual SourceSafe.

В базах даних MySQL є вираз «LOAD DATA», що дозволяє завантажити неформатовані дані із звичайного текстового файлу в таблицю з дуже високою швидкістю. Файл може бути прочитаний як із локального джерела, так і з віддаленого сервера.

В Microsoft Access є можливість за допомогою «Зовнішніх даних» імпортувати дані із Excel, XML, інтернет-сторінок, папок Outlook.

Також існує такий процес як ETL – процес, який використовується в базах даних та особливо у сховищах даних. Процес поділяється на три етапи. На першому виконується витягування даних із ряду зовнішніх джерел, які можуть мати різний формат. Далі виконується перетворення даних у заданий формат та завантаження в цільову систему.

Висновок

Використання парсерів для накопичення інформації в бази даних є, безумовно, найкращим способом внесення даних та підтримки їх в актуальному стані.

Парсери використовуються як для вирішення глобальних бізнес-питань, так і для вирішення локальних задач.

Список використаних джерел

Вікіпедія [Електронний ресурc] Режим доступу:

https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BD%D1%82%D0%B0%D0%BA%D1%81%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%82%D0%BE%D1%80

ActiveTraffic [Електронний ресурc] Режим доступу:

https://www.activetraffic.ru/wiki/parser/

TimeWeb [Електронний ресурc] Режим доступу:

https://timeweb.com/ru/community/articles/chto-takoe-parser

Habr [Електронний ресурc] Режим доступу:

https://habr.com/ru/company/click/blog/494020/

Ipipe [Електронний ресурc] Режим доступу:

https://ipipe.ru/info/parsing
скачати

© Усі права захищені
написати до нас