Ім'я файлу: КТОД_Л№2.2.pptx
Розширення: pptx
Розмір: 5905кб.
Дата: 05.12.2022
скачати
Пов'язані файли:
КТОД_Л№3.pptx

Комп’ютерні технології обробки даних Процесінг даних

Структура заняття

  • Категорії процесінгу даних
  • Пакетна обробка
  • Потокова обробка
  • Архітектури побудови процесінгових систем обробки даних
    • Лямбда архітектура
    • Каппа архітектура

Процесінг даних - це діяльність з обробки даних

Наразі виділяють дві основні категорії процесингу даних:

  • Пакетна обробка (Batch processing)
  • Потокова обробка (Stream processing)

Пакетна обробка

(Batch processing)

Приклад Національний банк України відправляє кожен день після 17-00 файл з інформацією про об’єми продажу та покупок валюти населенням до Міністерства фінансів України

Потокова обробка

(Stream processing) Приклад YouTube, формує онлайн персональні рекомендацій щодо контенту та рекомендації відповідної реклами на основі того, що користувач дивится прямо зараз

Приклади які дані краще підходять до пакетної обробки даних
  • Юридичні адреси
  • Місцезнаходження складів
  • Відділи компанії, в яких працюють її співробітники
  • Група крові пацієнтів

Приклади які дані краще підходять до потоковї обробки даних
  • Місцезнаходження кур’єрів
  • Банківські транзакції
  • Прогноз погоди
  • Рекомендації від онлайн-сервісів

Пакетна обробка

Пакетна обробка - організація виконання декількох процесів у попередньо визначеній послідовності за допомогою команд керування процесами

На початку часів аналітичних та транзакційних систем використовували пакетні технології обробки даних, коли синхронізація накопичених за день даних виконувалась уночі. Тому фактичні дані відрізнялися від розрахункових на 8-12 годин, що може бути критичним для низки доменів. Хоча сучасні пакетні технології значно підвищили частоту обробки пакетів, на обчислення з великим набором даних досі можуть піти години, а результат, як і раніше, не буде на 100% відповідати дійсності.

Пакетна обробка

Властивості пакетної обробки З даними в пакетах обробки можуть відбуваються наступні операції: 1. Операції трансформації. Вибрана операція застосовується до кожного елемента пакета. Якщо це картинки, можна скоригувати кольори або повернути їх на 90 градусів. Якщо це відео, можна обрізати перші 30 секунд і додати напис поверх. 2. Операції фільтрації. Можна фільтрувати файли всередині пакета - наприклад, залишити в ньому тільки картинки з котами і видалити всі інші. Або фільтрувати пакет загалом – пропускати дані на подальшу обробку тоді, коли в ньому зустрілися фотки лише котів.

Виконуватись операції пакетної обробки можуть:

1. Послідовно. У такому випадку обробка виглядає як конвеєрна стрічка, якою переміщується пакет записів. На кожному етапі до даних застосовується якась одна логічна операція: фільтрація чи трансформація.

2. Паралельно. На вхід системи йдуть кілька пакетів, всі вони проходять через стадії обробки одразу на кількох серверах чи кількома копіями програм.

Потокова обробка

Потокова обробка або обробка потоку подій дозволяє обробляти дані в міру їх надходження, отримуючи цінні бізнес-інсайти як реального часу.

Обробка даних у режимі реального часу сьогодні стає майже стандартом. Бізнесу важливо виконувати обчислення «on fly», отримуючи цінну інформацію, поки дані все ще актуальні.

Потокова обробка

Потокова обробка ґрунтується на наступних ключових аспектах:

  • Безперервна обробка вхідного потоку даних у міру надходження події;
  • Низька затримка до частки секунди;
  • Облік послідовності та порядку надходження подій при обробці, навіть якщо вони досягли потокового процесу зі зміщенням через затримки в мережі.

Лямбда-архітектура процесінгових систем обробки даних

Всі дані, що надходять до системи, проходять через два шляхи:

  • На пакетному рівні (холодний шлях / cold path) усі вхідні дані зберігаються в необробленому вигляді та виконується їх пакетна обробка. Результати цієї обробки зберігаються у пакетному поданні.
  • На потоковому рівні (критичний шлях / hot path) дані аналізуються в режимі реального часу. Цей рівень забезпечує мінімальну затримку.

Схема лямбда архітектури


Джерело даних

Потоковий рівень Hot path

Пакетний рівень

Cold path

Сервісний рівень

Serving path

Клієнт

Розглянемо приклад на контекстній рекламі. Для підвищення конверсії необхідно персоналізувати рекламні пропозиції.

Для цього слід швидко і точно сегментувати клієнтів з урахуванням аналізу історичних даних щодо кожного з них, одночасно визначивши місце розташування конкретного абонента в режимі реального часу.

Джерело де зберігаються дані по рекламним пропозиціям та клієнтам + геопозиція

Дані по сегментам клієнтів

Дані по геопозиції

Об’єднуємо дані

Надаємо рекламні пропозиції

Каппа-архітектура процесінгових систем обробки даних

На відміну від лямбда-архітектури, у каппа-архітектури дані проходять тільки один шлях. Усі дані приймаються як потік подій.

! Якщо необхідно повторно обчислити весь набір даних - потік потрібно перезавантажити заново.

Таким чином можна сказати, що каппа-архітектура – це спрощення лямбда-підходу до проектування процесінггових систем обробки даних, коли з моделі видалено рівень пакетної обробки даних.

Схема каппа архітектури


Джерело даних

Потоковий рівень Hot path

Сервісний рівень

Serving path

Брокер

Розглянемо приклад на основі котирування цінних паперів.

Для правильного прийняття рішень брокеру необхідно мати максимально актуальну інформацію з приводу цін на акції.

Для цього необхідно швидко отримувати котирування цінних паперів та передавати їх брокеру

Джерело де формуюється ціна акцій. Фондова біржа

Дані по цінам котирувань

Підготовка даних

Надаємо котирування
скачати

© Усі права захищені
написати до нас