Концепція систем складування даних

Ім'я файлу: Лекція 1. Системи зі сховищами даних і системи бізнес-аналітики.
Розширення: docx
Розмір: 146кб.
Дата: 05.12.2022
скачати

Лекція 1. Системи зі сховищами даних і системи бізнес-аналітики

Концепція систем складування даних

Інформаційна технологія складування даних (data warehousing) народилася в компанії IBM і була остаточно сформульована Б.Інмона і Р.Кімболом в 90-х роках минулого століття як метод вирішення інформаційно-аналітичних завдань в галузі прийняття та підтримки рішень. Виникнувши на стику технології баз даних (БД), систем підтримки прийняття рішень (СППР - DSS) та комп'ютерного аналізу даних, концепція складування даних еволюціонувала, оскільки виявилася придатною для широкого кола додатків в бізнесі, науці і технології.

Основним посилом розробки концепції складування даних стало усвідомлення керівництвом організацій потреби в аналізі накопичених даних. На рис. 1.1 показана спрощена принципова схема функціонування підприємства.

Рис. 1.1. Спрощена принципова схема функціонування підприємства

У всьому світі підприємства накопичують або вже накопичили в процесі своєї адміністративно-господарської діяльності великі обсяги даних, у тому числі і в електронному вигляді. Ці дані зберігають в собі великі потенційні можливості з виявлення нової аналітичної інформації, на основі якої можна і необхідно будувати стратегію організації, виявляти тенденції розвитку ринку, знаходити нові рішення, що зумовлюють успішний розвиток в умовах конкуренції. Для деяких організацій такий аналіз є невід'ємною частиною їх повсякденної діяльності, інші починають активно приступати до такого аналізу.

Системи, побудовані на основі інформаційної технології складування даних, мають ряд характерних особливостей, які виділяють їх як новий клас інформаційних систем (ІС) (рис.1.2). До таких особливостей відносяться

-          предметна орієнтація системи,

-          інтегрованість збережених у ній даних, що збираються з різних джерел,

-          інваріантність цих даних у часі,

-          відносно висока стабільність даних,

-          необхідність пошуку компромісу в надлишковості даних.

Рис. 1.2. Особливості систем складування даних

Сховище даних (СД - data warehouse) є місцем складування даних в системі та інформаційним джерелом для вирішення завдань аналізу даних і прийняття рішень. Як правило, обсяг інформації в СД є достатньо великим. Спрощено можна сказати, що сховище даних управляє даними, які були зібрані як з оперативних систем організації (OLTP-систем - On-Line Trasactions Processing), так і з зовнішніх джерел даних, і які тривалий час зберігаються в системі. Більш точне визначення буде дано пізніше.

Однією з головних цілей створення систем складування даних є їх орієнтація на аналіз накопичених даних, тобто структуризація даних в СД повинна бути виконана таким чином, щоб дані ефективно використовувалися в аналітичних додатках (analytical applications).

Зауважимо, що завдання аналізу накопичених даних вирішували і до створення концепції складування даних. У розпорядженні аналітиків і зараз є великий набір пакетів програм. Головною відмінністю використання концепції складування даних є структуризація, систематизація, класифікація, фільтрація і т.п. великих масивів електронної інформації у вигляді, зручному для аналізу, візуалізації результатів аналізу та виробництва корпоративної звітності.

Концепція баз даних (БД) як метод подання та накопичення даних в електронному вигляді сформувалася до середини 60-х років минулого століття в фірмі IBM. У 1969 році була створена перша СУБД для управління і маніпулювання даними як самостійними інформаційними об'єктами. У 1970 році була запропонована реляційна модель даних для БД, і на її основі почали створюватися популярні до нині реляційні СУБД. У рамках реляційної моделі з єдиних позицій було вирішено багато проблеми операційного (транзакційного) опрацювання даних.

З середини 80-х років минулого сторіччя стали інтенсивно накопичуватися електронні інформаційні масиви даних організацій, корпорацій, науково-дослідних установ. Так, на початку 90-х років минулого століття тільки в області хімічних дисциплін було зареєстровано більше 7000 бібліографічних, фактографічних і змішаних баз даних. Провідні світові корпорації створили величезні електронні масиви конструкторської документації та документації з управління виробництвом. В цей же час виникло чітке розуміння, що збір даних в електронному вигляді - не самоціль, накопичені інформаційні масиви можуть бути корисні. Першими усвідомили цей факт в області управління бізнесом і виробництвом. У накопичених даних підприємства знаходиться «інформаційний знімок» хронології її поведінки на ринку. Аналіз історії адміністративно-господарської діяльності організації дозволив істотно збільшити ефективність її управління, ефективно організувати взаємини з клієнтами, виробництво і збут.

Завдання аналізу накопичених даних стали "на плечі" комп'ютера і вбудовуються у вигляді аналітичних додатків з БД. Зараз більшість дослідників сходяться на тому, що відправною точкою розробки концепції складування даних з'явився ретроспективний (як іноді ще кажуть, історичний) погляд на дані, накопичені в організації як в електронному, так і в іншому вигляді.

Відзначимо також, що використання технологій БД та ІС на вже розроблених моделях даних і методиках моделювання даних призводить до ряду проблем для аналітичних додатків. Далі розглянемо, як управління аналізом накопичених (і в цьому сенсі історичних) даних і які чинники привели до розвитку класу додатків складування даних.

Передумови створення концепції складування даних

Автоматизована інформаційна система (ІС) з БД, як засіб задоволення потреб користувачів інформацією, працює з потоками інформації, вираженими в потоках даних та операціях з ними. Як було зазначено вище, основний акцент на ранніх стадіях експлуатації ІС з БД будувався на операційній концепції роботи з даними. ІС повинна була швидко і адекватно опрацювати потік даних для вирішення певних завдань за допомогою уніфікованого набору операцій маніпулювання даними. Обробка даних зводилася до операцій вставки, видалення і оновлення. Це було зафіксовано спочатку концепцією БД і їх ідеологом Е.Коддом.

Спільна дія цих операції в рамках ІС приводило до конфліктів в даних - втрат даних, помилок в оновленні і т.д. (так званим аномалій в даних). Запропонувавши реляційну модель (яка є строго математичною, а, отже, контрольованою моделлю), Е. Кодд в цілому вирішив ряд проблем і завдань операційної обробки даних. Створення реляційних СУБД дозволило досить грамотно (з урахуванням рівня компетентності розробника) будувати системи операційного (або, як її ще називають, транзакційного) опрацювання даних - OLTP (On-Line Trasactions Proccessing).

На практиці дані в операційних системах можуть міститися настільки завгодно довго, наскільки в них є потреба. Незважаючи на те, що виробники жорстких дисків постійно збільшують обсяги цих дисків, зберігати рідко використовувану інформацію не має сенсу з тієї простої причини, що продуктивність багатьох запитів із зростанням обсягу даних починає падати і вдосконалення підсистем оптимізації запитів СУБД вирішує проблему погіршення продуктивності запитів лише частково. Загалом з накопиченням даних продуктивність обробки даних продовжує погіршуватися (ефект великих обсягів).

Типовим організаційним методом роботи з рідко використовуваними даними є процедура архівізації. У багатьох випадках процедура архівізації зводиться до простого копіювання даних на резервний носій інформації.

Таким чином, однією з проблем при вирішенні завдань аналізу даних, крім інших прихованих проблем, в рамках операційних систем аналізу даних є низька продуктивність виконання запитів, які готують дані для подальшого аналізу. Такі запити збільшують навантаження на процесори і в цілому погіршують опрацювання потоку транзакцій в БД.

Робота з архівом як з копією масиву даних операційної системи обробки даних не вирішує проблему продуктивності. Звідси простий практичний хід - розділити рішення задач опрацювання транзакцій і завдань аналізу даних. У реляційних СУБД продуктивність запиту може бути поліпшена за рахунок модифікації моделі даних. Архівні інформаційні масиви можна наділити структурою, відмінною від структури даних основної БД. Розробку таких структур даних можна пов'язати з вирішенням завдань ретроспективного аналізу даних, накопичених в системі. Це допустимо хоча б тому, що в задачах аналізу даних враховуються далеко не всі функціональні залежності, які підтримуються в операційних БД. Тому структуру даних архівів стали проектувати під завдання аналізу даних, неявно породивши тим самим новий клас додатків.

Фундаментальні вимоги до розробки операційних систем опрацювання даних і систем аналізу даних різні: операційним системам потрібна продуктивність, в той час як системам аналізу даних потрібні гнучкість і широкі можливості для отримання результату. Це протиріччя в цільовій спрямованості двох класів систем опрацювання даних стало однією з основних передумов розробки концепції складування даних

Створення нової концепції сприяло перегляду ряду традиційних підходів до опрацювання даних і перебудови технологічних процедур. Оскільки перебудова технологічних процедур є надзвичайно витратним заходом, важливо відзначити ті причини, які з'явилися додатковими спонукальними мотивами застосування нової концепції на практиці.

·  Однією з перших таких причин є робота з системи, що дісталися у спадок (legacy systems). Засоби обчислювальної техніки швидко еволюціонували. Але за роки експлуатації в старих системах було накопичено величезні бізнес-знання, було зафіксовано значну кількість бізнес-правил. Цей величезний обсяг інформації неймовірно важко перенести на нові апаратно-програмні платформи або в додатки. Тому так звані спадкові системи (legacy systems), продовжують бути найбільшим джерелом даних для систем аналізу даних. Однак час, необхідний на отримання результатів роботи таких додатків, виявляється значно більшим того, що може дозволити собі кінцевий користувач (здебільшого керівництво організації) в умовах сучасного бізнесу.

·  Другою причиною стало перенесення даних з централізованого обчислювального центру на робочий стіл користувача (зокрема бізнес-аналітика). Популярність персонального комп’ютера спричинила інтенсивну розробку програмного забезпечення, у тому числі і для аналізу даних бізнесу. Комп'ютер і його програмний інструментарій перенесли роботу з аналізу даних з великих обчислювальних центрів на робочий стіл користувача. Ефективність аналітичної роботи в особливо великих організаціях стала зростати. Однак широке застосування персональних комп'ютерів в аналізі даних привело до іншої проблеми. Відсутність загальних стандартів представлення даних в організації, велика свобода у виборі представлення даних кінцевим користувачем призвела до анархії в роботі з даними, і, як наслідок, з'явилася небезпечна тенденція неузгодженості колективно використовуваних даних.

·  Третьою причиною стало інтенсивне використання систем підтримки та прийняття рішень (СППР - DSS) і управлінських інформаційних систем (ІСК - EIS, інформаційна система керівника). СППР фокусуються на детальному поданні інформації та орієнтовані більше на менеджерів середнього рівня. ІСК забезпечують більш високий рівень консолідації та багатовимірного подання даних, оскільки керівники високого рівня вимагають різного представлення тих же самих даних для детального аналізу.

Таким чином, ці два схожих класи систем є однією з головних передумов для створення концепції систем складування даних. Розглянемо деякі властивості систем цього класу. У системах складування даних:

- дані представлені в стандартних термінах бізнесу, а не в закодованій формі (імена полів у БД). Найменування елементів даних і структури даних у цих системах проектуються для використання кінцевими користувачами з невисоким рівнем підготовки в області інформаційних систем;

- дані попередньо обробляються в контексті стандартних бізнес-правил;

- допускається консолідоване подання даних за такими категоріями, як продукт, виробник і ринок.

На сьогодні системи складування даних забезпечують аналітичні інструменти для вирішення таких завдань, але їх розробка будується не на специфічних вимогах аналітиків чи виконавців, а ґрунтується на структурі бізнесу організації. З цієї точки зору системи складування даних дали новий виток у розвитку СППР і ІСК.

·  Розвиток технологій. Найбільш важливим фактором у розвитку складування даних стало збільшення потужності апаратної платформи комп'ютерів, оскільки СД зберігають дуже великі обсяги інформації. Паралельно росла обчислювальна потужність комп’ютерів і програмного забезпечення, що дозволило розробити і впровадити архітектуру клієнт-сервер. Зараз майже до всіх СД можна звернутися з комп’ютера, який має необхідні програмні засоби. Створення та розповсюдження Інтернет / Інтранет призвело до того, що бізнес став переміщатися у мережу. СД може бути доступно з будь-якої точки мережі, як локальної, так і глобальної.

·  Структурні зміни в бізнесі. Значний вплив на формування концепції складування даних надали фундаментальні зміни в організації бізнесу і зміни в його структурі в кінці минулого століття. Зміна економічних умов спонукали великі корпорації до об'єднання (консолідації) своїх зусиль. Поява таких механізмів, як реінженерія бізнес-процесів (business process reengineering) і перебудова бізнесу (downsizing), змусило керівників переоцінити практику ведення бізнесу. Це відіграло важливу роль у розвитку концепції складування даних. Глобалізація економіки висуває не тільки вимоги безперервного аналізу потоків економічних даних, а й певні вимоги до збору і розміщенню ділової інформації. Тепер процес збору виробничих і комерційних даних з підрозділів, які розкиданих по всьому світу, робить сильний вплив на прийняття рішень в корпораціях.

·  Ще одним важливим фактором, який вплинув на розвиток СД, це поява стандартів для програмного забезпечення бізнесу. Розробка комплексного ПЗ для управління бізнесом призвела до інтенсифікації процесів стандартизації бізнесу та стандартизації програмного забезпечення. Інформація в СД надходить в уніфікованому вигляді з усіх ІС управління бізнесом, а не тільки з систем, що дісталися у спадок.\

·  Вимоги користувачів. Дуже сильно впливають на тенденції розвитку інформаційних технологій вимоги до інформації від середньої і вищої ланки керуючого персоналу. Електронна пошта, Інтернет, смартфон, планшет залучені в процес управління. Це також вимоги, що приходять від керівників організацій і компаній. Їм потрібен швидкий і якісний доступ до аналітичної інформації в будь-який момент часу і по будь-якому пристрою.

Відзначимо, що складування даних - це технологія, що розвивається. Тому повинна бути присутня певна частка обережності при оцінці дій виробників ПЗ для СД. Наприклад, дискусії про розміри СД - з якого розміру сховище даних можна вважати власне сховищем ? З 50 ГБ ? Зауважимо, що в деяких областях досліджень розмір масиву може бути невеликим, а аналіз такого масиву можливий.

Елементи концепції складування даних

Головна ідея концепції складування даних полягає в тому, що до даних, які призначені для аналізу, може бути забезпечений найбільш ефективний доступ тільки за умови виділення їх з операційної (транзакційної) системи, тобто дані з операційної системи повинні бути винесені в окрему систему складування даних. Такий підхід носить історичний характер. Через обмеження в апаратному забезпеченні і технології, для того щоб забезпечити продуктивність транзакційної системи, дані архівувалися поза межами такої системи. Проблема доступу до них вимагала певних технологічних рішень.

З розвитком концепції позиція відділення даних для аналізу від даних в OLTP-системі зазнала мало змін. Вона стала більш формальною і змінилася за рахунок застосування засобів багатовимірного аналізу даних. В даний час СД можна будувати і на існуючій OLTP-системі, і над нею, і як самостійний об'єкт. Це повинно вирішуватися керівником ІТ-проекту в рамках вибору архітектури СД.

Можна виділити наступні причини для розділення даних систем складування даних і систем операційної обробки даних :

- різниця цільових вимог до систем складування даних і OLTP-системам;

- необхідність збирати дані в СД з різних інформаційних джерел, тобто якщо дані генеруються у самій OLTP-системі, то для системи складування даних в більшості випадків дані генеруються поза нею;

- дані, потрапляючи в СД, залишаються в більшості випадків незмінними;

- дані в СД зберігаються тривалий час.

У табл. 1.1 наведені основні відмінності використання даних в системах операційної обробки даних і системах аналізу даних.

Таблиця 1.1.
	Операційні системи опрацювання даних	Системи складування даних
Частота оновлення даних	режим реального часу	періодично
Дані структуруються з метою	забезпечення цілісності даних	забезпечення простоти виконання запитів
Оптимізуються для забезпечення	процесу виконання транзакцій	процесу виконання вибірки даних

При створенні системи складування даних важливим моментом є збір і визначення вимог користувачів. Як правило, такі вимоги дозволяють оцінити число питань, на які система повинна давати відповіді. Більшість питань носять аналітичний характер. У багатьох сучасних системах складування даних при їх створенні закладається певний набір визначених підсумкових звітів і довідок, які автоматично генеруються. Наприклад, керівникам організації необхідно знати картину продажів виробленої продукції, що передбачає підсумовування продажів як у грошовому, так і в товарному вираженні за тиждень, місяць, квартал, рік. Підведення підсумків діяльності організації в такій формі зазвичай робиться по товарах, клієнтам і каналах збуту.

Нижче наведені приклади типових завдань, які можна вирішити за допомогою систем складування даних.

Фінансовий аналіз

Наскільки точно різні підрозділи компанії виконують встановлений бюджет?

Які тенденції витрат за різними підрозділами, статтями бюджету?

Наскільки вчасно надходять платежі?

Аналіз продажу’

Наскільки виконаний план з продажу?

Які ключові показники продуктивності компанії в поточному періоді?

Які тенденції зміни ключових показників продуктивності компанії з часом?

Аналіз прибутковості

Які продукти (послуги) дають найбільший прибуток?

Яка комбінація підрозділів і товарів (послуг) просуває бізнес?

Які сегменти ринку дають найбільший прибуток?

Які клієнти забезпечують найбільший прибуток?

Який набір продуктів купують найприбутковіші клієнти?

Аналіз каналів продажу

Хто з торгових представників краще за всіх продає товари (послуги)?

Як змінюється ціна на товар (послугу) в різних філіалах компанії?

Які з партнерів забезпечують найбільший прибуток?

Які продукти, групи продуктів найкраще продає певний партнер?

Які тенденції зміни обсягів продажу через партнерів?

Аналіз клієнтської бази

Які сегменти ринку забезпечують найбільший прибуток?

Які клієнти дають найбільший прибуток?

Які властивості характерині клієнтам, що забезпечують найбільший прибуток?

Маркетинг

Яка вірогідність відгуку певного сегменту ринку на нову пропозицію?

Яка вартість проведення маркетингової кампанії через заданий канал?

Який канал проведення маркетингових кампаній є найефективнішим?

Аналіз якості обслуговування клієнтів

Яка вартість одного контакту з клієнтом?

Наскільки клієнти задоволені якістю товарів (послуг)?

Як задоволеність клієнтів змінюється з часом?

Які продукти постачають вчасно, які - із запізненням?

Чи мають певні клієнти або продукти неприпустимо довгий термін постачання?

Наскільки швидшим або повільнішим стало постачання продуктів (послуг) в певний сегмент ринку?

Які основні причини відмови від продукту (послуги)?

Які клієнти найближчим часом, можливо, перестануть користуватися послу гам и ком пан ії?

Аналіз із складських запасів

Яка динаміка зміни запасу певного продукту?

Яка оборотність складу?

Скільки коштує зберігання певного продукту на складі?

Аналіз постачальників

Які з постачальників пропонують якнайкраще співвідношення ціна1 якість?

Які з постачальників постачають товари швидше за інших?

Аналіз персоналу

Яка продуктивність персоналу, який навчався, в порівнянні з тими, хто не навчався?

Які тенденції щорічного зростання персоналу компанії в різних регіонах, підрозділах?

Яким набором навиків повинен володіти співробітник, щоб добре виконувати свої обов'язки?

скачати

© Усі права захищені
написати до нас