Введення в проектування реляційних баз даних

Цілі проектування

Тільки невеликі організації можуть усуспільнити дані в одній повністю інтегрованої бази даних. Найчастіше адміністратор баз даних (навіть якщо це група осіб) практично не в змозі охопити і осмислити всі інформаційні вимоги співробітників організації (тобто майбутніх користувачів системи). Тому інформаційні системи великих організацій містять кілька десятків БД, нерідко розподілених між кількома взаємопов'язаними ЕОМ різних підрозділів. (Так у великих містах створюється не одна, а кілька овочевих баз, розташованих у різних районах.)

Окремі БД можуть об'єднувати всі дані, необхідні для вирішення однієї або декількох прикладних задач, або дані, пов'язані з будь-якої предметної області (наприклад, фінансів, студентам, викладачам, кулінарії тощо). Перші зазвичай називають прикладними БД, а другі - предметними БД (співвідносяться з предметами організації, а не з її інформаційними додатками). (Перші можна порівняти з базами матеріально-технічного постачання або відпочинку, а другі - з овочевими та взуттєвими базами.)

Предметні БД дозволяють забезпечити підтримку будь-яких поточних і майбутніх додатків, оскільки набір їх елементів даних включає в себе набори елементів даних прикладних БД. Внаслідок цього предметні БД створюють основу для обробки неформалізованих, змінюються і невідомих запитів та програм (додатків, для яких неможливо заздалегідь визначити вимоги до даних). Така гнучкість і пристосованість дозволяє створювати на основі предметних БД досить стабільні інформаційні системи, тобто системи, в яких більшість змін можна здійснити без вимушеного переписування старих додатків.

Засновуючи ж проектування БД на поточних і передбачуваних додатках, можна істотно прискорити створення високоефективної інформаційної системи, тобто системи, структура якої враховує найбільш часто зустрічаються шляху доступу до даних. Тому прикладне проектування до цих пір привертає деяких розробників. Однак у міру зростання числа додатків таких інформаційних систем швидко збільшується число прикладних БД, різко зростає рівень дублювання даних і підвищується вартість їх ведення.

Таким чином, кожний з розглянутих підходів до проектування впливає на результати проектування в різних напрямках. Бажання досягти і гнучкості, і ефективності призвело до формування методології проектування, що використовує як предметний, так і прикладної підходи. У загальному випадку предметний підхід використовується для побудови початкової інформаційної структури, а прикладний - для її вдосконалення з метою підвищення ефективності обробки даних.

При проектуванні інформаційної системи необхідно провести аналіз цілей цієї системи і виявити вимоги до неї окремих користувачів (співробітників організації) [2, 3, 4, 6, 8, 9, 10]. Збір даних починається з вивчення сутностей організації і процесів, що використовують ці сутності (докладніше в додатку Б). Сутності групуються по "подібністю" (частоті їх використання для виконання тих чи інших дій) і за кількістю асоціативних зв'язків між ними (літак - пасажир, викладач - дисципліна, студент - сесія і т.д.). Сутності або групи сутностей, що володіють найбільшим подібністю і (або) з найбільшою частотою асоціативних зв'язків об'єднуються в предметні БД. (Нерідко сутності об'єднуються в предметні БД без використання формальних методик - по "здоровому глузду".) Для проектування і ведення кожної предметної БД (декількох БД) призначається АБД, який далі займається детальним проектуванням бази.

Далі будуть розглядатися питання, пов'язані з проектуванням окремих реляційних предметних БД.

Основна мета проектування БД - це скорочення надмірності даних, що зберігаються, а отже, економія обсягу використовуваної пам'яті, зменшення витрат на багаторазові операції оновлення надлишкових копій та усунення можливості виникнення протиріч через зберігання в різних місцях відомостей про одне й тому самому об'єкті. Так званий, "чистий" проект БД ("Кожен факт в одному місці") можна створити, використовуючи методологію нормалізації відносин. І хоча нормалізація повинна використовуватися на завершальній перевірочної стадії проектування БД, ми почнемо обговорення питань проектування з розгляду причин, які змусили Кодда створити основи теорії нормалізації.

Універсальне відношення

Припустимо, що проектування бази даних "Харчування" (рис. 3.2) починається з виявлення атрибутів і підбору даних, зразок яких (частина страв виготовлених і реалізованих 1/9/94 р.) показаний на рис. 4.1.

Цей варіант таблиці "Харчування" не є ставленням, так як більшість її рядків не одна транзакція. Атомарними є лише значення полів Страва, Вид, Рецепт (хоча він і великий), Порцій і Дата_Р решта ж поля таблиці мал. 4.1 - множинні. Для додання таких даних форми відносини необхідно реконструювати таблицю. Найпростіше це зробити за допомогою простого процесу вставки, результат якої показаний на рис. 4.2. Однак таке перетворення призводить до виникнення великого обсягу надлишкових даних.

Страва

Вид

Рецепт

Порцій

Дата Р

Продукт

Калорійність

Вага (г)

Постачальник

Місто

Країна

Вага (кг)

Ціна ($)

Дата П

Лобіо

Закуска

Лом.

158

1/9/94

Квасоля

3070

200

"Хуанхе"

Пекін

Китай

250

0.37

24/8/94

Цибуля

450

"Наталка"

Київ

України

100

0.52

27/8/94

Масло

7420

"Лайма"

Рига

Латвія

1.55

30/8/94

Зелень

180

"Даугава"

Рига

Латвія

0.99

30/8/94

Харчо

Суп

...

144

1/9/94

М'ясо

1660

"Наталка"

Київ

України

100

2.18

27/8/94

Цибуля

450

"Наталка"

Київ

України

100

0.52

27/8/94

Томати

240

"Полісся"

Київ

України

120

0.45

27/8/94

Рис

3340

"Хуанхе"

Пекін

Китай

0.44

24/8/94

Масло

7420

"Полісся"

Київ

України

1.62

27/8/94

Зелень

180

"Наталка"

Київ

України

0.88

27/8/94

Шашлик

Гаряче

...

207

1/9/94

М'ясо

1660

180

"Юрмала"

Рига

Латвія

200

2.05

30/8/94

Цибуля

450

"Полісся"

Київ

України

0.61

27/8/94

Томати

240

100

"Полісся"

Київ

України

120

0.45

27/8/94

Зелень

180

"Даугава"

Рига

Латвія

0.99

30/8/94

Кава

Десерт

...

235

1/9/94

Кава

2750

"Хуанхе"

Пекін

Китай

2.87

24/8/94

Рис. 4.1. Дані, необхідні для створення бази даних "Харчування"

Таблиця на рис. 4.2 представляє собою екземпляр коректного ставлення. Його називають універсальним ставленням проектованої БД. В одне універсальне відношення включаються всі представляють інтерес атрибути, і воно може містити всі дані, які передбачається розміщувати в БД в майбутньому. Для малих БД (які включають не більше 15 атрибутів) універсальне відношення може використовуватися в якості відправної точки при проектуванні БД.

Страва

Вид

Рецепт

Порцій

Дата Р

Продукт

Калорійність

Вага (г)

Постачальник

Місто

Країна

Вага (кг)

Ціна ($)

Дата П

Лобіо

Закуска

Лом.

158

1/9/94

Квасоля

3070

200

"Хуанхе"

Пекін

Китай

250

0.37

24/8/94

Лобіо

Закуска

Лом

108

1/9/94

Цибуля

450

"Наталка"

Київ

України

100

0.52

27/8/94

Лобіо

Закуска

Лом

108

1/9/94

Масло

7420

"Лайма"

Рига

Латвія

1.55

30/8/94

Лобіо

Закуска

Лом

108

1/9/94

Зелень

180

"Даугава"

Рига

Латвія

0.99

30/8/94

Харчо

Суп

...

144

1/9/94

М'ясо

1660

"Наталка"

Київ

України

100

2.18

27/8/94

Харчо

Суп

...

144

1/9/94

Цибуля

450

"Наталка"

Київ

України

100

0.52

27/8/94

Харчо

Суп

...

144

1/9/94

Томати

240

"Полісся"

Київ

України

120

0.45

27/8/94

Харчо

Суп

...

144

1/9/94

Рис

3340

"Хуанхе"

Пекін

Китай

0.44

24/8/94

Харчо

Суп

...

144

1/9/94

Масло

7420

"Полісся"

Київ

України

1.62

27/8/94

Харчо

Суп

...

144

1/9/94

Зелень

180

"Наталка"

Київ

України

0.88

27/8/94

Шашлик

Гаряче

...

207

1/9/94

М'ясо

1660

180

"Юрмала"

Рига

Латвія

200

2.05

30/8/94

Шашлик

Гаряче

...

207

1/9/94

Цибуля

450

"Полісся"

Київ

України

0.61

27/8/94

Шашлик

Гаряче

...

207

1/9/94

Томати

240

100

"Полісся"

Київ

України

120

0.45

27/8/94

Шашлик

Гаряче

...

207

1/9/94

Зелень

180

"Даугава"

Рига

Латвія

0.99

30/8/94

Кава

Десерт

...

235

1/9/94

Кава

2750

"Хуанхе"

Пекін

Китай

2.87

24/8/94

Рис. 4.2. Універсальне відношення "Харчування"

Чому проект БД може бути поганим?

Початківець проектувальник буде використовувати відношення "Харчування" (рис. 4.2) в якості завершеною БД. Дійсно, навіщо розбивати ставлення "Харчування" на декілька більш дрібних відносин (див. наприклад, рис. 3.2), якщо воно містить в собі всі дані? А розбивати треба тому, що при використанні універсального відносини виникає кілька проблем:

1. Надмірність. Дані практично всіх стовпців багаторазово повторюються. Повторюються і деякі набори даних (Блюдо-Вид-Рецепт, Продукт-Калорійність, Постачальник-Місто-Країна). Небажано повторення рецептів, деякі з яких набагато більше рецепту "Лобіо" (див. рис. 2.3). І вже зовсім погано, що всі дані про страву (включаючи рецепт) повторюються кожен раз, коли це блюдо включається в меню.

2. Потенційна суперечливість (аномалії оновлення). Внаслідок надмірності можна оновити адресу постачальника в одному рядку, залишаючи його незмінним в інших. Якщо постачальник кави повідомив про свій переїзд в Харбін і була оновлена рядок з продуктом кави, то у постачальника "Хуанхе" з'являється дві адреси, один з яких не актуальне. Отже, при оновленнях необхідно переглядати всю таблицю для знаходження і зміни всіх відповідних рядків.

3. Аномалії включення. У БД не може бути записано новий постачальник ("Нярінга", Вільнюс, Литва), якщо поставлений їм продукт (Огірки) не використовується ні в одній страві. Можна, звичайно, помістити невизначені значення в стовпці Страва, Вид, Порцій і Вага (г) для цього постачальника. Але якщо з'явиться блюдо, в якому використовується цей продукт, не забудемо ми видалити рядок з невизначеними значеннями?

З аналогічних причин не можна ввести і новий продукт (наприклад, Баклажани), який пропонує існуючий постачальник (наприклад, "Полісся"). А як ввести нове блюдо, якщо в ньому використовується новий продукт (Краби)?

4. Аномалії видалення. Зворотній проблема виникає при необхідності видалення всіх продуктів, що поставляються даними постачальником або всіх страв, які використовують ці продукти. За таких віддалях будуть втрачені відомості про такий постачальника.

Багато проблем цього прикладу зникнуть, якщо виділити в окремі таблиці відомості про страви, рецепти, витраті страв, продукти та їх постачальників, а також створити сполучні таблиці "Склад" і "Поставки" (рис. 4.3).

Страви

Страва	Вид
Лобіо	Закуска
Харчо	Суп
Шашлик	Гаряче
Кава	Десерт
...	...

Рецепти

Страва	Рецепт
Лобіо	Ламану очищу
...	...

Витрата

Страва	Порцій	Дата_Р
Лобіо	158	1/9/94
Харчо	144	1/9/94
Шашлик	207	1/9/94
Кава	235	1/9/94
...	...	...

Продукти

Продукт	Калор.
Квасоля	3070
Цибуля	450
Масло	7420
Зелень	180
М'ясо	1660
...	...

Склад

Страва	Продукт	Вага (г)
Лобіо	Квасоля	200
Лобіо	Цибуля	40
Лобіо	Масло	30
Лобіо	Зелень	10
Харчо	М'ясо	80
...	...	...

Постачальники

Постачальник	Місто	Країна
"Полісся"	Київ	України
"Наталка"	Київ	України
"Хуанхе"	Пекін	Китай
"Лайма"	Рига	Латвія
"Юрмала"	Рига	Латвія
...	...	...

Поставки

Постачальник	Місто	Продукт	Вага (кг)	Ціна ($)	Дата_П
"Полісся"	Київ	Томати	120	0.45	27/8/94
"Полісся"	Київ	Масло	50	1.62	27/8/94
"Полісся"	Київ	Цибуля	50	0.61	27/8/94
"Наталка"	Київ	Цибуля	100	0.52	27/8/94
...	...	...	...	...	...

Дисципліна	Викладач	Підручник
Інформатика	Шипілов П.А.	Форсайт Р. Паскаль для всіх
Інформатика	Шипілов П.А.	Уейт М. та ін Мова Сі
Інформатика	Голованівський Г.Л.	Форсайт Р. Паскаль для всіх
Інформатика	Голованівський Г.Л.	Уейт М. та ін Мова Сі
...	...	...

Введення в проектування реляційних баз даних

Рис. 4.1. Дані, необхідні для створення бази даних "Харчування"

Рис. 4.2. Універсальне відношення "Харчування"

Рис. 4.3. Перетворення універсального відносини "Харчування" (перший варіант)

Рис. 4.4. Перетворення універсального відносини "Харчування" (другий варіант)

Навчання

Рис. 4.5. До ілюстрації багатозначних залежностей

Рис. 4.6. Синтаксис описания проектных решений

Рис. 4.7. Инфологическая модель базы данных "Питание", построенная с помощью языка "Таблицы-связи"