кафедра комп'ютерних та інформаційних технологій
курс лекцій

У цьому курсі розглядаються питання організації баз даних і знань. Це важлива тема, без грунтовного знайомства з якою, у наш час, неможливо стати кваліфікованим фахівцем у сфері інформаційних технологій.
Основне призначення даного курсу - систематичне введення в ідеї та методи, використовувані в сучасних системах управління базами даних. У курсі не розглядається яка-небудь одна популярна СУБД; викладається в рівній мірі відноситься до будь-якої сучасної системі. Як показує досвід, без знання основ теорії баз даних важко на серйозному рівні працювати з конкретними системами, як би добре вони не були задокументовані.

Зміст
\ T "Заголовок 1; 1" ЛЕКЦІЯ 1. Поняття СУБД. Функції СУБД ............................................... 7
1.1 Запровадження ................................................ .................................................. ... 7
1.2 Поняття БД і СУБД ............................................. ...................................... 7
1.3 Рівні абстракції в СУБД. Функції абстрактних даних .................. 9
1.4 Уявлення ................................................ .......................................... 10
1.5 Функції СУБД ............................................... .......................................... 11
1.6 Експертні системи і бази знань ............................................ ............ 11
ЛЕКЦІЯ 2. Моделі БД ................................................ .............................. 13
2.1 Огляд ранніх (дореляціонних) СУБД ........................................... ....... 13
2.2 Системи, засновані на інвертованих списках .............................. 13
2.3 Ієрархічна модель ............................................... .............................. 14
2.4 Мережева модель ............................................... .......................................... 16
2.5 Основні переваги і недоліки ранніх СУБД ............................... 17
ЛЕКЦІЯ 3. Реляційна модель та її характеристики. Цілісність в реляційній моделі 18
3.1 Представлення інформації у реляційних БД .................................... 18
3.2 Домени 19
3.3 Відносини. Властивості і види відносин .............................................. . 20
3.4 Цілісність реляційних даних .............................................. ........... 21
3.5 Потенційні і первинні ключі ............................................. .......... 22
3.6 Зовнішні ключі ............................................... ......................................... 22
3.7 Посилальна цілісність ............................................... ............................ 23
3.8 Значення NULL і підтримка посилальної цілісності ........................... 24
ЛЕКЦІЯ 4. Реляційна алгебра ................................................ .............. 25
4.1 Поняття реляційної алгебри .............................................. ................. 25
4.2 Замкнутість в реляційній алгебрі ............................................. .......... 25
4.3 Традиційні операції над множинами ............................................ 25
4.4 Властивості основних операцій реляційної алгебри ............................ 27
4.5 Спеціальні реляційні операції .............................................. ....... 28
ЛЕКЦІЯ 5. Питання проектування БД ............................................... .. 34
5.1 Поняття проектування БД .............................................. ..................... 34
5.2 Функціональні залежності ............................................... .................. 35
5.3 Тривіальні і нетривіальні залежності .......................................... 36
5.4 Замикання безлічі залежностей і правила висновку Армстронга ... 36
5.5 Непріводімие безліч залежностей .............................................. ... 38
5.6 Нормальні форми - основні поняття ............................................ ... 38
5.7 Декомпозиція без втрат і функціональні залежності ................... 39
5.8 Діаграми функціональних залежностей ........................................... 40
ЛЕКЦІЯ 6. Проектування БД. Нормальні форми відносин ......... 42
6.1 Перша нормальна форма. Можливі недоліки відносини в 1НФ 42
6.2 Друга нормальна форма. Можливі недоліки відносини у 2НФ 44
6.3 Третя нормальна форма. Можливі недоліки відносини в 3НФ 45
6.4 Нормальна форма Бойса-Кодда ............................................ ................ 46
ЛЕКЦІЯ 7. Проектування БД. Нормальні форми відносин (продовження) 49
7.1 Багатозначні залежності ............................................... ...................... 49
7.2 Четверта нормальна форма .............................................. .................... 51
7.3 Залежності з'єднання ............................................... ........................... 51
7.4 П'ята нормальна форма .............................................. .......................... 53
7.5 Підсумкова схема процедури нормалізації ............................................ 53
ЛЕКЦІЯ 8. Проектування БД методом сутність-зв'язок. ER-діаграми 55
8.1 Виникнення семантичного моделювання .................................... 55
8.2 Основні поняття методу .............................................. .......................... 55
8.3 Діаграми ER-екземплярів і ER-типу ......................................... ......... 56
8.4 Правила формування відносин .............................................. ......... 59
8.5 Методологія IDEF1 (самостійне вивчення ).................................. 62
ЛЕКЦІЯ 9. Мова SQL ................................................ ................................ 66
9.1 Історія створення та розвитку SQL ............................................ .............. 66
9.2 Основні поняття SQL .............................................. .............................. 66
9.3 Запити на читання даних. Оператор SELECT ..................................... 71
9.4 багатотабличних запити на читання (об'єднання ).............................. 75
ЛЕКЦІЯ 10. Мова SQL (продовження )............................................. .......... 77
10.1 Об'єднання і стандарт SQL2 ............................................. ................. 77
10.2 Підсумкові запити на читання. Агрегатні функції ............................. 80
10.3 Запити з угрупованням (пропозиція GROUP BY ).......................... 80
10.4 Вкладені запити ............................................... ................................ 82
ЛЕКЦІЯ 11. Мова SQL. (Продовження )............................................... ....... 86
11.1 Внесення змін до бази даних ............................................ ........... 86
11.2 Видалення існуючих даних (Оператор DELETE )...................... 87
11.3 Оновлення існуючих даних (Оператор UPDATE )................. 87
11.4 Визначення структури даних в SQL ............................................ .... 88
11.5 Поняття представлення ............................................... ........................... 91
11.6 Подання в SQL .............................................. ............................... 92
11.7 Системний каталог (самостійне вивчення ).................................. 93
ЛЕКЦІЯ 12. Забезпечення безпеки БД ............................................... . 99
12.1 Загальні положення ............................................... ................................... 99
12.2 Методи забезпечення безпеки .............................................. ....... 100
12.3 Виборче управління доступом .............................................. ... 101
12.4 Обов'язкове управління доступом .............................................. ..... 102
12.5 Шифрування даних ............................................... ............................. 102
12.6 Контрольний слід виконуваних операцій ....................................... 102
12.7 Підтримка заходів забезпечення безпеки в мові SQL ................... 103
12.8 Директиви GRANT і REVOKE ............................................. ............. 103
12.9 Подання та безпека .............................................. .............. 105
ЛЕКЦІЯ 13. Фізична організація БД: структури зберігання і методи доступу 106
13.1 Доступ до бази даних ............................................. .............................. 106
13.2 Кластеризація ................................................ ...................................... 108
13.3 Індексування ................................................ ................................... 108
13.4 Структури типу Б-дерева ............................................ ........................ 111
13.5 Хешування ................................................ ........................................ 114
ЛЕКЦІЯ 14. Оптимізація запитів ................................................ ......... 116
14.1 Оптимізація в реляційних СУБД ............................................. ....... 116
14.2 Приклад оптимізації реляційного вираження ............................... 116
14.3 Огляд процесу оптимізації .............................................. ................ 117
14.4 Перетворення виразів ............................................... ................. 119
ЛЕКЦІЯ 15. Відновлення після збоїв ............................................... .. 123
15.1 Поняття відновлення системи .............................................. .......... 123
15.2 Транзакції ................................................ ........................................... 123
15.3 Алгоритм відновлення після збою системи .................................. 125
15.4 Паралелізм. Проблеми паралелізму ............................................. 127
15.5 Поняття блокування ............................................... ............................. 129
15.6 Рішення проблем паралелізму .............................................. ........... 130
15.7 Статті без ситуації ............................................... ............................. 132
15.8 Здатність до впорядкування .............................................. ............... 133
15.9 Рівні ізоляції транзакції .............................................. ................ 134
15.10 Підтримка в мові SQL ............................................. ....................... 135
ЛЕКЦІЯ 16. Технології СУБД ................................................ ................. 136
16.1 Розподілені бази даних .............................................. ............... 136
16.2 Принципи функціонування розподіленої БД ........................... 136
16.3 Системи типу клієнт / сервер ............................................ .................... 139
16.4 Сервери баз даних .............................................. .............................. 139
ЛЕКЦІЯ 17. Сучасні постреляціонние моделі БД ........................ 141
17.1 Системи управління базами даних наступного покоління ........... 141
17.2 Орієнтація на розширену реляційну модель .......................... 141
17.3 Об'єктно-орієнтовані СУБД ............................................. ........ 143

ЛЕКЦІЯ 1. Поняття СУБД. Функції СУБД

1.1 Введення
1.2 Поняття БД і СУБД
1.3 Рівні абстракції в СУБД. Функції абстрактних даних
1.4 Уявлення
1.5 Функції СУБД
1.6 Експертні системи і бази знань

1.1 Введення

Історично склалося розвиток обчислювальних систем зумовило необхідність зберігання в електронному (машиночитаному) вигляді все більшої кількості інформації. Одночасно з вдосконаленням і подальшим розвитком обчислювальних систем зростали обсяги інформації, що підлягає обробці і зберіганню. Складнощі, що виникли при вирішенні на практиці завдань структурованого зберігання і ефективної обробки зростаючих обсягів інформації, стимулювали дослідження у відповідних областях. Завдання зберігання і обробки даних були формалізовані. Була створена теоретична база для вирішення завдань такого класу, результатом реалізації на практиці якої стали системи, призначені для організації обробки, зберігання і надання доступу до інформації. Пізніше такі системи стали називати системами баз даних.
Одночасно з розвитком систем баз даних, відбувалося інтенсивне розвиток засобів обчислювальної техніки, що використовується для роботи з великими обсягами інформації. Обчислювальна потужність і, особливо, обсяги запам'ятовувальних пристроїв перших обчислювальних систем були недостатні для зберігання та обробки інформації в обсягах, необхідних на практиці.
У міру розвитку систем баз даних, змінювалися принципи організації даних в них: спочатку дані представлялися на основі ієрархічної, а надалі мережевої моделі. В кінці 1970-х - початку 1980-х років почали з'являтися перші реляційні продукти. В даний час системи баз даних на основі реляційної моделі займають лідируюче положення, незважаючи на заяви багатьох дослідників про швидкий перехід до об'єктно-орієнтованим системам. В даний час об'єктно-орієнтовані системи, тим не менш, розвиваються, хоча темпи їх розвитку і стримуються повільним прийняттям відповідних стандартів. Крім того, багато комерційних реляційні системи набувають об'єктно-орієнтовані риси. На підставі цього, можна припустити, що в майбутньому об'єктно-орієнтовані системи будуть поступово витісняти реляційні.
В даний час ведуться дослідження в наступних напрямках:
1. дедуктивні системи;
2. експертні системи;
3. розгортаються системи;
4. об'єктно-орієнтовані системи.

1.2 Поняття БД і СУБД

Система баз даних - це комп'ютеризована система основне завдання якої - збереження інформації та надання доступу до неї на вимогу.
Система баз даних включає в себе (REF _Ref9908347 \ * MERGEFORMAT рис. 1.1):
1. дані, безпосередньо зберігаються в базі даних;
2. апаратне забезпечення;
3. програмне забезпечення;
4. користувачів:
4.1. прикладні програмісти;
4.2. кінцеві користувачі;
4.3. адміністратори баз даних.

Прикладні програмісти

Кінцеві користувачі

Система управління базами даних

Література:
1. Дейт К.Дж. Введення в системи баз даних. -Пер. з англ. -6-е вид. -К. Діалектика, 1998. Стор. 279-301.

ЛЕКЦІЯ 7. Проектування БД. Нормальні форми відносин (продовження)

7.1 Багатозначні залежності
7.2 Четверта нормальна форма
7.3 Залежності з'єднання
7.4 П'ята нормальна форма
7.5 Підсумкова схема процедури нормалізації

7.1 Багатозначні залежності

Нехай дано ненормалізоване ставлення UCTX (тобто відношення, яка не перебуває у 1НФ), що містить інформацію про курси навчання, викладачів і підручниках. Кожен кортеж такого ставлення складається з назви курсу (Course), a також груп імен викладачів (Teachers) і назв підручників (Texts) - на REF _Ref9932819 \ h \ * MERGEFORMAT рис. 7.1 показані два таких кортежу. Під цим мається на увазі, що кожен курс може викладатися будь-яким викладачем відповідної групи з використанням усіх зазначених підручників. Припустимо, що для заданого курсу може існувати будь-яку кількість відповідних викладачів та відповідних підручників. Більш того, припустимо, хоча це і не зовсім реалістичне припущення, що викладачі та рекомендовані підручники абсолютно незалежні один від одного. Це значить, що незалежно від того, хто викладає цей курс, завжди використовується один і той же набір підручників. Нарешті, припустимо, що певний викладач або певний підручник можуть бути пов'язаний з будь-якою кількістю курсів.

UCTX
COURSE	TEACHERS	TEXTS
Фізика	проф. Іванов проф. Петров	основи механіки оптика
Математика	проф. Іванов	основи механіки дискретна математика тригонометрія

рис. STYLEREF 1 \ s 7. SEQ рис. \ * ARABIC \ s 1 січня ненормалізоване відносини UCTX
Перетворимо це відношення в еквівалентну нормалізоване відношення. Слід зауважити, що для розглянутих даних функціональні залежності не задано (за винятком тривіальних залежностей типу Course ® Course). Тому висловлені в попередньому розділі ідеї не дозволяють створити ніякої формальної основи для виконання декомпозиції даного відносини на проекції.

CTX
COURSE	TEACHER	TEXT
Фізика	проф. Іванов	основи механіки
Фізика	проф. Іванов	оптика
Фізика	проф. Петров	основи механіки
Фізика	проф. Петров	оптика
Математика	проф. Іванов	основи механіки
Математика	проф. Іванов	дискретна математика
Математика	проф. Іванов	тригонометрія

рис. STYLEREF 1 \ s 7. SEQ рис. \ * ARABIC \ s 1 лютого Таблиця нормалізованого відношення CTX.
У простій формулюванні нормалізоване відношення CTX означає, що кортеж {Course: c, Teacher: t, Техт: x} з'являється в даному відношенні тоді і тільки тоді, коли курс c читається викладачем t з використанням підручника x. Тоді, приймаючи до уваги допустимість існування для даного відносини всіх можливих комбінацій викладачів разом з підручниками, можна стверджувати, що для відносини CTX вірно наступне обмеження: якщо присутні обидва кортежу (c, tl, xl) і (c, t2, x2), тоді присутні також обидва кортежу (c, tl, x2) і (c, t2, xl)
Очевидно, що ставлення CTX характеризується значною надмірністю і призводить до виникнення аномалій оновлення. Наприклад, для додавання інформації про те, що курс фізики може читатися новим викладачем, необхідно створити два нових кортежу, по одному для кожного підручника. Тим не менш, ставлення CTX знаходиться в НФБК, оскільки є "повністю ключовим".
Можна помітити, що ситуація може бути виправлена на краще, якщо замінити ставлення СТХ його проекціями {Course, Teacher} і {Course, Text}, показаними на REF _Ref10022856 \ h \ * MERGEFORMAT рис. 7.3 . Обидві проекції є "повністю ключовими" і знаходяться в НФБК, більше того, ставлення СТХ може бути відновлено за допомогою зворотного з'єднання проекцій СТ і СГ і тому дана композиція виконується без втрат. Однак тільки в 1971 році ці інтуїтивні ідеї були сформульовані Фейгіної (Fagin) в строгому теоретичному вигляді за допомогою поняття багатозначних залежностей.

CT		СХ
COURSE	TEACHER	COURSE	TEXT
фізика	проф. Іванов	фізика	основи механіки
фізика	проф. Петров	фізика	оптика
математика	проф. Іванов	математика	основи механіки
		математика	дискретна математика
		математика	тригонометрія

рис. STYLEREF 1 \ s 7. SEQ рис. \ * ARABIC \ s 1 Березня Таблиці проекцій СТ і СГ
Повертаючись до розглянутого прикладу з дійсно коректної та бажаною декомпозицією, показаної на REF _Ref10022856 \ h \ * MERGEFORMAT рис. 7.3 , Слід, однак, відзначити, що така декомпозиція не може бути виконана на основі функціональних залежностей, оскільки вони не існують в даному відношенні (крім тривіальних залежностей). Однак її можна здійснити на основі нового типу залежності, а саме згаданої вище багатозначною залежності. Багатозначні залежності можна вважати узагальненням функціональних залежностей в тому сенсі, що кожна функціональна залежність є багатозначною (проте зворотне твердження не вірно, оскільки існують багатозначні залежності, які не є функціональними). У відношенні СТХ є дві багатозначні залежності:
Course->> Teacher
Course->> Text
Зверніть увагу на подвійну стрілку, яка в багатозначною залежності A->> B означає, що "B багатозначно залежить від A" або "A багатозначно визначає B".
Нехай A, B і C є довільними підмножинами безлічі атрибутів відносини R. Тоді B багатозначно залежить від A, що символічно виражається записом
А->> В
тоді і тільки тоді, коли безліч значень B, відповідне заданої парі (значення A, значення C) відношення R, залежить тільки від A, але не залежить від C.
Для даного відношення R {A, B, C} багатозначна залежність A->> B виконується тоді і тільки тоді, коли також виконується багатозначна залежність A ->> C. Таким чином, багатозначні залежності завжди утворюють пов'язані пари і тому їх зазвичай представляють разом в символічному вигляді:
А->> В | С.
Для розглянутого прикладу такий запис буде мати наступний вигляд:
Course->> Teacher | Text
Повертаючись до початкової задачі з відношенням СТХ, тепер можна відзначити, що описана раніше проблема з відношенням типу СТХ виникає через те, що воно містить багатозначні залежності, які не є функціональними. (Слід відзначити зовсім неочевидний факт, що саме наявність таких МОЗ вимагає вставляти два кортежу, коли необхідно додати дані ще про одне викладача фізики.) Проекції СТ і СГ не містять багатозначних залежностей, а тому вони дійсно представляють собою деякий удосконалення вихідної структури. Тому було б бажано замінити ставлення СТХ двома цими проекціями. Це можна зробити, виходячи з теореми Фейгіна, що наведена нижче.
Теорема Фейгіна (ця теорема є більш суворою версією теореми Хеза). Нехай А, В і С є множинами атрибутів відношення R {A, В, С}. Відношення R дорівнюватиме з'єднанню його проекцій {А, В} і {А, С} тоді і тільки тоді, коли для відносини R виконується багатозначна залежність А->> В | С.

7.2 Четверта нормальна форма

Відношення R знаходиться в четвертій нормальній формі (4НФ) тоді і тільки тоді, коли існують такі підмножини А і В атрибутів відношення R, що виконується (нетривіальна) багатозначна залежність А ->> В. Тоді всі атрибути відносини R також функціонально залежать від атрибута A .

7.3 Залежності з'єднання

До цих пір передбачалося, що єдиною операцією в процесі декомпозиції є заміна даного відносини (при декомпозиції без втрат) двома його проекціями. Це припущення успішно виконувалося аж до визначення 4НФ. Однак існують відносини, для яких не можна виконати декомпозицію без втрат на дві проекції, але які можна піддати декомпозиції без втрат на три або більше проекції.
На малюнку представлений приклад конкретного набору даних, що відповідають деякому моменту часу. Однак, якщо дане відношення задовольняє деякому який не залежить від часу обмеження, то 3-декомпозіруемость відносини TSG може бути більш фундаментальним і не залежним від часу властивістю, тобто властивістю, які задовільняються для всіх допустимих значень даного відношення. Для того щоб зрозуміти, яким має бути таке ставлення, перш за все відзначимо, що твердження "ставлення TSG одно з'єднанню трьох проекцій TS, SG і TG" еквівалентно наступного твердження:
Якщо пара (t1, s1) перебуває у відношенні TS і пара (s1, g1) перебуває у відношенні SG і пара (t1, g1) перебуває у відношенні TG то трійка (t1, s1, g1) перебуває у відношенні TSG.

TSG
TEACHER	SUBJECT	GROUP
Іванов	Математика	А-98-51
Іванов	Фізика	Б-00-51
Петров	Математика	А-99-51
Петров	Фізика	А-98-51

TEACHER

SUBJECT

GROUP

TEACHER

GROUP

Іванов

Фізика

Математика

А-99-51

Іванов

А-98-51

Іванов

Математика

А-98-51

Іванов

Б-00-51

Петров

Фізика

А-98-51

Петров

А-99-51

Петров

Математика

Фізика

Б-00-51

Петров

А-98-51

ëСоедіненіе по Subjectû
¯

TEACHER

SUBJECT

GROUP

Іванов

Фізика

А-98-51

Іванов

Фізика

Б-00-51

Іванов

Математика

А-99-51

Іванов

Математика

А-98-51

Петров

Фізика

А-98-51

Петров

Фізика

Б-00-51

Петров

Математика

А-99-51

Петров

Математика

А-98-51

ëСоедіненіе по комбінації Teacher і Groupû
¯

Початкове TSG

рис. STYLEREF 1 \ s 7. SEQ рис. \ * ARABIC \ s 1 квітня Ставлення TSG є з'єднанням трьох бінарних проекцій.
Виходячи з цих висновків можна сказати, що пара (t1, s1) присутній у відношенні TS тоді і тільки тоді, коли трійка (t1, s1, g2) присутній у відношенні TSG для деякого значення g2. Тоді наведене вище твердження можна переписати у вигляді обмеження, що накладається на ставлення SPJ:
Якщо (t1, s1, g2), (t2, s1, g1), (t1, s2, g1) знаходяться у відношенні TSG то (t1, s1, g1) також знаходиться у відношенні TSG.
Якщо це твердження виконується завжди, тобто для всіх допустимих значень відносини TSG, то тим самим буде отримано незалежну від часу (хоча й трохи дивне) обмеження для даного відношення. Зверніть увагу на циклічну структуру цього обмеження. Ставлення буде n-декомпозіруемим для n> 2 тоді і тільки тоді, коли воно задовольняє деякому циклічного обмеження.
Циклічне обмеження з практичної точки зору означає, що, наприклад, якщо:
1. Петров викладає математику;
2. математика викладається в А-98-51;
3. Петров викладає в А-98-51
то:
4. Петров викладає математику в А-98-51.
Зверніть увагу, що з узятих разом умов (1), (2) і (3) не слід (4).
Нехай R є відношенням, а А, В ,..., Z-довільними підмножинами безлічі атрибутів відносини R. Відношення R задовольняє залежності з'єднання
* (A, B, ..., Z)
тоді і тільки тоді, коли воно рівносильне з'єднанню своїх проекцій з підмножинами атрибутів А, В, ..., Z.
Звідси ясно, що ставлення TSG із залежністю з'єднання * (TS, SG, TG) може бути 3-декомпозіруемим. Проте чи слід виконувати таку декомпозицію? По всій видимості, так, тому що відношення TSG характеризується численними аномаліями оновлення, які можна усунути за допомогою 3-декомпозиції. Приклад був приведений при визначенні циклічного обмеження, через наявність якого, щодо TSG повинен бути присутнім наступний кортеж (REF _Ref10021479 \ h \ * MERGEFORMAT рис. 7.5 )

TEACHER	SUBJECT	GROUP
Петров	Математика	А-98-51

рис. STYLEREF 1 \ s 7. SEQ рис. \ * ARABIC \ s 1 травень Додатковий кортеж.
Також теорема Фейгіна може бути сформульована таким чином: відношення R {A, В, С} задовольняє залежності з'єднання * (АВ, АС) тоді і тільки тоді, коли воно задовольняє багатозначною залежно А ->> В | С.
Цю теорему можна використовувати в якості визначення багатозначною залежності, звідси випливає, що багатозначна залежність є окремим випадком залежності з'єднання. Більш того, з визначення залежності з'єднання слід, що з усіх можливих форм це найбільш загальна форма залежності.
Повертаючись до розглянутого прикладу, можна виявити наступну проблему: ставлення TSG містить залежність з'єднання, яка не є ні багатозначною, ні функціональною залежністю. Можна також зауважити, що рекомендується декомпозіровать таке ставлення на менші компоненти, а саме на проекції, задані залежністю з'єднання. Такий процес декомпозиції може повторюватися до тих пір, поки всі результуючі відносини не будуть знаходитися в п'ятій нормальній формі.

7.4 П'ята нормальна форма

Відношення R знаходиться в п'ятій нормальній формі (5НФ), яка також називається проекційно-сполучної нормальною формою, тоді і тільки тоді, коли кожна залежність з'єднання щодо R мається на увазі потенційними ключами відносини R.
Ставлення TSG не знаходиться в 5НФ. Воно задовольняє деякій залежності з'єднання, а саме ЗД-обмеження, яке, звичайно, не мається на увазі його єдиним потенційним ключем. Навпаки, після 3-декомпозиції проекції TS, SG і GT знаходяться в 5НФ, оскільки для них зовсім немає залежностей з'єднання.

7.4.1 Залежності з'єднання, що мається на увазі потенційними ключами

Розглянемо простий приклад, в якому дано ставлення з даними студентів Students з потенційним ключем StNo. Таке ставлення задовольняє декільком залежностям з'єднання, наприклад залежності
* ((StNo, GrNo, StName), (StNo, CityNo)).
Це означає, що ставлення Students рівносильно з'єднанню його проекцій з атрибутами {StNo, GrNo, StName} і {StNo, CityNo}, а тому може бути піддано декомпозиції без втрат на зазначені проекції. (Зауважте, що його не слід, а можна піддати декомпозиції.) Існування цієї залежності з'єднання слід (чи мається на увазі) з того, що StNo є потенційним ключем (насправді це випливає з теореми Хеза).
На закінчення зазначимо, що, як випливає з визначення 5НФ, вона є остаточною нормальною формою по відношенню до проекції і з'єднання. Таким чином, гарантується, що ставлення в п'ятій нормальній формі не містить аномалій, які можуть бути виключені розбиттям на проекції.

7.5 Підсумкова схема процедури нормалізації

Нехай дано відношення R, яке знаходиться в 1НФ (або може бути приведене до такої форми після вирівнювання вихідної ненормалізованном структури), разом з деякими обмеженнями (функціональними залежностями, багатозначними залежностями і залежностями з'єднання). Тоді основна ідея цієї технології полягає в систематичному приведення відношення R до набору менших відносин, який у певному заданому сенсі еквівалентний відношенню R, але більш кращий. Кожен етап процесу приведення складається з розбиття на проекції відносин, отриманих на попередньому етапі, таким чином, щоб проекції перебували в нормальній формі більш високого порядку, ніж первісне відношення.
З наведених вище правил можна виділити деякі особливості.
1. Перш за все, процес розбиття на проекції на кожному етапі повинен бути виконаний без втрат і з збереженням залежності (там, де це можливо).
2. Необхідно підкреслити той факт, що можуть існувати міркування, за якими нормалізацію не слід виконувати повністю.
П'ята нормальна форма є остаточною в тому сенсі, що подальше усунення аномалій неможливо шляхом розбиття вихідного відносини на проекції. Існують нормальні форми більш високих порядків, однак вони вкрай рідко зустрічаються на практиці і в даному курсі не розглядаються.
Література:
1. Дейт К.Дж. Введення в системи баз даних. -Пер. з англ. -6-е вид. -К. Діалектика, 1998. Стор. 309-328.

ЛЕКЦІЯ 8. Проектування БД методом сутність-зв'язок. ER-діаграми

8.1 Виникнення семантичного моделювання
8.2 Основні поняття методу
8.3 Діаграми ER-екземплярів і ER-типу
8.4 Правила формування відносин
8.5 Методологія IDEF1 (самостійне вивчення)

8.1 Виникнення семантичного моделювання

Широке поширення реляційних СУБД та їх використання в найрізноманітніших додатках показує, що реляційна модель даних достатня для моделювання предметних областей. Однак проектування реляційної бази даних в термінах відносин на основі механізму нормалізації часто представляє собою дуже складний і незручний для проектувальника процес. Потреби проектувальників баз даних в більш зручних і потужних засобах моделювання предметної області викликали до життя напрямок семантичних моделей даних. У цій лекції розглядається одна з популярних семантичних моделей даних - модель "сутність-зв'язок".
Метод сутність-зв'язок називають також методом "ER-діаграм": по-перше, ER-абревіатура від слів Essence (сутність) і Relation (зв'язок), по-друге, метод заснований на використанні діаграм, званих відповідно діаграмами ER-екземплярів та діаграмами ER-типу.

8.2 Основні поняття методу

Основними поняттями методу сутність-зв'язок є наступні:
1. сутність - представляє собою об'єкт, інформація про який зберігається в БД. Примірники сутності відрізняються один від одного і однозначно ідентифікуються. Назвами сутностей є, як правило, іменники, наприклад: ВИКЛАДАЧ, ДИСЦИПЛІНА, ГРУПА.
2. Атрибут сутності - представляє собою властивість сутності. Це поняття аналогічно поняттю атрибуту у відношенні. Так, атрибутами сутності ВИКЛАДАЧ може бути його Прізвище, Посада, Стаж (викладацький) і т. д.
3. Ключ сутності - атрибут або набір атрибутів, що використовується для ідентифікації примірника сутності. Як видно з визначення, поняття ключа суті аналогічно поняттю ключа відносини.;
4. Зв'язок між сутностями. Зв'язок двох або більше сутностей - припускає залежність між атрибутами цих сутностей. Назва зв'язку зазвичай представляється дієсловом. Прикладами зв'язків між сутностями є наступні-ВИКЛАДАЧ просунутий ДИСЦИПЛІНУ (Іванов ВЕДЕ "Організацію БД і знань"), ВИКЛАДАЧ Викладає в ГРУПІ (Іванов ВИКЛАДАЮТЬ У 256 групі);
5. Ступінь зв'язку - є характеристикою зв'язку між сутностями, яка може бути наступних видів: 1:1, 1: М, М: 1, М: М.;
6. Клас приналежності (КП) примірників сутності. КП суті може бути: обов'язковим і необов'язковим. Клас приналежності суті є обов'язковим, якщо всі екземпляри цієї сутності обов'язково беруть участь в даній зв'язку, в іншому разі клас приналежності суті є необов'язковим.
7. Діаграми ER-примірників;
8. Діаграми ER-типу.
Наведені визначення сутності і зв'язку не повністю формалізовані, але прийнятні для практики. Слід мати на увазі, що в результаті проектування можуть бути отримані декілька варіантів однієї і тієї ж БД. Так, два різних проектувальника, розглядаючи одну і ту ж проблему з різних точок зору, можуть отримати різні набори сутностей і зв'язків. При цьому обидва варіанти можуть бути робітниками, а вибір кращого з них буде результатом особистих переваг.

8.3 Діаграми ER-екземплярів і ER-типу

З метою підвищення наочності та зручності проектування для подання сутностей, примірників сутностей і зв'язків між ними використовуються наступні графічні засоби:
1. діаграми ER-екзрмпляров,
2. діаграми ER-типу, або ER-діаграми.
На малюнку REF _Ref9933102 \ h \ * MERGEFORMAT рис. 8.1 наведена діаграма ER-примірників для сутностей ВИКЛАДАЧ і ДИСЦИПЛІНА зі зв'язком ВЕДЕ.

ВИКЛАДАЧ	ВЕДЕ	ДИСЦИПЛІНА

Іванов		Засоби СУБД
Петров		C + +
Сидоров		Паскаль
Єгоров		Алгол
Козлов		Фортран

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 січня Діаграма ER-екземплярів.
Діаграма ER-екземплярів показує, яку конкретно дисципліну (СУБД, C + + і т.д.) веде кожен з викладачів. На REF _Ref9933147 \ h \ * MERGEFORMAT рис. 8.2 представлена діаграма ER-типу, відповідна розглянутої діаграмі ER-екземплярів.

Викладач

Дисципліна

Веде

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 лютого Діаграма ER-типу.
На початковому етапі проектування БД виділяються атрибути, складові ключі сутностей.
На основі аналізу діаграм ER-типу формуються відносини проектованої БД. При цьому враховується ступінь зв'язку сутностей і клас їх належності, які, у свою чергу, визначаються на основі аналізу діаграм ER-примірників відповідних сутностей.
Варіюючи класом приналежності сутностей для кожного з названих типів зв'язку, можна отримати кілька варіантів діаграм ER-типу. Розглянемо приклади деяких з них.

8.3.1 Зв'язки типу 1:1 і необов'язковий клас приналежності

У наведеній на REF _Ref9933147 \ h \ * MERGEFORMAT рис. 8.2 діаграмі ступінь зв'язку між сутностями 1:1, а клас приналежності обох сутностей необов'язковий. Дійсно, з малюнка видно наступне:
1. кожен викладач веде не більше однієї дисципліни, а кожна дисципліна ведеться не більш ніж одним викладачем (ступінь зв'язку 1:1);
2. деякі викладачі не ведуть жодної дисципліни і є дисципліни, які не веде ні один з викладачів (клас приналежності обох сутностей необов'язковий).

8.3.2 Зв'язки типу 1:1 і обов'язковий клас приналежності

На малюнку наведено діаграми, у яких ступінь зв'язку між сутностями 1:1, а клас приналежності обох сутностей обов'язковий.

ВИКЛАДАЧ	ВЕДЕ	ДИСЦИПЛІНА

Іванов		Засоби СУБД
Петров		C + +
Сидоров		Паскаль
Єгоров		Алгол
Козлов		Фортран

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 Березня Діаграма ER-екземплярів для зв'язку 1:1 і обов'язковим КП обох сутностей.

Викладач

Дисципліна

Веде

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 квітня Діаграма ER-типу для зв'язку 1:1 і обов'язковим КП обох сутностей.
У цьому випадку кожен викладач веде одну дисципліну і кожна дисципліна ведеться одним викладачем.
Можливі два проміжних варіанти з необов'язковим класом приналежності однієї з сутностей.
Діаграми ER-типу графічно зображуються наступним чином:
1. обов'язкова участь у зв'язку примірників сутності відзначається блоком з крапкою всередині, суміжних з блоком цієї сутності (REF _Ref10021805 \ h \ * MERGEFORMAT рис. 8.4 ).
2. необов'язкове участь примірників сутності в зв'язку - додатковий блок до блоку суті не прилаштовується, а точка розміщується на лінії зв'язку (REF _Ref9933147 \ h \ * MERGEFORMAT рис. 8.2 ).
3. символи на лінії зв'язку вказують на ступінь зв'язку.
4. під кожним блоком, відповідним деякої сутності, вказується її ключ, що виділяється підкресленням. Многоточие за ключовими атрибутами означає, що можливі інші атрибути сутності, але жоден з них не може бути частиною її ключа. Ці атрибути виявляються після формування відносин.
На практиці ступінь зв'язку і клас приналежності сутностей при проектуванні БД визначається специфікою предметної області. Розглянемо приклади варіантів зі ступенем зв'язку 1: М або М: 1.
Зв'язок типу 1: М - кожен викладач може вести кілька дисциплін, але кожна дисципліна ведеться одним викладачем,
Зв'язки типу М: 1 - кожен викладач може вести одну дисципліну, але кожну дисципліну можуть вести кілька викладачів.
Приклади з типом зв'язку 1: М або М: 1 можуть мати ряд варіантів, що відрізняються класом приналежності однієї або обох сутностей. Позначимо обов'язковий клас приналежності символом "О", а необов'язковий - символом "Н", тоді варіанти для зв'язку типу 1: М умовно можна представити як: О-О, О-Н, Н-О, Н-Н. Для зв'язку типу М: 1 також є 4 аналогічних варіанту.

8.3.3 Зв'язки типу 1: М варіант Н-О

Кожен викладач може вести кілька дисциплін АБО жодної, але кожна дисципліна ведеться одним викладачем (REF _Ref10021939 \ h \ * MERGEFORMAT рис. 8.5 , REF _Ref10021941 \ h \ * MERGEFORMAT рис. 8.6 ).

ВИКЛАДАЧ	ВЕДЕ	ДИСЦИПЛІНА

		СУБД
Іванов		ПЛ / 1
Петров		Паскаль
Сидоров		Алгол
Єгоров		Фортран
Козлов		C + +
		Java

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 травень Діаграма ER-примірників для зв'язку типу 1: М варіанту Н-О

Викладач

Дисципліна

Веде

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 6. Діаграма ER-типу для зв'язку типу 1: М варіанту Н-О
За аналогією легко скласти діаграми і для інших варіантів.
Зв'язки типу М: М - кожен викладач може вести кілька дисциплін, а кожна дисципліна може вестися кількома викладачами. Як і у випадку інших типів зв'язків, для зв'язку типу М: М можливі 4 варіанти, що відрізняються класом приналежності сутностей.

8.3.4 Зв'язки типу М: М і варіант класу приналежності О-Н

Припустимо, що кожен викладач веде не менше однієї дисципліни, а дисципліна може вестися більш ніж одним викладачем, є і такі дисципліни, які ніхто не веде. Відповідні цієї нагоди діаграми приведені на малюнку REF _Ref9933507 \ h \ * MERGEFORMAT рис. 8.7 .

ВИКЛАДАЧ	ВЕДЕ	ДИСЦИПЛІНА

		Засоби СУБД
Іванов		ПЛ / 1
Петров		Паскаль
Сидоров		Алгол
Єгоров		Фортран
Козлов		C + +
		Java

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 липня Діаграма ER-примірників для зв'язку типу М: М і варіант класу приналежності О-Н.

Викладач

Дисципліна

Веде

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 серпня Діаграма ER-типів для зв'язку типу М: М і варіанти О-Н.
Виявлення сутностей і зв'язків між ними, а також формування на їх основі діаграм ER-типу виконується на початкових етапах методу сутність-зв'язок. Розглянемо етапи реалізації методу.
Процес проектування бази даних є ітераційним - допускає повернення до попередніх етапів для перегляду раніше прийнятих рішень і включає наступні етапи:
1. виділення сутностей і зв'язків між ними;
2. побудова діаграм er-типу з урахуванням всіх сутностей та їх зв'язків;
3. формування на основі побудованих раніше діаграм er-типу набору попередніх відносин з зазначенням передбачуваного первинного ключа для кожного відносини;
4. додавання не ключових атрибутів у відносини;
5. приведення попередніх відносин до нормальної форми Бойса-Кодда, наприклад, за допомогою методу нормальних форм;
6. перегляд er-діаграм в наступних випадках;
6.1. деякі відношення не приводяться до нормальної формі Бойса-Кодда;
6.2. деяким атрибутам не знаходиться логічно обгрунтованих, місць у попередніх відносинах.
Після перетворення ER-діаграм здійснюється повторне виконання попередніх етапів проектування (повернення до етапу 1).
Одним з вузлових етапів проектування є етап формування відносин. Розглянемо процес формування попередніх відносин, що складають первинний варіант схеми БД.
У розглянутих вище прикладах зв'язок ВЕДЕ завжди з'єднує дві сутності і тому є бінарною. Сформульовані нижче правила формування відносин з діаграм ER-типу поширюються саме на бінарні зв'язку. Тому, коли мова йде про зв'язки, слово "бінарні" далі опускається.

8.4 Правила формування відносин

Правила формування відносин грунтуються на обліку наступного:
1. ступеня зв'язку між сутностями (1:1, 1: М, М: 1, М: М);
2. класу приналежності екземплярів сутностей (обов'язковий та необов'язковий).
Розглянемо формулювання шести правил формування відносин на основі діаграм ER-типу.

8.4.1 Ступінь зв'язку 1:1, клас приналежності обох сутностей обов'язковий

Якщо ступінь бінарної зв'язку 1:1 і клас приналежності обох сутностей обов'язковий, то формується одне відношення. Первинним ключем цього відношення може бути ключ будь-який з двох сутностей.
На REF _Ref9933850 \ h \ * MERGEFORMAT рис. 8.9 наведені діаграма ER-типу і ставлення, сформоване за правилом REF _Ref45418528 \ r \ h \ * MERGEFORMAT 8.4.1 на її основі.

K1 або K2, ...

K1, ...

K2, ...

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 вересня Діаграма і відносини для правила REF _Ref45418528 \ r \ h \ * MERGEFORMAT 8.4.1
На REF _Ref9933850 \ h \ * MERGEFORMAT рис. 8.9 використовуються такі позначення:
Cl, C2 - сутності 1 і 2;
Kl, K2 - ключі першої та другої сутності відповідно;
Rl - відношення 1, сформоване на основі першої і другої сутностей;
Kl, K2, ... означає, що ключем сформованого відношення може бути або К1, або К2.

8.4.2 Ступінь зв'язку 1:1, клас приналежності однієї сутності обов'язковий, а другий - необов'язковий

Якщо ступінь зв'язку 1:1 і клас приналежності однієї сутності обов'язковий, а другий - необов'язковий, то під кожну з сутностей формується по відношенню з первинними ключами, які є ключами відповідних сутностей. Далі до відношення, сутність якого має обов'язковий КП, додається як атрибуту ключ сутності з необов'язковим КП.
На REF _Ref9933887 \ h \ * MERGEFORMAT рис. 8.10 наведені діаграма ER-типу і відносини, сформовані за правилом REF _Ref45418548 \ r \ h \ * MERGEFORMAT 8.4.2 на її основі.

K1, ...

K2, ...

K1, K2

K2, ...

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 10 січня Діаграма і відносини для правила REF _Ref45418548 \ r \ h \ * MERGEFORMAT 8.4.2

8.4.3 Ступінь зв'язку 1:1, клас приналежності обох сутностей - необов'язковий

Якщо ступінь зв'язку 1:1 і клас приналежності обох сутностей є необов'язковим, то необхідно використовувати три відносини. Два відносини відповідають пов'язують сутність, ключі яких є первинними в цих відносинах. Третє відношення є зв'язковим між першими двома, тому його ключ об'єднує ключові атрибути пов'язують відносин.

K1, ...

K2, ...

K1, ...

R1_R2

K1, K2

K2, ...

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 11 січня Діаграма і відносини для правила REF _Ref45418562 \ r \ h \ * MERGEFORMAT 8.4.3
На REF _Ref9933945 \ h \ * MERGEFORMAT рис. 8.11 наведені діаграма ER-типу і відносини, сформовані за правилом REF _Ref45418562 \ r \ h \ * MERGEFORMAT 8.4.3 на її основі.
Сформулюємо аналогічні два правила для варіантів, ступінь зв'язку між сутностями яких 1: М. Якщо дві сутності С1 і С2 пов'язані як 1: М, сутність С1 будемо називати однозв''язної (1-зв'язкової), а сутність С2-многосвязной (М-зв'язкової). Визначальним фактором при формуванні відносин, пов'язаних цим видом зв'язку, є клас приналежності М-зв'язковий сутності. Так, якщо клас приналежності М-зв'язковий сутності обов'язковий, то в результаті застосування правила отримаємо два відносини, якщо необов'язковий - три відносини. Клас приналежності однозв''язної суті не впливає на результат.

8.4.4 Ступінь зв'язку між сутностями 1: М (або М: 1), клас приналежності М-зв'язковий сутності обов'язковий

Якщо ступінь зв'язку між сутностями 1: М (або М: 1) і клас приналежності М-зв'язковий сутності обов'язковий, то досить формування двох відносин (по одному на кожну з сутностей). При цьому первинними ключами цих відносин є ключі їхніх сутностей. Крім того, ключ 1-зв'язковий сутності додається як атрибут (зовнішній ключ) у відношення, відповідне М-зв'язковий сутності.
На REF _Ref9933977 \ h \ * MERGEFORMAT рис. 8.12 наведені діаграма ER-типу і відносини, сформовані за правилом REF _Ref45419054 \ r \ h \ * MERGEFORMAT 8.4.4 .

K1, ...

K2, ...

K1, ...

K1, K2, ...

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 1 грудня Діаграма і відносини для правила REF _Ref45419054 \ r \ h \ * MERGEFORMAT 8.4.4 .

8.4.5 Ступінь зв'язку 1: М (М: 1) і клас приналежності М-зв'язковий сутності - необов'язковий

Якщо ступінь зв'язку 1: М (М: 1) і клас приналежності М-зв'язковий суті є необов'язковим, то необхідно формування трьох відносин (REF _Ref9934021 \ h \ * MERGEFORMAT рис. 8.13 ).

K1, ...

R1_R2

K1, K2

K2, ...

K1, ...

K2, ...

рис. STYLEREF 1 \ s 8. SEQ рис. \ * ARABIC \ s 13 січня Діаграма і відношення для правила REF _Ref45419075 \ r \ h \ * MERGEFORMAT 8.4.5
Два відносини відповідають пов'язують сутність, ключі яких є первинними в цих відносинах. Третє відношення є зв'язковим між першими двома (його ключ об'єднує ключові атрибути пов'язують відносин).
За наявності зв'язку М: М між двома сутностями необхідно три відносини незалежно від класу приналежності будь-який з сутностей. Використання одного або двох відносин у цьому випадку не рятує від порожніх полів або надлишково дубльованих даних.

8.4.6 Ступінь зв'язку М: М, незалежно від класу приналежності сутностей

Якщо ступінь зв'язку М: М, то незалежно від класу приналежності сутностей формуються три відносини Два відносини відповідають пов'язують сутність і їх ключі є первинними ключами цих відносин. Третє відношення є зв'язковим між першими двома, а його ключ об'єднує ключові атрибути пов'язують відносин.
На REF _Ref9934078 \ h \ * MERGEFORMAT рис. 8.14 наведені діаграма ER-типу і відносини, сформовані за правилом REF _Ref45419087 \ r \ h \ * MERGEFORMAT 8.4.6 . У конспекті показаний варіант з класом приналежності сутностей Н-Н, хоча, згідно з правилом REF _Ref45419087 \ r \ h \ * MERGEFORMAT 8.4.6 , Він може бути довільним.

K1, ...

R1_R2

K1, K2

K2, ...

рис. STYLEREF 1 \ s 13. SEQ рис. \ * ARABIC \ s 1 квітня Рис. А. 12 Приклад використання нещільного індексу.
В якості прикладу розглянемо процес вилучення запису з номером 3 за допомогою такого індексу. Спочатку в СУБД проводиться пошук індексу для запису з номером, більшим чи рівним 3. При цьому буде знайдено поле з номером 4, яке містить покажчик на сторінку p. Сторінка p витягується, поміщається в оперативну пам'ять і проглядається для пошуку заданої збереженої запису (яка в даному прикладі буде знайдена дуже швидко).
Індекс з описаною структурою називається нещільним (або розрядженим), оскільки в ньому не містяться покажчики на записи індексованого файлу. Схематично приклад такого індексу показаний на REF _Ref11659408 \ h \ * MERGEFORMAT
рис. 13.4 . (Всі описані вище індекси, навпаки, називаються щільними.) Одним з переваг нещільних індексів є їх малий розмір у порівнянні з щільними індексами, так як вони містять меншу кількість записів. Це часто дозволяє переглядати вміст бази даних з більшою швидкістю. Однак за допомогою одного тільки нещільного індексу не можна виконати перевірку наявності деякого значення.
Слід зазначити, що в даному доглянутому файлі може бути принаймні один нещільний індекс, який організовується на основі (унікальної) фізичної послідовності, заданої у файлі. А всі інші індекси обов'язково повинні бути щільними.

13.4 Структури типу Б-дерева

Одним з найбільш важливих і поширених індексів є структура типу Б-дерева (B-tree).
Причина необхідності створення структури типу Б-дерева полягає в бажанні уникнути обов'язкового перегляду всього вмісту індексованого файлу згідно з його фізичної послідовності. Справа в тому, що якщо індексований файл має великий розмір, то і його індекс також дуже великий. Тому послідовний перегляд навіть одного тільки індексу вимагає великих витрат часу. Вирішити цю проблему можна тим же способом, що й раніше: розглянути індексний файл як звичайний зберігається файл і створити для нього ще один індекс. Цю операцію можна здійснювати повторно потрібну кількість разів (зазвичай вона застосовується тричі, оскільки створення великої кількості ієрархічних рівнів індексування потрібно для дуже великих файлів). При цьому індекс на кожному з рівнів буде нещільним по відношенню до нижнього індексуємого рівнем (він обов'язково повинен бути нещільним, інакше така структура безглузда, так як рівень n містив би таку ж кількість записів, що і рівень n +1, а для перегляду треба було б таке ж тривалий час).
Структура типу Б-дерева є окремим випадком індексу деревовидного типу і вперше описана в статті Баєра (Вауег) і Мак-Крайт (McCreight) у 1972 році. З тих пір Байєром та іншими дослідниками було запропоновано безліч варіантів реалізації цієї ідеї. У результаті бінарні індекси різних типів стали широко використовуватися у всіх сучасних СУБД.
У варіанті Кнута індекс складається з двох частин:
1. Набір послідовностей включає однорівневий індекс для реальних даних, що звичайно є щільним, але може бути і нещільним, якщо в індексувати файли проведена кластеризація на основі індексу
2. Набір індексів, у свою чергу, забезпечує швидкий безпосередній доступ до набору послідовностей (а значить, і до даних). По суті, набір індексів є деревовидним індексним файлом для набору послідовностей або, суворо кажучи, індексом зі структурою Б-дерева. Комбінація набору індексів і набору послідовностей називається структурою типу Б-плюс-дерева (B-plus tree або B-tree). На REF _Ref11637502 \ h \ * MERGEFORMAT рис. 13.5 показаний простий приклад такої структури.
Числа 6, 8, 12, ... 97, 99 є значеннями індексованого поля F. Кореневий елемент містить два значення поля F (50 і 82) та три покажчики (номери сторінок). Дані зі значенням поля F, що дорівнює або менше 50, можуть бути знайдені за допомогою лівого покажчика; дані зі значенням поля F, великим 50 і рівним або меншим 82, - за допомогою середнього покажчика; нарешті, дані зі значенням поля F, великим 82, - за допомогою правого покажчика. Інші елементи набору індексів слід інтерпретувати подібним чином. Зверніть увагу, що завдяки переходу на другий рівень по лівому вказівником надалі пошук по правому вказівником буде здійснюватися до всіх записів зі значенням поля F, великим 32 і рівним або меншим 50.
Взагалі, Б-дерево порядку п містить не менше п і не більше 2п записів з даними в кожному з елементів структури (для кожних k записів потрібне також k +1 покажчиків). Крім того, жодна із записів не може використовуватися двома різними елементами.
Одним з недоліків ієрархічних структур є незбалансованість їх роботи після видалення або вставки деяких елементів. Справа в тому, що в результаті таких змін структури елементи з реальними даними можуть опинитися на різних рівнях і на різних відстанях від кореневого елемента. Оскільки під час пошуку при кожному відвідуванні елементів структури відбувається звернення до диска, загальна тривалість пошуку в незбалансованої деревоподібної структурі може виявитися зовсім непередбачуваною.
Перевагою структури типу Б-дерева є можливість збалансованої вставки або видалення значень. (Ось чому для англійського написання такого індексу, "B-tree", іноді вживають замість символу "В" епітет від "збалансований" (balanced).) Нижче наводиться короткий алгоритм вставки нового значення V в структуру типу Б-дерева порядку п. Він розрахований на вставку значення тільки лише в набір індексів, але може бути досить просто розширений для вставки запису з даними в набір послідовностей.
1. На самому низькому рівні набору індексів слід знайти елемент (припустимо, що це елемент N), з яким логічно пов'язане вставляється значення V. Якщо елемент N містить вільний простір, то значення V вставляється в нього і на цьому процес завершується.
2. В іншому випадку (якщо вільного простору немає, тобто доведеться створити ще один рівень) елемент N (припустимо, що він містить 2n індексних записів) поділяється на два елементи - N1 і N2. Позначимо символом 5 безліч з 2n +1 значень, в якому 2n вихідних значень і одне нове значення V. Тоді n перших значень цієї логічної (вже впорядкованої) послідовності необхідно помістити в елемент N1, n останніх - в елемент N2, а середнє між ними значення W-в батьківський елемент Р на більш високому структурному рівні. Згодом, при здійсненні пошуку значення U і досягненні елементу P, пошук буде перенаправлений в бік елемента N1, якщо V <W, або у бік елемента N2, якщо U> W.
3. Далі цей процес слід повторити для вставки середнього значення W в батьківський елемент Р на більш високому структурному рівні.
У гіршому випадку процес поділу елементів структури може тривати аж до кореневого елемента всієї структури з утворенням нового ієрархічного рівня.
Для видалення деякого значення слід застосувати аналогічний алгоритм, але тільки у зворотному порядку. А для зміни значення його можна видалити, а потім вставити нове.

												50		82													Набір індексів

			12		32							58		70							89		94

																											Набір послідовностей (З покажчиками на реальні дані)
6	8	12	15	18	32	35	40	50	51	52	58	60	62	70	71	78	82	83	85	89	91	93	94	96	97	99
¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯	¯

рис. STYLEREF 1 \ s 13. SEQ рис. \ * ARABIC \ s 1 травень Приклад структури типу Б-дерева

13.5 Хешування

Хешування, хеш-адресацією або хеш-індексуванням називається технологія швидкого прямого доступу до збереженої запису на основі заданого значення деякого поля. При цьому не обов'язково, щоб поле було ключовим.
Нижче перераховані основні риси цієї технології:
1. кожна збережена запис бази даних розміщується за адресою, який обчислюється за допомогою спеціальної хеш-функції на основі значення деякого поля цього запису, тобто хеш-поля, або хеш-ключа. Обчислений адреса називається хеш-адресою.
2. для збереження запису в СУБД спочатку обчислюється хеш-адресу нового запису, а потім диспетчер файлів поміщає цю запис по обчисленому адресою.
3. Для витягання потрібної запису по заданому значенню хеш-поля в СУБД спочатку обчислюється хеш-адресу, а потім диспетчеру файлів надсилається запит для вилучення запису за обчисленому адресою.
Як простий ілюстрації припустимо, що у нас є записи з даними про студентів з кодами 100, 200, 300, 400, 500, а в якості хеш-функції h використовується наступна: h = StNo mod 13, де h - хеш-адресу, StNo - код студента.
Це найпростіший приклад загального класу хеш-функцій типу поділ / залишок. (Як дільника слід вибирати просте натуральне число). У цьому прикладі хеш-адресами для заданих записів будуть 9, 5, 1, 10 і 6 відповідно. Схематично взаємне розташування записів на сторінках показано на REF _Ref11637535 \ h \ * MERGEFORMAT рис. 13.6 .

0				1	Іванов	...	...	2	3	4
				300
5	Петров	...	...	6	Сидоров	...	...	7	8	9	Стрільців	...	...
200				500						100
10	Кузнєцов	...	...	11				12
400

рис. STYLEREF 1 \ s 13. SEQ рис. \ * ARABIC \ s 1 червні Приклад використання хешування.
Недоліком хешування є можливість виникнення колізій, тобто ситуацій, коли дві або більше різних записи мають однакові адреси. Припустимо, що файл студентів з попереднього прикладу (із записами 100, 200 і т.д.) містить також запис з номером 1400. При використанні хеш-функції h = StNo mod 13 виникне колізія (за адресою 9) з записом 100.
Для вирішення таких колізій можна використовувати значення хеш-функції в якості адреси не який-небудь записи з даними, а точки прив'язки. Точка прив'язки - це початковий адресу ланцюжка покажчиків (ланцюжки колізій), що зв'язує разом усі записи або всі сторінки із записами, які викликають колізії за адресою. Усередині ланцюжка колізій запису також можуть бути упорядковані відповідно до хеш-полем для спрощення подальшого пошуку.
Один з недоліків описаного вище способу хешування - зростання числа колізій із збільшенням розміру зберігається файлу. Це, у свою чергу, може призвести до значного збільшення середнього часу доступу, оскільки все більше і більше часу доведеться витрачати на пошук записів у наборах конфліктуючих записів. Однак цей недолік можна усунути, якщо реорганізувати файл, тобто вивантажити даний файл і завантажити його знову, використовуючи нову хеш-функцію.
Існує ряд модифікацій алгоритму хешування, наприклад, розширюване хешування та ін, що застосовуються для оптимізації операцій оновлення і пошуку в БД.
Література:
1. Дейт К.Дж. Введення в системи баз даних. -Пер. з англ. -6-е вид. -К. Діалектика, 1998. Стор. 674-696.

ЛЕКЦІЯ 14. Оптимізація запитів

14.1 Оптимізація в реляційних СУБД.
14.2 Приклад оптимізації реляційного вираження
14.3 Огляд процесу оптимізації
14.4 Перетворення виразів

14.1 Оптимізація в реляційних СУБД.

Для реляційних систем оптимізація є як проблемою, так і можливістю підвищення продуктивності. Проблема оптимізації полягає в тому, що деякі системи для досягнення певного рівня продуктивності вимагають оптимізації. Оптимізація дозволяє поліпшити роботу системи, так як однією з сильних сторін реляційного підходу є те, що перше застосування оптимізації до реляційному висловом переводить цей вираз на більш ефективний семантичний рівень. Загальне призначення оптимізатора полягає у виборі ефективної стратегії для обчислення цього реляційного вираження.
Перевага автоматичної оптимізації полягає в тому, що користувач може не замислюватися над найкращим способом вираження своїх запитів (тобто над тим, як сформулювати запит, щоб система виконала його з максимально можливою продуктивністю). Але це далеко не все. Існує реальна можливість, що оптимізатор сформулює запит краще, ніж програміст-користувач. Для такого твердження є низка причин. Нижче наведено лише деякі з них:
1. Хороший оптимізатор - зверніть увагу на слово "гарний" - володіє достатньою кількістю інформації, якої користувач може не мати. Точніше, оптимізатор повинен володіти деякими статистичними даними, такими як кардинальне число кожного базового відносини, кількість розрізняються значень для кожного атрибуту в відношенні, кількість входжень кожного значення в атрибутах і т.п. Завдяки наявності цих даних оптимізатор здатний більш точно оцінювати ефективність будь-якої стратегії реалізації конкретного запиту. Тому оптимізатор зможе вибрати найкращу стратегію реалізації запиту.
2. Якщо з часом статистика бази даних значно зміниться (наприклад, база даних буде фізично реорганізована), то для реалізації запиту може знадобитися зовсім інша стратегія, ніж до реорганізації. Іншими словами, може знадобитися повторна оптимізація, або реоптімізація. У реляційних системах процес реоптімізаціі досить тривіальний - це просто повторна обробка початкового запиту системним оптимізатором. З іншого боку, в нереляційних системах реоптімізація вимагає переписування програми, і, можливо, нездійсненна взагалі.
3. Оптимізатор - це програма, тому він більше "наполегливий" у порівнянні з людиною. Оптимізатор цілком здатний розглядати буквально сотні різних стратегій реалізації даного запиту, в той час як програміст навряд чи вивчає більше трьох-чотирьох стратегій (принаймні, досить глибоко).
4. У оптимізатор вбудовані знання і досвід "кращих з кращих" програмістів, що робить ці знання і досвід доступними для всіх. Природно, у противному випадку широкому колу користувачів буде наданий явно недостатній набір дешевих і неефективних можливостей.

14.2 Приклад оптимізації реляційного вираження

Почнемо переказ з простого прикладу, що дає уявлення про результати, які можна отримати за допомогою оптимізації. Розглянемо запит "Отримати список прізвищ студентів, які у групі А-98-51". Алгебраїчна запис цього запиту така:
((Students JOIN Groups) WHERE GrName = 'А-98-51') [StName]
Припустимо, що база даних містить інформацію про 100 групах і 10000 студентів, тільки 30 з яких навчаються у групі А-98-51. У такому випадку, якщо система буде обчислювати вираз прямо (тобто взагалі без оптимізації), то послідовність виконуваних дій буде виглядати так:
1. З'єднання відносин Students і Groups (по атрибуту GrNo). На цьому етапі зчитується інформація про 10000 студентів і 10000 раз зчитується інформація про 100 групах (один раз для кожного студента). Після цього створюється проміжний результат, що складається з 10000 з'єднаних кортежів.
2. Вибірка кортежів з даними тільки про групу А-98-51 з результату, отриманого на етапі 1. На цьому етапі створюється нове ставлення, яке складається з 30 кортежів.
3. Проекція результату, отриманого на етапі 2, по атрибуту StName. На цьому етапі створюється необхідний результат, що складається з 30 кортежів.
Показана нижче процедура еквівалентна описаної в тому сенсі, що обов'язково створить той же кінцевий результат, але більш ефективним способом:
1. Вибірка кортежів з даними тільки про групу А-98-51 з відносини Groups. На цьому етапі виконується читання 100 кортежів і створюється результат, що складається тільки з 1 кортежу.
2. З'єднання результату, отриманого на етапі 1, з відношенням Students (по атрибуту GrNo). На цьому етапі виконується зчитування даних про 10000 студентів і 10000 раз зчитується інформація про групу А-98-51, отримана на 1 етапі. Результат містить 30 кортежів.
3. Проектування результату, отриманого на етапі 2, по атрибуту StName (аналогічно етапу 3 попередньої послідовності дій). Необхідний результат містить 30 кортежів.
Перша з показаних процедур виконує в загальному 1010000 операцій введення-виведення кортежу, в той час як друга процедура виконує тільки 20000 операції введення-виведення. Отже, якщо взяти "кількість операції введення-виведення кортежу" в якості заходів продуктивності, то друга процедура в 50 разів ефективніше першою. (На практиці мірою продуктивності є кількість операцій введення-виведення сторінки, а не одного кортежу, але для цього прикладу цю поправку можна ігнорувати.)

14.3 Огляд процесу оптимізації

14.3.1 Стадія 1. Перетворення запиту у внутрішню форму

На цій стадії виконується перетворення запиту в деяке внутрішнє уявлення, більш зручне для машинних маніпуляцій. Це повністю виключає з розгляду конструкції зовнішнього рівня (такі як "гра слів" конкретного синтаксису аналізованого мови запитів) і готує грунт для подальших стадій оптимізації.
Зазвичай внутрішнє подання запитів є певною модифікацією абстрактного синтаксичного дерева, або дерева запиту.
Наприклад, на малюнку показано дерево розглянутого вище в цьому розділі запиту ("Отримати список прізвищ студентів, які у групі А-98-51").

Остаточний результат

Проекція по атрибуту StName

Вибірка кортежів, в яких GrName = 'А-98-51'

З'єднання по атрибут GrNo

Groups

Students

рис. STYLEREF 1 \ s 14. SEQ рис. \ * ARABIC \ s 1 1. Дерево запиту "Отримати список прізвищ студентів, які навчаються у группеА-98-51"

14.3.2 Стадія 2. Перетворення в канонічну форму

На цій стадії оптимізатор виконує кілька операцій оптимізації, які "гарантовано є хорошими" незалежно від реальних даних, що зберігаються в базі даних, і шляхів доступу до них. Суть в тому, що всі запити (за винятком найпростіших) реляційні мови зазвичай дозволяють виразити декількома різними (принаймні, зовні) способами.
Зауваження про канонічну формі. Поняття канонічної форми вживається, в багатьох розділах математики та пов'язаних з нею дисциплін. Канонічна форма може бути визначена наступним чином. Нехай Q - безліч об'єктів (запитів), і нехай існує поняття про еквівалентність цих об'єктів (а саме: запити q1 і q2 еквівалентні тоді і тільки тоді, коли дають ідентичні результати) Кажуть, що підмножина C безлічі Q є підмножиною канонічних форм для запитів з Q в сенсі певної вище еквівалентності тоді і тільки тоді, коли кожному об'єкту q з Q відповідає тільки один об'єкт c з C. Тоді кажуть, що об'єкт з є канонічною формою об'єкта q. Всі "цікавлять" властивості, якими володіє об'єкт q, також притаманні і об'єкту с. Тому, щоб довести різні "цікавлять" результати, досить вивчити менш потужне безліч об'єктів C, а не більш потужне безліч Q.
Щоб перетворити результати стадії 1 в деяку еквівалентну, але більш ефективну форму, оптимізатор використовує певні і добре відомі правила перетворення, або закони.

14.3.3 Стадія 3. Вибір потенційних низькорівневих процедур

Після перетворення внутрішньої форми запиту у більш відповідну (канонічну) форму оптимізатор повинен вирішити, як виконувати запит, поданий в канонічній формі. На цій стадії береться до уваги наявність індексів та інших шляхів доступу, розподіл збережених значень даних, фізична кластеризація збережених даних і т.п. Зауважте, що на стадіях 1 і 2 цих питань зовсім не приділялося уваги
Для кожної низькорівневої операції оптимізатор має набір низькорівневих процедур реалізації.
Зауваження. З кожною процедурою також пов'язана вартісна формула, яка вказує "вартість" виконання процедури (тобто рівень необхідних витрат на її виконання). Зазвичай вартість обчислюється в контексті операцій введення-виведення з диска, але деякі системи враховують також час використання процесора і інші фактори. Ці вартісні формули використовуються на стадії 4.
Отже, далі за допомогою інформації з каталогу про стан бази даних (існуючі індекси, кардинальні числа відносин тощо) і даних про залежності, описаних вище, оптимізатор вибере одну або декілька процедур-кандидатів для кожної низькорівневої операції в запиті. Цей процес зазвичай називають вибором шляху доступу.

14.3.4 Стадія 4. Генерація планів обчислення запиту і вибір плану з найменшою вартістю

На останній стадії процесу оптимізації конструюються потенційні плани запитів, після чого слідує вибір кращого (тобто найменш дорогого) плану виконання запиту. Кожен план виконання будується як комбінація набору процедур реалізації, при цьому кожній низькорівневої операції в запиті відповідає одна процедура.
Для вибору плану з найменшою вартістю необхідний метод прив'язки вартості до даного плану. В основному вартість плану - це просто сума вартостей окремих процедур, які використані для його виконання. Таким чином, робота оптимізатора зводиться до обчислення вартісних формул для кожної такої процедури. Проблема полягає в тому, що вартість виконання процедури залежить від розміру відносини (або відносин), яке обрана процедура обробляє.

14.4 Перетворення виразів

14.4.1 Вибірки і проекції

1. Послідовність вибірок даного відношення може бути перетворена в одну (об'єднану операцією AND) вибірку цього відношення. Наприклад, вираз
(A WHERE виборка_1) WHERE виборка_2
еквівалентно висловом
A WHERE виборка_1 AND виборка_2
2. У послідовності проекцій даного відносини можна ігнорувати всі проекції, окрім останньої. Таким чином, вираз
(А [проекція_1]) [проекція_2]
еквівалентно висловом
А [Проекція_2]
Звичайно, щоб перший вираз мало сенс, кожен атрибут, який використовується в проекціі_2, повинен бути присутнім і в проекціі_1.
3. Вибірку проекції можна трансформувати в проекцію вибірки. Наприклад, вираз
(А [проекція]) WHERE вибірка
еквівалентно висловом
(A WHERE вибірка) [проекція]
Зауважте, що в основному завжди корисно виконувати операцію вибірки перед операцією проекції, так як вибірка призведе до зменшення розміру вхідних даних для операції проекції і, отже, до зменшення кількості даних, які потрібно сортувати для виключення дубльованих записів у процесі обчислення проекції.

14.4.2 Розподільний закон

Кажуть, що унарний оператор розподіляється по бінарної операції О, якщо для всіх А і В виконується умова
F (А О В) º f (А) Про f (В).
У реляційній алгебрі операція вибірки розподіляється за операціями об'єднання, перетину і віднімання. Операція вибірки також розподіляється по oneраціі з'єднання, але тільки тоді, коли умова вибірки складається (у самому складному випадку) з об'єднаних операцією AND двох окремих умов вибірки - по одному для кожного операнда операції з'єднання. Для розглянутого вище в цьому розділі прикладу сформульоване умова дотримана (умова вибірки дуже просте і відноситься лише до одного операнду), і можна використовувати розподільний закон для заміни аналізованого у прикладі вираження його більш ефективним еквівалентом. Чистий ефект цього закону полягає в тому, що можна виконувати "ранню вибірку". Виконання ранньої вибірки майже завжди себе виправдовує, оскільки призводить до значного зменшення кількості кортежів, які потрібно розглядати в такій операції. Крім того, рання вибірка може призвести до зменшення кількості кортежів і на виході наступної операції.
Далі наведено кілька більш специфічних прикладів розподільного закону, на цей раз з операцією проекції. По-перше, операція проекції розподіляється за операціями об'єднання та перетину (але не за операції віднімання). По-друге, ця операція також розподіляється по операції з'єднання, але тільки в тому випадку, якщо в проекцію включені всі атрибути з'єднання. Точніше, вираз
(A JOIN В) [проекція]
еквівалентно висловом
(А [А_проекція]) JOIN (В [В_проекція])
тоді і тільки тоді, коли безліч використаних в проекції атрибутів дорівнює об'єднанню множин атрибутів у А_проекціі і В_проекціі і включає атрибути, за якими виконано з'єднання. Цей закон можна використовувати для виконання ранніх "проекцій", які зазвичай себе виправдовують з тих же причин, що й операції вибірки.

14.4.3 Комутативність і асоціативність

Закони комутативності та асоціативності - це ще два загальні правила перетворення. Кажуть, що бінарна операція Про є комутативною, якщо для всіх А і В істинно рівність
А О В º У О А
Наприклад, у звичайній арифметиці операції множення і складання є комутативними, а операції ділення і віднімання - ні. У реляційній алгебрі комутативними є операції об'єднання, перетину і з'єднання, а операції віднімання і ділення такими не є.
Перейдемо до асоціативності. Прийнято вважати, що бінарна операція Про є асоціативною, якщо для всіх А, В і З істинно рівність
А О (В И) º (А О В) Про С.
Наприклад, у звичайній арифметиці твір і додавання - асоціативні операції, розподіл і віднімання - ні. У реляційній алгебрі асоціативними є операції об'єднання, перетину і з'єднання, а операції віднімання і ділення такими не є. Так, наприклад, якщо в запиті використовується поєднання трьох відносин, А, В і С, то із законів комутативності та асоціативності

14.4.4 Ідемпотентний

Ще одним важливим правилом є закон Ідемпотентний. Ідемпотентний називають таку бінарну операцію О, для якої для всіх А виконується рівність
A О А = А.
Можна очікувати, що властивість Ідемпотентний також може бути корисним у процесі трансформації виразів. У реляційній алгебрі операції об'єднання, перетину і з'єднання є Ідемпотентний, а операції ділення і віднімання - ні.

14.4.5 Обчислювані скалярні вирази

Предметом застосування законів трансформації є не тільки реляційні висловлювання. Наприклад, вже було показано, що деякі закони трансформації застосовні і до арифметичним виразам. Нижче наведено приклад. Вираз
А * В + А * З
можна трансформувати у вираз
А * (В + С)
внаслідок того, що операція множення "*" розподіляється по операції додавання "+". Оптимізатор реляційних виразів повинен володіти інформацією про подібні перетвореннях, так як він враховує обчислювані скалярні вирази в контексті операцій EXTEND і SUMMARIZE.
Кажуть, що бінарна операція Про розподіляється по бінарної операції О, якщо для всіх А, В і З істинно рівність
A '(B Про C) = (A' B) O (A 'C)
(Для наведеного вище арифметичного прикладу замініть 'на "*", а О на "+").

14.4.6 Умови

Перейдемо до обговорення умов або виразів, результатами яких можуть бути істина або брехня. Припустимо, що А і В - атрибути двох різних відносин, тоді умова
А> У AND У> 3
(Яке може бути частиною запиту) абсолютно еквівалентно висловом
А> У AND У> 3 AND A> 3
і тому може бути перетворено в цей вираз.
Дана еквівалентність базується на тому, що операція ">" є транзитивної. Зауважте, що виконання подібного перетворення вельми корисно, тому що дозволяє системі створити додаткову вибірку (за допомогою умови "А> З") перед виконанням з'єднання "більше ніж", необхідного умовою "А> В".
Зауваження. Цей прийом реалізований в різних комерційних продуктах, включаючи систему DB2, в якій його називають транзитивним замиканням предикатів. А ось інший приклад. Умова
А> У OR (С = D AND Е <F)
можна перетворити в умову
(A> B OR С = D) AND (А> В OR Е <F)
внаслідок того, що операція OR розподіляється по операції AND. Цей приклад демонструє інший загальний закон: "Будь-яка умова може бути перетворено в еквівалентну умова, зване кон'юнктивній нормальною формою (КНФ)". КНФ-вираз має вигляд:
C1 AND C2 AND ... AND Cn,
де С1, C2, ..., Cn - умови (звані часткова сполучення), в яких не використовується операція AND. Перевага КНФ полягає в тому, що КНФ-вираз істинний, тільки якщо правдиві всі його часткові кон'юнкції. Аналогічно, КНФ-вираз помилково, якщо брехня є результатом хоча б однієї часткової кон'юнкції. Так як операція AND коммутативна (A AND У одно У AND А), то оптимізатор може обчислювати окремі часткові кон'юнкції в будь-якому порядку, зокрема за зростанням складності (спочатку прості). І як тільки знайдена часткова кон'юнкція, результатом якої є брехня, весь процес обчислення КНФ-вирази можна зупиняти.
Більше того, у середовищі паралельних обчислень можливе паралельне обчислення всіх часткових кон'юнкція. Знову ж таки, як тільки знайдена перша часткова кон'юнкція, результатом якої є брехня, весь процес обчислення КНФ-вирази можна зупиняти.

14.4.7 Семантичні перетворення

Розглянемо такий вираз:
(Students JOIN Groups) [StName]
Дане з'єднання належить до сполук типу зовнішній-к-узгодженим-потенціал'ному-ключу. У цьому з'єднанні зовнішньому ключу щодо Students ставиться у відповідність потенційний ключ відносини Groups. Отже, кортеж у відношенні Students пов'язаний з певним кортежем щодо Groups. Таким чином, з кожного кортежу щодо Students в загальний результат надходить тільки значення атрибуту StName. Іншими словами, з'єднання можна не виконувати! Розглянуте вираз можна замінити виразом
Students [StName]
Перетворення, коректне чинності певної умови цілісності, називають семантичним перетворенням, а оптимізацію, отриману в результаті подібних перетворень, - семантичної оптимізацією. Семантичну оптимізацію можна визначити як процес перетворення запиту в інший, якісно відмінний запит, який, тим не менше, дає результат, ідентичний результату початкового запиту, завдяки тому що дані задовольняють певній умові цілісності.
Важливо розуміти, що в принципі будь-яка умова цілісності може бути використано для семантичної оптимізації (якщо ця умова не відстрочено і в даний момент діє на базу даних).

14.4.8 Статистики бази даних

На стадіях 3 і 4 загального процесу оптимізації (вони називаються стадіями "вибору шляху доступу") використовуються так звані статистики бази даних, які зберігаються в каталозі.
Література:
1. Дейт К.Дж. Введення в системи баз даних. -Пер. з англ. -6-е вид. -К. Діалектика, 1998. Стор. 474-516.

ЛЕКЦІЯ 15. Відновлення після збоїв

15.1 Поняття відновлення системи
15.2 Транзакції
15.3 Алгоритм відновлення після збою системи
15.4 Паралелізм. Проблеми паралелізму
15.5 Поняття блокування
15.6 Рішення проблем паралелізму
15.7 Статті без ситуації
15.8 Здатність до впорядкування
15.9 Рівні ізоляції транзакції
15.10 Підтримка в мові SQL

15.1 Поняття відновлення системи

Відновлення в системі управління базами даних, означає в першу чергу відновлення самої бази даних, тобто повернення бази даних в нормальний стан, якщо який-небудь збій зробив поточний стан неправильним або підозрілим. Основний принцип, на якому будується таке відновлення, - це надмірність. Надмірність організується на фізичному рівні. Така надмірність буде прихована від користувача, а отже, не видно на логічному рівні. Іншими словами, якщо будь-яка частина інформації, що міститься в базі даних, може бути реконструйована з іншої зберiгається в системі надлишкової інформації, значить, база даних відновлюваність.

15.2 Транзакції

15.2.1 Поняття транзакції

Транзакція - це логічна одиниця роботи. Наприклад. Припустимо спочатку, що ставлення Students (відношення студентів) включає додатковий атрибут AvgMark, що представляє собою середній бал студента, за результатами складання поточної сесії. Значення AvgMark для будь-якої певної деталі передбачається рівним середньому арифметичному всіх значень Mark з таблиці Marks для всіх оцінок отриманих в поточному семестрі.
У наведеному прикладі передбачається, що мова йде про одиночної, атомарної операції. Насправді додавання нової оцінки в таблицю Marks - це виконання двох оновлень в базі даних (під оновленнями тут, звичайно, розуміються операції insert, delete, а також самі по собі операції update). Більш того, в базі даних між цими двома оновленнями тимчасово порушується вимога, що значення AvgMark для студента 1 дорівнює середньому арифметичному всіх значень поля Mark для студента 1 у поточному семестрі. Таким чином, логічна одиниця роботи (тобто транзакція) - не просто одиночна операція системи баз даних, а скоріше погодження кількох таких операцій. Загалом, це перетворення одного узгодженого стану бази даних в інше, причому в проміжних точках база даних знаходиться в неузгодженому стані.
З цього випливає, що неприпустимо, щоб одне з оновлень було виконано, а інше немає, тому що база даних залишиться в неузгодженому стані. В ідеальному випадку повинні бути виконані обидва оновлення. Однак не можна забезпечити стовідсоткову гарантію, що так і буде. Не виключена ймовірність того, що, система, наприклад, буде зруйнована між двома оновленнями, або ж на другому оновленні відбудеться арифметичне переповнення і т.п. Система, що підтримує транзакції, гарантує, що якщо під час виконання якихось оновлень сталася помилка (за будь-якої причини), то всі ці оновлення будуть анульовані. Таким чином, транзакція або виконується повністю, або повністю скасовується (неначе вона взагалі не виконувалася).
Системний компонент, який забезпечує атомарность (або її подоба), називається адміністратором транзакцій (або диспетчером транзакцій), а ключами до його виконання служать оператори COMMIT TRANSACTION і ROLLBACK TRANSACTION.
Оператор COMMIT TRANSACTION (для стислості commit) сигналізує про успішне закінчення транзакції. Він повідомляє адміністратора транзакцій, що логічна одиниця роботи завершено успішно, база даних знову перебуває (або буде перебувати) у погодженому стані, а всі оновлення, виконані логічною одиницею роботи, тепер можуть бути зафіксовані, тобто стати постійними.
Оператор ROLLBACK TRANSACTION (для стислості ROLLBACK) сигналізує про невдалий закінчення транзакції. Він повідомляє адміністратора транзакцій, що сталася якась помилка, база даних знаходиться в неузгодженому стані і всі оновлення можуть бути скасовані, тобто анульовані.
Для скасування оновлень система підтримує файл реєстрації, або журнал, на диску, де записуються деталі всіх операцій оновлення, зокрема нове і старе значення модифікованого об'єкта. Таким чином, при необхідності скасування деякого оновлення система може використовувати відповідний файл реєстрації для повернення об'єкта в первинний стан.
Ще один важливий момент. Система повинна гарантувати, що індивідуальні оператори самі по собі атомарні (тобто виконуються повністю або не виконуються зовсім). Це особливо важливо для реляційних систем, в яких оператори багаторівневі і зазвичай оперують безліччю кортежів одночасно; такий оператор просто не може бути порушений посеред операції і привести систему в неузгоджене стан. Іншими словами, якщо сталася помилка під час роботи такого оператора, база даних повинна залишитися повністю незміненою. Більш того, це має бути справедливо навіть у тому випадку, коли дії оператора є причиною додаткової, наприклад каскадної, операції.

15.2.2 Відновлення транзакції.

Транзакція починається з успішного виконання оператора BEGIN TRANSACTION) і закінчується успішним виконанням небудь оператора COMMIT, або ROLLBACK. Оператор COMMIT встановлює так звану точку фіксації (яка в комерційних продуктах також називається точкою синхронізації (syncpoint). Точка фіксації відповідає кінця логічної одиниці роботи і, отже, точці, в якій база даних знаходиться (або буде перебувати) у стані узгодженості. На противагу цьому , виконання оператора ROLLBACK знову повертає базу даних у стан, в якому вона була під час операції BEGIN TRANSACTION, тобто в попередню точку фіксації.
Випадки установки точки фіксації:
1. Всі оновлення, вчинені програмою з тих пір, як встановлена попередня точка фіксації, виконані, тобто стали постійними. Під час виконання всі такі оновлення можуть розцінюватися тільки як пробні (в тому сенсі, що вони можуть бути не виконані, наприклад прокручені тому). Гарантується, що одного разу зафіксоване оновлення так і залишиться зафіксованим (це і є визначення поняття "зафіксовано").
2. Всі позиціонування бази даних втрачено, і всі блокування кортежів реалізовані. Позиціонування бази даних тут означає, що у будь-який конкретний час програма зазвичай адресована певним кортежам. Ця адресовані точці фіксації втрачається.
Отже, система може виконати відкат транзакції як явно - наприклад по команді ПЗ з яким працює користувач, так і неявно - для будь-якої програми, яка за будь-якої причини не досягла запланованого завершення операцій, що входять до транзакцію.
З цього видно, що транзакції - це не тільки логічні одиниці роботи, але також і одиниці відновлення при невдалому виконанні операцій. При успішному завершенні транзакції система гарантує, що оновлення постійно встановлені в базі даних, навіть якщо система зазнає краху в наступний момент. Можливо, що в системі відбудеться збій після успішного виконання COMMIT, але перед тим, як, оновлення будуть фізично записано в базу даних (вони все ще можуть залишатися в буфері оперативної пам'яті і таким чином можуть бути загублені в момент збою системи). Навіть якщо подібне трапилося, процедура перезавантаження системи все одно повинна встановлювати ці оновлення в базу даних, досліджуючи відповідні записи у файлі реєстрації. З цього випливає, що файл реєстрації повинен бути фізично записаний перед завершенням операції COMMIT. Це важливе правило ведення файлу реєстрації відомо як протокол попереднього запису в журнал (тобто запис про операції здійснюється перед її виконанням). Таким чином, процедура перезавантаження зможе відновити будь-які успішно завершені транзакції, хоча їх оновлення не були записані фізично до аварійної відмови системи. Отже, як зазначалося раніше, транзакція дійсно є одиницею відновлення.

15.2.3 Властивості Асіда.

З попередніх розділів слід, що транзакції володіють чотирма важливими властивостями: атомарность, узгодженість, ізоляція і довговічність (назвемо це властивостями Асіда).
1. Атомарність. Транзакції атомарний (виконується все або нічого).
2. Узгодженість. Транзакції захищають базу даних узгоджено. Це означає, що транзакції переводять одне узгоджене стан бази даних в інше без обов'язкової підтримки узгодженості у всіх проміжних точках.
3. Ізоляція. Транзакції відокремлені одна від одної. Це означає, що, якщо навіть буде запущено безліч конкурують один з одним транзакцій, будь-яке оновлення певної транзакції буде приховано від інших до тих пір, поки ця транзакція виконується. Іншими словами, для будь-яких двох віддалених транзакцій Т1 і Т2 справедливо наступне твердження: Т1 зможе побачити оновлення Т2 тільки після виконання Т2, а Т2 зможе побачити оновлення Т1 лише після виконання Т1.
4. Довговічність. Коли транзакція виконана, її оновлення зберігаються, навіть якщо в наступний момент станеться збій системи.

15.3 Алгоритм відновлення після збою системи

Система повинна бути готова до відновлення не тільки після невеликих локальних порушень, таких як невиконання операції в межах певної транзакції, а також і після глобальних порушень типу збоїв у харчуванні обчислювального пристрою та ін Місцевий порушення за визначенням вражає тільки транзакцію, в якій воно власне і відбулося. Глобальне порушення вражає відразу всі транзакції і, отже, призводить до значних для системи наслідків.
Існує два види глобальних порушень:
1. Відмови системи (наприклад, збої в харчуванні), що вражають всі запущені в даний момент транзакції, але фізично не порушують базу даних в цілому. Такі порушення в системі також називають аварійним відмовою програмного забезпечення.
2. Відмови носіїв (наприклад, поломка головок дискового накопичувача), які можуть представляти загрозу для бази даних або для будь-якої її частини і вражати. принаймні, ті транзакції, які використовують цю частину бази даних. Відмови носіїв також називають аварійним відмовою апаратури.

15.3.1 Відновлення після відмов системи

Критичною точкою у відмові системи є втрата вмісту оперативної пам'яті (зокрема, робочих буферів бази даних). Оскільки точне стан будь-якої виконується в момент порушення транзакції не відомо, транзакція може не завершитися успішно і, таким чином, буде скасована при перезавантаженні системи.
Більше того, можливо, буде потрібно повторно виконати певну успішно завершилася до аварійної відмови транзакцію при перезавантаженні системи, якщо не були фізично виконані оновлення цієї транзакції.
Для визначення під час перезавантаження, яку транзакцію скасувати, а яку виконати повторно система в деякому встановленому інтервалі (коли в журналі накопичується певна кількість записів) автоматично приймає контрольну точку. Прийняття контрольної точки включає фізичну запис вмісту робочих буферів бази даних безпосередньо в базу даних і спеціальну фізичну запис контрольної точки, яка надає список всіх здійснюваних в даний момент транзакцій. На REF _Ref9934890 \ h \ * MERGEFORMAT рис. 15.1 розглядається п'ять можливих варіантів виконання транзакцій до аварійного збою системи.

t _c

t _f

Контрольна точка
(Час t _c)

Відмова системи
(Час t _f)

Транзакції

Час

рис. STYLEREF 1 \ s 15. SEQ рис. \ * ARABIC \ s 1 січня Варіанти виконання п'яти транзакцій.
Пояснення до REF _Ref9934890 \ h \ * MERGEFORMAT рис. 15.1 :
1. Відмова системи відбувся в момент часу tf.
2. Прилегла до моменту часу tf контрольна крапка була прийнята в момент часу tc.
3. Транзакція Т1 успішно завершена до моменту часу tc.
4. Транзакція Т2 розпочата до моменту часу tc і успішно завершена після моменту часу tc, але до моменту часу tf.
5. Транзакція ТЗ також розпочато до моменту часу tc, але не завершена на момент часу tf
6. Транзакція Т4 почата після моменту часу tc і успішно завершена до моменту часу tf.
7. Транзакція Т5 також розпочато після моменту часу tc, але не завершена на момент часу tf.
Очевидно, що при перезавантаженні системи транзакції типу ТЗ і Т5 повинні бути скасовані, а транзакції типу Т2 і Т4 - виконані повторно. Тим не менш зауважте, що транзакції типу Т1 взагалі не включаються в процес перезавантаження, тому що оновлення потрапили в базу даних ще до моменту часу tc (тобто зафіксовані ще до прийняття контрольної точки). Відзначте також, що транзакції, що завершилися невдало (в тому числі скасовані) перед моментом часу tf, взагалі не будуть залучені до процесу перезавантаження.

15.4 Паралелізм. Проблеми паралелізму

Термін паралелізм означає можливість одночасної обробки в СУБД багатьох транзакцій з доступом до одних і тих же даних, причому в один і той же час. У такій системі для коректної обробки паралельних транзакцій без виникнення конфліктних ситуацій необхідно використовувати певний метод управління паралелізмом.
Кожен метод управління паралелізмом призначений для вирішення певної конкретної задачі. Тим не менш, при обробці правильно складених транзакцій виникають ситуації, які можуть призвести до отримання неправильного результату через взаємних перешкод серед деяких транзакцій. (Зверніть увагу, що вносить перешкоду транзакція сама по собі може бути правильною. Неправильний кінцевий результат виникає унаслідок безконтрольного чергування операцій з двох правильних транзакцій). Основні проблеми, що виникають при паралельній обробці транзакцій наступні:
1. проблема втрати результатів оновлення;
2. проблема незафіксованою залежності;
3. проблема несумісного аналізу.

15.4.1 Проблема втрати результатів поновлення

Розглянемо ситуацію, показану на REF _Ref10022190 \ h \ * MERGEFORMAT рис. 15.2 , В такій інтерпретації: транзакція A витягує деякий кортеж p в момент часу t1; транзакція B витягує деякий кортеж p в момент часу t2; транзакція A оновлює деякий кортеж p (на основі значень, отриманих у момент часу t1) в момент часу t3; транзакція B оновлює той же кортеж р (на основі значень, отриманих у момент часу t2, які мають ті ж значення, що і в момент часу t1) в момент часу t4. Однак результат операції оновлення, виконаної транзакцією A, буде втрачено, оскільки в момент часу t4 вона не буде врахована і тому буде "скасована" операцією оновлення, виконаної транзакцією B.

Транзакція A	Час	Транзакція B
Витяг кортежу р	t1	-
-	t2	Витяг кортежу р
Оновлення кортежу р	t3	-
-	t4	Оновлення кортежу р

рис. STYLEREF 1 \ s 15. SEQ рис. \ * ARABIC \ s 1 2. Втрата в момент часу t4 результатів оновлення, виконаного транзакцією A.

15.4.2 Проблема незафіксованою залежності

Проблема незафіксованою залежності з'являється, якщо за допомогою деякої транзакції здійснюється вилучення (або, що ще гірше, оновлення) деякого кортежу, який в даний момент оновлюється інший транзакцією, але це оновлення ще не закінчено. Таким чином, якщо оновлення не завершено, існує певна ймовірність того, що вона не буде завершена ніколи. (Більше того, у подібному випадку може бути виконаний повернення до попереднього стану кортежу зі скасуванням виконання транзакції.) B такому разі, в першій транзакції будуть приймати участь дані, яких більше не існує. Ця ситуація показана на REF _Ref10022022 \ h \ * MERGEFORMAT рис. 15.3 , REF _Ref10022061 \ h \ * MERGEFORMAT рис. 15.4 .
У першому прикладі (REF _Ref10022022 \ h \ * MERGEFORMAT рис. 15.3 ) Транзакція A в момент часу t2 зустрічається з невиконаним оновленням (воно також називається невиконаним зміною). Потім це оновлення скасовується в момент часу t3. Таким чином, транзакція A виконується на основі фальшивого припущення, що кортеж р має деяке значення в момент часу t2, тоді як насправді він має деяке значення, що існувало ще в момент часу t1. У підсумку після виконання транзакції A буде отриманий невірний результат. Крім того, зверніть увагу, що скасування виконання транзакції B може відбутися не з вини транзакції B, а, наприклад, в результаті краху системи. (До цього часу виконання транзакції A може бути вже завершено, а тому крах системи не призведе до скасування виконання транзакції A.)

Транзакція A	Час	Транзакція B
-	t1	Оновлення кортежу р
Витяг кортежу р	t2	-
-	t3	Скасування виконання транзакції

рис. STYLEREF 1 \ s 15. SEQ рис. \ * ARABIC \ s 1 3. Транзакція A стає залежною від невиконаного зміни в момент часу t2.

Транзакція A	Час	Транзакція B
-	t1	Оновлення кортежу р
Оновлення кортежу р	t2	-
-	t3	Скасування виконання транзакції

рис. STYLEREF 1 \ s 15. SEQ рис. \ * ARABIC \ s 1 4. Транзакція A оновлює невиконане зміна в момент часу t2, і результати цього оновлення втрачаються в момент часу t3.
Другий приклад, наведений на REF _Ref10022061 \ h \ * MERGEFORMAT рис. 15.4 , Ілюструє інший випадок. Не тільки транзакція A стає залежною від зміни, не виконаного в момент часу t2, але також у момент часу t3 фактично втрачається результат оновлення, оскільки скасування виконання транзакції B в момент часу t3 призводить до відновлення кортежу р до початкового значення в момент часу t1. Це ще один варіант проблеми втрати результатів оновлення.

15.4.3 Проблема несумісного аналізу

На REF _Ref10022275 \ h \ * MERGEFORMAT рис. 15.5 показані транзакції A і B, які виконуються для кортежів з рахунками (REF _Ref10087105 \ h \ * MERGEFORMAT табл. 9.1 ). При цьому транзакція A підсумовує баланси, транзакція B робить переклад суми 10 з рахунку 3 на рахунок 1. Отриманий у результаті транзакції A результат 110, очевидно, є помилковим, і якщо він буде записаний в базі даних, то в ній може виникнути проблема несумісності. У такому випадку говорять, що транзакція A зустрілася з несумісним станом і на його основі був виконаний несумісний аналіз. Зверніть увагу на наступне відмінність між цим прикладом і попереднім: тут не йдеться про залежність транзакції A від транзакції B, тому що транзакція B виконала всі оновлення до того, що транзакція A витягла РАХУНОК 3.
табл. STYLEREF 1 \ s 15. SEQ табл. \ * ARABIC \ s 1 січня Залишки на рахунках до виконання транзакцій.

Рахунок	РАХУНОК 1	РАХУНОК 2	РАХУНОК 3
Залишок	40	50	30

Транзакція A	Час	Транзакція B
Витяг кортежу РАХУНОК 1: СУМА = 40	t1	-
Витяг кортежу РАХУНОК 1: СУМА = 90	t2	-
-	t3	Витяг кортежу РАХУНОК 3:
-	t4	Оновлення кортежу РАХУНОК 3: 30 ® 20
-	t5	Витяг кортежу РАХУНОК 1:
-	t6	Оновлення кортежу РАХУНОК 1: 40 ® 50
-	t7	Завершення виконання транзакції
Витяг кортежу РАХУНОК 3: СУМА = 110 (а не 120)	t8	-

рис. STYLEREF 1 \ s 15. SEQ рис. \ * ARABIC \ s 1 5. Транзакція A виконала несумісний аналіз.

15.5 Поняття блокування

Описані вище проблеми можуть бути вирішені за допомогою методики управління паралельним виконанням процесів під назвою блокування. Її основна ідея дуже проста: у випадку, коли для виконання деякої транзакції необхідно, щоб деякий об'єкт (зазвичай це кортеж бази даних) не змінювався непередбачувано і без відома цієї транзакції (як це зазвичай буває), такий об'єкт блокується. Таким чином, ефект блокування полягає в тому, щоб "заблокувати доступ до цього об'єкту з боку інших транзакцій", а значить, запобігти непередбачуване зміна цього об'єкта. Отже, перша транзакція в змозі виконати всю необхідну обробку з урахуванням того, що оброблюваний об'єкт залишається у стабільному стані настільки довго, наскільки це потрібно.
Припустимо, що в системі підтримується два типи блокувань: блокування без взаємного доступу (монопольне блокування), звана Х-блокуванням (X locks - exclusive locks), і блокування з взаємним доступом, звана S-блокуванням (S locks - Shared locks). Зауваження. Х-і S-блокування іноді називають блокуваннями запису і читання відповідно. Припустимо, що Х-і S-блокування єдино можливі, хоча в комерційних системах існують блокування інших типів. Крім того, припустимо, що в кортежі є єдиним типом "блокується об'єкта", хоча знову ж н в комерційних системах можуть блокуватися і інші об'єкти. Нижче показано функціонування механізму блокувань.
1. Якщо транзакція A блокує кортеж р без можливості взаємного доступу (Х-блокування), то запит іншої транзакції B з блокуванням цього кортежу p буде відмінено.
2. Якщо транзакція A блокує кортеж р з можливістю взаємного доступу (S-блокування), то:
2.1. запит з боку деякої транзакції B на Х-блокування кортежу буде знехтуваний;
2.2. запит з боку деякої транзакції B на S-блокування кортежу р буде прийнятий (тобто транзакція B також буде блокувати кортеж р з допомогою S-блокування).
Ці правила можна наочно представити у вигляді матриці сумісності, показаної на REF _Ref9935050 \ h \ * MERGEFORMAT рис. 15.6 , Та інтерпретувати її наступним чином. Розглянемо деякий кортеж р і припустимо, що транзакція A блокую кортеж р різними типами блокування (це позначено відповідними символами S і X, а відсутність блокування - прочерком). Припустимо також, що деяка транзакція B запитує блокування кортежу р, що позначено в першому зліва стовпчику матриці на REF _Ref9935050 \ h \ * MERGEFORMAT рис. 15.6 (Для повноти картини в таблиці також наведено випадок "відсутності блокування"). В інших осередках матриці символ N позначає конфліктну ситуацію (запит з боку транзакції B не може бути задоволений, і сама ця транзакція переходить в стан очікування), a Y - повну сумісність (запит з боку транзакції B задоволений). Очевидно, що ця матриця є симетричною.

	X	S	-
X	N	N	Y
S	N	Y	Y
-	Y	Y	Y

рис. STYLEREF 1 \ s 15. SEQ рис. \ * ARABIC \ s 1 6. Матриця сумісності для Х-і S-блокування.
Введемо протокол доступу до даних, який на основі введення тільки що описаних Х-і S-блокування дозволяє уникнути виникнення проблем паралелізму.
1. Транзакція, призначена для вилучення кортежу, перш за все повинна накласти S-блокування на цей кортеж.
2. Транзакція, призначена для оновлення кортежу, перш за все повинна накласти Х-блокування на цей кортеж. Інакше кажучи, якщо, наприклад, для послідовності дій типу витяг / оновлення для кортежу вже задана S-блокування, то її необхідно замінити Х-блокуванням. Блокування у транзакціях звичайно задаються неявним чином: наприклад, запит на "вилучення кортежу" є неявним запитом з S-блокуванням, а запит на "оновлення кортежу" - неявним запитом з Х-блокуванням відповідного кортежу. При цьому під терміном "оновлення" (як і раніше) маються на увазі крім самих операцій оновлення також операції вставки та видалення.
3. Якщо запитувана блокування з боку транзакції B відкидається через конфлікт з деякої іншої блокуванням з боку транзакції A, то транзакція B переходить в стан очікування. Причому транзакція B буде перебувати в стані очікування до тих пір, поки не буде знято блокування, задана транзакцією A. У системі обов'язково повинні бути передбачені способи усунення нескінченно довгого стану очікування транзакції B.
4. Х-блокування зберігаються аж до кінця виконання транзакції (до операції "завершення виконання" або "скасування виконання"). S-блокування також зазвичай зберігаються аж до цього моменту.

15.6 Рішення проблем паралелізму

Розглянемо рішення проблем паралелізму за допомогою механізму блокувань.

15.6.1 Проблема втрати результатів оновлення.

На REF _Ref10022336 \ h \ * MERGEFORMAT рис. 15.7 наведена змінена версія процесу, показаного на REF _Ref10022190 \ h \ * MERGEFORMAT рис. 15.2 , З урахуванням застосування протоколу блокування для чергуються операцій. Операція оновлення для транзакції A в момент часу t3 не буде виконана, оскільки вона є неявним запитом із завданням Х-блокування для кортежу р, а цей запит вступає в конфлікт з S-блокуванням, вже заданої транзакцією B. Таким чином, транзакція A переходить в стан очікування. З аналогічних причин транзакція B переходить в стан очікування в момент часу t4.Обновленія тепер не втрачаються, проте виникає нова проблема - нескінченне очікування або тупикова ситуація. Способи вирішення цієї проблеми розглядаються нижче.

Транзакція A	Час	Транзакція B
Витяг кортежу р (Завдання S-блокування для p)	t1	-
-	t2	Витяг кортежу р (Завдання S-блокування для p)
Оновлення кортежу р (Завдання X-блокування для p)	t3	-
Очікування	t4	Оновлення кортежу р (Завдання X-блокування для p)
Очікування		Очікування

рис. STYLEREF 1 \ s 15. SEQ рис. \ * ARABIC \ s 1 7. Хоча оновлення не втрачаються, але в момент часу t4 виникає тупикова ситуація.

15.6.2 Проблема незафіксованою залежності.

На REF _Ref10022391 \ h \ * MERGEFORMAT рис. 15.8 , REF _Ref10022393 \ h \ * MERGEFORMAT рис. 15.9 наведені в зміненому вигляді приклади, показані раніше на REF _Ref10022022 \ h \ * MERGEFORMAT рис. 15.3 і REF _Ref10022061 \ h \ * MERGEFORMAT рис. 15.4 відповідно. Вони демонструють чередующееся виконання операцій згідно описаного вище протоколу блокування. Операція для транзакції A в момент часу t2 (витяг на REF _Ref10022391 \ h \ * MERGEFORMAT рис. 15.8 і оновлення на REF _Ref10022393 \ h \ * MERGEFORMAT рис. 15.9 ) Не буде виконана. Справа в тому, що вона є неявним запитом із завданням блокування для кортежу р, а цей запит вступає в конфлікт з Х-блокуванням, вже заданої транзакцією B. Таким чином, транзакція A переходить в стан очікування до тих пір, поки не буде припинено виконання транзакції B (до операції закінчення або скасування виконання транзакції B). Тоді задана транзакцією B блокування буде знято і транзакція A може бути виконана. Причому транзакція A буде мати справу з деяким фіксованим значенням (або існували до виконання транзакції B при скасуванні її виконання, або отриманими після виконання транзакції B). У будь-якому випадку транзакція A більше не залежить від незафіксованого оновлення.

Транзакція A	Час	Транзакція B
-	t1	Оновлення кортежу р (Завдання X-блокування для p)
Витяг кортежу р (Завдання S-блокування для p)	t2	-
Очікування	t3	Скасування виконання транзакції (Зняття X-блокування для p)
Підсумок: Витяг кортежу р (Завдання S-блокування для p) Додати в блог або на сайт Цей текст може містити помилки. Програмування, комп'ютери, інформатика і кібернетика \| Лекція 741.2кб. \| скачати Схожі роботи: Фізична організація баз даних на машинних носіях Просопографіческіе бази даних Росії на прикладі баз даних Comandarm і Duma1 Створення бази даних критичних властивостей речовин в редакторі баз даних MS Access Проектування баз даних MS Access Паралельні машини баз даних Історія розвитку баз даних Особливості проектування баз даних Розробка машини баз даних

Тип даних	Опис
CHAR (довжина)	Рядки символів постійної довжини
CHARACTER (довжина)	Рядки символів постійної довжини
VARCHAR (довжина)	Рядки символів змінної довжини *
CHAR VARYING (довжина)
CHARACTER VARYING (довжина)
NСНАР (довжина)	Рядки локалізованих символів постійної довжини *
NATIONAL CHAR (довжина)
NATIONAL CHARACTER (довжина)
NCHAR VARYING (довжина)	Рядки локалізованих символів змінної довжини *
NATIONAL CHAR VARYING (довжина)
NATIONAL CHARACTER VARYING (довжина)
INTEGER	Цілі числа
INT	Цілі числа
SMALLINT	Маленькі цілі числа
BIT (довжина)	Рядки бітів постійної довжини *
BIT VARYNG (довжина)	Рядки бітів змінної довжини *
NUMERIC (точність, ступінь)	Масштабовані цілі (десяткові) числа
DECIMAL (точність, ступінь)
DEC (точність, ступінь)
FLOAT (точність)	Числа з плаваючою комою
REAL	Числа з плаваючою комою низької точності
DOUBLE PRECISION	Числа з плаваючою комою високої точності
DATE	Календарна дата *
TIME (точність)	Час
TIME STAMP (точність)	Дата і час *
INTERVAL	Часовий інтервал *

Функція	Повертається
ВIT LENGTH (рядок)	кількість бітів у рядку
САSТ (значення AS тип даних)	значення, перетворене тип даних (наприклад, дата перетворена в рядок)
CHAR_LENGTH (рядок)	довжина рядка символів
CONVERT (рядок USING функція)	рядок, перетворена у відповідності з зазначеною функцією
CURRENT_DATE	поточна дата
CURRENT_TIME (точність)	поточний час з вказаною точністю
CURRENT_IMESTAMP (точність)	поточні дата і час з зазначеної точністю
EXTRACT (частина FROM значення)	зазначена частина (DAY, HOUR і т.д.) із значення типу DATETIME
LOWER (рядок)	рядок, перетворена до нижнього регістру
OCTETLENGTH (рядок)	кількість байтів у рядку символів
POSITION (перший рядок IN другий рядок)	позиція, з якої починається входження першого рядка у другий рядок
SUBSTRING (рядок FROM n FOR довжина)	частина рядка, що починається з n-го символу і має зазначену довжину
TRANSLATE (рядок USING функція)	рядок, перетворена з допомогою вказаної функції
TRIM (BOTH символ FROM рядок)	рядок, в якої вилучені перші і останні зазначені символи
TRIM (LEADING символ FROM рядок)	рядок, в якої вилучені першого зазначені символи
TRIM (TRAILING символ FROM рядок)	рядок, в якої вилучені останні зазначені символи
UPPER (рядок)	рядок, перетворена до верхнього регістру

Системна таблиця	Вміст
USERS	Один рядок для кожного ідентифікатора користувача в каталозі
SCHEMATA	Один рядок для кожної інформаційної схеми в каталозі
DATA_TYPE_DESCRIPTOR	Один рядок для кожного домену або стовпця, що має якийсь тип даних
DOMAINS	Один рядок для кожного домену
DOMAIN_CONSTRAINTS	Один рядок для кожного обмежувального умови, накладеного на домен
TABLES	Один рядок для кожної таблиці або подання
VIEWS	Один рядок для кожного подання
COLUMNS	Один рядок для кожного стовпця в кожному визначенні таблиці або подання
VIEW_TABLE_USAGE	Один рядок для кожної таблиці, на яку є посилання в будь-якому визначенні подання (якщо визначенням подання є багато табличні запити, кожна таблиця буде представлена окремим рядком)
VIEW_COLUMN_USAGE	Один рядок для кожного стовпця, на який є посилання в будь-якому поданні
TABLE_CONSTRAINTS	Один рядок для кожного обмежувального умови, заданого в будь-якому визначенні таблиці
KEY_COLUMN_USAGE	Один рядок для кожного стовпця, на який накладено умова унікальності і який присутній у визначенні первинного або зовнішнього ключа (якщо у визначенні ключа або умови унікальності зазначено кілька стовпців, то це визначення буде представлено декількома рядками)
REFERENTIAL_CONSTRAINTS	Один рядок для кожного визначення зовнішнього ключа, присутнього у визначенні таблиці
CHECK_CONSTRAINTS	Один рядок для кожної умови перевірки, заданого у визначенні таблиці
CHECK_TABLE_USAGE	Один рядок для кожної таблиці, на яку є посилання в умови перевірки, обмеженому умови для домену або затвердження
CHECK_COLUMN_USAGE	Один рядок для кожного стовпця, на який є посилання в умови перевірки, обмеженому умови для домену або затвердження
ASSERTIONS	Один рядок для кожного заданого твердження
TABLE_PRIVILEGES	Один рядок для кожної привілеї, наданої на будь-яку таблицю
COLUMN_PRIVILEGES	Один рядок для кожної привілеї, наданої на який-небудь стовпець
USAGE_PRIVILEGES	Один рядок для кожної привілеї, наданої на який-небудь домен, набір символів і т.п.
CHARACTER_SETS	Один рядок для кожного заданого набору символів
COLLATIONS	Один рядок для кожної заданої послідовності порівняння
TRANSLATIONS	Один рядок для кожного заданого перетворення
SQL_LANGUAGES	Один рядок для кожної мови (наприклад, COBOL, С і т.д.), підтримуваного СУБД даного типу

Подання в системному каталозі	Вміст
INFORMATION_SСНЕМА_CATALOG_NAME	Один рядок з ім'ям бази даних для кожного користувача ("каталогу" за термінологією стандарту SQL2), описуваного даної інформаційної схемою
SCHEMATA	Один рядок для кожної інформаційної схеми в базі даних, що належить поточному користувачеві; містить ім'я схеми, набір символів за замовчуванням і т.д.
DOMAINS	Один рядок для кожного домену, доступного активного користувача; містить ім'я домену, базовий тип даних, набір символів, максимальну довжину, ступінь, точність і т.д.
DOMAIN_CONSTRAINTS	Один рядок для кожного обмежувального умови домену; містить ім'я умови і його характеристики
TABLES	Один рядок для кожної таблиці або подання, доступних користувачеві; містить ім'я й ознака того, чи йде мова про таблиці або поданні
VIEWS	Один рядок для кожного подання, доступного користувачу; містить ім'я, інформацію про режим контролю та можливості оновлення.
COLUMNS	Один рядок для кожного стовпця, доступного користувачу; містить ім'я стовпця, ім'я таблиці або подання, які містять даний стовпець, тип містяться в ньому, ступінь, точність, набір символів і т.д.
TABLE_PRIVILEGES	Один рядок для. Кожної привілеї на таблицю, наданої користувачеві або наданої їм іншому користувачеві; містить ім'я таблиці, тип привілеї, вказівка на те, хто надав привілей, кому вона надана і чи має користувач право надання цього привілею
COLUMN_PRIVILEGES	Один рядок для кожної привілеї на стовпець, наданої користувачеві або наданої їм іншому користувачеві; містить ім'я таблиці та стовпця, тип привілеї, вказівка на те, хто надав привілей, кому вона надана і чи має користувач право надання цього привілею
USAGE_PRIVILEGES	Один рядок для кожної привілеї, наданої користувачеві або користувачем на будь-якої домен, набір символів і т.п.
TABLE_CONSTRAINTS	Один рядок на кожне обмежувальне умова (первинний ключ, зовнішній ключ, умова унікальності чи умова перевірки), заданий для таблиці, якою володіє користувач; містить ім'я умови і таблиці, тип умови і його характеристики
REFERENTIAL_CONSTRAINTS	Один рядок для кожного посилального обмеження (визначення зовнішнього ключа) на таблицю, якою володіє користувач; містить ім'я обмеження, ім'я таблиці-нащадка і ім'я таблиці-предка
CHECK__CONSTRAINTS	Один рядок на кожне умова перевірки для таблиці, якою володіє користувач
KEY_COLUMN_USAGE	Один рядок для кожного стовпця первинного або зовнішнього ключа, на який (стовпець) накладено), умова унікальності і який входить в таблицю, що належить користувачеві; рядок містить ім'я таблиці, ім'я стовпця та позицію стовпця в ключі
ASSERTIONS	Один рядок для кожного твердження, яким володіє користувач; містить ім'я утвердження і його характеристики
CHARACTER_SETS	Один рядок для кожного визначення набору символів, доступного користувачу
COLLATIONS	Один рядок для кожного визначення послідовності порівняння, доступного користувачу
TRANSLATIONS	Один рядок для кожного визначення перетворення, доступного користувачу
VIEW_TABLE_USAGE	Один рядок для кожної таблиці, на яку є посилання у визначеннях уявлень, що належать користувачу; рядок містить ім'я таблиці
VIEW_COLUMN_USAGE	Один рядок для кожного стовпця, на який є посилання в уявленнях, що належать користувачу; рядок містить ім'я стовпця і таблиці, в яку входить стовпець
CONSTRAINT_TABLE_ USAGE	Один рядок для кожної таблиці, на яку є посилання в умови перевірки, умови унікальності, затвердження та визначенні зовнішнього ключа, що належать користувачеві
CONSTRAINT_COLUMN_ USAGE	Один рядок для кожного стовпця, на який є посилання в умови перевірки, умови унікальності, затвердження та визначенні зовнішнього ключа, що належать користувачеві
SQL_LANGUAGES	Один рядок для кожної мови (наприклад, COBOL, С і т.д.), підтримуваного СУБД даного типу; в рядку вказується рівень відповідності мови стандарту SQL2, тип підтримуваного діалекту SQL і т.д.

Системний домен	Область значень домену
SQL_IDENTIFIER	Домен всіх символьних рядків змінної довжини, які є допустимими ідентифікаторами SQL відповідно до стандарту SQL2. Будь-яке значення, взяте з цього (домену, є допустимим ім'ям таблиці, ім'ям стовпця і т.д.
CHARACTER_DATA	Домен всіх символьних рядків змінної довжини, що мають довжину від нуля до максимального значення, підтримуваного даної СУБД. Значення, взяте з цього домену, є допустимими символьним рядком.
CARDINAL_NUMBER	Домен всіх невід'ємних чисел від нуля до максимального цілого числа, з яким може працювати дана СУБД. Значення, взяте з цього домену, є нулем або допустимим позитивним числом.

Chief.TName	SubOrdinate.TName
NULL	Іванов
Іванов	Петров
Петров	Стрільців
Петров	Сидоров
Сидоров	NULL
Стрільців	NULL

Організація баз даних

ЛЕКЦІЯ 1. Поняття СУБД. Функції СУБД

1.1 Введення

1.2 Поняття БД і СУБД

ЛЕКЦІЯ 7. Проектування БД. Нормальні форми відносин (продовження)

7.1 Багатозначні залежності

7.2 Четверта нормальна форма

7.3 Залежності з'єднання

7.4 П'ята нормальна форма

7.4.1 Залежності з'єднання, що мається на увазі потенційними ключами

7.5 Підсумкова схема процедури нормалізації

ЛЕКЦІЯ 8. Проектування БД методом сутність-зв'язок. ER-діаграми

8.1 Виникнення семантичного моделювання

8.2 Основні поняття методу

8.3 Діаграми ER-екземплярів і ER-типу

8.3.1 Зв'язки типу 1:1 і необов'язковий клас приналежності

8.3.2 Зв'язки типу 1:1 і обов'язковий клас приналежності

8.3.3 Зв'язки типу 1: М варіант Н-О

8.3.4 Зв'язки типу М: М і варіант класу приналежності О-Н

8.4 Правила формування відносин

8.4.1 Ступінь зв'язку 1:1, клас приналежності обох сутностей обов'язковий

8.4.2 Ступінь зв'язку 1:1, клас приналежності однієї сутності обов'язковий, а другий - необов'язковий

8.4.3 Ступінь зв'язку 1:1, клас приналежності обох сутностей - необов'язковий

8.4.4 Ступінь зв'язку між сутностями 1: М (або М: 1), клас приналежності М-зв'язковий сутності обов'язковий

8.4.5 Ступінь зв'язку 1: М (М: 1) і клас приналежності М-зв'язковий сутності - необов'язковий

8.4.6 Ступінь зв'язку М: М, незалежно від класу приналежності сутностей

8.5 Методологія IDEF1 (самостійне вивчення)

ЛЕКЦІЯ 9. Мова SQL

9.1 Історія створення та розвитку SQL

9.2 Основні поняття SQL

9.2.1 Оператори

9.2.2 Імена.

9.2.3 Типи даних в SQL

9.2.4 Константи

9.3 Запити на читання даних. Оператор SELECT

9.3.1 Пропозиція SELECT

9.3.2 Пропозиція FROM

9.3.3 Відбір рядків (пропозиція WHERE)

9.3.4 Умови пошуку

9.3.5 Сортування результатів запиту (пропозиція ORDER BY).

9.4 багатотабличних запити на читання (об'єднання).

9.4.1 Запити з використанням відносини предок / нащадок.

9.4.2 Інші об'єднання таблиць з рівності

ЛЕКЦІЯ 10. Мова SQL (продовження)

10.1 Об'єднання і стандарт SQL2

10.1.1 Внутрішні об'єднання в стандарті SQL2

10.1.2 Зовнішні об'єднання в стандарті SQL2

10.1.3 Перехресні об'єднання та запити на об'єднання в SQL2

10.1.4 багатотабличних об'єднання в стандарті SQL2

10.2 Підсумкові запити на читання. Агрегатні функції

10.2.1 Агрегатні функції і значення NULL

10.3 Запити з угрупованням (пропозиція GROUP BY)

10.3.1 Кілька стовпців угруповання

10.3.2 Обмеження на запити з угрупуванням

10.3.3 Значення NULL в стовпцях угруповання

10.3.4 Умови пошуку груп (пропозиція HAVING)

10.3.5 Обмеження на умови пошуку груп

10.3.6 Пропозиція HAVING без GROUP BY

10.4 Вкладені запити

10.4.1 Умови пошуку у вкладеному запиті

10.4.2 Вкладені запити та об'єднання

10.4.3 Рівні вкладеності запитів

10.4.4 Вкладені запити в пропозиції HAVING

ЛЕКЦІЯ 11. Мова SQL. (Продовження)

11.1 Внесення змін до бази даних.

11.1.1 Додавання нових даних (оператор INSERT).

11.2 Видалення існуючих даних (Оператор DELETE)

11.3 Оновлення існуючих даних (Оператор UPDATE)

11.4 Визначення структури даних в SQL

11.4.1 Створення таблиці (оператор CREATE TABLE)

11.4.2 Видалення таблиці (оператор DROP TABLE)

11.4.3 Зміна визначення таблиці (оператор ALTER TABLE)

11.4.4 Визначення доменів

11.4.5 Індекси (оператори CREATE / DROP INDEX)

11.5 Поняття представлення.

11.5.1 Переваги уявлень

11.5.2 Недоліки уявлень

11.6 Подання в SQL.

11.6.1 Оновлення уявлень і стандарт ANSI / ISO

11.6.2 Видалення подання (оператор DROP VIEW)