Ім'я файлу: Лабораторна_робота_№1_ОАП_СОС.pdf
Розширення: pdf
Розмір: 1088кб.
Дата: 21.02.2024
скачати
Пов'язані файли:
Бланки для практичної роботи (3).docx

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
Національний університет “Львівська політехніка”
Інститут комп’ютерних наук та інформаційних технологій
Кафедра САП
МЕТОДИЧНІ ВКАЗІВКИ
до виконання лабораторної роботи №1
з дисципліни: “Основи автоматизованого проектування складних об'єктів і систем”
на тему:
“Попередня обробка експериментальних даних. Дисперсійний аналіз”
Затвердженона засiданнi кафедри

Системи автоматизованого проектування"
Протокол № _ від __.__.____ р.
ЛЬВІВ – 2023

2
ПОПЕРЕДНЯ
ОБРОБКА
ЕКСПЕРИМЕНТАЛЬНИХ
ДАНИХ.
ДИСПЕРСІЙНИЙ АНАЛІЗ. Методичні вказівки до виконання лабораторної
роботи №1 з дисципліни: “Основи автоматизованого проектування
складних об'єктів і систем” для студентів базового напряму 122
”Комп’ютерні науки” освітньо-кваліфікаційного рівня бакалавр. /Укл.:
Матвійків О.М., Бокла Н.І., Климкович Т.А. – Львів: Національний університет ''Львівська політехніка'', 2023. – 11 с.
Укладачі:
Матвійків О. М., д-р тех. наук, проф. каф. САП
Климкович Т.А., к. ф-м наук, доц. каф. САП
Бокла Н.І., канд. техн. наук, доц. каф. САП

3
Загальна постановка задачі статистичного проектування СОС
По своїй природі, всі складні об’єкти, процеси і системи (СОС) можна розділити на 2 класи – детерміновані і стохастичні. Детерміновані це такі системи, параметри яких можна визначити в результаті вивчення їх фізичної природи чи механізму. Стохастичними називають такі системи, в яких зміна параметрів відбувається хаотично і їх однозначна оцінка
є неможливою (або нереальною з практичної точки зору). В залежності від такої природи досліджуваного СОС, будують або жорсткі (фізичні) або ймовірнісні (статистичні) моделі.
Однак, дуже часто буває важко віднести конкретний процес до відповідного типу моделі із-за того, що детерміновані моделі можуть включати в себе деякі стохастичні складові.
Наприклад, швидкість хімічної реакції:








kT
E
A
akt
exp
0
,
(1) де A
o
– передекспоненційна константа, яка визначається із експериментальних досліджень, напр., за допомогою регресійного аналізу.
Також відомо, що більшість досліджень, які проводяться в фізиці, хімії, металургії, тощо, зводяться до вирішення екстремальних задач, направлених на пошук оптимальних умов проходження процесів або на оптимальний вибір складу багатокомпонентних систем.
Наприклад, при проектуванні фізико-хімічних процесів, задача дослідження часто сформулюється наступним чином:
- необхідно отримати максимально можливий вихід «…чогось…», змінюючи температуру, тиск, співвідношення реагентів, тощо.
У технічній фізиці аналогічні багатофакторні екстремальні задачі зводяться до пошуку оптимальних умов протікання процесів для виготовлення сплавів з певними параметрами, надчистих матеріалів, виготовлення складних пристроїв, тощо. Як правило, такі системи, являються настільки складними, що вони не підлягають теоретичному дослідженню в розумні терміни. Тому, в більшості випадків екстремальні задачі розв’язуються експериментально, при неповному знанні механізмів процесу.
У випадку, коли необхідно порівняти характеристики однотипної продукції, яка випускається паралельно на різних однотипних установках, найкращим методом є дисперсійний аналіз. Його зміст полягає в тому, що при відмінностях в роботі технологічних установок середні значення параметрів, розраховані по вибірках, відрізняються один від одного більше, ніж можна було б очікувати від випадкових коливань.
В САПР (CAD/САЕ/CAM) використовуються математичні моделі, які базуються на різних математичних підходах. Однак, у випадку проектування вище згаданих складних технологічних систем, для забезпечення необхідної точності розрахунків, адекватності рішення і ефективності проведення обчислювального процесу використовують такі алгоритми, які дозволяють аналізувати як окремі технологічні операції, так і технологічний процес загалом. Із-за значної корельованості характеристик технологічних процесів і суттєвого впливу внутрішніх факторів виробничого циклу, отримані за допомогою жорстких математичних моделей розв’язки, можуть сильно відрізнятись від реальних даних. Ці аномалії усуваються за допомогою методів ідентифікації.
Значний інтерес в САПР до статистичних, зокрема регресійних моделей, спричинений тим, що вони, як правило, мають просту поліноміальну форму і дають можливість враховувати велику кількість різноманітних факторів. Це робить такі моделі дуже зручними для вирішення задач оптимізації та управління. Тому в даному комплексі лабораторних робіт розглядаються основи моделювання технологічних процесів і систем, основні математичні методи для побудови статистичних моделей технологічних операцій, та методи ідентифікації математичних моделей.

4
Мета роботи
:

вивчити основні методи статистичного аналізу

здійснити попередню обробку експериментальних даних

провести дисперсійний аналіз отриманої вибірки.
ТЕОРЕТИЧНІ ВІДОМОСТІ
1.1. Застосування статистичних методів аналізу
Як правило більшість систем в фізиці, хімії, технології, економіці та ін. областях являються дуже складними і, при неповному знанні всього механізму СОС, їх можна досліджувати лише експериментально. Тому, для їх вивчення проводять серії експериментів, які пов`язані з вимірюванням різних фізичних величин. В силу природи вимірів і в силу флуктуації умов експерименту, завжди буде спостерігатись розкид чи розсіювання вихідних параметрів. Тому, такі експериментальні дані представляють собою вибірку з деякого розподілу. Вибіркою називають частину експериментів, відібраних для досліджень з загальної сукупності експериментів, яку називають генеральною сукупністю. Якщо вибірка достатньо точно представляє відповідні характеристики генеральної сукупності, то таку вибірку називають репрезентативною.
З точки зору математики і статистики, безпосереднім завданням експерименту є організація репрезентованої вибірки. В результаті обробки даних отримується емпірична математична модель об`єкта, яка справедлива у тій області значень факторів (вхідних параметрів), в якій вони змінюються у процесі експерименту. Отримана модель може бути використана для оптимізації та автоматичного управління досліджуваного процесу.
Математично задача сформулюється наступним чином: необхідно отримати модель функціональної залежності


y
f x x
x
n

1 2
,
,...,
,
(2) де y -параметр процесу, котрий необхідно оптимізувати; (х
1
, х
2
, ... , х n
) - незалежні змінні, які можна змінювати в процесі експериментів.
Змінні (х
1
, х
2
, ... , х n
) називають факторами, а координатний простір з координатами х
1
, х
2
, ... , х n
факторним простором. Геометричний образ, який відповідає функції відгука, називають поверхнею відгука.
В статистиці також існує поняття генеральної сукупності. Генеральна сукупність - сукупність усіх можливих значень експериментів, які могли б бути проведені при даному комплексі умов. Результати обмеженого ряду спостережень розглядаються як вибірка з даної генеральної сукупності.
1.2. Попередня обробка результатів експериментів.
Попередня обробка результатів спостережень необхідна для того, щоб в подальшому з найбільшою ефективністю, а головне - коректно, використовувати ці експерименти для побудови емпіричних статистичних залежностей.
Часто помилки у вхідних експериментальних даних приводять до значних похибок статистичного аналізу. Інколи такі результати можна інтерпретувати, інколи – ні, але такі результати завжди будуть неточними.

5
Тому, перш ніж проводити будь-який аналіз необхідно провести первинну обробку вхідних даних.
Зміст попередньої обробки, в основному, полягає в тому, щоб відсіяти грубі похибки, які можуть з’являтись в експериментальних даних. На сьогоднішній день існує велика кількість рекомендацій для проведення відсіювання грубих похибок. Для прикладу розглянемо найпростіші.
1. Метод обчислення максимального відносного відхилення:
𝜏
𝑖
=
|𝑋
𝑖
− 𝑋̅|
𝑆
≤ 𝜏
1−𝑝
(3) де
𝑋
𝑖
і-й елемент вибірки, для якої шукають грубі викиди;
𝑋̅
– середнє значення вибірки; 𝑆̅
– середньоквадратичне відхилення вибірки;
𝜏
1−𝑝
– табличне значення критерію, обчислене при довірчій ймовірності q = 1 - p.
Якщо умова (3) виконується, то спостереження не відсіюють, а якщо не виконується – тоді весь експеримент необхідно видалити з вибірки. Для відсіювання того чи іншого спостереження у випадку малої вибірки користуються квантованим рівнем значимості р:
р=(0.1; 0.05; 0.025). На практиці в більшості випадків використовують р = 0.05.
2. Метод відсіювання грубих похибок для малої вибірки:
𝜏
𝑖
=
|𝑋
𝑗
−𝑋|
√(n-1)/n∗𝑆
≤ 𝜏
1−𝑝
(4)
Аналогічно, отриманий результат порівнюється з табличним значенням.
Для дослідження великих вибірок найкраще зарекомендували себе таблиці розподілу
Ст’юдента, які розраховуються за формулою:
𝜏
(p,n)
=
𝑡
(p,n-2)
∗√n-1
√n-2+[𝑡
(p,n-2)
]
2
(5)
У формулі (5)
𝑡
(p,n-2)
- критичне значення розподілу Ст’юдента.
Спрощена процедура відсіювання грубих викидів серед експериментальних вимірювань за допомогою таблиць Ст’юдента проводиться за таким алгоритмом:
1. Якщо експеримент містить декілька факторів, тоді оцінюємо грубі викиди для кожного фактору, який являє собою окрему вибірку
2. Для вибірки (фактору) перевіряємо кожне значення
𝑋
𝑖
шляхом розрахунку значення
𝝉
𝒊
за формулою (3) або (4)
3. За формулою (5) або за таблицею розподілу Ст’юдента знаходимо значення 𝝉
0.1%,𝑛
і
𝝉
5%,𝑛
В результаті, можемо отримати один з трьох результатів:
1) 𝝉
𝒊
≤ 𝝉
(𝟓%,𝒏)
;
2)𝝉
(𝟓%,𝒏)
< 𝝉
𝒊
< 𝝉
(𝟎.𝟏%,𝒏)
;
3)𝝉
𝒊
≥ 𝝉
(𝟎,𝟏%,𝒏)
Спостереження, які попали у 1-шу групу, не відсіюються. Спостереження, які попали в другу групу, можна відсіяти, якщо на користь цього є ще якісь інші міркування дослідника.
Спостереження третьої групи відсіюються завжди.

6
Загалом, при виявленні грубого викиду, реакція дослідника може бути двоякою:
1. Їх можна видалити з аналізу, оскільки ці значення не відносяться до досліджуваної популяції. А потім ці викиди рекомендується досліджувати окремо, так як вони можуть давати корисну інформацію з точки зору пошуку екстремуму.
2. Можна залишити ці експерименти в наборі даних для подальшого аналізу, якщо з фізичної точки зору вони є коректними. Але при цьому необхідно застосовувати процедури статистичного аналізу, які не чутливі до вхідних даних, тобто робастні процедури.
В даній лабораторній роботі потрібно притримуватись першого шляху, так як він дозволяє застосовувати класичні методи аналізу без додаткового ускладнення алгоритмів і програм.
1.3. Обчислення характеристик емпіричних розподілів.
Основними характеристиками любого розподілу випадкової величини є моменти. Існує три види моментів ряду розподілу.
1. Початкові моменти представляють собою суму відхилень середніх значень розділів гістограми від деякої довільної точки
X
a
, взятої в n-ій степені і помноженій на відповідну частковість.
Тоді початкові моменти з врахуванням центрів розрядів j
X
можна визначити із співвідношення: j
h a
j k
1
=
j
1
n h
l
*
)
X
-
X
(
=
m


(5)
Якщо
0
=
X
a
, то для вибірки об'ємом n:


k
1
=
j j
h j
1
n h
l
*
X
=
m
,
(6) а у випадку h=1 ми одержимо середнє значення:


k
1
=
j j
j
1
n
1
l
*
X
=
X
=
m
(7)
2. Центральні моменти, які відмінні від початкових тільки обов'язковою рівністю
X
=
X
a
, тобто


k
1
=
j j
h j
1
n h
l
*
)
X
-
X
(
=

(8)
1-й центральний момент

1
називається математичним сподіванням і є вибірковим
середнім значенням для даних спостережень.
2-й центральний момент

2
називається дисперсією розподілу і показує відхилення кожного спостереження від середнього значення
2
k
1
=
j j
2 2
)
X
-
(X
n
1
=
S



Звідси можна розрахувати середньоквадратичне відхилення
𝑆̅ = √𝜇
2

7 3. Основні моменти представляють собою відношення центральних моментів до середньоквадратичного відхилення у відповідній степені:
𝜏

=
𝜇

𝑆

,
(9)
На практиці корисними є:

Третій основний момент служить мірою косості (асиметрії) кривої розподілу відносно центра. Коефіцієнт асиметрії може бути додатним, від’ємним, або рівним нулю. В останньому випадку говорять, що крива розподілу є симетричною.

Четвертий основний момент служить мірою крутості (ексцесом) кривої вибіркового розподілу відносно кривої нормального розподілу і може приймати значення в межах від мінус двох до безмежності.
Емпіричні характеристики розподілів визначаються безпосередньо в процесі рішення задач при обробці результатів спостережень і побудові регресійних моделей.
Крім наведених характеристик, на практиці ще використовують ряд інших:
Медіаною випадкової величини X називається таке її значення Ме
х
, яке знаходиться на середині впорядкованого ряду. Таким чином, медіана – це таке значення досліджуваного параметра, яке ділить впорядкований ряд вибірки на дві рівні за об’ємом групи.
Якщо у впорядкованому ряді вибірки (2і+1) експериментів, то значення (і+1)-го експерименту буде медіанним. Якщо в ряді парне число експериментів (2і), то медіана рівна середньому арифметичному від цих двох значень.









n
парного
для
x
x
n
непарного
для
x
Me
i
i
i
,
2
,
1 1
( )
Модою випадкової величини Х називається те значення параметра Mo
x
, яке найбільш часто зустрічається в даному ряді вибірки. Для дискретного ряду мода визначається по частотах значень параметра і відповідає значенню параметра з найбільшою частотою.
Мірою лінійного зв’язку між двома випадковими величинами x
1
та x
2
являється звичайний коефіцієнт кореляції.
1.4. Перевірка гіпотези нормальності розподілу.
При оцінці результатів вимірювань важливим моментом обробки даних є перевірка гіпотези про те, що розподіл контрольованої випадкової величини Y наближається до теоретичної кривої нормального розподілу. Далі ця гіпотеза перевіряється з допомогою обчислення вирівнюючих частот вибраного розподілу і одного з критеріїв узгодження.
Якщо m
1,
;
n
1,
=
i
},
{X
=
X
ij
є матрицею m факторів з n значеннями вибірки кожного фактору, а вектор n
1,
=
i
},
{Y
=
Y
i відгуками факторів, то для кожної вибірки випадкової величини можна побудувати гістограму. Гістограма - це креслення в декартових координатах, де на осі абсцис відкладається весь діапазон (розмах) розподілу max min
X
-
X
, розбитий на k

8 рівних інтервалів (розрядів), а на осі ординат - відповідні даному розряду частоти (
j l
) або частковості (
p j
) появи випадкової величини.
Для не дуже великих вибірок (n<120) перевірка гіпотези на нормальність розподілу є простою і для її реалізації необхідно обчислити середнє абсолютне відхилення САВ:
CAB = 𝜀|𝑋
𝑖
− 𝑋|/n.
(10)
Для вибірки, яка має приблизно нормальний закон розподілу, буде справедливим наступний вираз:
|CAB/𝑆-0.7979|<0.4/√𝑛.
(11)
Крім того, уявлення про близькість емпіричного розподілу до нормального може дати аналіз показників асиметрії і ексцесу, які визначаються відповідно:
𝑞
1
=m
3
/m
2 3/2
, 𝑞
2
=m
4
/m
2 2
-3
(12)
Незміщені оцінки для показників асиметрії і ексцесу розраховуються за такими виразами:
𝐺
1
=
√𝑛(n-1)
n-2
𝑞
1
, 𝐺
2
=
n-1
(n-2)(𝑛−3)
[(n+1)𝑞
2
+6].
(13)
Середньоквадратичні відхилення для показників асиметрії і ексцесу є другою частиною перевірки гіпотези про нормальність розподілу:
 




 





5
+
n
3
+
n
2
- n
3
n
1
- n
n
24
=
S
,
3
n
1
+
n
2
- n
1
- n
n
6
=
S
2
G
G
2 1


(14)
Отже, якщо виконуються умови:
,
5S
G
i
3S
G
2 1
G
2
G
1


тоді гіпотеза нормальності досліджуваного розподілу може бути прийнята.
Якщо гіпотеза нормальності розподілу не може бути прийнята, то за допомогою
існуючих методів перетворюють вихідні дані так, щоб їх розподіл відповідав нормальному закону (При закінченні роботи з вибіркою необхідно виконати зворотні перетворення).
1. При логарифмуванні вхідних даних ліва гілка кривої розподілу сильно витягується і розподіл може прийняти характер близький до нормального. Якщо при перетворені
 

x = lg x отримуються значення в межах від 0 до 1, то для зручності розрахунків їх слід помножити на 10 у відповідній степені, тобто виконати перетворення:
 

x = lg x *10

2. Асиметричний розподіл з однією вершиною часто приводиться до нормального перетворення за допомогою виразу


x = lg x a

3. В окремих випадках можна використовувати інші перетворення, наприклад

x = 1/ x або

x = 1/
x
4. Для нормалізації зміщеного вправо розподілу використовують тригонометричні і степеневі перетворення виду

x = x

, де а=1.5 при помірному зміщенні і а=2 при сильному.

9
Якщо не вдається привести даний розподіл до нормального закону, тоді не можна розраховувати на побудову адекватної моделі емпіричної залежності. Тільки після успішного вирішення даної задачі можна перейти до безпосередньої побудови регресійної моделі.
1.5. Дисперсійний аналіз.
В окремих випадках кількість факторів, котрі впливають на досліджуваний параметр, може бути дуже великою. А це суттєво збільшує розмір емпіричної моделі та вимагає дуже великих обчислювальних затрат. Такі розрахунки не завжди оправдані, оскільки окремі фактори можуть дуже слабо або й зовсім не впливати на контрольований параметр.
Для оцінки важливості вкладу окремого фактору може використовуватися
дисперсійний аналіз. В цьому випадку його суть полягає в розкладі сумарної дисперсії на дві складових:

дисперсію, обумовлену технікою експерименту, та

дисперсію, пов’язану з реальною дією досліджуваного фактору.
При цьому порівнюють оцінку дисперсії, викликану досліджуваним фактором
 
S
A
2
, і оцінку залишкової дисперсії, що має місце без впливу фактору
 
S
R
2
Для оцінки дисперсії визначаються суми квадратів відхилень, викликаних досліджуваним фактором та похибкою експерименту, поділені на відповідні числа ступені свободи :


S
SS
K
N
x
x
K
K
N
R
R
ij
ij
j
K
i
j
K
i
N
i
i
2 1
2 1
1



















(15)


S
SS
N
K
x
K
x
K N
N
A
A
i
ij
j
K
i
ij
i
N
j
K
i
i
N
i
i
2 1
1 1
1 2
1 1





















(16)
Значення
 
S
A
2
і
 
S
R
2
звичайно порівнюються за допомогою F-критерію Фішера
 
 
2 2
R
A
розр
S
S
F

(17)
Якщо F
розр
> або = F
табл
, визначеного для вибраного рівня значимості q зн
, %, і числа ступені свободи v зн1
=N-1; v зн2
=К-N, то досліджуваний фактор А суттєво впливає на вихідний параметр.
Якщо мають справу з багатофакторним процесом, то за допомогою дисперсійного аналізу визначають дисперсії, які вносяться кожним фактором окремо та оцінюють статистичну значимість цих величин.

10
КОНТРОЛЬНІ ЗАПИТАННЯ
1. Які основні етапи статистичної обробки даних ?
2. Який зміст попередньої обробки даних ?
3. Якими характеристиками описуються експериментальні величини ?
4. Якими критеріями визначається нормальність закону розподілу ?
5. Для чого застосовуються генератори випадкових чисел ?
6. В чому суть й коли застосовується дисперсійний аналіз ?
ЛАБОРАТОРНЕ ЗАВДАННЯ
1) Вивчити основні поняття статистичного аналізу та принципи їх застосування для експериментальних даних.
2) Згідно індивідуального завдання ввести дані біля 50 пасивних експериментів, які б включали 4 фактори і 1 контрольовану характеристику.
3) Дослідити отриману вибірку: a) По кожному фактору провести перевірку на наявність грубих викидів і відкинути їх згідно однієї з наведених методик. Результати оформити у вигляді таблички:
№ фактора
Значення і розмірність
Номери експериментів з грубими викидами b) Для кожної вибірки Обчислити min, max та середні значення фактора (Хі) та контрольованої величини (Y);
Використати функції MathCAD: min(A), max(A), mean(A). Результати оформити у вигляді таблички:
Фактор Х
1
Фактор Х
Фактор Х
k
Контр. Вел-на Y min значення : max значення : сер.значення : c) Для кожної вибірки Обчислити дисперсію, середньо-квадратичне відхилення, медіану та моду для фактору (Хі) та контрольованої величини (Y);
Використати функції MathCAD: var(A), stdev(A), median(A), mode(A). Результати оформити у вигляді таблички:
Фактор Х
1
Фактор Х
Фактор Х
k
Контр. Вел-на Y дисперсія : сер.-кв. відхилення: медіана : мода : d) перевірити гіпотезу про нормальність розподілу контрольованої величини (Y) і, при необхідності, перетворити розподіл в нормальний. e) Побудувати гістограму розподілу контрольованої величини (Y), розбивши діапазон значень на 5-8 рівних інтервалів; Використати функцію MathCAD: hist(int,A).
4) Зробити висновки що до можливості подальшого аналізу експериментальних даних, оформити та захистити звіт.

11
ЗМІСТ ЗВІТУ
1. Мета роботи.
2. Теоретичний аналіз опрацьованого матеріалу.
3. Відповіді на контрольні запитання.
4. Індивідуальне завдання.
5. Програму статистичного аналізу в MathCAD.
6. Результати попереднього аналізу експериментальних даних.
7. Результати обчислень по програмі.
8. Аналіз отриманих результатів і висновки.
9. Список використаної літератури.
СПИСОК ЛІТЕРАТУРИ
1. Горкавий В. К. Статистика. Підручник. 3-є вид., переробл. і доповн. – Алерта, 2020. - 664с.
2. Хафф Д. Как лгать при помощи статистики. - Альпина Паблишер, 2018. – 163с.
3. Гмурман В.Е. Теория вероятностей и математическая статистика.-М.: Высш. шк., 1972.-
368с.
4. Львовский Е.Н. Статистические методи построения эмпирических формул.-М.: Высш. шк.,
1982.-236 с.
5. Налимов В.В., Чернова Н.А. Статистические методи планирования экстремальних экспериментов. -М.:Наука, 1965.

скачати

© Усі права захищені
написати до нас