Міністерство освіти і науки України Севастопольський національний технічний університет до виконання лабораторної
роботи № 3 і 4
"Дисперсійний аналіз за допомогою системи MINITAB для WINDOWS " з навчальної дисципліни "Прикладна статистика"
для
студентів економічних спеціальностей
всіх форм навчання
Севастополь 2008
Методичні вказівки розглянуті і затверджені на засіданні кафедри
менеджменту і економіко-математичних методів
протокол № "_____" від "______________" 2008р.
Рецензент: доцент департаменту обліку та аудиту Т. А. Мараховська
1. Мета роботи Вивчення можливостей дисперсійного аналізу, для виявлення залежностей між економічними показниками та отримання практичних навичок роботи в системі MINITAB.
Теоретичні відомості 2.1. Дисперсійний аналіз 2.1.1. Однофакторний дисперсійний аналіз При проведенні економічного аналізу часто необхідно оцінити вплив на цільову функцію y якісного фактора
x. Таким фактором можуть бути, наприклад, партії сировини, галузі промисловості, регіони і т.д.
Нехай дані про вплив деякого якісного фактора на кількісний у формі
таблиці.
Таблиця 1.1. - Вплив якісного фактора на досліджуваний показник
|
| ...
|
|
|
| ....
|
|
|
| ...
|
|
...
| ...
| ...
| ...
|
|
| |
|
Модель залежності значень
від фактора стовпців можна представити в наступному вигляді [1-4]:
де
- Загальна середня,
-Відхилення від загальної середньої для j-го рівня фактора,
- Випадкова складова.
За вибірковими даними можна обчислити:
1) середнє
для кожного рівня фактора (середнє по стовпцях)
x
j (j = 1,2, ... u), за m
j паралельним дослідам, де m
j - Число даних у стовпці j:
;
2) загальну середню
по всіх N дослідам, тобто по всіх m
j паралельним дослідів на всіх рівнях фактора x
j (
):
;
3) загальну суму квадратів відхилень Q
0: 4) суму квадратів, що
характеризує вплив фактора x (відхилення між групами)
;
5) залишкову суму квадратів, що залежить від помилки e (відхилення всередині груп)
.
Тотожність дисперсійного аналізу має вигляд:
На підставі обчислених сум квадратів обчислюються:
1)
оцінка дисперсії щодо загальної середньої
:
,
де
- Число ступенів свободи;
2)
оцінка дисперсії «між групами», обумовленими рівнями x
j: де число ступенів свободи
.
3) вибіркова
оцінка дисперсії «всередині груп», що обчислюється як середня оцінка за всі u групами:
з числом ступенів свободи
Числа ступенів свободи повинні задовольняти співвідношенню
Для
того, щоб зробити висновок про те, чи впливає на досліджувані показники якісний фактор, зіставляють дисперсію між групами із загальною дисперсією. При цьому висувають наступні гіпотези:
H
0: ,
Тобто середні значення по всіх стовпцях рівні і рівні загальної середньої, звідки випливає, що середньоквадратичне відхилення за факторами одно середньоквадратичного відхилення за всіма даними і дорівнює нулю. Тобто якісний фактор не впливає на досліджуваний показник.
H
1: ,, Тобто
середні значення по всіх стовпцях не рівні між собою і не рівні загальної середньої, звідки випливає, що середньоквадратичне відхилення по чинникам не збігається зі среднеквадратическим відхиленням за всіма даними. Тобто якісний фактор істотно впливає на досліджуваний показник.
Оцінювання значущості впливу фактора x
виконується за F-критерієм Фішера, для чого формується наступне F-відношення:
.
Фактор x визнається незначний, якщо
відповідне F-відношення виявляється менше критичного, обраного з таблиць для прийнятого рівня значущості
і числа ступенів свободи порівнюваних дисперсій
і
. Табличне значення критерію Фішера визначається дл числа ступенів свободи u-1 і N-1 та ймовірності помилки
.
Тобто якщо
, То приймається нульова гіпотеза при
відповідному рівні значущості про те, що досліджуваний фактор не робить істотного впливу на кількісні дані.
Якщо
, То нульова гіпотеза відхиляється і приймається альтернативна при відповідному рівні значущості. Виходячи з цього, можна зробити висновок про те, що досліджуваний фактор істотно впливає на кількісні дані.
Результати дисперсійного аналізу зводяться в таблицю 2.
Таблиця 2 Однофакторний дисперсійний аналіз
Джерело мінливості
| Сума квадратів відхилень | Число ступенів свободи
| Оцінка дисперсії | F - відношення |
Між групами
|
|
|
|
|
Всередині груп (Помилка e)
|
|
|
|
Загальна сума
|
|
|
|
- Число даних у стовпці, u-число стовпців, m - число рядків.
2.1.2. Двофакторний дисперсійний аналіз при перехресній класифікації чинників Часто необхідно якісно оцінити значимість чи незначимість впливу на цільову функцію u двох одночасно діючих факторів x
1 і x
2. Такими факторами можуть бути, наприклад, форма власності підприємства x
1 і
вид економічної діяльності x
2. Модель двофакторного дисперсійного аналізу має вигляд [1-4]:
де
- Загальна середня,
-Відхилення від загальної середньої для фактора x1,
- Відхилення від загальної середньої для фактора x2,
- Відхилення від загальної середньої для взаємодії двох факторів,
- Випадкова складова.
У цьому випадку загальну суму квадратів відхилень Q
0 можна розбити на чотири суми:
1) Q
x1-за фактором x
1, 2) Q
x2-за фактором x
2, 3) Q
e-залишкову суму квадратів, що залежить від помилки e,
4) Q
x1x2-залежну від взаємодії (твору) x
1 x
2 двох факторів.
У цьому випадку за вибірковими значеннями обчислюються:
1) середнє
для кожного рівня фактора
x
1: ;
2) середнє
для кожного рівня фактора x
2: ;
3) загальну середню
по всіх N дослідам, тобто по всіх m паралельним дослідів на всіх поєднаннях рівнів факторів x
1 і x
2 (
):
;
4) середнє
за m паралельним дослідам для кожного поєднання рівнів факторів x
1 і x
2: .
У табл.2 показані дані повного факторного експерименту з однаковим числом спостережень в осередках.
Таблиця 3. - Дані експерименту і розрахунки середніх при двофакторний дисперсійний аналіз j =
| 1
| 2
| ...
|
|
|
i =
| k
|
|
| ...
|
| |
1
| 1
| |
| | |
2
| |
| | |
...
| | ...
| | |
m
| |
| | |
. . .
| 1
| | | | | |
2
| | | | |
...
| | | | |
m
| | | | |
| 1
| | | | | |
2
| | | | |
...
| | | | |
m
| | | | |
| | | | | |
|
У табл.2
обчислюється по виділеній частині стовпця, що містить m паралельних дослідів.
Загальна сума квадратів відхилень Q
0 розраховується за формулою:
Цю суму можна розкласти на 4 складові:
1) суму, що характеризує вплив фактора x
1: ;
2) суму, що характеризує вплив фактора x
2: ;
3) суму, що характеризує результат впливу взаємодії x
1 x
2: 4) суму, що характеризує вплив помилки e:
Вказані п'ять сум, поділені на відповідне число ступенів свободи, дають п'ять різних оцінок дисперсії, якщо вплив факторів x
1 і x
2 незначимо. Для проведення дисперсійного аналізу обчислюються наступні дисперсії:
1) оцінка дисперсії щодо загальної середньої
:
,
де
-Загальна кількість спостережень, а число ступенів свободи
;
2) оцінка дисперсії «між рядками», обумовленими рівнями x
1j: ,
де
- Число ступенів свободи.
3) оцінка дисперсії «між стовпцями»,
відповідними рівнями фактора x
2: ,
де
- Число ступенів свободи;
4) оцінка дисперсії «між серіями» по m паралельним дослідам кожна
з числом ступенів свободи
;
5) оцінка дисперсії «всередині серій» по m паралельним дослідам, що обчислюється як середня оцінка за всі u
1 u
2 серіями:
з числом ступенів свободи
.
Числа ступенів свободи повинні задовольняти співвідношенню
Статистичне оцінювання значущості впливу факторів x
1, x
2 і взаємодії x
1 x
2 виконуються за F-критерієм Фішера, для чого формуються такі F-відношення:
,
,
.
Фактор x
1 або x
2, або взаємодія x
1 x
2 визнаються незначний, якщо відповідне F-відношення виявляється менше критичного, обраного з таблиць для прийнятого рівня значущості
і числа ступенів свободи порівнюваних дисперсій.
Для того, щоб зробити висновок про те, чи впливають на досліджувані показники якісні фактори, висувають наступні гіпотези:
H
0: ,
Тобто середні значення за всіма стовпцями дорівнюють фактор стовпця не робить впливу на досліджуваний показник.
H
1: ,, Тобто
середні значення по всіх стовпцях не рівні фактор стовпця робить істотний вплив на досліджуваний показник.
H
0: ,
Тобто середні значення по всіх рядках дорівнюють фактор рядки не робить впливу на досліджуваний показник.
H
1: ,, Тобто
середні значення по всіх рядках не рівні фактор рядка робить істотний вплив на досліджуваний показник.
H
0: ,
Тобто відхилення взаємодії факторів дорівнює нулю і взаємодія не значимо.. H
1: , Фактор взаємодії значущий ..
Якщо
, То приймається нульова гіпотеза при відповідному рівні значущості про те, що досліджуваний фактор не робить істотного впливу на кількісні дані.
Якщо
, То нульова гіпотеза відхиляється і приймається альтернативна при відповідному рівні значущості. Виходячи з цього, можна зробити висновок про те, що досліджуваний фактор істотно впливає на кількісні дані.
Результати двофакторного дисперсійного аналізу представляються у вигляді табл.3.
Таблиця 3. - Двофакторний дисперсійний аналіз при рівному числі спостережень в осередках Вид мінливості
| Сума квадратів відхилень
| Число ступенів свободи
| Оцінка дисперсії
| F - відношення
|
Від фактора x1
|
|
|
|
|
Від фактора x2
|
|
|
|
|
Від взаємо-дії x1x2
|
|
|
|
|
Залишкова (Від e)
|
|
|
| |
Загальна
|
|
|
| |
m - число даних в рядку (число повторів у клітинці),
- Число стовпців,
- Число рядків.
3. Дисперсійний аналіз в системі MINITAB Для проведення дисперсійного аналізу в системі MINITAB необхідно вибрати з
меню Stat> ANOVA. Різні можливості проведення дисперсійного аналізу представлені такими командами.
Команда
Oneway дозволяє провести однофакторний дисперсійний аналіз, якщо значення вихідного і впливає параметра записані в двох стовпчиках.
Команда
Oneway (Unstacked) дозволяє провести однофакторний дисперсійний аналіз, якщо значення вихідного параметра розбито на групи і значення для кожної групи записані в різних стовпцях.
Команда
Twoway дозволяє провести двухфакторной аналіз для збалансованих даних (з однаковою кількістю значень у кожній клітинці).
Команда
Balanced ANOVA дозволяє провести багатофакторний дисперсійний аналіз для збалансованих моделей з перехресної та ієрархічної класифікації.
Команда
General Linear Model дозволяє провести багатофакторний незбалансований дисперсійний аналіз для моделей з перехресної та ієрархічної класифікації.
3.2.1. Однофакторний дисперсійний аналіз
Для проведення однофакторного дисперсійного аналізу необхідно підготувати дані у двох стовпцях (у першому - вхідна змінна, якісна, у другому - вихідна змінна), вибрати з меню
Stat> ANOVA> Oneway і заповнити відкрилося діалогове вікно.
Діалогове вікно.
1. Відгук
(Response) - виберіть стовпець, що містить вихідну (залежну) змінну. Стовпець повинен містити лише числові значення.
2. Фактор
(Factor) - виберіть стовпець, що містить якісну зміну, вплив якої досліджується. Фактор може
мати як числові, так і символьні значення.
3. Зберегти залишки
(Store Residuals), вибирається, якщо необхідно зберегти залишки для подальшого аналізу. Залишки зберігаються у вільному стовпці.
4. Зберегти оцінки
(Store fits) Для однофакторного аналізу оцінки це середні значення для кожного рівня фактора.
5. Графіки
<Graphs> представляють дані у вигляді точкових і блокових діаграм для кожної групи з зазначеним середнім значенням.
Приклад 1
Нехай дані про відсоток зносу обладнання для 12 підприємств різних галузей промисловості та форм власності представлені наступною таблицею.
Таблиця 4.
Вихідні дані
Field
| Owner
| d
|
Харчова
| Приват
| 31
|
Харчова
| Приват
| 49
|
Харчова
| Приват
| 37
|
Харчова
| Госуд
| 47
|
Харчова
| Госуд
| 57
|
Харчова
| Госуд
| 53
|
Машиностр
| Госуд
| 43
|
Машиностр
| Госуд
| 59
|
Машиностр
| Госуд
| 56
|
Машиностр
| Приват
| 47
|
Машиностр
| Приват
| 51
|
Машиностр
| Приват
| 53
|
Визначимо залежність зносу устаткування від галузі промисловості.
У цьому випадку в діалоговому вікні вказуються наступні значення
Response: d Factor: field Результати дисперсійного аналізу включають таблицю аналізу дисперсії, таблицю середніх значень рівнів факторів, індивідуальні довірчі інтервали для кожного рівня і загальне
стандартне відхилення. На рис.1 представлений лістинг результатів обчислень. На малюнку використовуються наступні позначення:
DF - число ступенів свободи,
SS - сума квадратів,
MS - середній квадрат,
F - відношення Фішера,
P - рівень значимості для обчисленого F,
Level - рівень фактора,
Mean - середнє значення,
StDev - стандартне відхилення.
One-Way Analysis of Variance
Analysis of Variance for d
Source DF SS MS F P
field 1 102.1 102.1 1.55 0.241
Error 10 656.8 65.7
Total 11 758.9
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev -------+---------+---------+---------
Харчова 6 45.667 9.852 (-----------*-----------)
Машин 6 51.500 5.857 (-----------*-----------)
-------+---------+---------+---------
Pooled StDev = 8.105 42.0 48.0 54.0
Рис.1 Лістинг результатів обчислень для однофакторний моделі
Якщо значення вихідної змінної розбито на групи і кожна група записана в окремому стовпці, то для проведення однофакторного дисперсійного аналізу необхідно вибрати з меню
Stat> ANOVA> Oneway [Unstacked] і заповнити наступне діалогове вікно.
Діалогове вікно
1. Відгук у декількох стовпцях
Responses [in separate columns] - виберіть стовпці, що містять вихідну (залежну) змінну. Стовпці повинні містити лише числові значення. Система не вимагає, щоб у кожному стовпці було однакове число спостережень.
2. Графіки
<Graphs> представляють дані у вигляді точкових і блокових діаграм для кожної групи з зазначеним середнім значенням.
Приклад 2
Нехай дані про відсоток зносу обладнання для 12 підприємств двох галузей промисловості (харчова - field1,
машинобудування - field2) представлені в табл.5.
Таблиця 5.
Вихідні дані
Field1
| Field2
|
31
| 59
|
49
| 56
|
37
| 47
|
47
| 51
|
57
| 53
|
53
| |
43
| |
У цьому випадку в діалоговому вікні вказуються наступні значення.
Responses [in separate columns]: field1 field2 Результатом дисперсійного аналізу буде таблиця представлена на рис.2.
One-Way Analysis of Variance
Analysis of Variance
Source DF SS MS F P
Factor 1 182.7 182.7 3.17 0.105
Error 10 576.2 57.6
Total 11 758.9
Individual 95% CIs For Mean
Based on Pooled StDev
Level N Mean StDev ------+---------+---------+---------+
field1 липня 45.286 9.050 (---------*----------)
field2 травня 53.200 4.604 (------------*-----------)
------+---------+---------+---------+
Pooled StDev = 7.591 42.0 48.0 54.0 60.0
Рис.2 Лістинг результатів обчислень
З отриманих результатів видно, що P>
(
= 0.05), значить приймається нульова гіпотеза і ми можемо зробити висновок про те, що вплив чинника галузі на рівень зносу обладнання незначимо.
Якщо в опції
<Graphs> вказати
Dotplots of data: Ö, то буде побудований наступний графік (рисою зазначено середнє значення для групи).
Рис.3 Представлення експериментальних даних
3.2.2. Двофакторний дисперсійний аналіз
Для проведення двофакторного дисперсійного аналізу необхідно підготувати дані, вибрати з меню
Stat> ANOVA> Balanced ANOVA і заповнити відкрилося діалогове вікно.
Ця
функція дозволяє проводити, як одновимірний, так і багатовимірний аналіз дисперсії. Фактори можуть бути пов'язані як перехресно, так і ієрархічно, вони можуть бути детермінованими і випадковими, однак дані повинні бути збалансовані. Це означає, що для кожного рівня A повинні бути однакові рівні фактора B, і в тій же кількості.
Діалогове вікно.
1. Відгуки
(Response s) - виберіть стовпці, що містять вихідні (залежні)
змінні. Система дозволяє аналізувати до 50 вихідних змінних.
2. Модель
(Model) - вкажіть змінні або їх комбінацію, які включаються в модель.
3. Випадкові фактори
(Random Factors) - вкажіть стовпець, що містить випадкову змінну.
Приклад 3
Нехай дані про відсоток зносу обладнання для 12 підприємств різних галузей промисловості та форм власності представлені в табл.1. Визначимо, як впливають галузь промисловості, форма власності та їх взаємодія на відсоток зносу обладнання. Для цього виберемо з меню
Stat> ANOVA> Balanced ANOVA і заповнимо діалогове вікно наступним чином
Responses: d Model: field owner field * owner Результати дисперсійного аналізу представлені на рис.4.
Analysis of Variance (Balanced Designs)
Factor Type Levels Values
field fixed 2 Харчова машиностр
owner fixed 2 приват госуд
Analysis of Variance for d
Source DF SS MS F P
field 1 102.08 102.08 2.14 0.182
owner 1 184.08 184.08 3.86 0.085
field * owner 1 90.75 90.75 1.90 0.205
Error серпня 382.00 47.75
Total 11 758.92
Рис.4 Лістинг результатів обчислень для двофакторної моделі
Проаналізуємо отримані результатs /
Для фактора галузі P>
(
= 0.05), значить приймається нульова гіпотеза про те, що фактор галузі не впливає на рівень зносу обладнання.
Для фактора
форми власності P>
(
= 0.05), значить приймається нульова гіпотеза про те, що фактор форми власності не впливає на рівень зносу обладнання. Аналогічним чином робимо висновок про те, що на рівень зносу обладнання не впливає взаємодія факторів.
Для аналізу багатофакторних моделей за незбалансованим даними необхідно вибрати з меню
Stat> ANOVA> General Linear Model.
4 Виконання дисперсійного аналізу в
Excel Розглянемо дисперсійний аналіз на наступному прикладі: за
місяць відомі дані про вироблення робітника за час роботи в першу і в другу зміни.
Таблиця 2 - Вихідні дані
Зміна
| Вироблення робітника, нормо-годину
|
1
| 12,1; 11,1; 12,6; 12,9; 11,6; 13,1; 12,6; 12,4; 11,6; 17,3; 12,9; 11,6; 12, 4
|
2
| 9,9; 11,4; 13,4; 10,4; 12,9; 12,6; 13,9; 13,4; 12,4; 9,9; 10,2; 11,2; 9, 7
|
Чи можна вважати, що розбіжність між рівнями вироблення робітника в першу і в другу зміни неістотно, тобто чи можна вважати, що генеральні середні в двох підгрупах однакові і, отже, вироблення робітника може бути охарактеризована загальної середньої.
Рішення.
Для того щоб
відповісти на поставлені питання,
розрахуємо середню виробіток робітників у кожній зміні. Величина вироблення в першу і другу зміни різна. Тепер виникає питання про те, наскільки істотні ці розбіжності, потрібно перевірити припущення про можливий вплив змінності на вироблення робітників. Результати
розрахунків зведені в таблицю 3.
Таблиця 3 - Проміжні розрахунки для проведення дисперсійного аналізу
Зміна
| Середній виробіток, нормо-години
| Кількість змін у місяці
| Сума квадратів відхилень варіантів від групової середньої
| Квадрати відхилень групових середніх від загальної середньої
|
1
| 12.6308
| 13
| 28.09
| 3,2001
|
2
| 11.6385
| 13
| 28.08
| 3,2008
|
Разом
|
| 26
| = 56.1585
| = 6,4008
|
Використовуючи дані таблиці, розрахуємо
і
.
Число ступенів свободи для розрахунку внутрішньогрупової дисперсії дорівнює (
) 24 (26-2), а для розрахунку міжгруповий дисперсії число ступенів свободи одно
- 1 (2-1).
Розрахуємо значення критерію Фішера за такою формулою:
(4)
У відповідності з числом ступенів свободи для розрахунку внутрішньогрупової і міжгруповий дисперсій (24 і 1) у таблиці F-розподілу для α = 5% знаходимо Fтабл = 4.26.
При цьому висувається дві гіпотези. Нульова гіпотеза свідчить про те, що відмінності вироблення робітника в першу і другу зміни несуттєві. Альтернативна гіпотеза: існують суттєві відмінності у значенні вироблення робітника в першу і в другу зміни.
Так як
розрахункове значення критерію Фішера значно менше табличного значення критерію Фішера, то гіпотеза про неістотність відмінності вироблення робітника в першу і другу зміни не спростовується, тобто змінність не впливає на рівень вироблення робітника.
Для того, щоб провести дисперсійний аналіз в Excel, необхідно активувати команду «Аналіз даних». Для цього проходиться наступний шлях: Сервіс -> Надбудови -> Пакет аналізу. Після цього в меню «Сервіс» з'являється команда «Аналіз даних» і вибирається команда «Однофакторний дисперсійний аналіз».
Далі необхідно заповнити вікно «Однофакторний дисперсійний аналіз»:
«Вхідний інтервал» - вводиться посилання на діапазон, який містить аналізовані дані. Посилання має складатися не менше ніж з двох суміжних діапазонів даних, дані в яких розташовані по рядках або стовпцях.
«Групування» -
встановіть перемикач у положення. За стовпцями або За рядками в залежності від розташування даних у вхідному діапазоні.
«Мітки у першому рядку / Мітки у першому стовпці» - якщо перший рядок вихідного діапазону містить назви стовпців, установіть перемикач у положення Мітки у першому рядку. Якщо назви рядків знаходяться в першому стовпці вхідного діапазону, встановіть перемикач в положення Мітки у першому стовпці. Якщо вхідний діапазон не містить міток, то необхідні заголовки у вихідному діапазоні будуть створені
автоматично.
«Альфа» - введіть рівень значимості, необхідний для оцінки критичних параметрів F-статистики. Рівень альфа пов'язаний з вірогідністю виникнення помилки типу I (спростування вірною гіпотези).
«Вихідний діапазон» - введіть посилання на ліву верхню клітинку вихідного діапазону. Розміри вихідний області будуть розраховані автоматично, й відповідне повідомлення з'явиться на екрані в тому випадку, якщо вихідний діапазон займає місце існуючих даних або його розміри перевищують розміри аркуша.
«Новий лист» - встановіть перемикач, щоб відкрити новий аркуш у книзі і вставити результати аналізу, починаючи з клітинки A1. Якщо в цьому є необхідність, введіть ім'я нового аркуша в полі, розташованому навпроти
відповідного положення перемикача.
«Нова книга» - встановіть перемикач, щоб відкрити нову книгу і вставити результати аналізу в клітинку A1 на першому аркуші у цій книзі.
Приклад заповнення вікна «Однофакторний дисперсійний аналіз» представлений на малюнку 2.
Рисунок 2 - Приклад заповнення вікна «Однофакторний дисперсійний аналіз»
Результати розрахунків однофакторного дисперсійного аналізу представлені на рисунку 3.
Однофакторний дисперсійний аналіз
| | | | | | |
| | | | | | |
ПІДСУМКИ
| | | | | | |
Групи
| Рахунок
| Сума
| Середнє
| Дисперсія
| | |
Стовпчик 1
| 13
| 164,2
| 12,63077
| 2,34064103
| | |
Стовпчик 2
| 13
| 151,3
| 11,63846
| 2,33923077
| | |
| | | | | | |
| | | | | | |
Дисперсійний аналіз
| | | | | | |
Джерело варіації
| SS
| df
| MS
| F
| P-Значення
| F критичне
|
Між групами
| 6,400385
| 1
| 6,400385
| 2,73528203
| 0,111176312
| 4,259675279
|
Всередині груп
| 56,15846
| 24
| 2,339936
| | | |
| | | | | | |
Разом
| 62,55885
| 25
| | | | |
Малюнок 3 - Результати розрахунків по однофакторного дисперсійного аналізу
Інтерпретація результатів:
«Групи» - дані по виробленню в першу і другу зміни.
«Рахунок» - кількість спостережень у кожній з груп.
«Сума» - сума елементів кожної з груп.
«Середнє» - середній виробіток у кожній з груп.
«Дисперсія» - розраховується дисперсія по кожній з груп;
SS - сума квадратів;
df - число ступенів свободи;
MS - середній квадрат;
F - розрахункове значення відношення Фішера;
P - рівень значимості для обчисленого F;
F критичне - табличне значення відношення Фішера.
Результати розрахунків аналогічні результатам, отриманим при
розрахунках вручну.
Двофакторний дисперсійний аналіз в MS Exel Використовуючи даний попереднього прикладу, припустимо, що у нас є дані про стать працівників. Для проведення двофакторного дисперсійного аналізу в MS Exel необхідно представити дані у вигляді перехресної класифікації:
| 1
| 2
|
чоловік
| 12,1
| 9,9
|
11,1
| 11,4
|
12,6
| 13,4
|
12,9
| 10,4
|
11,6
| 12,9
|
13,1
| 12,6
|
12,6
| 13,9
|
дружин
| 12,4
| 13,4
|
11,6
| 12,4
|
17,3
| 9,9
|
12,9
| 10,2
|
11,6
| 11,2
|
12,4
| 9,7
|
13,1
| 12,6
|
У меню «Сервіс» вибрати команду «Аналіз даних» і команди «двофакторний дисперсійний аналіз з повтореннями».
Далі необхідно заповнити вікно «двофакторний дисперсійний аналіз з повтореннями»:
«Вхідний інтервал» - вводиться посилання на діапазон, який містить аналізовані данние.Необходімо відзначити не тільки самі числа, але і заголовок таблиці.
«Число рядків для вибірки» - необхідно ввести кількість повторень в одній комірці. (Для нашого прикладу - 7)
«Альфа» - введіть рівень значимості, необхідний для оцінки критичних параметрів F-статистики. Рівень альфа пов'язаний з вірогідністю виникнення помилки типу I (спростування вірною гіпотези).
«Вихідний діапазон» - введіть посилання на ліву верхню клітинку вихідного діапазону. Розміри вихідний області будуть розраховані автоматично, й відповідне повідомлення з'явиться на екрані в тому випадку, якщо вихідний діапазон займає місце існуючих даних або його розміри перевищують розміри аркуша.
«Новий лист» - встановіть перемикач, щоб відкрити новий аркуш у книзі і вставити результати аналізу, починаючи з клітинки A1. Якщо в цьому є необхідність, введіть ім'я нового аркуша в полі, розташованому навпроти відповідного положення перемикача.
«Нова книга» - встановіть перемикач, щоб відкрити нову книгу і вставити результати аналізу в клітинку A1 на першому аркуші у цій книзі.
Приклад заповнення вікна «Однофакторний дисперсійний аналіз» представлений на малюнку 2.
Рисунок 2 - Приклад заповнення вікна «двофакторний дисперсійний аналіз»
Результати розрахунків двофакторного дисперсійного аналізу представлені на рисунку 3.
Дисперсійний аналіз
| | | | | | |
Джерело варіації
| SS
| df
| MS
| F
| P-Значення
| F критичне
|
Вибірка
| 0,001429
| 1
| 0,001429
| 0,000643
| 0,979986
| 4,259677
|
Стовпці
| 6,412857
| 1
| 6,412857
| 2,884498
| 0,102366
| 4,259677
|
Взаємодія
| 3,862857
| 1
| 3,862857
| 1,73751
| 0,199898
| 4,259677
|
Всередині
| 53,35714
| 24
| 2,223214
| | | |
| | | | | | |
Разом
| 63,63429
| 27
| | | | |
Малюнок 3 - Результати розрахунків по однофакторного дисперсійного аналізу
Інтерпретація результатів:
SS - сума квадратів;
df - число ступенів свободи;
MS - середній квадрат;
F - розрахункове значення відношення Фішера;
P - рівень значимості для обчисленого F;
F критичне - табличне значення відношення Фішера.
4. Завдання з виконання лабораторної роботи 4.1. Однофакторний дисперсійний аналіз Ви збираєтеся відкривати магазин одягу. Проведений опит серед передбачуваних покупців дозволив отримати вам приблизний рівень доходів респондентів на місяць, які віддають
перевагу одягу тих чи інших торгових марок. Необхідно перевірити, чи є суттєва різниця в рівні доходів і маркою одягу, яку віддають перевагу покупці. З'ясуйте, які торгові марки можна віднести до однієї групи (за величиною обсягу продажів) і припустіть, як їх можна сегментувати.
В табл.6 наведені варіанти завдань.
Таблиця 6.
Торгові марки
|
M1
| M2
| M3
| M4
| M5
| M6
| M7
| M8
| M9
| M10
| M11
| M12
|
555
| 1810
| 1749
| 2711
| 994
| 3687
| 566
| 4691
| 1679
| 861
| 1446
| 3543
|
426
| 1122
| 1746
| 2514
| 1085
| 2489
| 883
| 4130
| 2838
| 1074
| 1010
| 4828
|
349
| 2220
| 1509
| 2177
| 1215
| 2717
| 844
| 5328
| 3615
| 920
| 1414
| 5027
|
506
| 720
| 1949
| 2754
| 1024
| 4055
| 917
| 3268
| 2098
| 1192
| 1528
| 2937
|
550
| 2347
| 1673
| 2482
| 931
| 2485
| 850
| 3821
| 2602
| 970
| 1572
| 3067
|
443
| 1841
| 1275
| 2219
| 1242
| 2322
| 768
| 4132
| 2304
| 963
| 1538
| 4301
|
626
| 2250
| 1651
| 3065
| 948
| 3548
| 907
| 6429
| 2529
| 1417
| 1697
| -393
|
582
| 2293
| 1745
| 2411
| 1041
| 3139
| 983
| 5833
| 2531
| 535
| 1223
| 1687
|
463
| 2550
| 862
| 2169
| 948
| 2258
| 855
| 3356
| 2784
| 1101
| 1072
| 3623
|
306
| 2977
| 831
| 2338
| 976
| 3327
| 794
| 2694
| 3646
| 1031
| 1725
| 3187
|
566
| 1542
| 1533
| 2415
| 998
| 2994
| 815
| 5074
| 4089
| 1011
| 1807
| 3353
|
569
| 3322
| 1432
| 2255
| 724
| 3783
| 760
| 3363
| 2603
| 1044
| 1512
| 4048
|
463
| 1441
| 1465
| 2527
| 952
| 3996
| 830
| 4852
| 2861
| 724
| 1623
| 3776
|
304
| 1952
| 1934
| 2446
| 998
| 3199
| 900
| 3316
| 2784
| 1327
| 1155
| 5251
|
528
| 1813
| 1813
| 2806
| 1115
| 4875
| 832
| 1985
| 2569
| 1199
| 1200
| 2009
|
496
| 617
| 1744
| 2618
| 834
| 2230
| 711
| 4547
| 3584
| 1206
| 1302
| 3480
|
648
| 2615
| 1151
| 2430
| 1034
| 3101
| 797
| 3293
| 2153
| 601
| 1304
| 4627
|
457
| 1777
| 876
| 2748
| 1018
| 4146
| 936
| 3922
| 3421
| 871
| 1687
| 2355
|
690
| 1420
| 1382
| 3110
| 1000
| 733
| 809
| 3086
| 4068
| 901
| 1428
| 2329
|
548
| 1843
| 1555
| 2996
| 834
| 3227
| 729
| 2447
| 3080
| 898
| 1433
| 3920
|
491
| 2574
| 940
| 2707
| 1165
| 2734
| 926
| 3524
| 2831
| 789
| 1440
| 1922
|
| Варіант
| Торгові марки
| |
| 1
| M1
| M2
| M3
| M4
| M5
| M6
| |
| 2
| M2
| M3
| M4
| M5
| M6
| M7
| |
| 3
| M3
| M4
| M5
| M6
| M7
| M8
| |
| 4
| M4
| M5
| M6
| M7
| M8
| M9
| |
| 5
| M5
| M6
| M7
| M8
| M9
| M10
| |
| 6
| M1
| M3
| M4
| M5
| M9
| M10
| |
| 7
| M1
| M4
| M5
| M6
| M9
| M10
| |
| 8
| M1
| M5
| M6
| M7
| M9
| M10
| |
| 9
| M1
| M6
| M7
| M8
| M9
| M10
| |
| 10
| M1
| M3
| M5
| M7
| M9
| M11
| |
| 11
| M2
| M4
| M5
| M6
| М11
| М12
| |
| 12
| M2
| M5
| M6
| M7
| М11
| М12
| |
| 13
| M2
| M6
| M7
| M8
| M10
| M12
| |
| 14
| M2
| M4
| M6
| M8
| M10
| M12
| |
| 15
| M2
| M5
| M7
| M8
| М11
| М12
| |
| | | | | | | | | | | | | | | | | | | |
4.2 двофакторний дисперсійний аналіз У таблиці наведено дані опитування 32 осіб. Опитувані були обрані випадковим чином з груп людей, які формувалися так, щоб результати опитування були збалансовані за всіма рівнями факторів.
Таблиця 7
Результати опитування Освіта
| Сфера діяльності.
| Пол
| Положення
| Дохід
| Витрата
|
X1
| X2
| X3
| X4
| Y1
| Y2
|
Економіч.
| Фінанси
| Чоловік.
| Руковод.
| 852
| 650
|
Економіч.
| Фінанси
| Жін.
| Руковод.
| 750
| 700
|
Економіч.
| Виробниц.
| Чоловік.
| Руковод.
| 210
| 140
|
Економіч.
| Виробниц.
| Жін.
| Руковод.
| 180
| 160
|
Економіч.
| Сельск, х.
| Чоловік.
| Працівник
| 120
| 80
|
Економіч.
| Сельск, х.
| Жін.
| Працівник
| 130
| 120
|
Економіч.
| Образів.
| Чоловік.
| Працівник
| 210
| 180
|
Економіч.
| Образів.
| Жін.
| Працівник
| 190
| 170
|
Техніч.
| Фінанси
| Чоловік.
| Працівник
| 320
| 240
|
Техніч.
| Фінанси
| Жін.
| Працівник
| 240
| 220
|
Техніч.
| Виробниц.
| Чоловік.
| Працівник
| 230
| 180
|
Техніч.
| Виробниц.
| Жін.
| Працівник
| 140
| 130
|
Техніч.
| Сельск, х.
| Чоловік.
| Руковод.
| 350
| 300
|
Техніч.
| Сельск, х.
| Жін.
| Руковод.
| 360
| 320
|
Техніч.
| Образів.
| Чоловік.
| Руковод.
| 310
| 250
|
Техніч.
| Образів.
| Жін.
| Руковод.
| 310
| 300
|
Медичні,
| Фінанси
| Чоловік.
| Руковод.
| 540
| 450
|
Медичні,
| Фінанси
| Жін.
| Руковод.
| 450
| 420
|
Медичні,
| Виробниц.
| Чоловік.
| Руковод.
| 310
| 210
|
Медичні,
| Виробниц.
| Жін.
| Руковод.
| 405
| 380
|
Медичні,
| Сельск, х.
| Чоловік.
| Працівник
| 110
| 100
|
Медичні,
| Сельск, х.
| Жін.
| Працівник
| 120
| 110
|
Медичні,
| Образів.
| Чоловік.
| Працівник
| 210
| 180
|
Медичні,
| Образів.
| Жін.
| Працівник
| 180
| 170
|
Гуманіт.
| Фінанси
| Чоловік.
| Працівник
| 230
| 160
|
Гуманіт.
| Фінанси
| Жін.
| Працівник
| 240
| 220
|
Гуманіт.
| Виробниц.
| Чоловік.
| Працівник
| 120
| 110
|
Гуманіт.
| Виробниц.
| Жін.
| Працівник
| 125
| 120
|
Гуманіт.
| Сельск, х.
| Чоловік.
| Руковод.
| 280
| 180
|
Гуманіт.
| Сельск, х.
| Жін.
| Руковод.
| 300
| 280
|
Гуманіт.
| Образів.
| Чоловік.
| Руковод.
| 240
| 230
|
Гуманіт.
| Образів.
| Жін.
| Руковод.
| 230
| 200
|
Потрібно методом двофакторного дисперсійного аналізу оцінити ступінь впливу досліджуваних факторів на результуючий економічний показник. Спочатку оцінити модель без взаємодії факторів, потім з взаємодією. Порівняти результати. Зробити висновки. Варіанти завдань наведені в табл.8.
Таблиця 8
Варіанти завдань
Варіант
| Перший фактор
| Другий фактор
| Відгук
| Варіант
| Перший фактор
| Другий фактор
| Відгук
|
1
| X1
| X2
| Y1
| 7
| X1
| X2
| Y2
|
2
| X1
| X3
| Y1
| 8
| X1
| X3
| Y2
|
3
| X1
| X4
| Y1
| 9
| X1
| X4
| Y2
|
4
| X2
| X3
| Y1
| 10
| X2
| X3
| Y2
|
5
| X2
| X4
| Y1
| 11
| X2
| X4
| Y2
|
6
| X3
| X4
| Y1
| 12
| X3
| X4
| Y2
|
5. Порядок виконання роботи 1. У відповідності з варіантом завдання виконати однофакторний дисперсійний аналіз, зробити висновки, написати звіт.
2. У відповідності з варіантом завдання виконати двофакторний дисперсійний аналіз, зробити висновки, написати звіт.
Контрольні питання 1. Сформулюйте основну ідею дисперсійного аналізу, для вирішення яких завдань він найбільш ефективний?
2. Що показує F ставлення Фішера?
3. Які основні теоретичні передумови дисперсійний аналіз?
4. Проведіть розкладання загальної суми квадратів відхилень на складові в однофакторного дисперсійному аналізі.
5. Як отримати оцінки дисперсій з сум квадратів відхилень? Як виходять необхідні числа ступенів свободи?
6. Наведіть свій приклад двофакторного дисперсійного аналізу.
7. На які суми розкладається загальна сума квадратів відхилень у двофакторний дисперсійний аналіз?
8. Поясніть схему двофакторного дисперсійного аналізу.
9. Чим відрізняється перехресна класифікація від ієрархічної класифікації?
10. Чим відрізняються збалансовані дані?
Література 1. Шефф Г. Дисперсійний аналіз. - М.: Наука. 1980 .- 512с.
2. Джонсон Н.,
Ліон Ф.
Статистика та
планування експерименту в техніці та науці: Методи планування експерименту. Пер. з англ. - М.: Світ, 1981.-520с.
3. Деніел К. Застосування статистики в промисловому експеріменте.-М.: Світ, 1979.-300с.
4. Хікс Ч. Основні принципи планування експерименту .- М.: Світ, 1967.
Методичні вказівки розробили: професор, д.т.н. Цуканов О.В. та к.т.н., доцент, Русина Н.А.