Завдання
Таблиця 1
Побудувати лінійне регресійне рівняння.
1. Побудувати поле кореляції і лінію регресії на одному графіку.
Обчислити:
2. коефіцієнт детермінації;
3. середню помилку апроксимації;
4. t-статистики;
5. довірчі інтервали.
6. Зробити висновки
Побудувати показову залежність і повторити пункти 1-6.
Порівняти побудовані моделі.
Рішення:
Побудуємо поле кореляції:
Рис. 1. Поле кореляції пенсії від прожиткового мінімуму
По полю кореляції слабко простежується залежність пенсії від прожиткового мінімуму.
Розрахуємо параметри рівняння лінійної парної регресії.
Для розрахунку параметрів a і b рівняння лінійної регресії у = а + bx вирішимо систему нормальних рівнянь відносно а і b:
За вихідними даними розраховуємо Sх, Sу, Sух, Sх 2, Sу 2.
Таблиця 2
Знайдемо дисперсію змінних:
= 9448,5 - 88,33 2 = 1646,31 (тис. крб.) 2
= 42261,83 - 196,83 2 = 3519,78 (тис. крб.) 2
Знайдемо параметри a і b рівняння лінійної регресії:
0,667
196,83 - 0,667 · 88,33 = 137,91 тис. руб.
Рівняння регресії:
= 137,91 + 0,667 · х
Побудуємо лінію регресії на рис. 1.
Зі збільшенням прожиткового мінімуму на 1 тис. руб. пенсія збільшується на 0,667 тис. руб.
Розрахуємо лінійний коефіцієнт парної кореляції:
0,456
Оскільки коефіцієнт в інтервалі від 0,3 до 0,7 зв'язок середня, пряма.
Визначимо коефіцієнт детермінації:
(0,456) 2 = 0,208
Тобто варіація пенсій на 20,8% пояснюється варіацією прожиткового мінімуму.
Знайдемо середню помилку апроксимації:
26,7%
Середня помилка апроксимації має значення менше 30% - це говорить про середній рівень надійності рівняння регресії.
Розрахуємо F-критерій:
2,628
Критичне значення розподілу Фішера визначають або за таблицями розподілу Фішера, або розрахунковим шляхом з використанням функції FРАСПОБР () табличного процесора Excel. Для рівня довіри 0,95, одного фактора і 12 значень:
F кр = F (0,05; 1; 10) = 4,964
Оскільки F кр> F факт, то необхідно відхилити гіпотезу про статистичну значимості параметрів рівняння. Тобто використовувати цю функцію для апроксимації не можна.
Знайдемо стандартну помилку залишкової компоненти за формулою:
= = = 55,14
Знайдемо середні квадратичні (стандартні) помилки оцінювання коефіцієнта b і вільного члена а рівняння регресії:
39,99
0,411
Знайдемо t - критерій Стьюдента для обох параметрів:
137,91 / 39,99 = 3,448
0,667 / 0,411 = 1,623
Порівнюючи значення t-статистики для кожного з коефіцієнтів лінійної регресії з табличним значенням (α = 0,05; k = 12) t табл = 2,228, можна сказати, що з імовірністю 95% коефіцієнт а надійний, коефіцієнт b ненадійний при даному рівні значущості.
Для розрахунку довірчого інтервалу визначаємо граничну помилку Δ:
= T табл · = 2,228 * 39,99 »89,1
= T табл · = 2,228 * 0,411 »0,916
Довірчі інтервали для коефіцієнтів регресії:
a - Δ a <a <a + Δ a
48,81 <a <227,01
b - Δ b <b <b + Δ b
- 0,249 <b <1,583
Таким чином, отримані оцінки коефіцієнта регресії b не є ефективними і спроможними, а саме рівняння = 137,91 + 0,667 · х не може використовуватися для моделювання і прогнозування динаміки.
Це обумовлено великою помилкою рівняння регресії.
Для побудови рівняння показовою кривою у = а · е b х лінерізуем змінні логарифмування обох частин рівняння:
ln у = ln а + b · x
Y = A + b · x
Де Y = ln y, A = ln a.
Для розрахунків будемо використовувати дані таблиці 4.
Таблиця 4
Знайдемо дисперсію змінних:
= 9448,5 - 88,33 2 = 1646,31
= 27,506 - 5,235 2 = 0,0955
Знайдемо параметрів А і В регресії склали:
b = 0,00314
5,325 - 0,00314 · 88,33 = 4,958
Отримано лінійне рівняння:
= 4,958 + 0,00314 · х
Зробимо потенціювання отриманого рівняння і запишемо його в звичайній формі:
= E 4,958 · e 0,00314 · х = 142,31 · e 0,00314 х
Тісноту зв'язку оцінимо через індекс кореляції р ху:
0,436
Зв'язок середня.
Визначимо коефіцієнт детермінації:
0,1838
Тобто варіація результативної ознаки на 18,38% пояснюється варіацією факторної ознаки.
Знайдемо середню помилку апроксимації:
25,9%
Середня помилка апроксимації має значення менше 30%, тобто надійність рівняння середня.
Розрахуємо F-критерій: (m - число параметрів при змінної x)
1,8378
F кр = 4,964
Оскільки F кр> F факт, тобто необхідно відхилити гіпотезу про статистичну значимості параметрів рівняння.
Знайдемо стандартну помилку залишкової компоненти за формулою:
= = = 55,77
Знайдемо середні квадратичні (стандартні) помилки оцінювання коефіцієнта b і вільного члена а рівняння регресії:
40,45
0,416
Знайдемо t - критерій Стьюдента для обох параметрів:
142,31 / 40,45 = 3,518
0,00314 / 0,411 = 0,0076
Порівнюючи значення t-статистики для кожного з коефіцієнтів лінійної регресії з табличним значенням (α = 0,05; k = 12) t табл = 2,228, можна сказати, що з імовірністю 95% коефіцієнт а надійний, коефіцієнт b ненадійний при даному рівні значущості.
Для розрахунку довірчого інтервалу визначаємо граничну помилку Δ:
= T табл · = 2,228 * 40,45 »90,12
= T табл · = 2,228 * 0,0076 »0,0169
Довірчі інтервали для коефіцієнтів регресії:
a - Δ a <a <a + Δ a
52,19 <a <232,43
b - Δ b <b <b + Δ b
- 0,01376 <b <0,02004
Побудуємо лінію показовою залежності на полі кореляції:
Рис. 2. Розраховані лінії регресій
У лінійної залежності менше стандартна помилка і більше значення F-критерію. Тому з двох рівнянь регресій лінійне більш вірогідно. Але низька надійність коефіцієнта регресії b, говорить, що результати апроксимації будуть мати досить низьку надійність (80%).
Таблиця 1
Пенсія, тис. руб., У | 131 | 110 | 170 | 141 | 150 | 160 | 200 | 230 | 240 | 260 | 270 | 300 |
Прожитковий мінімум тис. руб., Х | 100 | 90 | 150 | 31 | 60 | 39 | 40 | 70 | 80 | 150 | 120 | 130 |
1. Побудувати поле кореляції і лінію регресії на одному графіку.
Обчислити:
2. коефіцієнт детермінації;
3. середню помилку апроксимації;
4. t-статистики;
5. довірчі інтервали.
6. Зробити висновки
Побудувати показову залежність і повторити пункти 1-6.
Порівняти побудовані моделі.
Рішення:
Побудуємо поле кореляції:
Рис. 1. Поле кореляції пенсії від прожиткового мінімуму
По полю кореляції слабко простежується залежність пенсії від прожиткового мінімуму.
Розрахуємо параметри рівняння лінійної парної регресії.
Для розрахунку параметрів a і b рівняння лінійної регресії у = а + bx вирішимо систему нормальних рівнянь відносно а і b:
За вихідними даними розраховуємо Sх, Sу, Sух, Sх 2, Sу 2.
Таблиця 2
№ п / п | y | x | yx | x 2 | y 2 | у - | (У - | ||
1 | 131 | 100 | 13100 | 10000 | 17161 | 204,61 | -73,61 | 5418,432 | 0,562 |
2 | 110 | 90 | 9900 | 8100 | 12100 | 197,94 | -87,94 | 7733,444 | 0,799 |
3 | 170 | 150 | 25500 | 22500 | 28900 | 237,96 | -67,96 | 4618,562 | 0,400 |
4 | 141 | 31 | 4371 | 961 | 19881 | 158,587 | -17,587 | 309,303 | 0,125 |
5 | 150 | 60 | 9000 | 3600 | 22500 | 177,93 | -27,93 | 780,085 | 0,186 |
6 | 160 | 39 | 6240 | 1521 | 25600 | 163,923 | -3,923 | 15,390 | 0,025 |
7 | 200 | 40 | 8000 | 1600 | 40000 | 164,59 | 35,41 | 1253,868 | 0,177 |
8 | 230 | 70 | 16100 | 4900 | 52900 | 184,6 | 45,4 | 2061,160 | 0,197 |
9 | 240 | 80 | 19200 | 6400 | 57600 | 191,27 | 48,73 | 2374,613 | 0,203 |
10 | 260 | 150 | 39000 | 22500 | 67600 | 237,96 | 22,04 | 485,762 | 0,085 |
11 | 270 | 120 | 32400 | 14400 | 72900 | 217,95 | 52,05 | 2709,203 | 0,193 |
12 | 300 | 130 | 39000 | 16900 | 90000 | 224,62 | 75,38 | 5682,144 | 0,251 |
Разом | 2362 | 1060 | 221811 | 113382 | 507142 | 2361,94 | 0,1 | 33441,964 | 3,203 |
Середнє | 196,83 | 88,33 | 18484,25 | 9448,5 | 42261,83 | ||||
Позначення середнього |
Знайдемо параметри a і b рівняння лінійної регресії:
Рівняння регресії:
Побудуємо лінію регресії на рис. 1.
Зі збільшенням прожиткового мінімуму на 1 тис. руб. пенсія збільшується на 0,667 тис. руб.
Розрахуємо лінійний коефіцієнт парної кореляції:
Оскільки коефіцієнт в інтервалі від 0,3 до 0,7 зв'язок середня, пряма.
Визначимо коефіцієнт детермінації:
Тобто варіація пенсій на 20,8% пояснюється варіацією прожиткового мінімуму.
Знайдемо середню помилку апроксимації:
Середня помилка апроксимації має значення менше 30% - це говорить про середній рівень надійності рівняння регресії.
Розрахуємо F-критерій:
Критичне значення розподілу Фішера визначають або за таблицями розподілу Фішера, або розрахунковим шляхом з використанням функції FРАСПОБР () табличного процесора Excel. Для рівня довіри 0,95, одного фактора і 12 значень:
F кр = F (0,05; 1; 10) = 4,964
Оскільки F кр> F факт, то необхідно відхилити гіпотезу про статистичну значимості параметрів рівняння. Тобто використовувати цю функцію для апроксимації не можна.
Знайдемо стандартну помилку залишкової компоненти за формулою:
Знайдемо середні квадратичні (стандартні) помилки оцінювання коефіцієнта b і вільного члена а рівняння регресії:
Знайдемо t - критерій Стьюдента для обох параметрів:
Порівнюючи значення t-статистики для кожного з коефіцієнтів лінійної регресії з табличним значенням (α = 0,05; k = 12) t табл = 2,228, можна сказати, що з імовірністю 95% коефіцієнт а надійний, коефіцієнт b ненадійний при даному рівні значущості.
Для розрахунку довірчого інтервалу визначаємо граничну помилку Δ:
Довірчі інтервали для коефіцієнтів регресії:
a - Δ a <a <a + Δ a
48,81 <a <227,01
b - Δ b <b <b + Δ b
- 0,249 <b <1,583
Таким чином, отримані оцінки коефіцієнта регресії b не є ефективними і спроможними, а саме рівняння
Це обумовлено великою помилкою рівняння регресії.
Для побудови рівняння показовою кривою у = а · е b х лінерізуем змінні логарифмування обох частин рівняння:
ln у = ln а + b · x
Y = A + b · x
Де Y = ln y, A = ln a.
Для розрахунків будемо використовувати дані таблиці 4.
Таблиця 4
№ | y | Y | x | Yx | x 2 | Y 2 | у - | (У - | ( | |||
1 | 131 | 4,875 | 100 | 487,52 | 10000 | 23,7675 | 194,81 | -63,81 | 4071,1 | -2,025 | 4,1 | 0,487 |
2 | 110 | 4,700 | 90 | 423,043 | 8100 | 22,0945 | 188,78 | -78,78 | 6206,8 | -8,047 | 64,7 | 0,716 |
3 | 170 | 5,136 | 150 | 770,37 | 22500 | 26,3764 | 227,92 | -57,92 | 3354,9 | 31,091 | 966,7 | 0,341 |
4 | 141 | 4,949 | 31 | 153,412 | 961 | 24,4902 | 156,86 | -15,86 | 251,5 | -39,972 | 1597,8 | 0,112 |
5 | 150 | 5,011 | 60 | 300,638 | 3600 | 25,1065 | 171,81 | -21,81 | 475,8 | -25,018 | 625,9 | 0,145 |
6 | 160 | 5,075 | 39 | 197,932 | 1521 | 25,7574 | 160,85 | -0,85 | 0,7 | -35,982 | 1294,7 | 0,005 |
7 | 200 | 5,298 | 40 | 211,933 | 1600 | 28,0722 | 161,35 | 38,65 | 1493,5 | -35,476 | 1258,6 | 0,193 |
8 | 230 | 5,438 | 70 | 380,666 | 4900 | 29,5727 | 177,29 | 52,71 | 2778,1 | -19,538 | 381,7 | 0,229 |
9 | 240 | 5,481 | 80 | 438,451 | 6400 | 30,0374 | 182,95 | 57,05 | 3255,0 | -13,882 | 192,7 | 0,238 |
10 | 260 | 5,561 | 150 | 834,102 | 22500 | 30,9212 | 227,92 | 32,08 | 1029,0 | 31,091 | 966,7 | 0,123 |
11 | 270 | 5,598 | 120 | 671,811 | 14400 | 31,3423 | 207,43 | 62,57 | 3914,8 | 10,601 | 112,4 | 0,232 |
12 | 300 | 5,704 | 130 | 741,492 | 16900 | 32,5331 | 214,05 | 85,95 | 7387,8 | 17,218 | 296,5 | 0,287 |
Разом | 2362 | 62,83 | 1060 | 5611,37 | 113382 | 330,0715 | 2272,02 | 90,0 | 34219,0 | -89,938 | 7762,4 | 3,109 |
Середнє | 196,83 | 5,235 | 88,33 | 467,614 | 9448,5 | 27,506 | ||||||
Позначення середнього |
Знайдемо параметрів А і В регресії склали:
b =
Отримано лінійне рівняння:
Зробимо потенціювання отриманого рівняння і запишемо його в звичайній формі:
Тісноту зв'язку оцінимо через індекс кореляції р ху:
Зв'язок середня.
Визначимо коефіцієнт детермінації:
Тобто варіація результативної ознаки на 18,38% пояснюється варіацією факторної ознаки.
Знайдемо середню помилку апроксимації:
Середня помилка апроксимації має значення менше 30%, тобто надійність рівняння середня.
Розрахуємо F-критерій: (m - число параметрів при змінної x)
F кр = 4,964
Оскільки F кр> F факт, тобто необхідно відхилити гіпотезу про статистичну значимості параметрів рівняння.
Знайдемо стандартну помилку залишкової компоненти за формулою:
Знайдемо середні квадратичні (стандартні) помилки оцінювання коефіцієнта b і вільного члена а рівняння регресії:
Знайдемо t - критерій Стьюдента для обох параметрів:
Порівнюючи значення t-статистики для кожного з коефіцієнтів лінійної регресії з табличним значенням (α = 0,05; k = 12) t табл = 2,228, можна сказати, що з імовірністю 95% коефіцієнт а надійний, коефіцієнт b ненадійний при даному рівні значущості.
Для розрахунку довірчого інтервалу визначаємо граничну помилку Δ:
Довірчі інтервали для коефіцієнтів регресії:
a - Δ a <a <a + Δ a
52,19 <a <232,43
b - Δ b <b <b + Δ b
- 0,01376 <b <0,02004
Побудуємо лінію показовою залежності на полі кореляції:
Рис. 2. Розраховані лінії регресій
У лінійної залежності менше стандартна помилка і більше значення F-критерію. Тому з двох рівнянь регресій лінійне більш вірогідно. Але низька надійність коефіцієнта регресії b, говорить, що результати апроксимації будуть мати досить низьку надійність (80%).