Онно-регресійний аналіз.
Спосіб 1.
Спосіб 2.
метод прес
метод виключення
метод головних компонент
прогнозування
висновок
Постановка завдання. Визначити чи існує залежність між виробництвом лікеро-горілчаних виробів (Y) і:
1 - валовий збір зерна (X1);
2 - валовий збір цукрових буряків (X2);
3 - споживання пива (X3);
4 - населення Росії (X4);
5 - споживання горілки (X5).
У разі виявлення залежності побудувати оптимальну модель, котра могла б бути придатною для прогнозу.
Первинний аналіз вихідних даних. Аналіз динаміки виробництва лікеро-горілчаних виробів (Y) показує, що за період спостереження (N = 21) мінімальне виробництво був одно 138.1, а максимальним 209.2, тим самим зміна величини Y було в межах 71.1. Варіація рівна 12.2126% свідчить про однорідність величини Y (<33%). Відхилення від середнього значення (176.5905) в середньому не перевищувало 17.5814 (середнє абсолютне відхилення), ексцес (-1.1554) і асиметрія (-0.1873) стверджує, що розподіл величини Y має незначний зсув вліво і досить виражену плосковершинні.
Величина Y має тенденцію до збільшення, середній темп приросту складає -0.981%.
Аналіз динаміки валового збору зерна (X1) показує, що за період спостереження (N = 21) мінімальний збір дорівнював 248.1, а максимальним 356.3, тим самим зміна величини X1 було в межах 108.2. Варіація рівна 10.6046% свідчить про однорідність величини X1 (<33%). Відхилення від середнього значення (313.5953) в середньому не перевищувало 33.2555 (середнє абсолютне відхилення), ексцес (-0.9713) і асиметрія (-0.5517) стверджує, що розподіл величини X1 має незначний зсув вліво і досить виражену плосковершинні.
Величина X1 має тенденцію до збільшення, тому що середній темп приросту складає 1.0741% або на 0.0254 одиниць виміру (% від номіналу в мільйонах тонн). Збір до 16 спостереження має тенденцію до збільшення, в період від 16 до 21 спостерігається падіння збору.
Аналіз динаміки валового збору цукрових буряків (X2) показує, що за період спостереження (N = 21) мінімальний збір дорівнював 20812, а максимальний 33177, тим самим зміна величини X2 було в межах 12365. Варіація рівна 13.9157% свідчить про однорідність величини X2 (<33%). Відхилення від середнього значення (26846.0952) в середньому не перевищувало 3735.8119 (середнє абсолютне відхилення), ексцес (-1.1144) і асиметрія (0.324) стверджує, що розподіл величини X2 має незначний зсув вправо і плосковершинні.
Величина X2 має тенденцію до збільшення, тому що середній темп приросту складає 0.9409%.
Аналіз динаміки споживання пива (X3) показує, що за період спостереження (N = 21) мінімальне споживання пива було 92.4, а максимальна 106.1, тим самим зміна величини X3 було в межах 13.7. Варіація рівна 3.8059% свідчить про однорідність величини X3 (<33%). Відхилення від середнього значення (99.5857) у середньому не перевищувало 3.7902 (середнє абсолютне відхилення), ексцес (5.6717) і асиметрія (1.4085) стверджує, що розподіл величини X3 має незначний зсув вправо і досить виражену островершинним.
Величина X3 має тенденцію до зростання, тому що середній темп приросту складає 0.0821%. Споживання пива під час 9 спостереження має різке падіння.
Аналіз динаміки населення Росії (X4) показує, що за період спостереження (N = 21) мінімальне населення було 130.1, а максимальне 147.4, тим самим зміна величини X4 було в межах 17.3. Варіація рівна 3.6811% свідчить про однорідність величини X4 (<33%). Відхилення від середнього значення (138.7) у середньому не перевищувало 5.1057 (середнє абсолютне відхилення), ексцес (-1.2575) і асиметрія (0.1499) стверджує, що розподіл величини X4 має незначний зсув вправо і незначну плосковершинні.
Величина X4 має тенденцію до зростання, тому що середній темп приросту складає 0.6262%. Крива розподілу величини Х4 має невеликий підйом вгору.
Аналіз динаміки споживання горілки (X5) показує, що за період спостереження (N = 21) мінімальне споживання було 133.5, а максимальне 208.5, тим самим зміна величини X5 було в межах 75. Варіація рівна 11.4207% свідчить про однорідності величини X5 (<33%). Відхилення від середнього значення (175.9905) в середньому не перевищувало 20.0993 (середнє абсолютне відхилення), ексцес (-0.7625) і асиметрія (-0.1934) стверджує, що розподіл величини X5 має незначний зсув вліво і досить виражену плосковершинні.
Величина X5 має тенденцію до зменшення, тому що середній темп приросту складає -1.1457%. Споживання до 13 спостереження зростає, потім пішов повільний спад до 21 спостереження.
Кореляційно-регресійний аналіз. Аналіз коефіцієнтів парної кореляції говорить про наявність інтенсивної зв'язку Y з Х5 (0.9834), середньої з Х4 (-0.5315)-знак мінус вказує на зворотну залежність-і Х3 (-0.4266), слабкою з Х2 (-0.1890) і Х1 (0.1176) . Значить в модель варто включити фактори Х3, Х4, Х5.
Наступним етапом йде перевірка на мультіколленіарность, існує кілька способів даної перевірки.
Спосіб 1.
При перевірці на мультіколленіарность (коефіцієнти кореляції приватної і t-статистика) видно, що існує взаємозв'язок між:
отже в модель включається Х5 і Х4, тому що коефіцієнт парної кореляції Y-X4 (-0.5315) більше, ніж коефіцієнти парної кореляції Y-X1 (0.1170) і Y-X3 (-0.4266) та Y-Х2 (-0.1890).
Спосіб 2.
Цей метод заснований на аналізі розподілу кореляційної матриці. Ідея методу полягає в тому що вводяться деякі критерії на основі якого можна перевірити про значущість відхилення кореляційної матриці від ортогональної, для цього вводиться величина:
за розрахунками ХІ квадрат одно 80.469 більше табличного, значить між змінними існує мультіколленіарность. Для визначення ступеня мультіколленіарності вводимо величину:
де СII - діагональний елемент матриці зворотного кореляційної.
Дана таблиця вказує, що найбільш колленіарна Х2, потім Х4 і можна сказати що Х3 і Х5 зовсім не колленіарни. Отже в модель краще включити Х3 і Х5, але проведений наступний регресійний аналіз вказує що краще включати в модель Х2 і Х3, тобто виробництво лікеро-горілчаних виробів (Y) залежить від валового збору цукрових буряків (X2) і споживання пива (X3).
Аналіз рівняння регресії говорить, що при зростанні Х5 на 1 одиницю у своїх одиницях виміру збільшить Y на 1.0552 одиниці в своїх одиницях виміру, Відхилення основного тренда носять випадковий характер, а дана модель визначає Y на 96.71% (R-квадрат). Відносна помилка апроксимації вказує про адекватність математичної моделі. Ступінь неуважності Y мала (дисперсія = 3.909). Розподіл Y є нормальним, у ряді немає автокореляції не можна, а перевірка на стаціонарність випадкового компонента за допомогою Х ^ 2 (Х ^ 2 = 10.04) вказує що коефіцієнти кореляції неоднорідні.
Метод прес. Заснований на виборі найкращого рівняння регресії для цього розраховують значення сум квадратів розбіжності:
З таблиці видно найкраще взяти модель 25 або 125.
Подальша перевірка каже, що модель 25 найбільш вигідна. Значить виробництво лікеро-горілчаних виробів (Y) залежить від 2 - валового збору цукрових буряків (X2), 5 - споживання горілки (X5) на 97.66%.
Метод виключення. Метод виключення заснований на аналізі коефіцієнтів регресійного рівняння за умови, що змінна при цьому коефіцієнті в модель була включена останньої.
Отже в модель включається тільки Х5. Дана модель визначає Y на 96.71%, значить споживання горілки (X5) значно впливає на виробництво лікеро-горілчаних виробів (Y).
Метод головних компонент. Метод головних компонент був запропонований К. Пірсоном в 1901 році, а в подальшому розвинений і доопрацьовано. Метод заснований на стандартизації змінних для чого використовують такі формули:
Zij = (Xij-Xiсред) Si; Si = [1 / (n-1) * сума (Xij-Xiсред) 2] (1 / 2); де Zij стандартизовані змінні;
Si стандартизоване відхилення.
У моделі беруть участь головні компоненти Wj, які є наступними:
Wj = V1Z1 + V2Z2 +...+ VrZr де Vj власний вектор, який задовольняє системі рівнянь:
(Z'z-KI) * Vj = 0 де Z'z кореляційна матриця;
КI характеристичні корені рівняння | Z'z-KI | = 0.
Кореляція головних компонент показує тісноту зв'язку Хi з головними компонентами. Змінні Х1, Х2, Х4 мають інтенсивну зв'язок з першою головною компонентою, а Х3 середню, друга головна компонента інтенсивно пов'язана зі змінною Х5. Отже валовий збір зерна (X1), валовий збір цукрових буряків (X2), населення Росії (X4), споживання пива (X5) мають деяку гіпотетичну величину, залежну від них. Модель отримана за методом головних компонент визначає величину Y на 87.43% (R квадрат).
Прогнозування. Проведемо прогнози по отриманих моделях і зробимо оцінки прогнозів.
З даної таблиці видно, що найбільш точною моделлю прогнозу вважається регресія від факторів, тому що Gt = 2.5273. Eпр-середовищ вказує про точність високої точності прогнозу, К - про те що дана модель досить сильно близька до еталонної (проста екстрополяція), КН - модель близька до досконалої, а Кн1 - що модель краще ніж модель на рівні середньої, V - що модель близька до простої екстрополяціі, Vмю - що центральна тенденція визначена точно, Vs - що відхилення фактичних і прогнозних досить точно збігаються, Vl - слабкий зв'язок між прогнозними та фактичними значеннями.
Висновок. Основними висновками за проведену роботу можна вважати наступне:
1 - виробництво лікеро-горілчаних виробів (Y) має тенденцію до постійного зростання;
2 - найбільш сильно воно залежить від споживання горілки (Х5) і від валового збору цукрових буряків (X2);
3 - найбільш кращою моделлю для проведення прогнозу служить модель отримана за кореляційно-регресійному методу, яка на 97,66% описує
виробництво лікеро-горілчаних виробів (Y);
4 - прогноз слід проводити за моделлю регресії від факторів, характеристики якої найбільш достовірні;
5 - для побудови найбільш точної моделі слід розглянути більшу кількість факторів, вплив яких більшою мірою б визначало виробництво лікеро-горілчаних виробів (Y);
6 - вплив валового збору зерна (X1), споживання пива (Х3) і населення Росії (Х4) фактично не суттєво позначається на зміну виробництва лікеро-горілчаних виробів (Y);
7 - отримана модель придатна для прогнозу лише на короткостроковий період.
Спосіб 1.
Спосіб 2.
метод прес
метод виключення
метод головних компонент
прогнозування
висновок
Постановка завдання. Визначити чи існує залежність між виробництвом лікеро-горілчаних виробів (Y) і:
1 - валовий збір зерна (X1);
2 - валовий збір цукрових буряків (X2);
3 - споживання пива (X3);
4 - населення Росії (X4);
5 - споживання горілки (X5).
У разі виявлення залежності побудувати оптимальну модель, котра могла б бути придатною для прогнозу.
Первинний аналіз вихідних даних. Аналіз динаміки виробництва лікеро-горілчаних виробів (Y) показує, що за період спостереження (N = 21) мінімальне виробництво був одно 138.1, а максимальним 209.2, тим самим зміна величини Y було в межах 71.1. Варіація рівна 12.2126% свідчить про однорідність величини Y (<33%). Відхилення від середнього значення (176.5905) в середньому не перевищувало 17.5814 (середнє абсолютне відхилення), ексцес (-1.1554) і асиметрія (-0.1873) стверджує, що розподіл величини Y має незначний зсув вліво і досить виражену плосковершинні.
Величина Y має тенденцію до збільшення, середній темп приросту складає -0.981%.
Аналіз динаміки валового збору зерна (X1) показує, що за період спостереження (N = 21) мінімальний збір дорівнював 248.1, а максимальним 356.3, тим самим зміна величини X1 було в межах 108.2. Варіація рівна 10.6046% свідчить про однорідність величини X1 (<33%). Відхилення від середнього значення (313.5953) в середньому не перевищувало 33.2555 (середнє абсолютне відхилення), ексцес (-0.9713) і асиметрія (-0.5517) стверджує, що розподіл величини X1 має незначний зсув вліво і досить виражену плосковершинні.
Величина X1 має тенденцію до збільшення, тому що середній темп приросту складає 1.0741% або на 0.0254 одиниць виміру (% від номіналу в мільйонах тонн). Збір до 16 спостереження має тенденцію до збільшення, в період від 16 до 21 спостерігається падіння збору.
Аналіз динаміки валового збору цукрових буряків (X2) показує, що за період спостереження (N = 21) мінімальний збір дорівнював 20812, а максимальний 33177, тим самим зміна величини X2 було в межах 12365. Варіація рівна 13.9157% свідчить про однорідність величини X2 (<33%). Відхилення від середнього значення (26846.0952) в середньому не перевищувало 3735.8119 (середнє абсолютне відхилення), ексцес (-1.1144) і асиметрія (0.324) стверджує, що розподіл величини X2 має незначний зсув вправо і плосковершинні.
Величина X2 має тенденцію до збільшення, тому що середній темп приросту складає 0.9409%.
Аналіз динаміки споживання пива (X3) показує, що за період спостереження (N = 21) мінімальне споживання пива було 92.4, а максимальна 106.1, тим самим зміна величини X3 було в межах 13.7. Варіація рівна 3.8059% свідчить про однорідність величини X3 (<33%). Відхилення від середнього значення (99.5857) у середньому не перевищувало 3.7902 (середнє абсолютне відхилення), ексцес (5.6717) і асиметрія (1.4085) стверджує, що розподіл величини X3 має незначний зсув вправо і досить виражену островершинним.
Величина X3 має тенденцію до зростання, тому що середній темп приросту складає 0.0821%. Споживання пива під час 9 спостереження має різке падіння.
Аналіз динаміки населення Росії (X4) показує, що за період спостереження (N = 21) мінімальне населення було 130.1, а максимальне 147.4, тим самим зміна величини X4 було в межах 17.3. Варіація рівна 3.6811% свідчить про однорідність величини X4 (<33%). Відхилення від середнього значення (138.7) у середньому не перевищувало 5.1057 (середнє абсолютне відхилення), ексцес (-1.2575) і асиметрія (0.1499) стверджує, що розподіл величини X4 має незначний зсув вправо і незначну плосковершинні.
Величина X4 має тенденцію до зростання, тому що середній темп приросту складає 0.6262%. Крива розподілу величини Х4 має невеликий підйом вгору.
Аналіз динаміки споживання горілки (X5) показує, що за період спостереження (N = 21) мінімальне споживання було 133.5, а максимальне 208.5, тим самим зміна величини X5 було в межах 75. Варіація рівна 11.4207% свідчить про однорідності величини X5 (<33%). Відхилення від середнього значення (175.9905) в середньому не перевищувало 20.0993 (середнє абсолютне відхилення), ексцес (-0.7625) і асиметрія (-0.1934) стверджує, що розподіл величини X5 має незначний зсув вліво і досить виражену плосковершинні.
Величина X5 має тенденцію до зменшення, тому що середній темп приросту складає -1.1457%. Споживання до 13 спостереження зростає, потім пішов повільний спад до 21 спостереження.
Кореляційно-регресійний аналіз. Аналіз коефіцієнтів парної кореляції говорить про наявність інтенсивної зв'язку Y з Х5 (0.9834), середньої з Х4 (-0.5315)-знак мінус вказує на зворотну залежність-і Х3 (-0.4266), слабкою з Х2 (-0.1890) і Х1 (0.1176) . Значить в модель варто включити фактори Х3, Х4, Х5.
Наступним етапом йде перевірка на мультіколленіарность, існує кілька способів даної перевірки.
Спосіб 1.
При перевірці на мультіколленіарность (коефіцієнти кореляції приватної і t-статистика) видно, що існує взаємозв'язок між:
x1 | x2 | x3 | x4 |
x2 | x1 | x1 | |
x4 | x4 | x2 |
Спосіб 2.
Цей метод заснований на аналізі розподілу кореляційної матриці. Ідея методу полягає в тому що вводяться деякі критерії на основі якого можна перевірити про значущість відхилення кореляційної матриці від ортогональної, для цього вводиться величина:
Х ^ 2 = N-1-1 / 6 (2 * n +5) * lnR | |
W = (Cii-1) - (Nn) / (n-1) |
Wii | Wii | f-критерій |
W11 | 3.622 | 0.0139 |
W22 | 1.93 | 0.12648 |
W33 | 6.18 | 0.00081 |
W44 | 2.181 | 0.08999 |
W55 | 6.225 | 0.00077 |
Аналіз рівняння регресії говорить, що при зростанні Х5 на 1 одиницю у своїх одиницях виміру збільшить Y на 1.0552 одиниці в своїх одиницях виміру, Відхилення основного тренда носять випадковий характер, а дана модель визначає Y на 96.71% (R-квадрат). Відносна помилка апроксимації вказує про адекватність математичної моделі. Ступінь неуважності Y мала (дисперсія = 3.909). Розподіл Y є нормальним, у ряді немає автокореляції не можна, а перевірка на стаціонарність випадкового компонента за допомогою Х ^ 2 (Х ^ 2 = 10.04) вказує що коефіцієнти кореляції неоднорідні.
Метод прес. Заснований на виборі найкращого рівняння регресії для цього розраховують значення сум квадратів розбіжності:
Хi | відхилення | Хi | відхилення | Хi | відхилення | Хi | відхилення | Хi | відхилення |
1 | 9174.74 | 12 | 5598.67 | 123 | 5589.96 | 1234 | 538.735 | 12345 | 185.547 |
2 | 8969.93 | 13 | 7329.06 | 124 | 545.654 | 1235 | 217.694 | ||
3 | 7608.97 | 14 | 2226.17 | 125 | 217.86 | 1245 | 185.690 | ||
4 | 6674.29 | 15 | 256.857 | 134 | 1176.13 | 1345 | 236.652 | ||
5 | 305.611 | 23 | 7607.95 | 135 | 240.845 | 2345 | 224.784 | ||
24 | 256.856 | 145 | 256.53 | ||||||
25 | 227.26 | 234 | 3506.0 | ||||||
34 | 5628.28 | 235 | 224.949 | ||||||
35 | 275.868 | 245 | 226.924 | ||||||
45 | 266.522 | 345 | 236.662 |
модель | R2 | дисперсія |
25 | 0.9756 | 3.3709 |
125 | 0.9766 | 3.3005 |
Метод виключення. Метод виключення заснований на аналізі коефіцієнтів регресійного рівняння за умови, що змінна при цьому коефіцієнті в модель була включена останньої.
змінні в моделе | f-кри-терій | змінні в моделе | f-кри-терій | змінні в моделе | f-кри-терій | змінні в моделе | f-кри-терій | змінні в моделе | f-кри-терій |
Х1 | 3.1719 | Х1 | 0.5331 | Х1 | 0.7335 | ||||
Х2 | 4.1314 | Х2 | 1.7014 | Х2 | 3.0429 | Х2 | 1.8365 | ||
Х3 | 0.0115 | Х3 | 0.0121 | ||||||
Х4 | 2.5988 | Х4 | 8.6594 | ||||||
Х5 | 28.553 | Х5 | 394.844 | Х5 | 419.872 | Х5 | 23.6498 | ||
Fкр | 4.4100 | Fкр | 4.4100 | Fкр | 4.4100 | Fкр | 4.4100 | Fкр | 4.4100 |
Метод головних компонент. Метод головних компонент був запропонований К. Пірсоном в 1901 році, а в подальшому розвинений і доопрацьовано. Метод заснований на стандартизації змінних для чого використовують такі формули:
Zij = (Xij-Xiсред) Si; Si = [1 / (n-1) * сума (Xij-Xiсред) 2] (1 / 2); де Zij стандартизовані змінні;
Si стандартизоване відхилення.
У моделі беруть участь головні компоненти Wj, які є наступними:
Wj = V1Z1 + V2Z2 +...+ VrZr де Vj власний вектор, який задовольняє системі рівнянь:
(Z'z-KI) * Vj = 0 де Z'z кореляційна матриця;
КI характеристичні корені рівняння | Z'z-KI | = 0.
Кореляція головних компонент показує тісноту зв'язку Хi з головними компонентами. Змінні Х1, Х2, Х4 мають інтенсивну зв'язок з першою головною компонентою, а Х3 середню, друга головна компонента інтенсивно пов'язана зі змінною Х5. Отже валовий збір зерна (X1), валовий збір цукрових буряків (X2), населення Росії (X4), споживання пива (X5) мають деяку гіпотетичну величину, залежну від них. Модель отримана за методом головних компонент визначає величину Y на 87.43% (R квадрат).
Прогнозування. Проведемо прогнози по отриманих моделях і зробимо оцінки прогнозів.
прогноз | Gt | Dср | Eпр-середовищ | K | KH | KH1 | V | Vмю | Vs | Vl |
регресія від факторів | 2.5273 | 1.552086 | 0.843786 | 0.13734 | 0.015911 | 0.0164 | 0.1373 | 0.008 | 0.009699 | 169.4348 |
регресія від головних компонент | 6.633742 | 4.78329 | 2.587049 | 0.360434 | 0.041764 | 0.0432 | 0.3604 | 0.002 | 0.076127 | 124.1527 |
експоненціальне згладжування | 11.42036 | 7.739524 | 3.974608 | 0.62061 | 0.071899 | 0.0744 | 0.6206 | 0.006 | 0.169182 | 168.1134 |
метод гармонійних ваг | 8.637442 | 3.711905 | 2.035688 | 0.46938 | 0.054378 | 0.0563 | 0.4693 | 0.018 | 0.074788 | 157.9697 |
регресія від часу | 16.61707 | 11.85095 | 6.213912 | 0.903012 | 0.104615 | 0.1083 | 0.903 | 0.012 | 0.169182 | 263.5587 |
Висновок. Основними висновками за проведену роботу можна вважати наступне:
1 - виробництво лікеро-горілчаних виробів (Y) має тенденцію до постійного зростання;
2 - найбільш сильно воно залежить від споживання горілки (Х5) і від валового збору цукрових буряків (X2);
3 - найбільш кращою моделлю для проведення прогнозу служить модель отримана за кореляційно-регресійному методу, яка на 97,66% описує
виробництво лікеро-горілчаних виробів (Y);
4 - прогноз слід проводити за моделлю регресії від факторів, характеристики якої найбільш достовірні;
5 - для побудови найбільш точної моделі слід розглянути більшу кількість факторів, вплив яких більшою мірою б визначало виробництво лікеро-горілчаних виробів (Y);
6 - вплив валового збору зерна (X1), споживання пива (Х3) і населення Росії (Х4) фактично не суттєво позначається на зміну виробництва лікеро-горілчаних виробів (Y);
7 - отримана модель придатна для прогнозу лише на короткостроковий період.