Залежність виробництва лікеро-горілчаних виробів

Онно-регресійний аналіз.
Спосіб 1.
Спосіб 2.
метод прес
метод виключення
метод головних компонент
прогнозування
висновок

Постановка завдання. Визначити чи існує залежність між виробництвом лікеро-горілчаних виробів (Y) і:
1 - валовий збір зерна (X1);
2 - валовий збір цукрових буряків (X2);
3 - споживання пива (X3);
4 - населення Росії (X4);
5 - споживання горілки (X5).
У разі виявлення залежності побудувати оптимальну модель, котра могла б бути придатною для прогнозу.
Первинний аналіз вихідних даних. Аналіз динаміки виробництва лікеро-горілчаних виробів (Y) показує, що за період спостереження (N = 21) мінімальне виробництво був одно 138.1, а максимальним 209.2, тим самим зміна величини Y було в межах 71.1. Варіація рівна 12.2126% свідчить про однорідність величини Y (<33%). Відхилення від середнього значення (176.5905) в середньому не перевищувало 17.5814 (середнє абсолютне відхилення), ексцес (-1.1554) і асиметрія (-0.1873) стверджує, що розподіл величини Y має незначний зсув вліво і досить виражену плосковершинні.
Величина Y має тенденцію до збільшення, середній темп приросту складає -0.981%.
Аналіз динаміки валового збору зерна (X1) показує, що за період спостереження (N = 21) мінімальний збір дорівнював 248.1, а максимальним 356.3, тим самим зміна величини X1 було в межах 108.2. Варіація рівна 10.6046% свідчить про однорідність величини X1 (<33%). Відхилення від середнього значення (313.5953) в середньому не перевищувало 33.2555 (середнє абсолютне відхилення), ексцес (-0.9713) і асиметрія (-0.5517) стверджує, що розподіл величини X1 має незначний зсув вліво і досить виражену плосковершинні.
Величина X1 має тенденцію до збільшення, тому що середній темп приросту складає 1.0741% або на 0.0254 одиниць виміру (% від номіналу в мільйонах тонн). Збір до 16 спостереження має тенденцію до збільшення, в період від 16 до 21 спостерігається падіння збору.
Аналіз динаміки валового збору цукрових буряків (X2) показує, що за період спостереження (N = 21) мінімальний збір дорівнював 20812, а максимальний 33177, тим самим зміна величини X2 було в межах 12365. Варіація рівна 13.9157% свідчить про однорідність величини X2 (<33%). Відхилення від середнього значення (26846.0952) в середньому не перевищувало 3735.8119 (середнє абсолютне відхилення), ексцес (-1.1144) і асиметрія (0.324) стверджує, що розподіл величини X2 має незначний зсув вправо і плосковершинні.
Величина X2 має тенденцію до збільшення, тому що середній темп приросту складає 0.9409%.
Аналіз динаміки споживання пива (X3) показує, що за період спостереження (N = 21) мінімальне споживання пива було 92.4, а максимальна 106.1, тим самим зміна величини X3 було в межах 13.7. Варіація рівна 3.8059% свідчить про однорідність величини X3 (<33%). Відхилення від середнього значення (99.5857) у середньому не перевищувало 3.7902 (середнє абсолютне відхилення), ексцес (5.6717) і асиметрія (1.4085) стверджує, що розподіл величини X3 має незначний зсув вправо і досить виражену островершинним.
Величина X3 має тенденцію до зростання, тому що середній темп приросту складає 0.0821%. Споживання пива під час 9 спостереження має різке падіння.
Аналіз динаміки населення Росії (X4) показує, що за період спостереження (N = 21) мінімальне населення було 130.1, а максимальне 147.4, тим самим зміна величини X4 було в межах 17.3. Варіація рівна 3.6811% свідчить про однорідність величини X4 (<33%). Відхилення від середнього значення (138.7) у середньому не перевищувало 5.1057 (середнє абсолютне відхилення), ексцес (-1.2575) і асиметрія (0.1499) стверджує, що розподіл величини X4 має незначний зсув вправо і незначну плосковершинні.
Величина X4 має тенденцію до зростання, тому що середній темп приросту складає 0.6262%. Крива розподілу величини Х4 має невеликий підйом вгору.
Аналіз динаміки споживання горілки (X5) показує, що за період спостереження (N = 21) мінімальне споживання було 133.5, а максимальне 208.5, тим самим зміна величини X5 було в межах 75. Варіація рівна 11.4207% свідчить про однорідності величини X5 (<33%). Відхилення від середнього значення (175.9905) в середньому не перевищувало 20.0993 (середнє абсолютне відхилення), ексцес (-0.7625) і асиметрія (-0.1934) стверджує, що розподіл величини X5 має незначний зсув вліво і досить виражену плосковершинні.
Величина X5 має тенденцію до зменшення, тому що середній темп приросту складає -1.1457%. Споживання до 13 спостереження зростає, потім пішов повільний спад до 21 спостереження.
Кореляційно-регресійний аналіз. Аналіз коефіцієнтів парної кореляції говорить про наявність інтенсивної зв'язку Y з Х5 (0.9834), середньої з Х4 (-0.5315)-знак мінус вказує на зворотну залежність-і Х3 (-0.4266), слабкою з Х2 (-0.1890) і Х1 (0.1176) . Значить в модель варто включити фактори Х3, Х4, Х5.
Наступним етапом йде перевірка на мультіколленіарность, існує кілька способів даної перевірки.
Спосіб 1.
При перевірці на мультіколленіарность (коефіцієнти кореляції приватної і t-статистика) видно, що існує взаємозв'язок між:

x1	x2	x3	x4
x2	x1		x1
x4	x4		x2

отже в модель включається Х5 і Х4, тому що коефіцієнт парної кореляції Y-X4 (-0.5315) більше, ніж коефіцієнти парної кореляції Y-X1 (0.1170) і Y-X3 (-0.4266) та Y-Х2 (-0.1890).
Спосіб 2.
Цей метод заснований на аналізі розподілу кореляційної матриці. Ідея методу полягає в тому що вводяться деякі критерії на основі якого можна перевірити про значущість відхилення кореляційної матриці від ортогональної, для цього вводиться величина:

Х ^ 2 = N-1-1 / 6 (2 * n +5) * lnR |

за розрахунками ХІ квадрат одно 80.469 більше табличного, значить між змінними існує мультіколленіарность. Для визначення ступеня мультіколленіарності вводимо величину:

W = (Cii-1) - (Nn) / (n-1)

де СII - діагональний елемент матриці зворотного кореляційної.

Wii	Wii	f-критерій
W11	3.622	0.0139
W22	1.93	0.12648
W33	6.18	0.00081
W44	2.181	0.08999
W55	6.225	0.00077

Дана таблиця вказує, що найбільш колленіарна Х2, потім Х4 і можна сказати що Х3 і Х5 зовсім не колленіарни. Отже в модель краще включити Х3 і Х5, але проведений наступний регресійний аналіз вказує що краще включати в модель Х2 і Х3, тобто виробництво лікеро-горілчаних виробів (Y) залежить від валового збору цукрових буряків (X2) і споживання пива (X3).
Аналіз рівняння регресії говорить, що при зростанні Х5 на 1 одиницю у своїх одиницях виміру збільшить Y на 1.0552 одиниці в своїх одиницях виміру, Відхилення основного тренда носять випадковий характер, а дана модель визначає Y на 96.71% (R-квадрат). Відносна помилка апроксимації вказує про адекватність математичної моделі. Ступінь неуважності Y мала (дисперсія = 3.909). Розподіл Y є нормальним, у ряді немає автокореляції не можна, а перевірка на стаціонарність випадкового компонента за допомогою Х ^ 2 (Х ^ 2 = 10.04) вказує що коефіцієнти кореляції неоднорідні.
Метод прес. Заснований на виборі найкращого рівняння регресії для цього розраховують значення сум квадратів розбіжності:

Хi	відхилення	Хi	відхилення	Хi	відхилення	Хi	відхилення	Хi	відхилення
1	9174.74	12	5598.67	123	5589.96	1234	538.735	12345	185.547
2	8969.93	13	7329.06	124	545.654	1235	217.694
3	7608.97	14	2226.17	125	217.86	1245	185.690
4	6674.29	15	256.857	134	1176.13	1345	236.652
5	305.611	23	7607.95	135	240.845	2345	224.784
		24	256.856	145	256.53
		25	227.26	234	3506.0
		34	5628.28	235	224.949
		35	275.868	245	226.924
		45	266.522	345	236.662

З таблиці видно найкраще взяти модель 25 або 125.

модель	R2	дисперсія
25	0.9756	3.3709
125	0.9766	3.3005

Подальша перевірка каже, що модель 25 найбільш вигідна. Значить виробництво лікеро-горілчаних виробів (Y) залежить від 2 - валового збору цукрових буряків (X2), 5 - споживання горілки (X5) на 97.66%.
Метод виключення. Метод виключення заснований на аналізі коефіцієнтів регресійного рівняння за умови, що змінна при цьому коефіцієнті в модель була включена останньої.

змінні в моделе	f-кри-терій	змінні в моделе	f-кри-терій	змінні в моделе	f-кри-терій	змінні в моделе	f-кри-терій	змінні в моделе	f-кри-терій
Х1	3.1719	Х1	0.5331	Х1	0.7335
Х2	4.1314	Х2	1.7014	Х2	3.0429	Х2	1.8365
Х3	0.0115	Х3	0.0121
Х4	2.5988					Х4	8.6594
Х5	28.553	Х5	394.844	Х5	419.872			Х5	23.6498
Fкр	4.4100	Fкр	4.4100	Fкр	4.4100	Fкр	4.4100	Fкр	4.4100

Отже в модель включається тільки Х5. Дана модель визначає Y на 96.71%, значить споживання горілки (X5) значно впливає на виробництво лікеро-горілчаних виробів (Y).
Метод головних компонент. Метод головних компонент був запропонований К. Пірсоном в 1901 році, а в подальшому розвинений і доопрацьовано. Метод заснований на стандартизації змінних для чого використовують такі формули:
Zij = (Xij-Xiсред) Si; Si = [1 / (n-1) * сума (Xij-Xiсред) 2] (1 / 2); де Zij стандартизовані змінні;
Si стандартизоване відхилення.
У моделі беруть участь головні компоненти Wj, які є наступними:
Wj = V1Z1 + V2Z2 +...+ VrZr де Vj власний вектор, який задовольняє системі рівнянь:
(Z'z-KI) * Vj = 0 де Z'z кореляційна матриця;
КI характеристичні корені рівняння | Z'z-KI | = 0.
Кореляція головних компонент показує тісноту зв'язку Хi з головними компонентами. Змінні Х1, Х2, Х4 мають інтенсивну зв'язок з першою головною компонентою, а Х3 середню, друга головна компонента інтенсивно пов'язана зі змінною Х5. Отже валовий збір зерна (X1), валовий збір цукрових буряків (X2), населення Росії (X4), споживання пива (X5) мають деяку гіпотетичну величину, залежну від них. Модель отримана за методом головних компонент визначає величину Y на 87.43% (R квадрат).
Прогнозування. Проведемо прогнози по отриманих моделях і зробимо оцінки прогнозів.

прогноз	Gt	Dср	Eпр-середовищ	K	KH	KH1	V	Vмю	Vs	Vl
регресія від факторів	2.5273	1.552086	0.843786	0.13734	0.015911	0.0164	0.1373	0.008	0.009699	169.4348
регресія від головних компонент	6.633742	4.78329	2.587049	0.360434	0.041764	0.0432	0.3604	0.002	0.076127	124.1527
експоненціальне згладжування	11.42036	7.739524	3.974608	0.62061	0.071899	0.0744	0.6206	0.006	0.169182	168.1134
метод гармонійних ваг	8.637442	3.711905	2.035688	0.46938	0.054378	0.0563	0.4693	0.018	0.074788	157.9697
регресія від часу	16.61707	11.85095	6.213912	0.903012	0.104615	0.1083	0.903	0.012	0.169182	263.5587

З даної таблиці видно, що найбільш точною моделлю прогнозу вважається регресія від факторів, тому що Gt = 2.5273. Eпр-середовищ вказує про точність високої точності прогнозу, К - про те що дана модель досить сильно близька до еталонної (проста екстрополяція), КН - модель близька до досконалої, а Кн1 - що модель краще ніж модель на рівні середньої, V - що модель близька до простої екстрополяціі, Vмю - що центральна тенденція визначена точно, Vs - що відхилення фактичних і прогнозних досить точно збігаються, Vl - слабкий зв'язок між прогнозними та фактичними значеннями.
Висновок. Основними висновками за проведену роботу можна вважати наступне:
1 - виробництво лікеро-горілчаних виробів (Y) має тенденцію до постійного зростання;
2 - найбільш сильно воно залежить від споживання горілки (Х5) і від валового збору цукрових буряків (X2);
3 - найбільш кращою моделлю для проведення прогнозу служить модель отримана за кореляційно-регресійному методу, яка на 97,66% описує
виробництво лікеро-горілчаних виробів (Y);
4 - прогноз слід проводити за моделлю регресії від факторів, характеристики якої найбільш достовірні;
5 - для побудови найбільш точної моделі слід розглянути більшу кількість факторів, вплив яких більшою мірою б визначало виробництво лікеро-горілчаних виробів (Y);
6 - вплив валового збору зерна (X1), споживання пива (Х3) і населення Росії (Х4) фактично не суттєво позначається на зміну виробництва лікеро-горілчаних виробів (Y);
7 - отримана модель придатна для прогнозу лише на короткостроковий період.