Лінійна модель множинної регресії

Завдання 1

Лінійна модель множинної регресії ЛММР
Етап. Постановочний.
На постановочному етапі здійснюється визначення кінцевих цілей моделі (прогноз, імітація, сценарій розвитку, управління) набір беруть участь у ній факторів і показників, їх роль.
Нехай кінцева мета моделі - імітація поведінки РТС індексу залежно ціни акцій.
Позначимо:
у - РТС індекс,
х1 - ціна акції,
х2 - ціна акції.
Етап. Апріорний
На апріорному етапі виконується предметний аналіз економетричної сутності досліджуваного явища, формування та формалізації апріорної інформації відноситься до природи вихідних статистичних даних і випадкових складових.
Предмодельний аналіз сутності досліджуваного явища (використовуваної методики розрахунку РТС індексу), а також те, що обидві акції входять до списку, затвердженого для його розрахунку, дозволяють зробити висновок про ймовірність лінійної залежності поведінки у від поведінки х1 і х2.
Припустимо, що х1 і х2 - невипадкові змінні, а у - випадкова змінна.
Етап. Параметризація на етапі параметризація виконується моделювання 3, тобто вибір загальної моделі виду, складу, форми вхідних в нього зв'язків.
Аналіз, проведений на етапах 1,2 і зроблені припущення дозволяють вибрати для наших цілей модель вигляду:

В якості робочої гіпотези приймаємо припущення про взаємність і гомоскедастічності регресійних залишків l.
Етап. Інформаційний.
На інформаційному етапі виконується збір необхідної статистичної інформації, реєстрація значень беруть участь у моделі факторів і показників на різних часових і просторових інтервалах функціонування явища.
Наші дані наведені за підсумками торгів в Російській торговій системі на 18.00 послідовно по датах торгів за жовтень 2003р. (Дані з www.rbc.ru).

№ спостереження	Дата	РТС індекс (посл)	Ціна акції ЛукОйл (посл), USD	Ціна акції НорНікель ГМК (посл), USD
1	01.10 03	574,11	20,66	49,00
2	02.10 03	589,50	21,52	49,80
3	03.10.03	594,26	22,40	50,25
4	06.10.03	597,11	22,52	52,10
5	07.10.03	609,60	23,62	54,94
6	08.10.03	627,74	24,10	60,40
7	09.10.03	626,89	23,30	61,70
8	10.10.03	621,40	22,95	59,40
9	13.10.03	621,34	22,83	60,40
10	14.10 03	642,01	23,45	65,00
11	15.10.03	629,49	22,70	61,50
12	16.10.03	640,08	23,00	63,10
13	17.10.03	643,24	23,80	60,50
14	20.10.03	644,48	23,24	60,25
15	21.10 03	619,24	22,67	58,25
16	22.10 03	595,68	21,88	57,10
17	23.10.03	588,73	21,65	55,50
18	24.10 03	594,91	21,83	56,50
19	27.10.03	531,85	20,40	53,75
20	28.10.03	565,47	21,00	56,55
21	29.10.03	537,22	21, 20	55,95
22	30.10.03	512,37	19,25	53,00
23	31.10 03	508,94	20, 20	51,55

Візуальний аналіз даних дозволяє зробити висновок про зміну тенденції в аналізованому періоді. При графічному відображенні значень РТС індексу дана зміна добре помітно:

\ S
Побудуємо, оцінимо якість і порівняємо графічно три варіанти моделі:
по всій вибірці,
за період зростання індексу (перші 14 спостережень),
за період спадання індексу (останні 10)
А також зробимо висновок про справедливість наступного апріорного твердження: моделі 2,3 описують вихідні дані краще, ніж модель 1.
Етап. Ідентифікація моделі
На етапі ідентифікації виконується статистичний аналіз моделі і, перш за все статистичне оцінювання невідомих параметрів.
У нашому випадку є просторова вибірка обсягу k = 23 (14 - для періоду зростання, 10 убування). Число пояснюють змінних n = 2. Матриця Х моделі буде складена з 3 стовпців розмірності 23 (14,10) кожен. При цьому в якості першого стовпця використовується вектор з одних одиниць, стовпці 2 - 3 представляють собою стовпці х1 і х2.
Підставляючи відповідні значення у формулу розрахуємо МНК - оцінки для параметрів А.

по всій вибірці

23	510,1700	1306,5000
510,1700	11344,4995	29032,7645
1306,5000	29064,5645	74660,5000

Зворотній	16,9368	-0,6252	-0,0533
	-0,8478	0,0549	-0,0065
	0,0336	-0,0104	0,0035

	13715,6600
	305186,0672
	781955,1640

	-152,2248
А =	33,8819
	-0,0526

Y =- 152,2248 +33,8819 * X1-0, 0526 * X2
за період зростання індексу (перші 14 спостережень)

14	320,0900	808,3500
320,0900	7329,1023	18527,9690
808,3500	18527,9690	47050,7575

Зворотній	58,3597	-3,1314	0,2305
	-3,1314	0, 1983	-0,0243
	0,2305	-0,0243	0,0056

	8661,2500
	198238,8637
	501570,9840

	295,8791
А =	6,1272
	3,1641

Y = 295,8791 +6,1272 * X1 +3,1641 * X2
за період спадання індексу (останні 10)

10	213,3200	558,4000
213,3200	4563,2348	11936,8055
558,4000	11936,8055	31239,8050

Зворотній	56,1080	1, 1991	-1,4611
	1, 1991	0,4902	-0, 2088
	-1,4611	-0, 2088	0,1059

	5698,8900
	122039,6387
	319214,1000

	-309,1111
А =	24,5941
	6,3460

Y =- 309,1111 +24,5941 * X1 +6,3460 * X2
Відповідно до першого рівняння, при збільшенні ціни акції ЛукОйл на 1 дол., РТС індекс зростає на 33,8819 пункту; при збільшенні ціни акції НорНікель ГМК на 1 дол. зменшиться на 0,0526 пункту.
Відповідно до другого рівняння, при збільшенні ціни акції ЛукОйл на 1 дол., РТС індекс зросте на 6,1272 пункту; при збільшенні ціни акції НорНікель ГМК на 1дол. зростає на 3,1641 пункту.
Згідно з третім рівнянню, при збільшенні ціни акції ЛукОйл на 1 дол., РТС індекс зросте на 24,5941 пункту; при збільшенні ціни акції НорНікель ГМК на 1 дол. зростає на 6,3460 пункту.
Етап. Верифікація моделі
На етапі верифікації моделі виконується зіставлення модельних та реальних даних. Перевірка адекватності моделі, оцінка точності модельних даних.
Проблема верифікації полягає у вирішенні питання про те, чи можна розраховувати, що використання побудованої моделі дасть результати досить збігаються з реальністю.
Найбільш поширений підхід верифікації економетричної моделі - це ретроспективні розрахунки.
Всі вихідні статистичні дані за n - періодів часу діляться на дві частини:
навчальна вибірка розмірності n - j
екзаменують вибірка j
За даними навчальної вибірки будується модель
За допомогою моделі здійснюється прогноз на j наступних періодів
Порівнюються прогнозні значення з реальними з іспитів вибірки. Проводиться аналіз, оцінюється точність
Перевірка загальної якості рівняння регресії
Перший показник - стандартна помилка оцінки Y.

Другий показник - коефіцієнт детермінації, він характеризує частку загальної варіації результуючого ознаки пояснення поведінки вибіркової функції регресії.

При зростанні числа регресорів значення R ² зростає, проте якість опис вихідних даних регресійного рівняння може при цьому не покращитися, щоб усунути цей подібний ефект проводять коректування цього показника на число регресорів.

Перевірка статистичної значущості коефіцієнтів

Розраховуються помилки коефіцієнтів регресії, для цього будуються коваріаційні матриці оцінок. На головній діагоналі матриці стоять квадрати помилок коефіцієнтів.

k - кількість спостережень
n - кількість регресій
Розраховується t - статистики Стьюдента

Визначається табличне значення t - статистики при числі ступенів свободи k-n-1 і рівня значущості α / 2. Порівнюється табличне і розрахункове значення і робиться висновок.
Далі розрахуємо показники для оцінки якості рівнянь:
По всій вибірці Y =- 152,2248 +33,8819 * X1-0, 0526 * X2

kn-1	20
Yср	596,3330
σ ² - дисперсія	312,1648
σ - станд. ош.	17,6682
R ²	0,8330
R ² кор.	0,8163

	5287,0816	-195,1602	-16,6290
З _А =	-264,6435	17,1410	-2,0345
	10,5032	-3,2577	1,0872

бА0 =	72,7123	tА0 =	-2,0935
бА1 =	4,1402	tА1 =	8,1837
бА2 =	1,0427	tА2 =	-0,0504

По 14 спостереженнями Y = 295,8791 +6,1272 * X1 +3,1641 * X2

kn-1	11
Yср	618,6607
σ ² - дисперсія	51,3048
σ - станд. ош.	7,1627
R ²	0,9136
R ² кор.	0,8979

	2994,1340	-160,6574	11,8244
З _А =	-160,6574	10,1736	-1,2461
	11,8244	-1,2461	0,2886

бА0 =	54,7187	tА0 =	5,4073
бА1 =	3,1896	tА1 =	1,9210
бА2 =	0,5372	tА2 =	5,8894

По 10 спостереженнями
Y =- 309,1111 +24,5941 * X1 +6,3460 * X2

kn-1	7
Yср	569,8890
дисперсія	192,9140
станд. Ош.	13,8893
R2	0,9297
R2корр	0,9096

	10824,0152	231,3212	-281,8637
З _А =	231,3212	94,5720	-40,2710
	-281,8637	-40,2710	20,4320

бА0 =	104,0385273	tА0 =	-2,9711
бА1 =	9,724814036	tА1 =	2,5290
бА2 =	4,52017947	tА2 =	1,4039

Проаналізуємо значення отриманих показників:
Значення R ² і R ² кор. близькі до 1, тобто якість підгонки хороше.
Перевіряючи статистичну залежність коефіцієнтів, перевіряємо гіпотезу Н _0: а _j = 0 (отримані коефіцієнти статистично не значимі, їх відмінність від нуля випадково). Коефіцієнт а _j значущий (Н ₀ відхиляється). Якщо | t _A розр |> tтабл. то гіпотеза Н ₀ відхиляється при значенні а _j не випадково відрізняється від нуля і сформувався під впливом систематично діючого фактора.
Задамося рівнем значущості 0,01, тоді при числі ступенів свободи kn-1 = 20 (11, 7 відповідно), табличне значення t - статистики Стьюдента t _{0,005; 20} = 2,845; t _{0,005; 11} = 3, 206; t _{0,005; 7} = 3,499.
Тоді при рівні значимості 0,01 (з імовірністю 0,99) статистично значущим є (тобто не випадково відрізняються від 0, сформувалися під впливом систематично діючого фактора); в моделі 1: а _0, а _2; в моделі 2: а _0, а _2; в моделі 3: а _0, а _1. (Можна помітити, що для незначущих коефіцієнтів величина помилки відповідного коефіцієнта велика, перевищує половину величини коефіцієнта).
Апріорне твердження щодо того, що моделі 2 і 3 описують вихідні дані краще, ніж модель 1, підтвердилася. Дійсно, значення R ² і R ² кор. моделей 2 і 3 вище, ніж моделі 1, а стандартні помилки оцінки нижче. Висновок про справедливість твердження можна зробити в результаті порівняння відповідних графіків.

Завдання 2

Привести приклад по одному прикладу, що ілюструє практичне використання моделей кожного з наступних типів:
ЛММР
РМ зі змінною структурою (фіктивні змінні)
Нелінійні РМ
Моделі часових рядів
Системи лінійних одночасних рівнянь
1. ЛММР
Припустимо, що по ряду регіонів множинна регресія величини імпорту на певний товар у відносно вітчизняного виробництва х _1, зміни запасів х ₂ і споживання на внутрішньому ринку х ₃ виявилася такою

при цьому середнє значення для розглянутих ознак склали

на основі даної інформації можуть бути знайдені середні значення по сукупності показники еластичності

тобто із зростанням величини вітчизняного виробництва на 1% розмір імпорту в середньому по сукупності регіонів зросте на 1,053% при незмінних запасах і споживання сімей.
2. РМ зі змінною структурою (фіктивні змінні)
Проаналізуємо залежність цін двокімнатної квартири від її корисної площі. При цьому у модель можуть бути введені фіктивні змінні, що відображають тип будинку: "хрущовка", панельний цегляний.
При використанні трьох категорій будинків вводяться дві фіктивні змінні: z ₁ і z _2.
Нехай змінна z ₁ приймає значення 1 для панельного будинку і 0 для всіх типів будинків; мінлива z ₂ приймає значення 1 для цегельних будинків і 0 для інших; тоді змінні z ₁ і z ₂ приймають значення 0 для будинків типу "хрущовки".

"Хрущовки"

= 320 +500 * х
панельні

= 2520 +500 * х
цегляні

= 1920 +500 * х
У розглянутому прикладі за базу порівняння ціни взяті дому "хрущовки" для яких z ₁ = z ₂ = 0
Параметр при z ₁ = 2200 означає, що при одній і тій же корисної площі квартири ціна її в панельних будинках в середньому на 2200 дол. вище ніж у "хрущовках". Відповідно параметр при z ₂ показує, що в цегляних будинках ціна вище в середньому на 1600дол. при незмінній величині корисної площі в порівнянні зазначеним типах будинків.
3. Нелінійні РМ
Якщо нелінійна модель внутрішньо лінійна, то вона за допомогою відповідних перетворень може бути приведена до лінійного вигляду. Якщо ж нелінійна модель внутрішньо нелінійна, то вона не може бути зведена до лінійної функції. Наприклад, в економетричних дослідженнях при вивченні еластичності попиту від цін широко використовується статечна функція:
y = а * х ^b *

y - запитуємо кількість,
x ^b - ціна,

- Випадкова помилка.
4. Моделі часових рядів
Є такі дані про величину доходу на одного члена сім'ї та видатки на товар А.

Показник	1985	1986	1987	1988	1989	1990
Витрати на товар А, руб.	30	35	39	44	50	53
Дохід на одного члена сім'ї,% до 1985р.	100	103	105	104	115	118

Щорічні абсолютні прирости визначаємо за формулами

Розрахунки можна представити у вигляді таблиці

y _t		x _t
30	-	100	-
35	5	103	3
39	4	105	2
44	5	104	4
50	6	115	6
53	3	118	5

Значення у не мають чітко вираженої тенденції вони варіюють навколо середнього рівня, що означає наявність у ряді динаміки лінійного тренду, аналогічний висновок можна зробити і по ряду х.
Системи лінійних одночасних рівнянь
Модель виду

y - валовий національний дохід
y _-1 - валовий національний дохід попереднього року,
С - особисте споживання,
D - кінцевий попит (крім особистого споживання)
Інформація за 9 років про приріст усіх показників дана в таблиці.

Рік	D	y _-1	У	З
1	-6,8	46,7	3,1	7,4
2	22,4	3,1	22,8	30,4
3	-17,3	22,8	7,8	1,3
4	12,0	7,8	21,4	8,7
5	5,9	21,4	17,8	25,8
6	44,7	17,8	37,2	8,6
7	23,1	37,2	35,7	30
8	51,2	35,7	46,6	31,4
9	32,3	46,6	56,0	39,1
РАЗОМ	167,5	239,1	248,4	182,7

Для даної моделі була отримана система наведених рівнянь