Регресійний аналіз

Зміст
Введення ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. ... 2
1. Основні поняття ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... 3
1.1. Функціональні і стохастичні зв'язку ... ... ... ... ... ... ... ... ... ... ... ... ..... 8
1.2. Статистичні методи моделювання зв'язку ... ... ... ... ... ... ... ... ... ... ... 12
1.3. Статистичне моделювання зв'язку методом кореляційного та регресійного аналізу ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 13
2. Перевірка адекватності регресійної моделі ... ... ... ... ... ... ... ... ... ... ... 18
3. Практична частина ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. 25
3.1. Оцінка значущості коефіцієнтів регресії ... ... ... ... ... ... ... ... ... ... .. 27
3.2. Перевірка адекватності моделі за критерієм Фішера ... ... ... ... ... ... ... .. 29
3.3. Перевірка адекватності моделі за коефіцієнтом детермінації або множинної кореляції ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 30
Висновок ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 34
Використана література ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 35
Введення
В економічних дослідженнях часто вирішують завдання виявлення чинників, що визначають рівень і динаміку економічного процесу. Таке завдання найчастіше вирішується методами кореляційного, регресійного, факторного і компонентного аналізу. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Все різноманіття чинників, які впливають на досліджуваний процес, можна розділити на дві групи: головні (що визначають рівень досліджуваного процесу) і другорядні. Останні часто мають випадковий характер, визначаючи специфічні та індивідуальні особливості кожного об'єкта дослідження. Однак при невеликій взаємозв'язку між змінними, якщо стандартизувати змінні та розрахувати рівняння регресії для стандартизованих змінних, то оцінки коефіцієнтів регресії дозволять по їх абсолютній величині судити про те, який аргумент в більшій мірі впливає на функцію. Стандартизація змінних. Бета коефіцієнти. Коефіцієнти в останньому рівнянні отримані при однакових масштабах зміни всіх змінних і порівняти. У разі взаємозв'язку між аргументами в правій частині рівняння можуть відбуватися дивні речі. Надійність і значимість коефіцієнта регресії. Тут позначений коефіцієнт детермінації, одержуваний при побудові рівняння регресії, в якому в якості залежної змінної взято іншу змінна. З виразу видно, що величина коефіцієнта тим хисткіші, чим сильніше змінна пов'язана з іншими змінними. Ця статистика має розподіл Стьюдента. У видачі пакета друкується спостерігається її двостороння значимість - ймовірність випадково при нульовому регресійному коефіцієнті отримати значення статистики, більша за абсолютною величиною, ніж вибіркове. Значимість включення змінної у регресію. При послідовному підборі змінних передбачена автоматизація, заснована на значимості включення і виключення змінних.
Взаємодія головних і другорядних факторів і визначає коливання досліджуваного процесу. У цій взаємодії синтезується як необхідна, типове, що визначає закономірність досліджуваного явища, так і випадкове, що характеризує відхилення від цієї закономірності. Випадкові відхилення неминуче супроводжують будь-якому закономірного явища. За це іноді залежну змінну називають відгуком. Теорія регресійних рівнянь з випадковими незалежними змінними складніше, але відомо, що, при великій кількості спостережень, використання методу розробленого коректно. Для отримання оцінок коефіцієнтів регресії мінімізується сума квадратів помилок регресії. У пакеті обчислюються статистики, що дозволяють вирішити ці завдання. Чи існує лінійна регресійна залежність? Для перевірки одночасного відмінності всіх коефіцієнтів регресії від нуля проведемо аналіз квадратичного розкиду значень залежної змінної щодо середнього. Його можна розкласти на дві суми наступним чином. Статистика в умовах гіпотези рівності нулю регресійних коефіцієнтів має розподіл Фішера і, природно, за цією статистикою перевіряють, чи є коефіцієнти одночасно нульовими. Коефіцієнти детермінації і множинної кореляції. При порівнянні якості регресії, оціненої за різними залежним змінним, корисно дослідити частки поясненої і непоясненної дисперсії. Корінь з коефіцієнта детермінації називається коефіцієнтом кореляції. Слід мати на увазі, що є зміщеною оцінкою. Абсолютні значення коефіцієнтів не дозволяють зробити такий висновок.
Для достовірного відображення об'єктивно існуючих в економіці процесів необхідно виявити істотні взаємозв'язки і не тільки виявити, а й дати їм кількісну оцінку. Цей підхід вимагає розкриття причинних залежностей. Під причинного залежністю розуміється такий зв'язок між процесами, коли зміна одного з них є наслідком зміни іншого. [4]
Не всі фактори, що впливають на економічні процеси, є випадковими величинами. Тому при аналізі економічних явищ звичайно розглядаються зв'язку між випадковими і невипадковими величинами. Такі зв'язки називаються регресійний, а метод математичної статистики, їх вивчає, називається регресійним аналізом. Розглянемо, що являє собою ця значимість. Позначимо коефіцієнт детермінації, отриманий при виключенні з правої частини рівняння змінної. При цьому ми отримаємо зменшення поясненої дисперсії, на величину. Для оцінки значущості включення змінної використовується статистика, що має розподіл Фішера при нульовому теоретичному прирості. Взагалі, якщо з рівняння регресії виключаються змінних, статистикою значущості виключення буде. Покрокова процедура побудови моделі. Основним критерієм відбору аргументів повинне бути якісне уявлення про фактори, що впливають на залежну змінну, яку ми намагаємося змоделювати. Дуже добре реалізований процес побудови регресійної моделі: на машину перекладена значна частка труднощів у вирішенні цього завдання. Можлива побудова послідовне побудова моделі додаванням і видаленням блоків змінних. Але ми розглянемо тільки роботу з окремими змінними. За замовчуванням програма включає всі задані змінні.
1. Основні поняття.
З метою математичного опису конкретного виду залежностей з використанням регресійного аналізу підбирають клас функцій, що пов'язують результативний показник y і аргументи x1, x2, ..., Xk, відбирають найбільш інформативні аргументи, обчислюють оцінки невідомих значень параметрів рівняння зв'язку та аналізують точність отриманого рівняння. [8]
Функція f (x1, x2, ..., хk), що описує залежність умовного середнього значення результативної ознаки у від заданих значень аргументів, називається функцією (рівнянням) регресії.
Термін "регресія" (лат. - "regression" - відступ, повернення до чого-небудь) введений англійським психологом і антропологом Ф. Гальтпном і пов'язаний тільки зі специфікою одного з перших конкретних прикладів, у якому це поняття було використано.
Обробляючи статистичні дані у зв'язку з питанням про спадковість зростання, Ф. Гальтон знайшов, що якщо батьки відхиляються від середнього зросту всіх батьків на x дюймів, то їх сини відхиляються від середнього росту всіх синів менше, ніж на x дюймів. Виявлена тенденція була названа «регресією до середнього стану». Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Для точного опису рівняння регресії необхідно знати умовний закон розподілу результативного показника у. У статистичній практиці таку інформацію отримати зазвичай не вдається, тому обмежуються пошуком підходящих апроксимацій для функції f (x1, x2, ..., хk), заснованих на вихідних статистичних даних.
У рамках окремих модельних припущень про тип розподілу вектора показників (у, x1, x2, ..., хk) може бути отриманий загальний вигляд рівняння регресії f (x) = M (y / x) x = (x1, x2, ..., хk)

. Наприклад, у реченні, що досліджувана сукупність показників підпорядковується (k + 1) - мірному нормальному закону розподілу з вектором математичних сподівань
M =

,
де Mx =

, My = MY
і ковариационной матрицею S =

,
де syy = s2у = M (y-My)

;
S yx =

; S xx =

;
s ij = M (xi - Mxi); (xj - Mxj); sjj = sj

= M (xj - Mxj)

. [12]
З цього випливає, що рівняння регресії (умовне математичне очікування) має вигляд:
M (y / x) = my +

(X - Mx).
Таким чином, якщо багатовимірна випадкова величина (в, x1, x2, ..., хk) підпорядковується (k +1)-мірному нормальному закону розподілу, то рівняння регресії результативного показника у по пояснює змінним x1, x2, ..., хk має лінійний по х вид. Метод включення і виключення змінних полягає в наступному. З безлічі чинників, які розглядають дослідником як можливі аргументи регресійного рівняння, відбирається один, який найбільше пов'язаний кореляційною залежністю. Далі проводиться та ж процедура при двох обраних змінних, при трьох і т.д. Процедура повторюється до тих пір, поки в рівняння не будуть включені всі аргументи виділені дослідником, що задовольняють критеріям значимості включення. Зауваження: щоб уникнути зациклення процесу включення виключення значимість включення встановлюється менше значущості винятку. Змінні, породжувані регресійним рівнянням. Збереження змінних, породжуваних регресією, проводиться підкомандами. Завдяки отриманим оцінками коефіцієнтів рівняння регресії можуть бути оцінені прогнозні значення залежної змінної, причому вони можуть бути обчислені і там, де значення визначені, і там де вони не визначені.
Однак у статистичній практиці зазвичай доводиться обмежуватися пошуком підходящих апроксимацій для невідомої істинної функції регресії f (x), так як дослідник не має в своєму розпорядженні точним знанням умовного закону розподілу ймовірностей аналізованого результатірующего показника у при заданих еначеніях аргументів х = х.
Розглянемо взаємовідношення між істиною f (х) = M (y / x), модельної в і оцінкою у регресії. Однак при невеликій взаємозв'язку між змінними, якщо стандартизувати змінні та розрахувати рівняння регресії для стандартизованих змінних, то оцінки коефіцієнтів регресії дозволять по їх абсолютній величині судити про те, який аргумент в більшій мірі впливає на функцію. Стандартизація змінних. Бета коефіцієнти. Коефіцієнти в останньому рівнянні отримані при однакових масштабах зміни всіх змінних і порівняти. У разі взаємозв'язку між аргументами в правій частині рівняння можуть відбуватися дивні речі. Надійність і значимість коефіцієнта регресії. Тут позначений коефіцієнт детермінації, одержуваний при побудові рівняння регресії, в якому в якості залежної змінної взято іншу змінна. З виразу видно, що величина коефіцієнта тим хисткіші, чим сильніше змінна пов'язана з іншими змінними. Ця статистика має розподіл Стьюдента. У видачі пакета друкується спостерігається її двостороння значимість - ймовірність випадково при нульовому регресійному коефіцієнті отримати значення статистики, більша за абсолютною величиною, ніж вибіркове. Значимість включення змінної у регресію. При послідовному підборі змінних передбачена автоматизація, заснована на значимості включення і виключення змінних.
Нехай результативний показник у пов'язаний з аргументом х співвідношенням::
y =

+ E,
де e - випадкова величина, що має нормальний закон розподілу, причому М e = 0 і
D e =

.
Справжня функція регресії в цьому випадку має вигляд:
F (x) = M (y / x) = 2x

.
Припустимо, що точний вид істинного рівняння регресії нам не відомий, але ми маємо в своєму розпорядженні девят'ю спостереженнями над двовимірної випадкової величиною, пов'язаної співвідношенням уi = 2x

+ Ei, і уяву на малюнку:

f (x)

0
0 2 4 6 8 10
Взаємне розташування істинної f (x) і теоритической у моделі регресії.
Розташування точок на малюнку дозволяє обмежитися класом лінійних залежностей виду: у = b0 + b1 x. [2]
За допомогою методу найменших квадратів знайдемо оцінку рівняння регресії
у = b0 + b1 x.
Дли порівняння на малюнку наводяться графіки істинної функції регресії f {х) = 2x

, Теоретичної апроксимуючої функції регресії

= B0 + b1 x. До останньої сходиться за ймовірністю оцінка рівняння регресії

при необмеженому збільшенні обсягу вибірки (n

).
Оскільки ми помилилися у виборі класу функції регресії, що, на жаль, досить часто зустрічається в практиці статистичних досліджень, то наші статистичні висновки та оцінки не будуть мати властивість спроможності, тобто, як би
ми не збільшували обсяг спостережень, наша вибіркова оцінка

не буде сходитися до істинної функції регресії f (х). Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Якщо б ми правильно вибрали клас функцій регресії, то неточність в описі f (x) за допомогою

пояснювалася б тільки обмеженістю вибірки і, отже, вона могла б бути зроблена скільки завгодно малою за n

З метою найкращого відновлення по вихідним статистичним даними умовного значення результатірующего показника у (х) і невідомої функції регресії f (x) = M (y / x) найбільш часто використовують такі критерії адекватності (функції втрат). [7]
1. Метод найменших квадратів, згідно з яким мінімізується квадрат відхилення спостережуваних значень результативного показника yi (i = 1,2, ..., n) від модельних значень

i = f (xi, b), де b = (b0, b1, ..., bk)

- Коефіцієнти рівняння регресії, xi - значення вектора аргументів на i-му спостереженні:

.
Вирішується задача відшукання оцінки

вектора b. Отримана регресія називається середньоквадратичної. За це іноді залежну змінну називають відгуком. Теорія регресійних рівнянь з випадковими незалежними змінними складніше, але відомо, що, при великій кількості спостережень, використання методу розробленого коректно. Для отримання оцінок коефіцієнтів регресії мінімізується сума квадратів помилок регресії. У пакеті обчислюються статистики, що дозволяють вирішити ці завдання. Чи існує лінійна регресійна залежність? Для перевірки одночасного відмінності всіх коефіцієнтів регресії від нуля проведемо аналіз квадратичного розкиду значень залежної змінної щодо середнього. Його можна розкласти на дві суми наступним чином. Статистика в умовах гіпотези рівності нулю регресійних коефіцієнтів має розподіл Фішера і, природно, за цією статистикою перевіряють, чи є коефіцієнти одночасно нульовими. Коефіцієнти детермінації і множинної кореляції. При порівнянні якості регресії, оціненої за різними залежним змінним, корисно дослідити частки поясненої і непоясненної дисперсії. Корінь з коефіцієнта детермінації називається коефіцієнтом кореляції. Слід мати на увазі, що є зміщеною оцінкою. Абсолютні значення коефіцієнтів не дозволяють зробити такий висновок.
2. Метод найменших модулів, згідно з яким мінімізується сума абсолютних відхилень спостережуваних значень результативного показника від модульних значень

= F (xi, b), тобто

.
Отримана регресія називається среднеабсолютной (медіаною).
3. Метод Мінімакс зводиться до мінімізації максимуму модуля відхилення спостережуваного значення результативного показника yi від модельного значення f (xi, b), тобто

.
Отримана при цьому регресія називається мінімаксної. Розглянемо, що являє собою ця значимість. Позначимо коефіцієнт детермінації, отриманий при виключенні з правої частини рівняння змінної. При цьому ми отримаємо зменшення поясненої дисперсії, на величину. Для оцінки значущості включення змінної використовується статистика, що має розподіл Фішера при нульовому теоретичному прирості. Взагалі, якщо з рівняння регресії виключаються змінних, статистикою значущості виключення буде. Покрокова процедура побудови моделі. Основним критерієм відбору аргументів повинне бути якісне уявлення про фактори, що впливають на залежну змінну, яку ми намагаємося змоделювати. Дуже добре реалізований процес побудови регресійної моделі: на машину перекладена значна частка труднощів у вирішенні цього завдання. Можлива побудова послідовне побудова моделі додаванням і видаленням блоків змінних. Але ми розглянемо тільки роботу з окремими змінними. За замовчуванням програма включає всі задані змінні.
У практичних положеннях часто зустрічаються задачі, в яких вивчається випадкова величина у, що залежить від деякого безлічі змінних x1, x2, ..., хk і невідомих параметрів bj (j = 0,1,2, ..., k). Будемо розглядати (у, x1, x2, ..., хk) як
(K +1) - мірну генеральну сукупність, з якої взята випадкова вибірка обсягів n, де (уi, xi1, xi2, ..., xik) результат i-го спостереження i = 1,2, ..., n. Потрібно за результатами спостережень оцінити невідомі параметри bj (j = 0,1,2, ..., k). [4]
1.1. Функціональні і стохастичні зв'язку.
Між різними явищами і їх ознаками необхідно перш за все виділити 2 типу зв'язків: функціональну (жорстко детерміновану) і статистичну (стохастично детерміновану).
Відповідно до жорстко детерміністичних поданням про функціонування економічних систем необхідність і закономірність однозначно проявляються в кожному окремому явищі, тобто будь-яка дія викликає строго певний результат; випадковими (непередбаченими заздалегідь) впливами при цьому нехтують. Тому при заданих початкових умовах стан такої системи може бути визначено з імовірністю, рівною 1. Різновидом такої закономірності є функціональний зв'язок. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Зв'язок ознаки у з ознакою х називається функціональною, якщо кожному можливому значенню незалежного ознаки x відповідає 1 або кілька суворо визначених значень залежного ознаки у. Визначення функціонального зв'язку може бути легко узагальнено для випадку багатьох ознак х1, х2 ... хn. Метод включення і виключення змінних полягає в наступному. З безлічі чинників, які розглядають дослідником як можливі аргументи регресійного рівняння, відбирається один, який найбільше пов'язаний кореляційною залежністю. Далі проводиться та ж процедура при двох обраних змінних, при трьох і т.д. Процедура повторюється до тих пір, поки в рівняння не будуть включені всі аргументи, виділені дослідником, що задовольняють критеріям значимості включення. Зауваження: щоб уникнути зациклення процесу включення виключення значимість включення встановлюється менше значущості винятку. Змінні, породжувані регресійним рівнянням. Збереження змінних, породжуваних регресією, проводиться підкомандами. Завдяки отриманим оцінками коефіцієнтів рівняння регресії можуть бути оцінені прогнозні значення залежної змінної, причому вони можуть бути обчислені і там, де значення визначені, і там де вони не визначені.
Характерною особливістю функціональних зв'язків є те, що в кожному окремому випадку відомий повний перелік факторів, що визначають значення залежного (результативного) ознаки, а також точний механізм їх впливу, виражений певним рівнянням.
Функціональну зв'язок можна представити рівнянням:
yi = Ä (xi),
де yi - результативний ознака (i = 1, ..., n);
f (xi) - відома функція зв'язку результативного і факторного ознак;
xi - факторний ознака. [11]
У реального суспільного життя з огляду на неповноти інформації жорстко детермінованої системи, може виникнути невизначеність, через яку ця система по своїй природі повинна розглядатися як імовірнісна, при цьому зв'язок між ознаками стає стахостіческой.
Стахостіческая зв'язок - це зв'язок між величинами, при якій одна з них, випадкова величина у, реагує на зміну іншої величини х або інших величин х1, х2 ... хn (випадкових або невипадкових) зміною закону розподілу. Це обумовлюється тим, що залежна змінна (результативна ознака), крім розглянутих незалежних, схильна до впливу ряду необлікованих або неконтрольованих (випадкових) чинників, а також деяких неминучих помилок вимірювання змінних. Оскільки значення залежної змінної схильні випадковому розкиду, вони не можуть бути передбачити з достатньою точністю, а тільки зазначені з певною ймовірністю.
Характерною особливістю стахостіческіх зв'язків є те, що вони проявляються у всій сукупності, а не в кожній її одиниці. Причому невідомий ні повний перелік факторів, що визначають значення результативної ознаки, ні точний механізм їх функціонування та взаємодії з результативним ознакою. Завжди має місце вплив випадкового. З'являються різні значення залежної змінної - реалізація випадкової величини. Однак при невеликій взаємозв'язку між змінними, якщо стандартизувати змінні та розрахувати рівняння регресії для стандартизованих змінних, то оцінки коефіцієнтів регресії дозволять по їх абсолютній величині судити про те, який аргумент в більшій мірі впливає на функцію. Стандартизація змінних. Бета коефіцієнти. Коефіцієнти в останньому рівнянні отримані при однакових масштабах зміни всіх змінних і порівняти. У разі взаємозв'язку між аргументами в правій частині рівняння можуть відбуватися дивні речі. Надійність і значимість коефіцієнта регресії. Тут позначений коефіцієнт детермінації, одержуваний при побудові рівняння регресії, в якому в якості залежної змінної взято іншу змінна. З виразу видно, що величина коефіцієнта тим хисткіші, чим сильніше змінна пов'язана з іншими змінними. Ця статистика має розподіл Стьюдента. У видачі пакета друкується спостерігається її двостороння значимість - ймовірність випадково при нульовому регресійному коефіцієнті отримати значення статистики, більша за абсолютною величиною, ніж вибіркове. Значимість включення змінної у регресію. При послідовному підборі змінних передбачена автоматизація, заснована на значимості включення і виключення змінних.
Модель стохастичного зв'язку може бути представлена у загальному вигляді рівнянням:
ŷi = Ä (xi) + ei,
де ŷi - розрахункове значення результативної ознаки;
f (xi) - частина результативної ознаки, що сформувалася під впливом врахованих відомих факторних ознак (одного чи багатьох), що знаходяться в стахостіческой зв'язку з ознакою;
ei - частина результативної ознаки, що виникла в наслідок дії неконтрольованих чи неврахованих факторів, а також вимірювання ознак, неминуче супроводжується деякими випадковими помилками. За це іноді залежну змінну називають відгуком. Теорія регресійних рівнянь з випадковими незалежними змінними складніше, але відомо, що, при великій кількості спостережень, використання методу розробленого коректно. Для отримання оцінок коефіцієнтів регресії мінімізується сума квадратів помилок регресії. У пакеті обчислюються статистики, що дозволяють вирішити ці завдання. Чи існує лінійна регресійна залежність? Для перевірки одночасного відмінності всіх коефіцієнтів регресії від нуля проведемо аналіз квадратичного розкиду значень залежної змінної щодо середнього. Його можна розкласти на дві суми наступним чином. Статистика в умовах гіпотези рівності нулю регресійних коефіцієнтів має розподіл Фішера і, природно, за цією статистикою перевіряють, чи є коефіцієнти одночасно нульовими. Коефіцієнти детермінації і множинної кореляції. При порівнянні якості регресії, оціненої за різними залежним змінним, корисно дослідити частки поясненої і непоясненної дисперсії. Корінь з коефіцієнта детермінації називається коефіцієнтом кореляції. Слід мати на увазі, що є зміщеною оцінкою. Абсолютні значення коефіцієнтів не дозволяють зробити такий висновок.
Прояв стохастичних зв'язків схильне до дії закону великих чисел: лише в досить великому числі одиниць індивідуальні особливості згладяться, випадковості взаімопогасятся, і залежність, якщо вона має істотну силу, проявиться досить чітко. [6]
Кореляційний зв'язок існує там, де взаємопов'язані явища характеризуються лише випадковими величинами. При такого зв'язку середнє значення (математичне очікування) випадкової величини результативної ознаки у закономірно змінюється в залежності від зміни іншої величини х або інших випадкових величин х1, х2 ... хn. Кореляційний зв'язок проявляється не в кожному окремому випадку, а в усій сукупності в цілому. Тільки при досить великій кількості випадків кожному значенню випадкового ознаки х буде відповідати розподіл середніх значень випадкового ознаки у. Наявність кореляційних зв'язків притаманне багатьом суспільним явищам. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Кореляційний зв'язок - поняття більш вузьке, ніж стохастична зв'язок. Остання може відображатися не тільки в зміні середньої величини, але і в варіації однієї ознаки в залежності від іншого, тобто будь-який інший характеристики варіації. Таким чином, кореляційний зв'язок є окремим випадком стохастичного зв'язку.
Прямі і зворотні зв'язки. У залежності від напрямку дії, функціональні та стахостіческіе зв'язку можуть бути прямі і зворотні. При прямій зв'язку напрям зміни результативної ознаки збігається з напрямком зміни ознаки-фактора, тобто із збільшенням факторної ознаки збільшується і результативний, і, навпаки, із зменшенням факторної ознаки зменшується і результативний ознака. В іншому випадку між розглянутими величинами існують зворотні зв'язки. Наприклад, чим вища кваліфікація робітника (розряд), тим вище рівень продуктивності праці - прямий зв'язок. А чим вища продуктивність праці, тим нижча собівартість одиниці продукції - зворотний зв'язок. Розглянемо, що являє собою ця значимість. Позначимо коефіцієнт детермінації, отриманий при виключенні з правої частини рівняння змінної. При цьому ми отримаємо зменшення поясненої дисперсії, на величину. Для оцінки значущості включення змінної використовується статистика, що має розподіл Фішера при нульовому теоретичному прирості. Взагалі, якщо з рівняння регресії виключаються змінних, статистикою значущості виключення буде. Покрокова процедура побудови моделі. Основним критерієм відбору аргументів повинне бути якісне уявлення про фактори, що впливають на залежну змінну, яку ми намагаємося змоделювати. Дуже добре реалізований процес побудови регресійної моделі: на машину перекладена значна частка труднощів у вирішенні цього завдання. Можлива побудова послідовне побудова моделі додаванням і видаленням блоків змінних. Але ми розглянемо тільки роботу з окремими змінними. За замовчуванням програма включає всі задані змінні.
Прямолінійні і криволінійні зв'язку. За аналітичного вираженню (формі) зв'язку можуть бути прямолінійними і криволінійними. При прямолінійній зв'язку зі зростанням значення факторного ознаки відбувається безперервне зростання (або убування) значень результативної ознаки. Математично така зв'язок представляється рівнянням прямої, а графічно - прямою лінією. Звідси її більш коротку назву - лінійна зв'язок. При криволінійних зв'язках зі зростанням значення факторного ознаки зростання (або убування) результативного ознаки відбувається нерівномірно, або ж напрям його зміни змінюється на протилежне. Геометрично такі зв'язки представляються кривими лініями (гіперболою, параболою і т.д.).
Однофакторні і багатофакторні зв'язку. За кількістю чинників, діючих на результативний ознака, зв'язку різняться: однофакторні (один чинник) і багатофакторні (два і більше факторів). Однофакторні (прості) зв'язку зазвичай називаються парними (тому що розглядається пара ознак). Наприклад, кореляційний зв'язок між прибутком і продуктивністю праці. У випадку багатофакторної (множинної) зв'язку мають на увазі, що всі фактори діють комплексно, тобто одночасно і у взаємозв'язку. Наприклад, кореляційний зв'язок між продуктивністю праці і рівнем організації праці, автоматизації виробництва, кваліфікації робітників, виробничим стажем, простоями та іншими факторними ознаками. За допомогою множинної кореляції можна охопити весь комплекс факторних ознак і об'єктивно відобразити існуючі множинні зв'язки. Метод включення і виключення змінних полягає в наступному. З безлічі чинників, які розглядають дослідником як можливі аргументи регресійного рівняння, відбирається один, який найбільше пов'язаний кореляційною залежністю. Далі проводиться та ж процедура при двох обраних змінних, при трьох і т.д. Процедура повторюється до тих пір, поки в рівняння не будуть включені всі аргументи, виділені дослідником, що задовольняють критеріям значимості включення. Зауваження: щоб уникнути зациклення процесу включення виключення значимість включення встановлюється менше значущості винятку. Змінні, породжувані регресійним рівнянням. Збереження змінних, породжуваних регресією, проводиться підкомандами. Завдяки отриманим оцінками коефіцієнтів рівняння регресії можуть бути оцінені прогнозні значення залежної змінної, причому вони можуть бути обчислені і там, де значення визначені, і там де вони не визначені.
1.2. Статистичні методи моделювання зв'язку.
Для дослідження стохастичних зв'язків широко використовується метод зіставлення двох паралельних рядів, метод аналітичних угруповань, кореляційний аналіз, регресійний аналіз і деякі непараметричні методи. [1]
Метод зіставлення двох паралельних рядів є одним з найпростіших методів. Для цього фактори, що характеризують результативний ознака розташовують у зростаючому або спадаючому порядку (в залежності від еволюції процесу мети дослідження), а потім простежують зміну величини результативної ознаки. Зіставлення й аналіз розташованих таким чином рядів значень досліджуваних величин дозволяють встановити наявність зв'язку та її спрямування. Залежність між факторами і показниками може простежуватися в часі (паралельні динамічні ряди). Однак при невеликій взаємозв'язку між змінними, якщо стандартизувати змінні та розрахувати рівняння регресії для стандартизованих змінних, то оцінки коефіцієнтів регресії дозволять по їх абсолютній величині судити про те, який аргумент в більшій мірі впливає на функцію. Стандартизація змінних. Бета коефіцієнти. Коефіцієнти в останньому рівнянні отримані при однакових масштабах зміни всіх змінних і порівняти. У разі взаємозв'язку між аргументами в правій частині рівняння можуть відбуватися дивні речі. Надійність і значимість коефіцієнта регресії. Тут позначений коефіцієнт детермінації, одержуваний при побудові рівняння регресії, в якому в якості залежної змінної взято іншу змінна. З виразу видно, що величина коефіцієнта тим хисткіші, чим сильніше змінна пов'язана з іншими змінними. Ця статистика має розподіл Стьюдента. У видачі пакета друкується спостерігається її двостороння значимість - ймовірність випадково при нульовому регресійному коефіцієнті отримати значення статистики, більша за абсолютною величиною, ніж вибіркове. Значимість включення змінної у регресію. При послідовному підборі змінних передбачена автоматизація, заснована на значимості включення і виключення змінних.
Метод аналітичних групувань теж відноситься до простих методів. Щоб виявити залежність за допомогою цього методу, потрібно Неунікальна одиниць сукупності по факторному ознакою і для кожної групи обчислити середню або відносне значення результативної ознаки. Зіставляючи потім зміни результативної ознаки в міру зміни факторного можна виявити напрямок, характер і тісноту зв'язку між ними. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
У загальному вигляді завдання статистики в області вивчення взаємозв'язків полягає не тільки в кількісній оцінці їх наявності, напрямку і сили зв'язку, а й у визначенні форми (аналітичного вираження) впливу факторних ознак на результативний. За це іноді залежну змінну називають відгуком. Теорія регресійних рівнянь з випадковими незалежними змінними складніше, але відомо, що, при великій кількості спостережень, використання методу розробленого коректно. Для отримання оцінок коефіцієнтів регресії мінімізується сума квадратів помилок регресії. У пакеті обчислюються статистики, що дозволяють вирішити ці завдання. Чи існує лінійна регресійна залежність? Для перевірки одночасного відмінності всіх коефіцієнтів регресії від нуля проведемо аналіз квадратичного розкиду значень залежної змінної щодо середнього. Його можна розкласти на дві суми наступним чином. Статистика в умовах гіпотези рівності нулю регресійних коефіцієнтів має розподіл Фішера і, природно, за цією статистикою перевіряють, чи є коефіцієнти одночасно нульовими. Коефіцієнти детермінації і множинної кореляції. При порівнянні якості регресії, оціненої за різними залежним змінним, корисно дослідити частки поясненої і непоясненної дисперсії. Корінь з коефіцієнта детермінації називається коефіцієнтом кореляції. Слід мати на увазі, що є зміщеною оцінкою. Абсолютні значення коефіцієнтів не дозволяють зробити такий висновок.
1.3. Статистичне моделювання зв'язку методом кореляційного та регресійного аналізу.
Завдання кореляційного аналізу зводяться до вимірювання тісноти відомої зв'язку між варьирующими ознаками, визначенню невідомих причинних зв'язків (причинний характер яких має бути з'ясований за допомогою теоретичного аналізу) та оцінки факторів, що роблять найбільший вплив на результативну ознаку. [4]
Завданнями регресійного аналізу є вибір типу моделі (форми зв'язку), встановлення ступеня впливу незалежних змінних на залежну і визначення розрахункових значень залежної змінної (функції регресії). Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Вирішення всіх названих завдань приводить до необхідності комплексного використання цих методів. Розглянемо, що являє собою ця значимість. Позначимо коефіцієнт детермінації, отриманий при виключенні з правої частини рівняння змінної. При цьому ми отримаємо зменшення поясненої дисперсії, на величину. Для оцінки значущості включення змінної використовується статистика, що має розподіл Фішера при нульовому теоретичному прирості. Взагалі, якщо з рівняння регресії виключаються змінних, статистикою значущості виключення буде. Покрокова процедура побудови моделі. Основним критерієм відбору аргументів повинне бути якісне уявлення про фактори, що впливають на залежну змінну, яку ми намагаємося змоделювати. Дуже добре реалізований процес побудови регресійної моделі: на машину перекладена значна частка труднощів у вирішенні цього завдання. Можлива побудова послідовне побудова моделі додаванням і видаленням блоків змінних. Але ми розглянемо тільки роботу з окремими змінними. За замовчуванням програма включає всі задані змінні.
Кореляційний і регресійний аналіз. Дослідження зв'язків в умовах масового спостереження та дії випадкових факторів здійснюється, як правило, за допомогою економіко-статистичних моделей. У широкому сенсі модель - це аналог, умовний образ (зображення, опис, схема, креслення тощо) будь-якого об'єкта, процесу або події, наближено відтворює «оригінал». Модель являє собою логічне або математичний опис компонентів і функцій, що відображають істотні властивості модельованого об'єкта або процесу, дає можливість встановити основні закономірності зміни оригіналу. У моделі оперують показниками, обчисленими для якісно однорідних масових явищ (сукупностей). Вираз і моделі у вигляді функціональних рівнянь використовують для розрахунку середніх значень модельованого показника по набору заданих величин і для виявлення ступеня впливу на нього окремих факторів. Метод включення і виключення змінних полягає в наступному. З безлічі чинників, які розглядають дослідником як можливі аргументи регресійного рівняння, відбирається один, який найбільше пов'язаний кореляційною залежністю. Далі проводиться та ж процедура при двох обраних змінних, при трьох і т.д. Процедура повторюється до тих пір, поки в рівняння не будуть включені всі аргументи, виділені дослідником, що задовольняють критеріям значимості включення. Зауваження: щоб уникнути зациклення процесу включення виключення значимість включення встановлюється менше значущості винятку. Змінні, породжувані регресійним рівнянням. Збереження змінних, породжуваних регресією, проводиться підкомандами. Завдяки отриманим оцінками коефіцієнтів рівняння регресії можуть бути оцінені прогнозні значення залежної змінної, причому вони можуть бути обчислені і там, де значення визначені, і там де вони не визначені.
За кількістю включаються факторів моделі можуть бути однофакторний і багатофакторними (два і більше факторів).
У залежності від пізнавальної мети статистичні моделі поділяються на структурні, динамічні і моделі зв'язку.
Двомірна лінійна модель кореляційного і регресійного аналізу (однофакторний лінійний кореляційний та регресійний аналіз). Найбільш розробленою в теорії статистики є методологія так званої парної кореляції, яка розглядає вплив варіації факторного аналізу х на результативну ознаку в і представляє собою однофакторний кореляційний та регресійний аналіз. Оволодіння теорією і практикою побудови та аналізу двомірної моделі кореляційного та регресійного аналізу є вихідну основу для вивчення багатофакторних стохастичних зв'язків. Однак при невеликій взаємозв'язку між змінними, якщо стандартизувати змінні та розрахувати рівняння регресії для стандартизованих змінних, то оцінки коефіцієнтів регресії дозволять по їх абсолютній величині судити про те, який аргумент в більшій мірі впливає на функцію. Стандартизація змінних. Бета коефіцієнти. Коефіцієнти в останньому рівнянні отримані при однакових масштабах зміни всіх змінних і порівняти. У разі взаємозв'язку між аргументами в правій частині рівняння можуть відбуватися дивні речі. Надійність і значимість коефіцієнта регресії. Тут позначений коефіцієнт детермінації, одержуваний при побудові рівняння регресії, в якому в якості залежної змінної взято іншу змінна. З виразу видно, що величина коефіцієнта тим хисткіші, чим сильніше змінна пов'язана з іншими змінними. Ця статистика має розподіл Стьюдента. У видачі пакета друкується спостерігається її двостороння значимість - ймовірність випадково при нульовому регресійному коефіцієнті отримати значення статистики, більша за абсолютною величиною, ніж вибіркове. Значимість включення змінної у регресію. При послідовному підборі змінних передбачена автоматизація, заснована на значимості включення і виключення змінних.
Найважливішим етапом побудови регресійної моделі (рівняння регресії) є встановлення в аналізі вихідної інформації математичної функції. Складність полягає в тому, що з безлічі функцій необхідно знайти таку, яка краще за інших виражає реально існуючі зв'язки між аналізованими признаками. Вибір типів функції може спиратися на теоретичні знання про досліджуваному явищі, опеньків попередніх аналогічних досліджень, або здійснюватися емпірично - перебором і оцінкою функцій різних типів і т.п. [10]
При вивченні зв'язку економічних показників виробництва (діяльності) використовують різного виду рівняння прямолінійної і криволінійної зв'язку. Увага до лінійних зв'язків пояснюється обмеженою варіацією змінних і тим, що в більшості випадків нелінійні форми зв'язку для виконання розрахунків перетворять (шляхом логарифмування або заміни змінних) в лінійну форму. Рівняння однофакторний (парної) лінійної кореляційної зв'язку має вигляд:
ŷ = a0 + a1x,
де ŷ - теоретичні значення результативної ознаки, отримані за рівнянням регресії;
a0, a1 - коефіцієнти (параметри) рівняння регресії. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Оскільки a0 є середнім значенням у в точці х = 0, економічна інтерпретація часто утруднена або взагалі неможлива. За це іноді залежну змінну називають відгуком. Теорія регресійних рівнянь з випадковими незалежними змінними складніше, але відомо, що, при великій кількості спостережень, використання методу розробленого коректно. Для отримання оцінок коефіцієнтів регресії мінімізується сума квадратів помилок регресії. У пакеті обчислюються статистики, що дозволяють вирішити ці завдання. Чи існує лінійна регресійна залежність? Для перевірки одночасного відмінності всіх коефіцієнтів регресії від нуля проведемо аналіз квадратичного розкиду значень залежної змінної щодо середнього. Його можна розкласти на дві суми наступним чином. Статистика в умовах гіпотези рівності нулю регресійних коефіцієнтів має розподіл Фішера і, природно, за цією статистикою перевіряють, чи є коефіцієнти одночасно нульовими. Коефіцієнти детермінації і множинної кореляції. При порівнянні якості регресії, оціненої за різними залежним змінним, корисно дослідити частки поясненої і непоясненної дисперсії. Корінь з коефіцієнта детермінації називається коефіцієнтом кореляції. Слід мати на увазі, що є зміщеною оцінкою. Абсолютні значення коефіцієнтів не дозволяють зробити такий висновок.
Коефіцієнт парної лінійної регресії a1 має сенс показника сили зв'язку між варіацією факторної ознаки х і варіацією результативної ознаки у. Наведене вище рівняння показує середнє значення зміни результативної ознаки у при зміні факторної ознаки х на одну одиницю його виміру, тобто варіацію у, що припадає на одиницю варіації х. Знак a1 вказує напрямок цієї зміни.
Параметри рівняння a0, a1 знаходять методом найменших квадратів (метод розв'язання систем рівнянь, при якому як рішення приймається точка мінімуму суми квадратів відхилень), тобто в основу цього методу покладено вимога мінімальності сум квадратів відхилень емпіричних даних yi від вирівняних ŷ:
S (yi - ŷ) 2 = S (yi - a0 - a1xi) 2 ® min [9]
Для знаходження мінімуму даної функції прирівняємо до нуля її частинні похідні і отримаємо систему двох лінійних рівнянь, яка називається системою нормальних рівнянь:

Вирішимо цю систему в загальному вигляді:

Параметри рівняння парної лінійної регресії іноді зручно обчислювати за наступними формулами, що дає той же результат:

Визначивши значення a0, a1 і підставивши їх у рівняння зв'язку ŷ = a0 + a1x, знаходимо значення ŷ, що залежать тільки від заданого значення х.
Розглянемо побудову однофакторного рівняння регресії залежності працюючих активів у від капіталу х (див. таблиця 1). Розглянемо, що являє собою ця значимість. Позначимо коефіцієнт детермінації, отриманий при виключенні з правої частини рівняння змінної. При цьому ми отримаємо зменшення поясненої дисперсії, на величину. Для оцінки значущості включення змінної використовується статистика, що має розподіл Фішера при нульовому теоретичному прирості. Взагалі, якщо з рівняння регресії виключаються змінних, статистикою значущості виключення буде. Покрокова процедура побудови моделі. Основним критерієм відбору аргументів повинне бути якісне уявлення про фактори, що впливають на залежну змінну, яку ми намагаємося змоделювати. Дуже добре реалізований процес побудови регресійної моделі: на машину перекладена значна частка труднощів у вирішенні цього завдання. Можлива побудова послідовне побудова моделі додаванням і видаленням блоків змінних. Але ми розглянемо тільки роботу з окремими змінними. За замовчуванням програма включає всі задані змінні.
Тут представлені показники 32 банків: розмір капіталу і працюючих активів. Переді мною стоїть завдання визначити, чи є залежність між цими двома ознаками і, якщо вона існує, визначити форму цієї залежності, тобто рівняння регресії.
За факторний ознака я взяла розмір капіталу банку, а за результативний ознака - працюючі активи. [11]
Зіставлення даних паралельних рядів ознак х і у показує, що з спадання ознаки x (капітал), в більшості випадків убуває і ознака у (працюючі активи). Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Отже, можна припустити, що між х і у існує пряма залежність, нехай неповна, але виражена досить чітко.
Для уточнення форми зв'язку між розглянутими ознаками я використовувала графічний метод. Я наніс на графік точки, що відповідають значенням х і у, і отримала кореляційне поле (див. графік 1). Метод включення і виключення змінних полягає в наступному. З безлічі чинників, які розглядають дослідником як можливі аргументи регресійного рівняння, відбирається один, який найбільше пов'язаний кореляційною залежністю. Далі проводиться та ж процедура при двох обраних змінних, при трьох і т.д. Процедура повторюється до тих пір, поки в рівняння не будуть включені всі аргументи, виділені дослідником, що задовольняють критеріям значимості включення. Зауваження: щоб уникнути зациклення процесу включення виключення значимість включення встановлюється менше значущості винятку. Змінні, породжувані регресійним рівнянням. Збереження змінних, породжуваних регресією, проводиться підкомандами. Завдяки отриманим оцінками коефіцієнтів рівняння регресії можуть бути оцінені прогнозні значення залежної змінної, причому вони можуть бути обчислені і там, де значення визначені, і там де вони не визначені.
Аналізуючи поле кореляції, можна припустити, що зростання ознаки у йде пропорційно ознакою х. В основі цієї залежності лежить прямолінійна зв'язок, яка може бути виражена простою лінійним рівнянням регресії:

ŷ = a0 + a1x,
де ŷ - теоретичні розрахункові значення результативної ознаки (працюючі активи), отримані за рівнянням регресії;
a0, a1 - коефіцієнти (параметри) рівняння регресії;
х - капітал досліджуваних банків.
Користуючись вищевказаними формулами для обчислення параметрів лінійного рівняння регресії і розрахунковими значеннями з таблиці 1, отримуємо:

Отже, регресійна модель залежності працюючих активів від капіталу банків може бути записана у вигляді конкретного простого рівняння регресії:

. [4]
Це рівняння характеризує залежність працюючих активів від капіталу банку. Розрахункові значення ŷ, знайдені по цьому рівнянню, наведені в таблиці 1. Правильність розрахунку параметрів рівняння регресії може бути перевірена порівнювання сум Σу = Σŷ. У моєму випадку ці суми рівні. Однак при невеликій взаємозв'язку між змінними, якщо стандартизувати змінні та розрахувати рівняння регресії для стандартизованих змінних, то оцінки коефіцієнтів регресії дозволять по їх абсолютній величині судити про те, який аргумент в більшій мірі впливає на функцію. Стандартизація змінних. Бета коефіцієнти. Коефіцієнти в останньому рівнянні отримані при однакових масштабах зміни всіх змінних і порівняти. У разі взаємозв'язку між аргументами в правій частині рівняння можуть відбуватися дивні речі. Надійність і значимість коефіцієнта регресії. Тут позначений коефіцієнт детермінації, одержуваний при побудові рівняння регресії, в якому в якості залежної змінної взято іншу змінна. З виразу видно, що величина коефіцієнта тим хисткіші, чим сильніше змінна пов'язана з іншими змінними. Ця статистика має розподіл Стьюдента. У видачі пакета друкується спостерігається її двостороння значимість - ймовірність випадково при нульовому регресійному коефіцієнті отримати значення статистики, більша за абсолютною величиною, ніж вибіркове. Значимість включення змінної у регресію. При послідовному підборі змінних передбачена автоматизація, заснована на значимості включення і виключення змінних.
Але для того, щоб застосувати мою формулу, треба розрахувати, наскільки вона наближена до реальності, тобто перевірити її адекватність.
2. Перевірка адекватності регресійної моделі.
Для практичного використання моделей регресії велике значення має їх адекватність, тобто відповідність фактичним статистичними даними.
Кореляційний і регресійний аналіз звичайно (особливо в умовах так званого малого та середнього бізнесу) проводиться для обмеженої за обсягом сукупності. Тому показники регресії і кореляції - параметри рівняння регресії, коефіцієнти кореляції і детермінації можуть бути перекручені дією випадкових факторів. Щоб перевірити, наскільки ці показники характерні для всієї генеральної сукупності, чи не є вони результатом збігу випадкових обставин, необхідно перевірити адекватність побудованих статистичних моделей.
При чисельності об'єктів аналізу до 30 одиниць виникає необхідність перевірки значимості (суттєвості) кожного коефіцієнта регресії. При цьому з'ясовують наскільки обчислені параметри характерні для відображення комплексу умов: чи не є отримані значення параметрів результатами дії випадкових причин. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).

Значимість коефіцієнтів простої лінійної регресії (стосовно совокупностям, у яких n <30) здійснюють за допомогою t-критерію Стьюдента. При цьому обчислюють розрахункові (фактичні) значення t-критерію

для параметра a0:

для параметра a1:
де n - обсяг вибірки;
- Середнє квадратичне відхилення результативної ознаки від вирівняних значень ŷ;

або

- Середнє квадратичне відхилення факторної ознаки x від загальної середньої

. [8]
Обчислені за вищенаведеними формулами значення порівнюють з критичними t, які визначають за таблицею Стьюдента з урахуванням прийнятого рівня значимості α і числом ступенів свободи варіації

. У соціально-економічних дослідженнях рівень значимості α зазвичай приймають рівним 0,05. Параметр визнається значущим (істотним) за умови, якщо tрасч> tтабл. У такому випадку практично неймовірно, що знайдені значення параметрів обумовлені тільки випадковими збігами. За це іноді залежну змінну називають відгуком. Теорія регресійних рівнянь з випадковими незалежними змінними складніше, але відомо, що, при великій кількості спостережень, використання методу розробленого коректно. Для отримання оцінок коефіцієнтів регресії мінімізується сума квадратів помилок регресії. У пакеті обчислюються статистики, що дозволяють вирішити ці завдання. Чи існує лінійна регресійна залежність? Для перевірки одночасного відмінності всіх коефіцієнтів регресії від нуля проведемо аналіз квадратичного розкиду значень залежної змінної щодо середнього. Його можна розкласти на дві суми наступним чином. Статистика в умовах гіпотези рівності нулю регресійних коефіцієнтів має розподіл Фішера і, природно, за цією статистикою перевіряють, чи є коефіцієнти одночасно нульовими. Коефіцієнти детермінації і множинної кореляції. При порівнянні якості регресії, оціненої за різними залежним змінним, корисно дослідити частки поясненої і непоясненної дисперсії. Корінь з коефіцієнта детермінації називається коефіцієнтом кореляції. Слід мати на увазі, що є зміщеною оцінкою. Абсолютні значення коефіцієнтів не дозволяють зробити такий висновок.

Тепер я розрахував t-критерій Стьюдента для моєї моделі регресії.
- Це середні квадратичні відхилення.

Розрахункові значення t-критерію Стьюдента:
По таблиці розподілу Стьюдента я знаходжу критичне значення t-критерію для ν = 32-2 = 30. Імовірність α я приймаю 0,05. tтабл одно 2,042. Так як, обидва значення ta0 і ta1 більше tтабл, то обидва параметри а0 і а1 визнаються значимими і відхиляється гіпотеза про те, що кожен з цих параметрів насправді дорівнює 0, і лише в силу випадкових обставин виявився рівним перевіряється величиною.
Перевірка адекватності регресійної моделі може бути доповнена кореляційним аналізом. Для цього необхідно визначити тісноту кореляційного зв'язку між змінними х та у. Тіснота кореляційного зв'язку, як і будь-який інший, може бути виміряна емпіричним кореляційним відношенням ηе, коли δ2 (міжгрупова дисперсія) характеризує відхилення групових середніх результативної ознаки від загальної середньої:

.
Говорячи про кореляційному відношенні як про показник вимірювання тісноти залежності, слід відрізняти від емпіричного кореляційного відносини - теоретичне. Розглянемо, що являє собою ця значимість. Позначимо коефіцієнт детермінації, отриманий при виключенні з правої частини рівняння змінної. При цьому ми отримаємо зменшення поясненої дисперсії, на величину. Для оцінки значущості включення змінної використовується статистика, що має розподіл Фішера при нульовому теоретичному прирості. Взагалі, якщо з рівняння регресії виключаються змінних, статистикою значущості виключення буде. Покрокова процедура побудови моделі. Основним критерієм відбору аргументів повинне бути якісне уявлення про фактори, що впливають на залежну змінну, яку ми намагаємося змоделювати. Дуже добре реалізований процес побудови регресійної моделі: на машину перекладена значна частка труднощів у вирішенні цього завдання. Можлива побудова послідовне побудова моделі додаванням і видаленням блоків змінних. Але ми розглянемо тільки роботу з окремими змінними. За замовчуванням програма включає всі задані змінні.
Теоретичне кореляційне відношення η представляє собою відносну величину, що виходить в результаті порівняння середнього квадратичного відхилення вирівняних значень результативної ознаки δ, тобто розрахованих за рівнянням регресії, із середнім квадратичним ставленням емпіричних (фактичних) значень результативності ознаки σ:

,
де

;

.
Тоді

. [2]
Зміна значення η пояснюється впливом факторної ознаки. Метод включення і виключення змінних полягає в наступному. З безлічі чинників, які розглядають дослідником як можливі аргументи регресійного рівняння, відбирається один, який найбільше пов'язаний кореляційною залежністю. Далі проводиться та ж процедура при двох обраних змінних, при трьох і т.д. Процедура повторюється до тих пір, поки в рівняння не будуть включені всі аргументи, виділені дослідником, що задовольняють критеріям значимості включення. Зауваження: щоб уникнути зациклення процесу включення виключення значимість включення встановлюється менше значущості винятку. Змінні, породжувані регресійним рівнянням. Збереження змінних, породжуваних регресією, проводиться підкомандами. Завдяки отриманим оцінками коефіцієнтів рівняння регресії можуть бути оцінені прогнозні значення залежної змінної, причому вони можуть бути обчислені і там, де значення визначені, і там де вони не визначені.

В основі розрахунку кореляційного відношення лежить правило додавання дисперсій, тобто

, Де

- Відображає варіацію у за рахунок всіх інших факторів, крім х, тобто є залишкової дисперсією:

.
Тоді формула теоретичного кореляційного відносини прийме вигляд:

,
або

.
Подкоренное вираз кореляційного вираження являє собою коефіцієнт детермінації (міра визначеності, причинності).
Коефіцієнт детермінації показує частку варіації результативного ознаки під впливом варіації ознаки-фактора. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Теоретичне кореляційне вираз застосовується для вимірювання тісноти зв'язку при лінійній та криволінійної залежності між результативним і факторингу ознакою.
Як видно з вищенаведених формул кореляційне відношення може перебувати від 0 до 1. Чим ближче кореляційне відношення до 1, тим зв'язок між ознаками тісніше.
Теоретичне кореляційне відношення стосовно до мого аналізу я розрахувався двома способами:

[5]
Отримане значення теоретичного кореляційного відносини свідчить про можливу наявність середньостатистичної зв'язку між розглянутими ознаками. Коефіцієнт детермінації дорівнює 0,62. Звідси я укладаю, що 62% загальної варіації працюючих активів досліджуваних банків обумовлено варіацією чинника - капіталу банків (а 38% загальної варіації не можна пояснити зміною розміру капіталу).
Крім того, при лінійній формі рівняння застосовується інший показник тісноти зв'язку - лінійний коефіцієнт кореляції:

,
де n - число спостережень.
Для практичних обчислень при малому числі спостережень (n ≤ 20ч30) лінійний коефіцієнт кореляції зручніше обчислювати за такою формулою:

.
Значення лінійного коефіцієнта кореляції важливо для дослідження соціально-економічних явищ і процесів, розподіл яких близько до нормального. Він приймає значення в інтервалі: -1 ≤ r ≤ 1.
Негативні значення вказують на зворотний зв'язок, позитивні - на пряму. При r = 0 лінійна зв'язок відсутній. Чим ближче коефіцієнт кореляції за абсолютною величиною до одиниці, тим тісніше зв'язок між ознаками. І, нарешті, при r = ± 1 - зв'язок функціональна. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Використовуючи дані таблиці 1 я розрахувала лінійний коефіцієнт кореляції r. Але щоб використовувати формулу для лінійного коефіцієнта кореляції розрахуємо дисперсію результативної ознаки σy:

Квадрат лінійного коефіцієнта кореляції r2 називається лінійним коефіцієнтом детермінації. З визначення коефіцієнта детермінації очевидно, що його числове значення завжди укладено в межах від 0 до 1, тобто 0 ≤ r2 ≤ 1. Ступінь тісноти зв'язку повністю відповідає теоретичному кореляційному відношенню, що є більш універсальним показником тісноти зв'язку в порівнянні з лінійним коефіцієнтом кореляції. Однак при невеликій взаємозв'язку між змінними, якщо стандартизувати змінні та розрахувати рівняння регресії для стандартизованих змінних, то оцінки коефіцієнтів регресії дозволять по їх абсолютній величині судити про те, який аргумент в більшій мірі впливає на функцію. Стандартизація змінних. Бета коефіцієнти. Коефіцієнти в останньому рівнянні отримані при однакових масштабах зміни всіх змінних і порівняти. У разі взаємозв'язку між аргументами в правій частині рівняння можуть відбуватися дивні речі. Надійність і значимість коефіцієнта регресії. Тут позначений коефіцієнт детермінації, одержуваний при побудові рівняння регресії, в якому в якості залежної змінної взято іншу змінна. З виразу видно, що величина коефіцієнта тим хисткіші, чим сильніше змінна пов'язана з іншими змінними. Ця статистика має розподіл Стьюдента. У видачі пакета друкується спостерігається її двостороння значимість - ймовірність випадково при нульовому регресійному коефіцієнті отримати значення статистики, більша за абсолютною величиною, ніж вибіркове. Значимість включення змінної у регресію. При послідовному підборі змінних передбачена автоматизація, заснована на значимості включення і виключення змінних.
Факт збігів і розбіжностей значень теоретичного кореляційного відносини η та лінійного коефіцієнта кореляції r використовується для оцінки форми зв'язку. [4]
Вище зазначалося, що за допомогою теоретичного кореляційного відносини вимірюється тіснота зв'язку будь-якої форми, а за допомогою лінійного коефіцієнта кореляції - тільки прямолінійною. Отже, значення η і r збігаються тільки при наявності прямолінійною зв'язку. Розбіжність цих величин свідчить, що зв'язок між досліджуваними ознаками не прямолінійна, а криволінійна. Встановлено, що якщо різниця квадратів η і r не перевищує 0,1, то гіпотезу про прямолінійною формою зв'язку можна вважати підтвердженою. У моєму випадку спостерігається зразкову збіг лінійного коефіцієнта детермінації і теоретичного кореляційного відносини, що дає мені підставу вважати зв'язок між капіталом банків та їх працюючими активами прямолінійною.
При лінійної однофакторний зв'язку t-критерій можна розрахувати за формулою:

,
де (n - 2) - число ступенів свободи при заданому рівні значимості α та обсязі вибірки n. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Так, для коефіцієнта кореляції між капіталом і працюючими активами виходить:

Якщо порівняти отримане tрасч з критичним значенням з таблиці Стьюдента, де ν = 30, а α = 0,01 (tтабл = 2,750), то отримане значення t-критерію буде більше табличного, що свідчить про значущість коефіцієнта кореляції та істотного зв'язку між капіталом і працюючими активами.
Таким чином, побудована регресійна модель ŷ = 245,75 +1,42 x в цілому адекватна, і висновки отримані за результатами малої вибірки можна з достатньою ймовірністю поширити на всю гіпотетичну генеральну сукупність. За це іноді залежну змінну називають відгуком. Теорія регресійних рівнянь з випадковими незалежними змінними складніше, але відомо, що, при великій кількості спостережень, використання методу розробленого коректно. Для отримання оцінок коефіцієнтів регресії мінімізується сума квадратів помилок регресії. У пакеті обчислюються статистики, що дозволяють вирішити ці завдання. Чи існує лінійна регресійна залежність? Для перевірки одночасного відмінності всіх коефіцієнтів регресії від нуля проведемо аналіз квадратичного розкиду значень залежної змінної щодо середнього. Його можна розкласти на дві суми наступним чином. Статистика в умовах гіпотези рівності нулю регресійних коефіцієнтів має розподіл Фішера і, природно, за цією статистикою перевіряють, чи є коефіцієнти одночасно нульовими. Коефіцієнти детермінації і множинної кореляції. При порівнянні якості регресії, оціненої за різними залежним змінним, корисно дослідити частки поясненої і непоясненної дисперсії. Корінь з коефіцієнта детермінації називається коефіцієнтом кореляції. Слід мати на увазі, що є зміщеною оцінкою. Абсолютні значення коефіцієнтів не дозволяють зробити такий висновок.
3. Практична частина

- Рівняння регресії.

x	1	2	3	4	5	6	7	8	9	10
y	1.35	1.09	6.46	3.15	5.80	7.2	8.07	8.12	8.97	10.66

Наведемо квадратне рівняння до лінійної форми:

;

Запишемо матрицю X.

Складемо матрицю Фішера.

Система нормальних рівнянь.

Вирішимо її методом Гауса.

Рівняння регресії має вигляд:

[7]
3.1. Оцінка значущості коефіцієнтів регресії.
Для перевірки нульової гіпотези використовуємо критерій Стьюдента.

Коефіцієнти

значимі коефіцієнти. [6]
3.2. Перевірка адекватності моделі за критерієм Фішера.

гіпотеза про рівність математичного очікування відкидається. [4]
3.3. Перевірка адекватності моделі за коефіцієнтом детермінації або множинної кореляції.
Коефіцієнт детермінації:

- Регресійна модель адекватна.
Коефіцієнт множинної кореляції

Розрахувати і побудувати графік рівняння прямолінійної регресії для відносних значень PWC170 і часу човникового бігу 3х10 м у 13 досліджуваних і зробити висновок про точність розрахунку рівнянь, якщо дані вибірок такі:
xi, кГ м / хв / кг ~ 15,6; 13,4; 17,9; 12,8; 10,7; 15,7; 11,7; 12,3; 12,3; 11,1; 14 , 3; 12,7; 14,4 yi, з ~ 6,9; 7,2; 7,1; 6,7; 7,6; 7,0; 6,4; 6,9; 7,7; 7,6; 7,9; 8,2; 6,8
Рішення
1. Занести дані тестування в робочу таблицю і зробити відповідні розрахунки.

xi	xi -	(Xi - ) 2	yi	yi -	(Yi - ) 2	(Xi - ) (Yi - )
15.6	2.1	4.41	6.9	-0.3	0.09	-0.63
13.4	-0.1	0.01	7.2	0	0	0
17.9	4.4	19.36	7.1	-0.1	0.01	-0.44
12.8	-0.7	0.49	6.7	-0.5	0.25	0.35
10.7	-2.8	7.84	7.6	0.4	0.16	-1.12
15.7	2.2	4.84	7.0	-0.2	0.04	-0.44
11.7	-1.8	3.24	6.4	-0.8	0.64	1.44
12.3	-1.2	1.44	6.9	-0.3	0.09	0.36
12.3	-1.2	1.44	7.7	0.5	0.25	-0.60
11.1	-2.4	5.76	7.6	0.4	0.16	-0.96
14.3	0.8	0.64	7.9	0.7	0.49	0.56
12.7	-0.8	0.64	8.2	1	1	-0.80
14.4	0.9	0.81	6.8	-0.4	0.16	-0.36
= 13.5		= 50,92	= 7,2		= 3,34	= -2,64

1. Розрахувати значення нормованого коефіцієнта кореляції за формулою:

2. Розрахувати кінцевий вигляд рівнянь прямолінійної регресії за формулами (2) і (3):

(2)

(3)

Тобто

4. Розрахувати абсолютні похибки рівнянь регресії за формулами (4) і (5):

5. Розрахувати відносні похибки рівнянь регресії за формулами (6) і (7):

6. Для графічного подання кореляційної залежності між ознаками розрахувати координати ліній регресії, підставивши в кінцевий вигляд рівнянь (1) і (2) дані будь-якого досліджуваного (наприклад, четвертого зі списку).
Тоді:
при х = 12,8 кгм / хв / кг у = 7,235 с »7,2 з;
при у = 6,7 с х = 13,895 с »13,9 кгм / хв / кг.
7. Уявити графічно дане рівняння регресії.

8. На підставі проведених розрахунків і графічного зображення рівняння регресії зробити висновок.
Висновок:
1) у досліджуваній групі спостерігається недостовірна зворотній взаємозв'язок між даними відносних значень PWC170 і часу човникового бігу 3х10 м, тому що rху = -0,20 <rst = 0,55 для К = 11 за  = 95%;
2) відносна похибка функції ух = 7,875 - 0,05 х менше (7,22%), а, отже, прогноз результату в човниковому бігу за даними відносних значень проби PWC170 більш точний;
3) на графіці лінії рівняння регресії розташовані майже під прямим кутом, так як значення коефіцієнта кореляції близькі до нуля. [3]
Висновок
У досліджуваній групі спостерігається недостовірна зворотній взаємозв'язок між даними відносних значень PWC170 і часу човникового бігу 3х10 м, тому що rху = -0,20 <rst = 0,55 для К = 11 за  = 95%;
- Відносна похибка функції ух = 7,875 - 0,05 х менше (7,22%), а, отже, прогноз результату в човниковому бігу за даними відносних значень проби PWC170 більш точний;
- На графіці лінії рівняння регресії розташовані майже під прямим кутом, так як значення коефіцієнта кореляції близькі до нуля.
Також у роботі показана кореляційна залежність показників 32 російських банків, проведено регресійний аналіз і знайшли регресійну модель даної взаємозв'язку показників. Завдання регресійного аналізу полягає в побудові моделі, що дозволяє за значеннями незалежних показників отримувати оцінки значень залежної змінної. Регресійний аналіз є основним засобом дослідження залежностей між соціально-економічними змінними. Це завдання ми розглянемо в рамках найпоширенішою у статистичних пакетах класичної моделі лінійної регресії. Специфіка соціологічних досліджень полягає в тому, що дуже часто необхідно вивчати і передбачати соціальні події. Друга частина даної глави буде присвячена регресії, метою якої є побудова моделей, що пророчать імовірність подій. Величина називається помилкою регресії. Перші математичні результати, пов'язані з регресійним аналізом, зроблені у припущенні, що регресійна помилка розподілена нормально з параметрами, помилка для різних об'єктів вважаються незалежними. Крім того, в даній моделі ми розглядаємо змінні як невипадкові значення. Таке, на практиці, виходить, коли йде активний експеримент, в якому задають значення (наприклад, призначили зарплату працівнику), а потім вимірюють (оцінили, якою стала продуктивність праці).
Отримане рівняння ŷ = 245,75 +1,42 х дозволяє проілюструвати залежність розміру працюючих активів банків від розміру їхнього капіталу.
І так, за допомогою кореляційно-регресійного аналізу, можна дослідити показники банків. [8]
Використана література
1. Аверкін О.М., Батиршін І.З., Блішун А.Ф. та ін Нечіткі множини в моделях управління і штучного інтелекту / / Под ред. Д.А. Поспєлова. - М.: Наука, 1986. - 312 с.
2. Аветисян Д.О. Проблеми інформаційного пошуку: (Ефективність, автоматичне кодування, пошукові стратегії) - М.: Фінанси і статистика, 1981. - 207 с.
3. Айвазян С.А., Бежаева З.І., Старовірів О.В. Класифікація багатовимірних спостережень. - М.: Статистика, 1974. - 240 с.
4. Айвазян С.А., Енюков І.С., Мешалкин Л.Д. Прикладна статистика. Основи моделювання та первинна обробка даних. Довідкове видання. - М.: Фінанси і статистика, 1983. - 472 с.
5. Айвазян С.А., Енюков І.С., Мешалкин Л.Д. Прикладна статистика: Дослідження залежностей: Довідник. - М.: Фінанси і статистика, 1985. - 182с.
6. Айвазян С.А. , Мхітарян В.С. Прикладна статистика і основи економетрики. - М. Юніті, 1998. - 1024 с.
7. Ван дер Варден Б.Л. Математична статистика. - М.: Изд-во іноз. лит., 1960. - 302 с.
8. Гайдишев І.П. Аналіз та обробка даних: спеціальний довідник. - СПб.: Питер, 2001. - 752 с.
9. Гмурман В.С. Теорія ймовірностей і математична статистика. - М.: Вищ. шк., 1972. - 368 с.
10. Калініна В.М., Панкін В.Ф. Математична статистика. - М.: Вищ. шк., 2001. - 336 с.
11. Кендалл М., Стьюарт А. Теорія розподілів. - М.: Наука, 1966. - 566 с.
12. Кендалл М., Стьюарт А. Статистичні висновки і зв'язку. - М.: Наука, 1973. - 899 с.