Кореляційний аналіз 2

Зміст

Визначення форми зв'язку

Вибір форми зв'язку

Аналітичне вираження зв'язку

Вимірювання тісноти зв'язку

Множинна кореляція

Методи вимірювання тісноти зв'язку

Список використаної літератури

1 Визначення форми зв'язку

Кореляційний аналіз вирішує два основні завдання:

Перше завдання полягає у визначенні форми зв'язку, тобто у встановленні математичної форми, в якій виражається даний зв'язок.

Це дуже важливо, тому що від правильного вибору форми зв'язку залежить кінцевий результат вивчення взаємозв'язку між ознаками.

Друге завдання полягає у вимірюванні тісноти, тобто міри зв'язку між ознаками з метою встановити ступінь впливу даного фактора на результат.

Вона вирішується математично шляхом визначення параметрів кореляційного рівняння.

Потім проводяться оцінка та аналіз отриманих результатів за допомогою спеціальних показників кореляційного методу (коефіцієнтів детермінації, лінійної і множинної кореляції і т.д.), а також перевірка суттєвості зв'язку між досліджуваними ознаками.

2 Вибір форми зв'язку

Визначальна роль у виборі форми зв'язку між явищами належить теоретичному аналізу. Так, наприклад, чим більше розмір основного капіталу підприємства (факторний ознака), тим більше за інших рівних умов воно випускає продукції (результативний ознака).

З ростом факторного ознаки тут, як правило, рівномірно зростає і результативний, тому залежність між ними може бути виражена рівнянням прямої Y = a + b * x, яке називається лінійним рівнянням регресії.

Параметр b називається коефіцієнтом регресії і показує, наскільки в середньому відхиляється величина результативного ознаки у разі відхилення величини факторного ознаки на одну одиницю. При x = 0 a = Y. Збільшення кількості внесених добрив призводить, при інших рівних умовах, до зростання врожайності, але надмірне внесення їх без зміни інших елементів до подальшого підвищення врожайності не призводить, а, навпаки, знижує її.

Така залежність може бути виражена рівнянням параболи Y = a + b * x + c * x ^2.

Параметр c характеризує ступінь прискорення або уповільнення кривизни параболи, і при c> 0 парабола має мінімум, а при c <0 - максимум. Параметр b, характеризує кут нахилу кривої, а параметр a - початок кривої.

Однак за допомогою теоретичного аналізу не завжди вдається встановити форму зв'язку. У таких випадках доводиться тільки припускати про наявність певної форми зв'язку. Перевірити ці припущення можна за допомогою графічного аналізу, який використовується для вибору форми зв'язку між явищами, хоча графічний метод вивчення зв'язку застосовується і самостійно.

3 АНАЛІТИЧНИЙ вираз зв'язку

Застосування методів кореляційного аналізу дає можливість висловлювати зв'язок між ознаками аналітично - у вигляді рівняння - і надавати їй кількісне вираження. Розглянемо застосування прийомів кореляційного аналізу на конкретному прикладі.

Припустимо, що між вартістю основного капіталу і випуском продукції існує прямолінійна зв'язок, який виражається рівнянням прямої Y = a + b * x.

Необхідно знайти параметри a і b, що дозволить визначити теоретичні значення Y для різних значень x. Причому a і b мають бути такими, щоб було досягнуто максимальне наближення до первинних (емпіричним) значенням теоретичних значень Y. Це завдання вирішується за допомогою способу найменших квадратів, основна умова якого зводиться до визначення параметрів a і b, таким чином, щоб

Математично доведено, що умова мінімуму забезпечується, якщо параметри a і b, визначаються за допомогою системи двох нормальних рівнянь, що відповідають вимозі методу найменших квадратів:

Перше рівняння є сума всіх первинних рівнянь. Друге виходить множенням обох частин рівняння прямої на один і той же множник.

Математично доведено, що умова дотримується, якщо як такого множника прийняти значення факторного ознаки, тобто якщо рівняння прямої помножити на х. Крім розглянутих функцій зв'язку в економічному аналізі часто застосовуються статечний, показова і гіперболічна функції. Степенева функція має вигляд Y = ax ^b.

Параметр b статечного рівняння називається показником еластичності і вказує, на скільки відсотків зміниться у при зростанні х на 1%. При х = 1 a = Y.

Для визначення параметрів статечної функції спочатку її приводять до лінійного виду шляхом логарифмування: lg y = lg a + blg x, а потім будують систему нормальних рівнянь:

Вирішивши систему двох нормальних рівнянь, знаходять логарифми параметрів логарифмічної функції a і b, а потім і самі параметри a і b. За допомогою степеневої функції визначають, наприклад, залежність між фондом заробітної плати і випуском продукції, витратами праці і випуском продукції і т.д.

Якщо факторний ознаки x зростає в арифметичній прогресії, а результативний у - в геометричній, то така залежність виражається показовою функцією Y = a + b ^x. Для визначення параметрів показовою функції її також спочатку призводять до лінійного виду шляхом логарифмування: lg y = lg a + xlg b, а потім будують систему нормальних рівнянь:

Обчисливши відповідні дані і вирішивши систему двох нормальних рівнянь, знаходять параметри показовою функції a і b.

У ряді випадків зворотний зв'язок між факторним і результативним ознаками може бути виражена рівнянням гіперболи:

Y = a + b / x.

І тут завдання полягає в знаходженні параметрів a і b за допомогою системи двох нормальних рівнянь:

За допомогою гіперболічної функції вивчають, наприклад, зв'язок між випуском продукції і собівартістю, рівнем витрат обігу (у відсотках до товарообіг і товарообігом в торгівлі, термінами збирання і врожайністю і т.д.).

Таким чином, застосування різних функцій як рівняння зв'язку зводиться до визначення параметрів рівняння за способом найменших квадратів за допомогою системи нормальних рівнянь.

У малих сукупностях значення коефіцієнта регресії схильне випадковим коливанням. Тому виникає необхідність у визначенні достовірності коефіцієнта регресії. Достовірність коефіцієнта регресії визначається так само, як і у вибірковому спостереженні, тобто встановлюються середня і гранична помилки для вибіркової середньої і частки.

Середня помилка коефіцієнта регресії визначається за формулою:

де σ ² ₀ - випадкова дисперсія;

σ ² - загальна дисперсія,

n - число корелюється пар.

4 виміри тісноти зв'язку

Щоб виміряти тісноту прямолінійною зв'язку між двома ознаками, користуються парним коефіцієнтом кореляції, який позначається r.

Так як при кореляційного зв'язку мають справу не з приростом функції у зв'язку зі зміною аргументу, а з сполученої варіацією результативних і факторних ознак, то визначення тісноти зв'язку, по суті, зводиться до вивчення цієї пов'язаності, тобто того, якою мірою відхилення від середнього рівня однієї ознаки пов'язане з відхиленням іншого. Це означає, що при наявності повної прямого зв'язку всі значення (х-X) і (у-Y) повинні мати однакові знаки, при повній зворотної - різні, при частковій зв'язку знаки в переважній кількості випадків будуть збігатися, а при відсутності зв'язку - збігатися приблизно в рівному числі випадків.

Для оцінки суттєвості коефіцієнта кореляції користуються спеціально розробленої таблицею критичних значень r.

Коефіцієнт кореляції r застосовується тільки в тих випадках, коли між явищами існує прямолінійна зв'язок. Якщо ж зв'язок криволінійна, то користуються індексом кореляції, який розраховується за формулою:

де у - початкові значення;

- Середнє значення;

Y - теоретичні (вирівняні) значення змінної величини.

Показник залишкової, випадкової дисперсії визначається за формулою:

Вона характеризує розмір відхилень емпіричних значень результативної ознаки у від теоретичних Y, тобто випадкову варіацію.

Загальна дисперсія:

характеризує розмір відхилень емпіричних значень результативної ознаки у від , Тобто загальну варіацію.

Ставлення випадкової дисперсії до загальної характеризує частку випадкової варіації в загальній варіації, а

є не що інше, як частка факторної варіації в загальній, бо за правилом додавання дисперсій загальна дисперсія дорівнює сумі факторної і випадкової дисперсій:

σ ² = σ ² _Y + σ ² _0.

Підставимо у формулу індексу кореляції відповідні позначення випадковою, загальної та факторної дисперсій і отримаємо:

Таким чином, індекс кореляції характеризує частку факторної варіації в загальній:

проте з тією лише різницею, що замість групових середніх беруться теоретичні значення Y.

Індекс кореляції за своїм абсолютним значенням коливається в межах від 0 до 1.

При функціональної залежності випадкова варіація , Індекс кореляції дорівнює 1. За відсутності зв'язку R = 0, тому що Y = y.

Коефіцієнт кореляції є мірою тісноти зв'язку тільки для лінійної форми зв'язку, а індекс кореляції - і для лінійної, і для криволінійної. При прямолінійною зв'язку коефіцієнт кореляції за своєю абсолютною величиною дорівнює індексу кореляції:

| R | = R.

Якщо індекс кореляції звести в квадрат, то отримаємо коефіцієнт детермінації

R ² = σ ² _Y / σ ^2.

Він характеризує роль факторної варіації в загальній варіації і з побудови аналогічний кореляційному відношенню η ^2.

Як і кореляційне відношення, коефіцієнт детермінації R ² може бути обчислений за допомогою дисперсійного аналізу, так як дисперсійний аналіз дозволяє розчленувати загальну дисперсію на факторну і випадкову.

Однак при дисперсійному аналізі для розкладання дисперсії користуються методом угруповань, а при кореляційному аналізі - кореляційними рівняннями.

Коефіцієнт детермінації є найбільш конкретним показником, так як він відповідає на питання про те, яка частка в загальному результаті залежить від чинника, покладеного в основу угруповання.

При прямолінійною парної зв'язку факторну дисперсію можна визначити без обчислення теоретичних значень Y за такою формулою:

5 Множинна кореляція

До цих пір ми розглядали кореляційні зв'язки між двома ознаками: результативним (у) і факторним (х). Наприклад, випуск продукції залежить не тільки від розміру основного капіталу, а й від рівня кваліфікації робітників, стану обладнання, забезпеченості і якості сировини і матеріалів, організації праці і т.д. У зв'язку з цим виникає необхідність у вивченні, вимірі зв'язку між результативною ознакою, двома і більше факторними. Цим займається множинна кореляція.

Множинна кореляція вирішує три завдання. Вона визначає:

форму зв'язку;

тісноту зв'язку;

вплив окремих факторів на загальний результат.

Визначення форми зв'язку.

Визначення форми зв'язку зводиться зазвичай до відшукання рівняння пов'язано з факторами x, z, w, ... v. Так, лінійне рівняння залежності результативної ознаки від двох факторних визначається за формулою

= A ₀ + a ₁ x + a ₂ z

Для визначення параметрів а _0, a ₁ і а _2, за способом найменших квадратів необхідно вирішити наступну систему трьох нормальних рівнянь:

Вимірювання тісноти зв'язку.

При визначенні тісноти зв'язку для множинної залежності користуються коефіцієнтом множинної (сукупної) кореляції, попередньо визначивши коефіцієнти парної кореляції. Так, при вивченні зв'язку між результативною ознакою y і двома факторними ознаками - х і z, потрібно попередньо визначити тісноту зв'язку між у і х, між у і z, тобто обчислити коефіцієнти парної кореляції, а потім для визначення тісноти зв'язку результативної ознаки від двох факторних обчислити коефіцієнт множинної кореляції за такою формулою:

де r _xy, r _zy, r _zx - парні коефіцієнти кореляції.

Коефіцієнт множинної кореляції коливається в межах від 0 до 1. Чим він ближче до 1, тим більшою мірою враховані фактори, що визначають кінцевий результат.

Якщо коефіцієнт множинної кореляції звести в квадрат, то отримаємо сукупний коефіцієнт детермінації, який характеризує частку варіації результативного ознаки у під впливом всіх досліджуваних факторних ознак.

Сукупний коефіцієнт детермінації, як і при парної кореляції, можна обчислити за такою формулою:

R ² = σ ² _y / σ ² _y

де σ ² _Y - дисперсія факторних ознак,

σ ² _y - дисперсія результативного ознаки.

Однак обчислення теоретичних значень Y при множинної кореляції і складно, і громіздко. Тому факторну дисперсію σ ² _Y обчислюють за такою формулою:

Перевірка істотності зв'язку при множинній кореляції по суті нічим не відрізняється від перевірки при парної кореляції.

Оскільки факторні ознаки діють не ізольовано, а у взаємозв'язку, то може виникнути завдання визначення тісноти зв'язку між результативною ознакою і одним з факторних при постійних значеннях інших факторів. Вона вирішується за допомогою приватних коефіцієнтів кореляції. Наприклад, при лінійного зв'язку приватний коефіцієнт кореляції між х і у при постійному z розраховується за такою формулою:

В даний час на практиці широке розповсюдження отримав багатофакторний кореляційний аналіз;

6 Методи вимірювання тісноти зв'язку

Вимірювання тісноти зв'язку за допомогою дисперсійного і кореляційного аналізу пов'язано з певними труднощами і вимагає громіздких обчислень. Для орієнтовної оцінки тісноти зв'язку користуються наближеними показниками, які не потребують складних, трудомістких розрахунків. До них відносяться: коефіцієнт кореляції знаків Фехнера, коефіцієнт кореляції рангів, коефіцієнт асоціації і коефіцієнт взаємної спряженості.

Коефіцієнт кореляції знаків заснований на зіставленні знаків відхилень від середньої і підрахунку числа випадків збігу і розбіжності знаків, а не на зіставленні попарно розмірів відхилень індивідуальних значень факторного і результативного ознак від середньої

(X- ) І (y- ):

i = (u - v) / (u + v),

де u - число пар з однаковими знаками відхилень х і у від і ;

v - число пар з різними знаками відхилень х і у від і .

Коефіцієнт кореляції знаків коливається в межах від -1 до +1. Чим ближче коефіцієнт до 1, тим тісніше зв'язок. Якщо і <v, то i> 0, так як число узгоджених знаків більше, ніж неузгоджених, і зв'язок пряма. При і <v маємо i <0, тому що число неузгоджених знаків більше, ніж узгоджених, і зв'язок зворотна.

Якщо й = v, то i = 0, і зв'язку немає.

Коефіцієнт кореляції рангів обчислюється не за первинними даними, а по рангах (номером), які присвоюються всім значенням досліджуваних ознак, розташованим в порядку їх зростання.

Якщо значення ознаки збігаються, то визначається середній ранг шляхом ділення суми рангів на число значень. Коефіцієнт кореляції рангів визначається за формулою

де d ² - квадрат різниці рангів для кожної одиниці, d = xy;

n - число рангів;

s - середній ранг.

Коефіцієнт кореляції рангів також коливається в межах від -1 до +1. Якщо ранги за обома ознаками збігаються, то ηd ² = 0, значить, ρ = 1 і, отже, зв'язок повна пряма. Якщо ρ = -1, зв'язок повна зворотна, при ρ = 0 зв'язок між ознаками відсутня.

Коефіцієнт асоціації застосовується для встановлення міри зв'язку між двома якісними альтернативними ознаками.

Для його обчислення будується комбінаційна четирехклеточная таблиця, яка виражає зв'язок між двома альтернативними явищами.

Коефіцієнт асоціації розраховується за формулою:

Коефіцієнт асоціації також змінюється від -1 до +1. Чим А ближче до одиниці, тим сильніше пов'язані між собою досліджувані ознаки. При ad> bc зв'язок пряма, а при ad <bc зв'язок зворотній, при ad = bc A = 0 і зв'язок відсутній.

Коефіцієнт взаємної спряженості застосовується в тих випадках, коли потрібно встановити зв'язок між якісними ознаками, кожен з яких складається з трьох і більше груп.

Відмінності між умовним та безумовним розподілом свідчать про вплив факторного ознаки на розподіл сукупності за результативному ознакою, тобто про наявність зв'язку між факторним і результативним ознаками, а чим більше ці відмінності, тим в більшій мірі ознаки пов'язані між собою, тим тісніше зв'язок між ними.

Для визначення ступеня тісноти зв'язку обчислюється спеціальний показник, який називається коефіцієнтом взаємної спряженості. Він визначається за наступною формулою:

де n - число одиниць сукупності;

m ₁ і m ₂ - число груп по першому і другому ознаками;

X ² - показник абсолютної квадратической спряженості Пірсона.

Показник абсолютної квадратической спряженості Пірсона характеризує близькість умовних розподілів до безумовних.

Цей показник, як і критерій X ^2, обчислюється за формулою:

де ω _ij - частості умовного розподілу в i-му рядку;

ω _j - частості безумовного розподілу;

j - номер стовпця.

Якщо ознаки незалежні, то ω _ij = ω _j, звідки X ² = 0 і, отже, С = 0. Якщо ж зв'язок функціональна, то коефіцієнт взаємної спряженості буде дорівнює одиниці.