Ім'я файлу: 06 Аналіз зв’язку між змінними. кореляція і регресія.pptx Розширення: pptx Розмір: 800кб. Дата: 29.04.2021 скачати Аналіз зв’язку між змінними: кореляція і регресіяПоняття кореляційного зв’язку. Кореляційний і регресійний аналіз. Параметричний кореляційний аналіз. Непараметричний кореляційний аналіз. Регресійний аналіз. Лінійна регресія. 1. Поняття регресійного аналізу.Функціональний зв’язок – вид зв’язку, коли конкретному значенню одного показника відповідає єдине значення іншого показника Кореляційний зв’язок – вид зв’язку, коли конкретному значенню одного показника відповідає деякий діапазон значень іншого показника. Зв’язок поділяють : - за напрямком: прямий і зворотній, - за силою: слабкий, середній і сильний, - за формою: лінійний (рівномірна зміна х та y) і нелінійний (рівномірна зміна х та нерівномірна зміна у) Кореляційний аналізКореляційний аналіз – це сукупність статистичних прийомів, за допомогою яких досліджується зв’язок між ознаками Параметричний коефіцієнт r – коли обидві вибірки вибрані з нормально розподілених сукупностей, Непараметричний коефіцієнт r – коли або хоч одна з вибірок взята з генеральної сукупності, розподіленої не за нормальним законом, або розподіли невідомі. Коефіцієнт кореляції ПірсонаКоефіцієнт кореляції (вибірковий r, генеральний ρ) – показник, який показує силу і напрямок зв’язку між двома параметрами (наприклад, х і у) Коваріація – усереднена величина добутків відхилень кожної пари змінних від їх середніх; вказує, в якій мірі більшим (меншим) значенням хі відповідають більші (менші) значення уі. Емпіричний коефіцієнт кореляції: NB!: характеризує тільки лінійний зв’язок NB!: не коректно вживати для величин х і у з різною розмірністю Коваріація: 0<|r|<1 Напрямок і сила зв’язку:|r|>0.75 – сильний 0.5<|r|<0.75 - середній |r|<0.5 -слабкий r<0 – негативна кореляція, r>0 – позитивна кореляція Параметричні кореляції – у модулі “Базові статистики і таблиці” Обираємо вкладку “Опції” Призначаємо змінні Зв’язок прямий сильний Відхиляємо Н0, зв’язок дійсно існує Cтатистична похибка коефіцієнта кореляції та довірчий інтервал:Вибірковий коефіцієнт r характеризує генеральний параметр ρ зі статистичною похибкою: Статистична значущість коефіцієнта r: Н0: зв’язок між х і у відсутній, ρ=0 Перевіряють за критерієм Стьюдента: Довірчий інтервал коефіцієнта кореляції: Табличне значення: tтабл (α, n-2) При tтабл > t, приймають Н0 Коефіцієнт кореляції для малих вибірок:Для вибірок з n<30 вводять поправку: Критерій значущості z: Для малочисельних вибірок, коли r<=0.2 або r>0.5 використовують перетворення Фішера, r замінюють на z: Похибка z: Табличне значення: tтабл(α, n-2) При tтабл > t, приймають Н0 Статистична значущість різниці коефіцієнтів кореляціїН0: вибірки взяті з одної генеральної сукупності або з генеральних сукупностей з однаковим типом зв’язку між показниками Для великих вибірок n>100: tтабл (α, n1+n2-4) При t Коли n<100 і r>0.5, порівнюють коефіцієнти кореляції після перетворення в z: tтабл (α, n1+n2-4) При t 2. Непараметричний кореляційний аналіз (коефіцієнти кореляції рангів)Застосовують: без передбачення про характер розподілу Коефіцієнт кореляції рангів Спірмена: Rx, Ry – різниця між рангами спряжених значень ознак х і у (коли значення у вибірці співпадають, ранги усереднюються) Значущість коефіцієнта rs перевіряють за критерієм Стьюдента: Н0: зв’язок між х і у відсутній, ρ=0 tтабл (α, n - 2) При t 0 Непараметричні кореляції – в модулі “Непараметричний аналіз” Зв’язок прямий сильний Відхиляємо Н0, зв’язок дійсно існує Cила зв’язку:r2=0.25-0.75 – середній, r2<0.25 – слабкий, r2>0.75 - сильний Коефіцієнт детермінації r2 Показує, яка частина варіації одної ознаки залежить від варіювання іншої ознаки. Розраховується як r2 Зв’язок між якісними ознаками: таблиці 2х2; коефіцієнт асоціації Пірсона rAМаємо кореляційну таблицю даних:Тут а, b, c і d – кількість випадків
Похибка: Критерій перевірки значущості: Бісеріальний коефіцієнт кореляції rBSВикористовують, коли одна ознака бінарна (наприклад, стать), а інша кількісна:Тут 1 і 2 – коди бінарної ознаки,Х1 – середня по кількісній ознаці, яка належить до 1 групи (код бінарної ознаки 1),Х2 – аналогічно для 2 групи,σ – стандартне відхилення кількісної ознакиКритерій значущості: Табличне значення: tтабл (α;N-2) При t> tтабл відхиляють Но і говорять про наявність зв’язку Регресійний аналізРегресійний аналіз – це методи статистичного аналізу, які встановлюють як кількісно змінюється одна ознака при зміні іншої Регресійна залежність : y=f(x), де х – незалежна змінна, у – залежна змінна; коли маємо декілька незалежних змінних х1, х2, ... – проводять багатофакторний (множинний) регресійний аналіз Регресія – це зміна функції (у) при зміні одного чи декількох аргументів (х) Задача застосування в біології: спрогнозувати (розрахувати) значення залежної ознаки за певним значенням незалежної ознаки: наприклад, спрогнозувати тривалість гострої фази захворювання залежно від температури і титру антитіл в крові пацієнтів Умови застосування регресійного аналізу: Кількість об’єктів дослідження має бути в декілька разів більше, ніж кількість незалежних ознак, Усі ознаки повинні бути кількісними і нормально розподіленими Залежна ознака У повинна мати нормальний розподіл з однаковими дисперсіями для кожного значення незалежної ознаки Хі (для багатофакторного аналізу) У випадку багатофакторного аналізу не повинні існувати сильні лінійні зв’язки між незалежними ознаками, коли це так – в модель включають ознаку Х, яка має найбільший коефіцієнт r з залежною ознакою У Різниця між теоретичним і реальним значеннями Δу повинна бути нормально розподіленою і мати нульове значення середнього, Лінійна регресіяРівняння зв’язку між х та у має вигляд: Тоді коефіцієнти а і b розраховують як: а α tgα = b Тут а – вільний член (intercept) , b – коефіцієнт регресії (slope) Проведення регресійного аналізу (програма OriginPro 8):Нехай маємо задачу:Досліджували зв’язок між поглинутою дозою опромінення (Х, Гр) та кількістю аберантних клітин кісткового мозку (У, %) у білих мишей (n=15), отримали такі результати:Треба побудувати графік лінії регресії з вказанням 95% довірчого інтервалу і передбачити дозу для отримання 50% аберантних клітинЕтапи проведення регресійного аналізу в OriginPro 8: Показник а викидаємо Вікно резуль-татів аналізу і їх інтерп-ретація Довірчий інтервалДля оцінювання похибки при прогнозуванні параметра У по Х використовують довірчий інтервал: Тут уk – прогнозоване значення параметра у при значення незалежного фактора хі, Похибка оцінювання: Тут so – середнє квадратичне відхилення параметра У, Хk – значення фактора х, одержаного з рівняння Коли одна з точок явно випадає, її можна виключити з моделі і, таким чином, підвищити точність моделі Для цього ми спочатку з групи інструментів Regional Mask Tool вибираємо команду Add Mask Points to Active Plot, Потім виділити за допомогою мишки прямокутну область навколо точки – точка забарвиться в червоний колір, І знову провести кореляційний аналіз: Analysis – Fitting – Fit Linear – Last Used Виділена точка не буде врахована, а точність коефіцієнтів і в цілому моделювання – зросте Усе рівно, показник а викидаємо Дисперсійний аналіз – засіб перевірки значущості моделі:Наслідком дисперсійного аналізу є розрахунок коефіцієнта детермінації R2: Тут SSR – сума квадратів відхилень розрахованих значень уі від середнього у, а SS – сума квадратів відхилень експериментальних значень уі від середнього у. Коефіцієнт детермінації напряму пов’язаний зі значенням F-критерію: Тут DR2 – дисперсія відхилень розрахункових значень уі від середнього у, і D02 – дисперсія відхилень експериментальних значень уі від середнього у. Отже, ми нехтуємо коефіцієнтом рівняння а і маємо остаточне рівняння лінійної регресії: Тому 50% аберацій можна отримати з використанням дози Інтерпретація результатів:Коли для моделі р<0,05 – регресійна модель адекватно описує взаємозв’язок між У та Х, Коефіцієнт детермінації r2 вказує, яка частина варіація У визначається варіацією Х, коли r2>0.5 – модель є значущою на рівні Р=0,95 Ваговий коефіцієнт b показує, наскільки змінюється показник У при одиничній зміні Х. У випадку, коли для коефіцієнтів а або b р>0,05 – цим коефіцієнтом нехтують як незначущим Застосування результатів аналізу з прогностичною метою можливо тільки для того діапазону даних, на якому вони були отримані Нелінійний регресійний аналізНайбільш часто зустрічаються у біології такі нелінійні залежності: Експоненційна Ступенева Зворотна Найпростіший спосіб аналізу таких даних – лінеаризація, зокрема, логарифмуванням: Приклад створення моделі експоненційної регресіїМаємо результати дослідження зміни довжини м’язу припостійному навантаженні (ізотонічний режим) У програмі OriginPro 8 регресійну модель можна отримати: Вікно нелінійної регресії: Результати100>30>0> |