Федеральне агентство з освіти
Державна освітня установа вищої професійної освіти
"Якутська державний університет ім. М.К. Аммосова "
Технічний інститут (філія) в м. Нерюнгрі
Педагогічний факультет
Кафедра Математики та Інформатики
Курсова робота
з дисципліни «Теорія ймовірностей і математична статистика»
на тему: «Дисперсійний аналіз показників смертності населення Нерюнгрінського улусу»
Студентка:
Копотева К. Г., гр. ПМ-04
Керівник:
Викладач:
доцент кафедри к.ф.-м.н.
Попова А.М.
Оцінка курсової роботи :__________________
Прийняв :_______________ Дата _____________
Нерюнгрі 2007
Зміст
Введення
Теоретична частина
Однофакторний дисперсійний аналіз
Лінійний множинний регресійний аналіз
Множинний кореляційний аналіз
Аналітична частина
Збір та первинна обробка даних
Побудова рівняння множинної регресії
Виняток незначущих факторів
Висновок
Список літератури
Додаток
Введення
Аналізуючи дані, про смертність населення за 2004-2006 рік, отримані в Нерюнгринское міській лікарні (див. таблицю 1), можна зробити висновок про те, що загальний коефіцієнт смертності, тобто число померлих від усіх причин на 1000 чоловік населення, збільшується (рис .1).
Показник смертності на 1000 чоловік населення
Таблиця 1
2004 | 2005 | 2006 |
7.3 | 7.8 | 8.1 |
Малюнок 1
Незважаючи на підвищення народжуваності, демографічна ситуація в Нерюнгрінском улусі характеризується зменшенням чисельності населення. Головною причиною демографічної кризи є переважання смертності над народжуваністю. Саме тому, щоб знизити показник смертності необхідно більш детально вивчити всі причини і фактори, що призводять до її збільшення. Безсумнівно, у вивченні причин, важливо дослідження значущості окремих нозологічних форм захворювань. Знаючи, які захворювання приводять найчастіше до летального результату, можна розробити програму профілактичних робіт спрямовану на зменшення кількості даних захворювань і запобігання їх подальшого розвитку на ранньому етапі.
Мета: визначення видів захворювань роблять найбільший вплив на показники летальності, грунтуючись на статистиці смертності населення Нерюнгрінського улусу по класах хвороб і віком за 2006 рік.
Завдання:
збір статистичних даних необхідних для визначення закономірності зміни смертності з причин захворювань;
проведення однофакторного дисперсійного аналізу, з метою визначення впливу різних хвороб на загальну кількість смертності населення;
виключення окремих факторів, що роблять незначний вплив;
побудова рівняння множинної регресії, що відображає співвідношення між смертністю і різними класами захворювань.
1. Теоретична частина
Однофакторний дисперсійний аналіз
Дисперсійний аналіз (від латинського Dispersio - розсіяння) - статистичний метод, що дозволяє аналізувати вплив різних чинників на досліджувану змінну. Метод був розроблений біологом Р. Фішером в 1925 році і застосовувався спочатку для оцінки експериментів в рослинництві. Надалі з'ясувалася загальнонаукова значимість дисперсійного аналізу для експериментів у психології, педагогіки, медицини та ін
Метою дисперсійного аналізу є перевірка значущості відмінності між середніми за допомогою порівняння дисперсій. Дисперсію вимірюваного ознаки розкладають на незалежні складові, кожна з яких характеризує вплив того чи іншого фактора або їх взаємодії. Наступне порівняння таких доданків дозволяє оцінити значимість кожного досліджуваного фактора, а також їх комбінації.
Нехай генеральні сукупності Х 1, Х 2, ..., Х р розподілені нормально і мають однакову, хоча і невідому дисперсію. Математичні очікування яких відомі і можуть бути різні при заданому рівні значимості α. Перевіримо при заданому рівні значимості нульову гіпотезу Н 0: М (Х 1) = М (Х 2) = ... = М (Х р) про рівність всіх математичних очікувань. Це означає, що ми встановлюємо значимо чи ні, розрізняються вибіркові середні.
На практиці дисперсійний аналіз застосовують, щоб встановити чи робить істотний вплив якісний фактор F, що має p рівнів: F 1, F 2, ..., F p, на досліджувану величину.
Основна ідея дисперсійного аналізу полягає в порівняння «факторної дисперсії», тобто розсіювання, що породжується зміною рівня фактора, і «залишкової дисперсії», зумовленої випадковими причинами. Якщо їх відмінність значимо, то фактор істотно впливає на Х і при зміні його рівня групові середні різняться суттєво. Якщо встановили, що фактор істотно впливає на Х, а потрібно з'ясувати, який з рівнів має найбільший вплив, то додатково виробляємо попарне порівняння середніх. Дисперсійний аналіз також застосовується для встановлення однорідності декількох сукупностей (якщо математичні сподівання однакові, то сукупності однорідні). У більш складних випадках досліджують вплив декількох факторів на різні постійні або різні рівні і з'ясовують вплив окремих рівнів та їх комбінацію (багаторівневий аналіз).
Будемо вважати, що кількість спостережень на кожному рівні фактора однаково одно q. Оформимо результати спостережень у вигляді таблиці:
Номер випробування | Рівні фактора F j | |||
F 1 | F 2 | ... | F p | |
1 2 ... q | x 11 x 21 ... x q 1 | x 12 x 22 ... x q 2 | ... ... ... ... | x 1p x 2p ... x qp |
Групове середнє |
|
| ... |
|
Суму квадратів відхилення можна визначити за формулами:
Загальна сума квадратів відхилень спостережуваних значень від загальної середньої [1]:
. (1)
характеризує вплив фактора F і випадкових причин на Х.
Факторна сума відхилень групових середніх від загальної середньої, характеризує розсіювання між групами [1]:
. (2)
характеризує вплив фактора F на величину Х.
Залишкова сума квадратів відхилень спостережуваних значень групи від свого групового середнього, що характеризує розсіювання всередині груп [1]:
. (3)
відображає вплив випадкових причин на Х.
Вводячи позначення [1]:
, (4)
отримаємо формули, більш зручні для розрахунків [1]:
, (5)
. (6)
Розділивши суми квадратів на відповідне число ступенів свободи, одержимо загальну, факторну і залишкову дисперсії [1]:
. (7)
Якщо справедлива гіпотеза Н 0, то всі ці дисперсії є незміщеними оцінками генеральної дисперсії.
Обчислюємо і порівнюємо з F кр (критерій Фішера - Снедекора) [1]:
F кр (α; n -1; nk - (k -1)),
, (8)
де α - рівень значимості; n - кількість факторів; k - кількість випробувань.
Якщо F набл < F кр, то гіпотеза про рівність дисперсій буде прийнята.
Якщо число випробувань на різних рівнях різному (q 1 випробувань на рівні F 1, q 2 - на рівні F 2, ..., q р - на рівні F р ), То [1]:
, (9)
де сума квадратів спостерігалися значень ознаки на рівні F j,
сума спостерігалися значень ознаки на рівні F j.
При цьому обсяг вибірки, або загальне число випробувань, дорівнює . Факторна сума квадратів відхилень обчислюється за формулою [1]:
. (10)
Решта обчислення проводяться так само, як у випадку однакового числа випробувань [1]:
. (11)
1.2. Лінійний множинний регресійний аналіз
Регресійний аналіз, мабуть, найбільш широко використовуваний метод багатовимірного статистичного аналізу. Термін''множинна регресія''пояснюється тим, що аналізу піддається залежність однієї ознаки (результуючого) від набору незалежних (факторних) ознак. Поділ ознак на результуючий і факторні здійснюється дослідником на основі змістовних уявлень про досліджуваному явищі (процесі). Всі ознаки повинні бути кількісними (хоча допускається і використання дихотомічних ознак, які приймають лише два значення, наприклад 0 і 1). При поведінці експериментів у множинної ситуації дослідник записує показання приладів про стан функції відгуку (y) і всіх факторів, від яких вона залежить ( x i).
При побудові регресійних моделей, перш за все, виникає питання вигляді функціональної залежності, що характеризує взаємозв'язки між результуючим ознакою і кількома ознаками-факторами. Вибір форми зв'язку повинен грунтуватися на якісному, теоретичному та логічному аналізі сутності досліджуваних явищ. Найчастіше обмежуються лінійної регресією, тобто залежністю виду [2]:
Y = a 0 + a 1 x 1 + a 2 x 2 + ... + a n x n (12)
де Y - результуючий ознака; x 1, ..., x n - факторні ознаки; a 1, ..., a n - коефіцієнти регресії; а 0 - вільний член рівняння. a i знаходимо методом найменших квадратів, для цього розглядається функції [2]:
(13)
Знаходимо приватні похідні з невідомих змінним, прирівнюємо до нуля і отримуємо систему рівнянь. Вирішуючи систему, можемо знайти найменше значення функції.
Так як запис множинної регресії (лінійної) в матричній формі має вигляд [2]:
Y = X * A, (14)
де Y - це вектор-стовпець досвідчених значень досліджуваної характеристики; X-матриця всіх значень всіх розглянутих факторів, отриманих при проведенні вимірювань або спостережень; А - вектор-стовпець шуканих коефіцієнтів апроксимуючих полінома (12) [2]:
Y = ; (15)
X = ; (16)
Y = ; (17)
Тоді функціонал F методу найменших квадратів має вигляд [2]:
(18)
Для оцінки адекватності розрахованої регресійної моделі обчислюється коефіцієнт детермінації, він показує, яка частина дисперсії функції відгуку пояснюється варіацією лінійної комбінації обраних факторів x 1, x 2, ..., x j, x n [2]:
, (19)
де - Прогнозні значення
і множинний коефіцієнт кореляції [2]:
. (20)
Значення коефіцієнта множинної кореляції оцінюється за допомогою таблиці 2 [1]:
Таблиця Чеддока Таблиця 2
діапазон вимірювання
характер тісноти
слабка
помірна
помітна
висока
| дуже висока |
1.3. Множинний кореляційний аналіз
Розрахунки зазвичай починають з обчислення парних коефіцієнтів кореляції, що характеризують тісноту зв'язку між двома величинами. У множинної ситуації обчислюють два типи парних коефіцієнтів кореляції:
1. - Коефіцієнти, які визначають тісноту зв'язку між функцією відгуку y і одним з чинників [2]:
. (21)
2. - Коефіцієнти, які показують тісноту зв'язку між одним з факторів x i і фактором x m (i, m = ) [2]:
(22)
.
Значення парного коефіцієнта змінюється, як зазначалося вище, змінюється від -1 до +1. Якщо, наприклад, коефіцієнт - Величина негативна, то це означає, що x i зменшується зі збільшенням y. Якщо позитивний, то x i збільшується зі збільшенням y.
Значимість парних коефіцієнтів кореляції можна перевірити двома способами:
порівняння з табличним значеннями [2]:
, (23)
2) за t-критерієм Стьюдента [2]:
, (24)
Де - Середньоквадратична похибка вибіркового парного коефіцієнта кореляції [2]:
. (25)
Тут визначається по таблиці з числом ступенів свободи .
Довірчий інтервал для парних коефіцієнтів кореляції [2]:
, (26)
де - Парний коефіцієнт кореляції в генеральній сукупності.
Якщо один з коефіцієнтів виявиться рівним 1, то це означає, що фактори x i і x m функціонально (не ймовірнісно) пов'язані між собою і тоді доцільно один з них виключити з розгляду, причому залишають той фактор, у якого коефіцієнт більше.
Після обчислення всіх парних коефіцієнтів кореляції і виключення з розгляду того чи іншого чинника можна побудувати матрицю коефіцієнтів кореляції виду [2]:
. (27)
Використовуючи матрицю (23) можна обчислити приватні коефіцієнти, які показують ступінь впливу одного з факторів x i на функцію відгуку y за умови, що всі інші фактори закріплені на постійному рівні. Формула для обчислення приватних коефіцієнтів кореляції така [2]:
, (28)
де - Визначник матриці, утвореної з матриці (27) викреслюванням 1-го рядка, i-го стовпця. Визначники , обчислюються аналогічно. Як і парні коефіцієнти, приватні коефіцієнти кореляції змінюються від -1 до +1.
2. Аналітична частина
2.1. Збір та первинна обробка даних
У ході збору матеріалів дослідження, визначених обраною темою, були отримані статистичні дані по динаміці смертності всього населення Нерюнгрінського улусу по класах хвороб і віком. Класи захворювань, у вихідних даних мають наступну класифікацію:
I. Деякі інфекційні та паразитарні захворювання;
II. Новоутворення;
III. Хвороби крові, кровотворних органів та окремі порушення, залучивши імунний механізм;
IV. Хвороби ендокринної системи, розлади харчування та порушення обміну речовин;
V. Психічні розлади та розлади поведінки;
VII. Хвороби ока та його придаткового апарату;
VIII. Хвороби вуха та соскоподібного відростка;
IX. Хвороби системи кровообігу;
XI. Хвороби органів травлення;
XII. Хвороби шкіри та підшкірної клітковини;
XIII. Хвороби кістково-м'язової системи та сполучної тканини;
XIV. Хвороби сечостатевої системи;
XV. Вагітність, пологи і післяпологовий період;
XVI. Окремі стани, що виникають у перинатальному періоді;
XVII. Вроджені аномалії (вади розвитку), деформації та хромосомні порушення;
XVIII. Симптоми, ознаки та відхилення від норми, виявлені при клінічних та лабораторних дослідженнях, не класифіковані в інших рубриках;
XIX. Травми, отруєння та деякі інші наслідки дії зовнішніх причин;
XX. Зовнішні причини захворюваності та смертності.
Після обробки цих даних була отримана таблиця 1 [см. Додаток], в якій представлено кількісне зміна смертності з причин різних захворювань. У цю таблицю увійшли наступні класи хвороб: деякі інфекційні та паразитарні захворювання, новоутворення, хвороби ендокринної системи, розлади харчування та порушення обміну речовин, психічні розлади та розлади поведінки, хвороби нервової системи, хвороби системи кровообігу, хвороби органів дихання, хвороби органів травлення, хвороби кістково-м'язової системи та сполучної тканини, хвороби сечостатевої системи, вагітність, пологи і післяпологовий період, вроджені аномалії (вади розвитку), деформації та хромосомні порушення, симптоми, ознаки та відхилення від норми, виявлені при клінічних та лабораторних дослідженнях, не класифіковані в інших рубриках, травми, отруєння та деякі інші наслідки дії зовнішніх причин, зовнішні причини захворюваності та смертності.
Таким чином, функцією відгуку є смертність населення в конкретній віковій групі, а факторами, що впливають на її зміну, є класи захворювань.
2.2. Дисперсійний аналіз
Методом дисперсійного аналізу, з'ясуємо, чи має вплив різні захворювання на показник смертності населення. Тобто, перевіримо, чи виконується гіпотеза про рівність математичних сподівань (М 0: М (Х 1) = М (Х 2) = ... = М (Х р)). Для цього розрахуємо значення спостерігалися ознак і значення їх квадратів для кожного захворювання за формулою (4). Потім, зрозумівши їх суму, результати обчислень наведені в таблиці 2 [см. Додаток]. Підставимо у формули (5), (6), отримаємо значення загальної та факторної дисперсій:
13498;
5906,7;
Ці значення підставляємо у формулу (11) обчислюємо залишкову суму квадратів відхилень спостережуваних значень групи від свого групового середнього.
7591,5
Тепер ми можемо обчислити F набл, для цього використовуємо формулу (8), і порівнюємо з F кр, який, виглядає по таблиці критерію Фішера - Снедекора [1].
F набл = 14, 1090;
F кр (0,01; 15; 18) = 3,23.
Порівнюючи отримані значення, ми робимо висновок про те, що відмінності між дисперсіями не значимо, тобто фактор (захворювання) робить істотний вплив на функцію відгуку (смертність). Отже, середнє бачимо значення на кожному рівні (групові середні) розрізняються значимо.
Побудова рівняння множинної регресії
Наступним етапом, ми побудуємо рівняння множинної регресії. Для цього ми скористалися Пакетом аналізу даних для обчислення основних статистичних параметрів вибірки. Для того щоб відшукати команду виклику надбудови Пакет аналізу в Microsoft Excel, необхідно скористатися меню Сервіс - Аналіз даних. ... У діалоговому вікні вибрати пункт Регресія. У полі Вхідний інтервал Y: вказати діапазон значень нашого у, у полі Вхідний інтервал X: вказати всі значення наших x. У розділі параметри виведення вказати Вихідний інтервал: ввести будь-яку, зручну для вас клітинку. Результати роботи режиму Регресія представлений у таблиці 3 [см. Додаток]. Таким чином, наше рівняння регресії має вигляд:
Виняток незначущих факторів
Для того щоб виключити захворювання, які мають незначний вплив на смертність населення, спочатку розрахуємо парні коефіцієнти кореляції за формулами (21), (22), і побудуємо кореляційну матрицю (див. таблицю 4 [Додаток]). Використовуючи отриману матрицю, обчислимо за формулою (28) приватні коефіцієнти кореляції, отримаємо:
R yx1 | 0,012345 | R yx9 | -0,85883735 |
R yx2 | 0,79942633 | R yx10 | -0,9606058 |
R yx3 | 0,01902545 | R yx11 | -0,66239756 |
R yx4 | -0,7279617 | R yx12 | -0,81452592 |
R yx5 | 0,25701348 | R yx13 | -0,16934424 |
R yx6 | 0,30479306 | R yx14 | 0,9030776 |
R yx7 | -0,9799582 | R yx15 | 0,10681524 |
R yx8 |