Параметричні методи оцінки вірогідностіпараметричні методи

ПАРАМЕТРИЧНІ МЕТОДИ ОЦІНКИ ВІРОГІДНОСТІ
Параметричні методи засновані на деяких, як правило, цілком ймовірних припущеннях про характер розподілу випадкової величини.
Зазвичай параметричні методи, використовувані в аналізі експериментальних даних, засновані на припущенні нормальності розподілу цих даних. Наслідком такого припущення є необхідність оцінки досліджуваних параметрів розподілу.
Так, у разі розглянутого далі t - тест Стьюдента такими оцінюваними параметрами є математичне очікування і дисперсія. У ряді випадків робляться додаткові припущення з приводу того, як параметри, що характеризують розподіл випадкової величини в різних вибірках, співвідносяться між собою.
Так, в тесті Стьюдента, який часто використовують для порівняння середніх значень (математичного очікування) двох рядів даних на предмет їх однорідності або неоднорідності, додатково робиться припущення про однорідність дисперсій розподілу випадкових величин у двох генеральних сукупностях, з яких ці дані були витягнуті.
Перевагою методів параметричного аналізу даних є той факт, що вони мають досить високу потужність. Під потужністю тесту мають на увазі його здатність уникати помилки другого роду, або β-помилки. Чим менше виявляється β-помилка, тим вище потужність тесту. Іншими словами, потужність тесту = 1 - β.
Висока потужність параметричних тестів, або критеріїв, обумовлена тим, що дані методи вимагають, щоб наявні дані були описані в метричній шкалі.
Як відомо, до метричних шкалах відносять інтервальную шкалу і шкалу відносин, яку іноді ще називають абсолютною шкалою. Інтервальна шкала дозволяє досліднику з'ясувати не тільки відносини рівності або нерівності елементів вибірки (як це дозволяє зробити шкала найменувань) і не тільки відносини порядку (як це дозволяє зробити шкала порядку), але також і оцінювати еквівалентність інтервалів. Абсолютна шкала додатково до цього дозволяє оцінювати еквівалентність відносин між елементами множини, отриманими в ході вимірювання. Саме тому метричні шкали відносять до

сильних вимірювальних шкал. Завдяки цій силі параметричні методи дозволяють більш точно передати відмінності в розподілі випадкової величини за умови істинності кульових або альтернативних гіпотез.
Слід також зазначити, що в цілому параметричні методи статистики більш розроблені в теорії математичної статистики і тому застосовуються значно ширше. Практично будь експериментальний результат може бути оцінений за допомогою якого-небудь з цих методів. Саме такі методи і розглядаються переважно в підручниках і посібниках з статистичному аналізу даних.
У той же час труднощі, пов'язані з використанням методів параметричного аналізу в статистиці, полягають у тому, що в ряді випадків апріорні припущення про характер розподілу досліджуваних випадкових величин можуть виявитися невірними.
Так, якщо порівнювати дві вибірки за допомогою t - тест Стьюдента, можна виявити, що розподіл наших даних відрізняється від нормального, а дисперсії у двох вибірках значно різняться. У цьому випадку використання параметричного тесту Стьюдента може до деякої міри спотворити висновки, які хоче зробити дослідник. Така небезпека збільшується, якщо значення обчисленої статистики виявляються близькими до граничних значень квантилів, які використовуються для прийняття або відхилення гіпотез. У більшості випадків, однак, як, наприклад, у разі використання t - тесту, деякі відхилення від теоретично заданих припущень виявляються некритичними для надійного статистичного висновку. В інших випадках такі відхилення можуть створювати серйозну загрозу такого висновку. Тоді дослідники можуть розробляти спеціальні процедури, які можуть скоригувати процедуру прийняття рішення з приводу істинності статистичних гіпотез. Призначення цих процедур полягає в тому, щоб обійти або пом'якшити занадто жорсткі вимоги параметричних моделей використовуваної статистики.
Один з варіантів таких дій дослідника, коли він виявляє, що отримані ним дані за своїми параметрами відрізняються від того, що задано у структурній моделі використовуваного параметричного тесту, може полягати в тому, щоб

спробувати перетворити ці дані до потрібного вигляду. Наприклад, вимірюючи час реакції, можна уникнути високого значення асиметрії його розподілу, якщо використовувати для аналізу логарифми одержуваних значень, а не самі значення часу реакції.
Інший варіант дій полягає у відмові від використання будь-яких апріорно заданих припущень про характер розподілу випадкової величини в генеральній сукупності. А це означає відмову від параметричних методів математичної статистики на користь непараметричних.
Вибіркове спостереження як джерело статистичної інформації.
При проведенні вибіркового дослідження ми можемо зустрічатися з загальними похибками та похибками вибірки. Загальні похибки можуть мати як систематичний характер (методичні, недоліки вимірювальної апаратури), так і випадковий (помилки дослідника). Похибки вибіркового спостереження пов’язані з відбором його одиниць. Це похибки типовості, репрезентативності.

В процесі аналізу розраховані показники (середня тривалість лікування, частота ускладнень, рівень летальності та інші) розглядають як узагальнюючі величини. Якщо результати отримано на основі достатнього за кількістю та якісно однорідного матеріалу, то можна вважати, що вони досить точно характеризують досліджувані явища.
Наприклад, при вивченні ефективності нового методу лікування, апробованого на 400 хворих, встановлено, що у 12 з них виникли ускладнення.
Частота їх складає 3 %. Значення узагальнюючого результату полягає в тому, що при проведенні аналогічних вибіркових досліджень, або для оцінки всієї сукупності хворих з даною патологією (генеральної сукупності) ми могли б передбачити отримання аналогічних даних. Проте не виключена ситуація, коли при проведенні повторних досліджень показник, який був визначений шляхом вибіркового спостереження, в незначній мірі може відрізнятись від результату суцільного спостереження.

Отже, оцінити вірогідність результатів вибіркового дослідження
означає визначити, в якій мірі зроблені для нього висновки (результати) можна перенести на генеральну сукупність. Тобто, за частиною явища міркувати про явище в цілому та основні притаманні йому закономірності.
Середня похибка середньої та відносної величини, довірчий інтервал.
Для оцінки вірогідності результатів будь-яких вибіркових досліджень визначають середню похибку відносної (m
Р
) чи середньої величини (m
Х
).
Середня похибка для відповідних показників при значному числі спостережень (n>30) може бути розрахована за наступними формулами: n
m
M


– середня похибка середньої величини; n
pq m
%

– середня похибка відносної величини; де: δ
– середнє квадратичне відхилення;
n – число спостережень у вибірковій сукупності. При малому числі спостережень (n<30) в знаменнику замість n використовується n-1.

P – відносний показник;
q – величина, зворотна до показника, тобто вірогідність того, що дане явище не буде зареєстровано. Сума двох протилежних вірогідностей дорівнює одиниці: P + q = 1. Якщо показник розраховано на 100 (%), то
q = 100 – P, якщо на 1000 (%
0
), то q = 1000 – P і т.д.
Для наведеного вище прикладу середня похибка показника становить:
Середня похибка відображає розміри випадкових коливань показника при вибіркових дослідженнях і залежить від числа спостережень та якісних характеристик явища. Чим більше число спостережень та чим одноріднішою є відібрана для аналізу група, тим менші межі ймовірних випадкових коливань показника.
Середня похибка дозволяє визначити довірчі межі, в яких з певною ймовірністю знаходиться істинне значення показника. Інтервал, розташований між ними, носить назву довірчого інтервалу.
Довірчі межі середньої та відносної величин визначають за формулою:

Х
ген
=

Х
виб
+ tm

х
; Р
ген
= Р
виб
+ tm
Р, де:
1)

Х
ген та Р
ген
– значення середніх та відносних величин для генеральної сукупності;
2)

Х
виб
і Р
виб
– значення середніх та відносних величин, розрахованих для вибіркової сукупності;
3) tm

х
і m
Р
– середні похибки відповідних показників (похибки репрезентативності);
4) t – критерій вірогідності або довірчий критерій. Він може бути заданий з різними ступенями точності і залежно від імовірності безпомилкового прогнозу складати t = 2 i t = 3.
Межі вірогідності (довірчі межі) (Р + 2m) (при t = 2) дають можливість визначити межі коливання показника з імовірністю 95,5 % (р = 0,05), а довірчі межі (Р+3m) (при t = 3) дають можливість визначити межі коливання показника з імовірністю 99,7 % (р = 0,01). Імовірність безпомилкового прогнозу і довірчий критерій визначають на етапі планування статистичного дослідження.
При заданих ступенях імовірності довірчий критерій (t) має незмінну

величину, а довірчий інтервал залежить від величини середньої похибки (m), значення якої зменшується при збільшенні числа та якісного складу спостережень.
Для нашого прикладу, при використанні наведеного методу лікування частота ускладнень для генеральної сукупності з імовірністю 95,5 % (t = 2) може знаходитись в межах: Р
ген
= Р
виб
+ tm
Р
= 3,0 + 2

0,85 % – від 1,3 % до
4,7 %. З імовірністю 99,7 % довірчий інтервал складатиме від 0,45 % до
5,55 %.
Практична цінність використання середньої похибки середньої чи відносної величини полягає не тільки у визначенні довірчих меж певного показника, але й в оцінці його суттєвості (вірогідності). Якщо вона досить велика, ми можемо отримати значення довірчого інтервалу в діапазоні, який не підлягає логічній оцінці. Наприклад, при використанні певної методики вигодовування новонароджених приріст маси тіла склав 800+300 грам.
Довірчий інтервал при вірогідності безпомилкового прогнозу 99 % складатиме від 100 до 1700 грам. Отже, наявність від’ємного результату не дозволяє в повній мірі за даним показником оцінити ступінь впливу даної методики на приріст маси тіла новонароджених.
У вказаній ситуації для підвищення вірогідності оцінки необхідно зменшити довірчий інтервал шляхом збільшення числа спостережень і, відповідно, зменшення середньої похибки показника. Суттєвість (вірогідність) показника визначається на основі співвідношення між абсолютним його значенням та середньою похибкою, яке повинно бути не менше трьох – Р/mР
>3.

Оцінка вірогідності різниці за допомогою t-критерію Ст’юдента
В медико-біологічних дослідженнях часто виникають ситуації, коли при порівнянні окремих параметрів необхідно оцінити суттєвість різниці між ними.
Суттєва різниця між окремими показниками вибіркового дослідження свідчить про можливість перенесення отриманих висновків на генеральну сукупність.
Критерієм оцінки суттєвості різниці є коефіцієнт вірогідності (критерій
Стьюдента), який визначають за формулою:
2 2
2 1
2 1
m
m
М
М
t



– для середніх величин;
2 2
2 1
2 1
m
m
P
P
t



– для відносних величин.
При великому числі спостережень (n>30) різниця між показниками є суттєвою, якщо:
1) t ≥ 2 (відповідає вірогідності безпомилкового прогнозу 95,5 %);
2) t > 3 (відповідає вірогідності безпомилкового прогнозу 99,7 %).
За умови t<2 ступінь вірогідності безпомилкового прогнозу складає менше 95%. В цьому випадку ми не можемо стверджувати, що різниця між показниками є суттєвою.
Наприклад, в школі № 1 навчається 1200 дітей. Профілактичні щеплення проти грипу проведено 900 дітям. В наступному році захворіло 350, в тому числі 150-и з них не були зроблені щеплення. Для того, щоб порівняти і оцінити суттєвість різниці між рівнями захворюваності серед щеплених дітей, та тих, яким щеплення не проводились, необхідно:
1) визначити рівні захворюваності в школі № 1 серед першої (з щепленнями) та другої (без щеплень) груп. Вони складають, відповідно:
Р1=150 : 300

100=50 %.
Р2=(350-150) : 900

100=22,2 %;
2) визначити середні похибки вказаних показників:
3) оцінити суттєвість різниці за критерієм Стьюдента:
Висновок: різниця між показниками суттєва, оскільки t>3, що відповідає

рівню безпомилкового прогнозу 99,7 %.
Часто при клінічних чи експериментальних дослідженнях доводиться мати справу з малим числом спостережень (30 та менше): 5-6 лабораторних тварин, 10-12 хворих та інші. Якщо дослідження вірно організоване, відібрані однорідні групи, їх можна розглядати як вибіркові з малим числом спостережень. Проте при малому числі спостережень (n<30) оцінка вірогідності різниці між параметрами окремих груп проводиться на основі порівняння результату не з граничними значеннями критерія Стьюдента, а з його табличними значеннями для відповідного числа спостережень (n`= n
1
+n
2
–2).
Якщо визначений t-критерій перевищує табличне значення чи дорівнює йому – різниця між показниками статистично доведена.
Із зменшенням обсягів вибірок (n < 10) критерій Стьюдента стає чутливим до форми розподілу досліджуваної ознаки в генеральній сукупності.
Тому в сумнівних випадках рекомендують використовувати непараметричні методи або порівнювати отримані значення з критичними для вищого рівня значущості.
Рішення про достовірність відмінностей приймають у тому разі, якщо обчислена величина t перевищує табличне значення для певної кількості ступенів свободи (d(v)). У публікаціях або наукових звітах вказують найвищий рівень значущості з трьох: р < 0,05; р < 0,01; р< 0,001.
Критерій вірогідності (t) використовують при попарному порівнянні досліджуваних параметрів. Проте при проведенні статистичного аналізу іноді необхідно оцінити вірогідність різниці більшої від двох кількості показників клініко-статистичних груп. Попарне порівняння їх не дозволяє отримати узагальнюючу оцінку. В іншому випадку необхідно провести порівняння сукупності не тільки за узагальнюючими показниками, а й за характером розподілу ознак в досліджуваних групах.
У вказаних ситуаціях найбільш доцільним є використання критерія
відповідності – χ
2
(критерій Пірсона), який визначають за формулою:
, де

р – реальні частоти; р
1
– теоретичні частоти.
В узагальненому вигляді практичне значення критерію відповідності (χ
2
) полягає в наступному:

оцінка вірогідності різниці між кількома порівнюваними групами при декількох можливих результатах з різним ступенем ймовірності
(наприклад, три чи чотири групи хворих з різними методами лікування та їх наслідками – різною частотою ускладнень);

визначення наявності зв’язку між двома факторами (залежність результатів лікування від віку хворих, важкості захворювання, зв’язок між важкістю патології новонароджених та станом їх фізичного розвитку);

оцінка ідентичності розподілу частот у двох та більше сукупностях
(аналогічність розподілу хворих за рівнем клінічних параметрів при різних ступенях тяжкості патології).
Основою методу є визначення суттєвості різниці (відхилень) фактичних даних від теоретичних (очікуваних). Розрахунок теоретичних даних базується на припущенні, що між порівнюваними групами за досліджуваними факторами різниця відсутня. Дане припущення визначається як “нульова гіпотеза”.
На її основі визначають “очікувані” результати, і порівнюють їх з фактичними даними. Якщо різниця відсутня, можна зробити висновок, що
“нульова гіпотеза” підтвердилась. При наявності відмінностей фактичних даних від теоретичного розподілу визначають суттєвість різниці між порівнюваними групами.
Оцінка результатів (χ
2
) проводиться за спеціальною таблицею. Суттєвою вважається різниця в тому випадку, коли величина розрахованого коефіцієнта перевищує табличне значення при вірогідності не нижче 95 % (імовірність похибки менше 5 % – p<0,05).
Методику розрахунку коефіцієнта відповідності розглянемо на прикладі оцінки впливу методу лікування на їх результати.
1.
Наведемо фактичні результати за трьома методами лікування (табл.
3).

Таблиця 3
Результати лікування хворих за окремими методиками
Методики лікування
Всього хворих
Результати лікування – р (фактичні дані)
Хороші
Задовільні
Незадовільні
I
II
III
50 80 70 36 48 25 11 17 25 3
15 20
Всього
200 (100 %)
109 53 38 2.
Розраховуємо “очікувані” результати згідно з “нульовою” гіпотезою, основою якої є припущення, що різниця між результатами лікування за окремими методиками відсутня. В цьому випадку за основу беремо загальний розподіл хворих, пролікованих всіма методами. Числова характеристика “нульової” гіпотези складає: хороші результати в цілому мали
54,5 %, задовільні – 26,5 % та незадовільні – 19 % хворих. Відповідно до вказаного розподілу визначають “очікувані” дані результатів лікування за окремими методиками (значення визначаємо в цілих числах) – табл. 4.
Таблиця 4
“Очікувані” дані результатів лікування за окремими методиками
Методики
Лікування
Всього хворих
Результати лікування – р
1
(очікувані дані)
Хороші
Задовільні
Незадовільні
I
II
III
50 80 70 27 44 38 13 21 19 10 15 13
Всього
200 109 (54,5 %)
53 (26,5 %)
38 (19 %)
3. Співставимо фактичні та теоретичні дані (їх різницю) з розрахунком величини відхилення та врахуванням його напрямку (знаку) – табл. 5.
Таблиця 5
Розрахунок величини відхилення

Методики лікування
(р – р
1
)
Хороші
Задовільні
Незадовільні
I
II
III
9 (36–27)
4 (48–44)
–13 (25–38)
–2 (11–13)
–4 (17–21)
6 (25–19)
–7 (3–10)
0 (15–15)
7 (20–13)
Всього
0 0
0 4.
Розраховуємо квадрат відхилення теоретичних даних від фактичних та середній квадрат відхилення на одну “очікувану” групу. Даний етап розрахунку має такий вигляд у зв’язку з тим, що на основі фактичних відхилень неможливо визначити його сумарну величину, оскільки вона дорівнює нулю.
При піднесенні відхилень у квадрат визначаємо їх параметри для кожної групи
(р – р
1
)
2
. З огляду на різне число хворих у досліджуваних групах величина відхилень може бути різною, тому квадрат їх ділимо на число відповідних спостережень кожної групи – (р – р
1
)
2
:р
1.
Провівши розрахунки, визначаємо (р – р
1
)
2
та (р – р
1
)
2
:р
1
(табл.
6).
Таблиця 6
Квадрат відхилення теоретичних даних від фактичних та середній квадрат відхилення
Методики лікування
(р – р
1
)
2
(р – р
1
)
2
р
1
Хороші
Задовіль- ні
Незадо- вільні
Хороші
Задовіль- ні
Незадо- вільні
I
II
III
81 16 169 4
16 36 49 0
49 3
2,75 0,23 0,31 0,77 1,9 4,9 0
3,77
∑ = 17,63 5. Визначаємо χ
2
– підсумок результатів останнього етапу розрахунків. В нашому випадку χ
2
= 17,63. Порівнюємо його з табличним значенням, враховуючи число ступенів свободи (n
1
), які визначають за формулою: n
1
= (S –

1)(r – 1), де
S – число груп хворих (для нашого прикладу – три); r – число результативних груп (три).
Число ступенів свободи n
1
= (3 – 1)(3 – 1) = 4. Отриманий результат перевищує табличні значення χ
2 для n
1
= 4 за всіма рівнями вірогідності. Отже, ми можемо зробити висновок про суттєвість (вірогідність) різниці та наявність зв’язку між показниками при різних методах лікування – “нульова гіпотеза” не підтвердилась.
Критерій відповідності не є абсолютно універсальним і має деякі недоліки:

залежить від групування первинного матеріалу;

важливе значення має однорідність наведених груп для попередження згладжування різниці між ними;

величина χ
2
визначає наявність зв’язку, проте не виявляє його силу та характер;

метод не визначає суттєвість різниці між окремими групами, тому іноді для попарного порівняння груп необхідно додатково використовувати t – критерій.

Наприклад, чи пацієнти з ІМ, які отримують сеанси психотерапії, мають меншу тривалість лікування в порівнянні з тими, хто не отримує терапії?
• Об'єднаний t-критерій – це звичайний t-критерій, за умови, що дисперсія у двох групах однакова.
• Парний t-критерій – це зіставлення кожної особи в одній групі з особою в іншій групі; застосовується до пов'язаних даних, виміряних до і після.
Рисунок 2-10. Порівняння розподілу 2 груп
Дисперсійний аналіз (ANOVA)
Результатом ANOVA є F-критерій ≥ 1.
• Однофакторний дисперсійний аналіз (ANOVA) порівнює середні арифметичні однієї номінальної змінної для багатьох груп (≥2) за допомогою
інтервальної змінної. Достовірне р-значення означає, що принаймні 2 з досліджуваних груп різні.
• Двофакторний дисперсійний аналіз (ANOVA) порівнює у групах середні арифметичні, що генеруються 2 номінальними змінними за допомогою
інтервальної змінної. Він може перевіряти вплив декількох змінних одночасно.
• Дисперсійний аналіз (ANOVA) з багатьма вимірюваннями – багаторазові вимірювання тих самих осіб протягом певного часу.
Хі квадрат
Критерій Хі-квадрат використовують, коли необхідно визначити, чи 2 номінальні змінні є незалежними, тобто для того, щоб перевірити ефективність нового препарату, порівнюють кількість пацієнтів, які одужали і отримували препарат, та тих, які його не отримували. Хі-квадрат використовують тільки для номінальних даних і для будь-якої кількості груп (2×2, 2×3, 3×3 і т.д.).
Таблиця 2-3. Тест Хі-квадрат для номінальних даних
Новий препарат
Плацебо
Разом
Одужали
45 35 80
Не одужали
15 25 40
Разом
60 60 120
Контрольні питання
9. Нещодавнє дослідження виявило вищий рівень захворюваності на синдром раптової смерті у дітей, мами яких палять. Якщо цей рівень для мам, які палять, становить 230/100 000, а для тих, які не палять – 71/100 000, то який відносний ризик для дітей, мами яких палять?
Нижчі
Зріст
Вищі
Час тота
Ж
інки
Чо ловіки

A. 159
B. 32
C. 230
D. 3,2
E. 8,4 10. Дослідник, який бажає продемонструвати ефективність нового лікування гіпертензії, порівнює ефективність нового лікування з плацебо. Це дослідження включає перевірку нульової гіпотези про те, що нове лікування не впливає на гіпертензію. У цьому випадку нульову гіпотезу слід розглядати як:
A. позитивний доказ того, що припущення правильне.
B. підтвердження статистично значущого зв'язку.
C. припущення, що тип дослідження відповідає вимогам.
D. ймовірність того, що досліджуваний зв'язок є результатом випадкових факторів.
E. результат, якого дослідник сподівається досягти.
11. Для оцінки рівня депресії в групі кардіологічних пацієнтів використовували стандартизований тест. Отримано середнє арифметичне 14,60 з довірчим
інтервалом 14,55 і 14,65. Представлений довірчий інтервал є:
A. менш точний, але має вищу достовірність, ніж 14,20 і 15,00.
B. точніший, але має меншу достовірність, ніж 14,20 і 15,00.
C. менш точний, але має меншу достовірність, ніж 14,20 і 15,00.
D. точніший, але має вищу достовірність, ніж 14,20 і 15,00.
E. невизначений, тому що ступінь достовірності не уточнюється.
12. Нещодавно опубліковано звіт про дослідження взаємозв'язку між зростом і рівнем холестерину у чоловіків віком від 44 до 65 років. У звіті вказано кореляцію +0,02, обчислену для співвідношення між зростом і рівнем холестерину. Одна з можливих інтерпретацій цієї кореляції:
A. Показник доводить, що неможливо визначити взаємозв’язку між двома вказаними змінними.
B. Існує обмежений причинний взаємозв’язок між двома вказаними змінними.
C. Може існувати реальний взаємозв’язок, але помилка вимірювання занадто велика.
D. Діаграма розсіювання даних покаже чіткий лінійний нахил.
E. Кореляція є достовірною на рівні 0,02.
Відповіді та пояснення
9. Відповідь: D. Відносний ризик означає ділення, обчислення співвідношення між 2 групами. [230/71 = 3,2]
10. Відповідь: D. Це питання щодо визначення. Нульова гіпотеза є формулюванням шансів, протилежним тому, що дослідник сподівається знайти.
11. Відповідь: B. Менший інтервал є більш точним, але менш достовірним.
Точний – це вужчий інтервал. Достовірність 95% дає менший інтервал, ніж достовірність 99%.