1   2   3   4   5   6   7
Ім'я файлу: Стат-часть1.docx
Розширення: docx
Розмір: 1259кб.
Дата: 20.05.2022
скачати

5.1.2. Коэффициент корреляции.

Теснота связи в корреляционной зависимости (5.11) характеризуется параметром . Однако его величина зависит от единиц измерения переменных, что очень неудобно. Разделим обе части равенства (5.11) на и представим уравнение в эквивалентном виде:

. (5.16)

Величина

(5.17)

называется коэффициентом корреляции Пирсона и показывает на сколько величин изменится в среднем , когда увеличится на одно .

Коэффициент корреляции характеризует близость к линейной зависимости между двумя переменными.

Учитывая (5.12), формулу (5.17) для представим в виде, удобном для практических расчетов:

, (5.18)

где выборочные стандартные отклонения.

находим по формуле (5.13), а по формуле:

. (5.19)

Коэффициент корреляции принимает значения (Рис. 5.2.). Чем ближе к единице, тем теснее связь. Если связь называется прямой (положительная корреляция), если обратной (отрицательная корреляция). При линейная корреляционная связь отсутствует.

Оценка значимости коэффициента корреляции.

Иногда требуется оценить значимость коэффициента корреляции (5.18). При этом исходят из того, что при отсутствии корреляционной связи статистика имеет распределение Стьюдента с степенями свободы.

Коэффициент корреляции значим на уровне (т.е. гипотеза о равенстве генерального коэффициента корреляции нулю отвергается), если

, (5.20)

где – квантиль распределения Стьюдента с степенями свободы и уровнем значимости .

Коэффициент детерминации.

Наиболее эффективной оценкой адекватности регрессионной модели является коэффициент детерминации . Его величина показывает, какая доля вариации зависимой переменной обусловлена вариацией факторной переменной. Пределы изменения коэффициента детерминации .

Критерий значимости уравнения парной регрессии или самого коэффициента детерминации может быть записан в виде

, (5.21)

где уровень значимости;

число наблюдений;

табличное значение критерия Фишера-Снедекора, определенное на уровне значимости при и степенях свободы.


Пример 5.2. По данным табл. 5.1 вычислить коэффициенты корреляции и детерминации между переменными и , оценить их значимость на уровне .

1) Ранее было вычислено ; следовательно .

По формуле (5.19) находим .

Подставляем полученные значения в (5.18): ,

то есть связь между переменными достаточно тесная.

Коэффициент детерминации .

Доля вариации 0,8 обусловлена вариацией фактора.

2) Статистика (5.20) равна

По таблицам . Т.к. , то коэффициент корреляции значим.

Статистика (5.21) .

Табличное значение . Т.к. , то коэффициент детерминации и уравнение регрессии значимы.



5.1.3. Оценка уравнения регрессии.

Доверительный интервал функции регрессии.

Построим доверительный интервал для функции регрессии, то есть для условного математического ожидания , который с заданной надежностью (доверительной вероятностью) накрывает неизвестное значение .

Найдем дисперсию , для чего уравнение регрессии представим в виде:

. (5.22)

Случайными величинами являются и , следовательно, дисперсия равна сумме их дисперсий:

. (5.23)

Дисперсия выборочной средней:

, (5.24)

где дисперсия возмущений (остаточная дисперсия). Она должна быть одинакова для всех . Несмещенной оценкой ее является

. (5.25)

Для определения дисперсии в формуле (5.23) ковариацию запишем как

, (5.26)

и . (5.27)

Тогда (5.28)

Заменим ее оценкой и окончательно получим:

. (5.29)

Статистика имеет распределение Стьюдента с степенями свободы.

Следовательно, можно построить доверительный интервал для условного математического ожидания :

, (5.30)

где стандартная ошибка групповой средней ,

квантиль распределения Стьюдента для уровня значимости и степеней свободы.

Из формулы (5.29) видно, что величина доверительного интервала зависит от значения фактора : при она минимальна, а по мере удаления от величина доверительного интервала увеличивается (рис. 5.3).

Рис. 5.3.
Доверительный интервал для индивидуальных значений результативной переменной.

Построенная доверительная область (5.30) для (рис. 5.3) определяет местоположение модельной линии регрессии, но не отдельных возможных значений результативной переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений результативной переменной необходимо учитывать еще один источник вариации – рассеяние вокруг линии регрессии, то есть в оценку суммарной дисперсии следует включить величину . В результате оценка дисперсии индивидуальных значений при равна:

, (5.31)

а соответствующий доверительный интервал для прогнозов индивидуальных значений равен:

. (5.32)


Пример 5.3. По данным табл. 5.1:

  1. оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м;

  2. найти доверительные интервалы при для индивидуального и среднего значений сменной добычи угля на одного рабочего для таких же шахт;

Решение.

Уравнение регрессии (Пример 5.1): .

  1. Оценим условное математическое ожидание :

.

Чтобы построить доверительный интервал для необходимо знать дисперсию его оценки, то есть . Составим вспомогательную таблицу 5.2, с учетом того, что .

Таблица 5.2.



1

2

3

4

5

6

7

8

9

10





6

11

13

10

6

7

9

8

8

12






4

10

10

8

6

4

9

7

5

11






4,57

9,29

11,18

8,34

4,57

5,51

7,40

6,46

6,46

10,23

 



0,32

0,51

1,38

0,12

2,05

2,29

2,56

0,30

2,12

0,59

12,23

По (5.25) находим ;

по (5.29) и .

По таблице распределения Стьюдента (Приложение 2): .

Интервал (5.30): или с надежностью .

2) Для построения доверительного интервала индивидуального значения , найдем дисперсию его оценки (5.31) и .

Интервал (5.32): или с надежностью .


5.2. Непараметрические показатели связи.

В статистической практике могут встречаться такие случаи, когда значения факторных и результативных переменных не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы.
5.2.1. Коэффициенты ранговой корреляции.

В практике встречаются случаи, когда необходимо установить тесноту связи между порядковыми (ранговыми) переменными (например, качество жилищных условий, тестовые баллы и т.п.). В этом случае объекты анализа упорядочивают или ранжируют по степени выраженности измеряемых переменных. Если объекты ранжированы по двум признакам, то имеется возможность оценить тесноту связи между переменными, т.е. тесноту ранговой корреляции. Коэффициенты корреляции для этого случая были предложены К. Спирмэном и М. Кендэлом.

Коэффициент ранговой корреляции Спирмена находят по формуле

, (5.33)

где и ранги го объекта по переменным и ; число пар наблюдений.

Если ранги всех объектов равны, т.е. при полной прямой связи, . При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, .

Иногда сталкиваются со случаями, когда несколько объектов имеют одинаковое значение признака. Тогда всем этим объектам присваивают средний ранг. Например, два объекта 3 и 4 оказались равными, тогда каждому приписывается ранг 3,5.

При проверке значимости исходят из того, что при статистика

(5.34)

имеет распределение Стьюдента с степенями свободы. Поэтому значим на уровне значимости , если , где табличное значение критерия Стьюдента.


Пример 5.4. По результатам тестирования 10 студентов по двум дисциплинам А и В на основе набранных баллов получены следующие ранги (Табл. 5.3). Вычислить коэффициент ранговой корреляции Спирмена и проверить его значимость на уровне .

Таблица 5.3.



1

2

3

4

5

6

7

8

9

10





2

4

5

1

8

9

6

7

3

10

55



2

3

4

1

6

7

8

10

5

9

55



0

1

1

0

2

2

2

3

2

1

-



0

1

1

0

4

4

4

9

4

1

28

По формуле (5.33) .

Проверим значимость . По (5.34) вычислим .

По таблицам (Приложение ) найдем .

Т.к. , то коэффициент ранговой корреляции значим на уровне . Связь между оценками дисциплин довольно тесная.



Коэффициент Спирмена может быть использован и для оценки тесноты связи между обычными количественными переменными. Достоинство заключается в том, что не требуется нормального распределения переменных, линейной связи между ними. Однако, при переходе от первоначальных значений переменных к их рангам теряется часть информации.

Чем теснее связь, тем ближе коэффициент корреляции Спирмена к коэффициенту парной корреляции

Пример 5.5. По данным примера 5.1 вычислить коэффициент ранговой корреляции Спирмена и проверить его значимость на уровне .



1

2

3

4

5

6

7

8

9

10





6

11

13

10

6

7

9

8

8

12






4

10

10

8

6

4

9

7

5

11






9,5

3

1

4

9,5

8

5

6,5

6,5

2

55



9,5

2,5

2,5

5

7

9,5

4

6

8

1

55



0

0,5

1,5

1

2,5

1,5

1

0,5

1,5

1






0

0,25

2,25

1

6,25

2,25

1

0,25

2,25

1

12,5

По формуле (5.33) .

Проверим значимость . По (5.34) вычислим .

По таблицам (Приложение ) найдем .

Т.к. , то коэффициент ранговой корреляции значим на уровне . Связь между оценками дисциплин довольно тесная.


Коэффициент ранговой корреляции Кендэла находят по формуле

, (5.35)

где число пар наблюдений; и , соответственно, число согласованных и несогласованных пар рангов для всех , таких, что . Здесь пары называются согласованными, если оба значения одной пары одновременно больше или меньше обоих значений другой. В противном случае пары называются несогласованными.

Коэффициент Кендэла изменяется в пределах: .

Для проверки значимости сначала вычисляют величину

, (5.36)

а затем статистику

, (5.37)

которая имеет нормальное распределение. Критическое значение берем из таблицы стандартного нормального распределения для двусторонней критической области при уровне значимости α. Если , то коэффициент корреляции значим.

Использование коэффициента ранговой корреляции Кендэла продемонстрируем на данных Примера 5.4.

Пример 5.6. По результатам тестирования 10 студентов по двум дисциплинам А и В на основе набранных баллов получены следующие ранги.



1

2

3

4

5

6

7

8

9

10





2

4

5

1

8

9

6

7

3

10

55



2

3

4

1

6

7

8

10

5

9

55

Вычислить коэффициент ранговой корреляции Кендэла и проверить его значимость на уровне .

Число согласованных пар рангов а число несогласованных пар –

По формуле (5.35) .

Проверим значимость . По (5.36) вычислим .

По (5.37) вычислим .

По таблицам (Приложение ) найдем . Т.к. , то коэффициент ранговой корреляции значим на уровне . Связь между оценками дисциплин довольно тесная.


Для оценки тесноты множественной связи ранговых переменных также применяют коэффициент конкордации, который будет подробно рассмотрен в Главе 8 (раздел 8.2.1).
5.2.2. Анализ связи атрибутивных признаков.

Взаимосвязь между атрибутивными признаками анализируется посредством таблиц взаимной сопряженности.

При наличии статистической связи оценка тесноты связи базируется на отклонениях фактических частот от пропорциональным итоговым частотам:

, (5.38)

где - суммарные частоты по - той строке;

- суммарные частоты по j - тому столбцу;

- объем совокупности.

Абсолютную величину отклонений фактических частот от характеризуют критерием («хи»-квадрат):

, (5.39)

где – соответственно количество групп по признакам и .

При отсутствии статистической связи .

Для вывода о тесноте связи рассчитанное значение сравнивается с табличным значением , которое выбирается из таблиц распределения «хи»-квадрат в зависимости от принятого уровня значимости α и степеней свободы делают вывод о наличии тесной связи между признаками и .

Относительной мерой тесноты статистической связи между признаками служат:

  • коэффициент взаимной сопряженности Чупрова

; (5.40)

  • коэффициент взаимной сопряженности Крамера

V , (5.41)

где – минимальное количество групп ( или ).

Значение коэффициентов изменяется от 0 до 1, и теснота связи тем сильнее, чем ближе к 1.


Пример 5.7. По результатам опроса 48 абитуриентов получены следующие данные о выборе специальности




Менеджер

Финансист

Бухгалтер

Юноши

11

7

3

Девушки

5

10

12

Необходимо определить: влияет ли пол на выбор специальности?
Для этого воспользуемся критерием «хи»-квадрат. Построим таблицу распределения частот:




Менеджер

Финансист

Бухгалтер

Итого

Юноши

11

7

3

21

Девушки

5

10

12

27

Итого

16

17

15

48


Теоретически, мы ожидаем, что частоты распределятся равномерно, т.е.  частота распределится пропорционально между юношами и девушками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (n).




Менеджер

Финансист

Бухгалтер

Итого

Юноши

(21 * 16)/48 = 7

(21 * 17)/48 = 7,44

(21 * 15)/48 = 6,56

21

Девушки

(27 * 16)/48 = 9

(27 * 17)/48 = 9,56

(27 * 15)/48 = 8,44

27

Итого

16

17

15

n = 48

Итоговая таблица для вычислений будет выглядеть так:


Признак

Признак







Юноши

Менеджер

11

7

2,286

Финансист

7

7,44

0,026

Бухгалтер

3

6,56

1,932

Девушки

Менеджер

5

9

1,778

Финансист

10

9,56

0,02

Бухгалтер

12

8,44

1,502

Сумма:










7,544

; число степеней свободы .

Из таблицы распределения для уровня значимости и найдем .

Т.к. делаем вывод, что пол определяет выбор специальности.

Коэффициент взаимной сопряженности Чупрова (5.40):

;

коэффициент взаимной сопряженности Крамера (5.41):

V .


Если необходимо оценить тесноту связи между альтернативными признаками, которые могут принимать любое число вариантов значений, применяется коэффициент взаимной сопряженности ПирсонаП ).

Для исследования такого рода связи первичную статистическую информацию располагают в форме таблицы:

Признаки

A

B

C

Итого

D

m11

m12

m13

m1j

E

m21

m22

m23

m2j

F

m31

m32

m33

m3j

Итого

mi1

mi2

mi3

П

Здесь mij - частоты взаимного сочетания двух атрибутивных признаков; П - число пар наблюдений.

Коэффициент взаимной сопряженности Пирсона определяется по формуле:
, (5.42)

где - показатель средней квадратической сопряженности:

.

Коэффициент взаимной сопряженности изменяется от 0 до 1.


Пример 5.8. Оценить тесноту связи между атрибутивными признаками (возрастом и оценкой деятельности политика) при социологическом опросе по данным таблицы:


оценка

возраст




до 30 лет

от 30 до 50 лет

более 50 лет

Итого

одобряю

45

30

20

95

не одобряю

20

30

45

95

затрудняюсь ответить

5

10

5

20

Итого

70

70

70

210


Коэффициент взаимной сопряженности Пирсона (5.42): .

Величина , что свидетельствует о тесноте связи между атрибутивными признаками.

Наконец, следует упомянуть коэффициент корреляции знаков Фехнера, характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Данный коэффициент определяется по формуле:

, (5.43)

где С - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической;

Н - соответственно количество несовпадений.

Коэффициент Фехнера может изменяться в пределах -1,0 ≤  Кф ≤ +1,0.
5.2.3. Анализ связи альтернативных признаков.

Тесноту связи в случае анализа альтернативных признаков можно оценивать посредством коэффициента ассоциации Юла и коэффициента контингенции Пирсона.

Для расчета коэффициентов используется таблица взаимной сопряженности (таблица «четырех полей»):

Признаки

А (да)

(нет)

Итого

В (да)

a

b

a + b

(нет)

с

d

c + d

Итого

a + c

b + d

n

Здесь а, b, c, d – частоты взаимного сочетания (комбинации) двух альтернативных признаков А и В; n - общая сумма частот.

Коэффициент ассоциации вычисляется по формуле:

. (5.44)

При между изучаемыми качественными признаками существует корреляционная связь.

В случае, когда один из показателей таблицы отсутствует, величина коэффициента ассоциации будет равна единице, что дает завышенную оценку тесноты связи. В этом случае необходимо использовать коэффициент контингенции:

. (5.45)

Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от - 1 до +1) всегда меньше коэффициента ассоциации.



Пример 5.9. Оценить тесноту связи между атрибутивными признаками рабочих предприятия по данным таблицы:

Работа

Мужчины



Итого

Интересная

300 (a)

200(b)

500(a + b)



129(с)

251(d)

380(c + d)

Итого

429(a + c)

451(b + d)

880(n)

Коэффициент ассоциации (5.44):

.

Величина , что свидетельствует о тесноте связи между атрибутивными признаками.

Коэффициент контингенции (5.45):

.



1   2   3   4   5   6   7

скачати

© Усі права захищені
написати до нас