1 2 3 4 5 6 7 5.1.2. Коэффициент корреляции. Теснота связи в корреляционной зависимости (5.11) характеризуется параметром . Однако его величина зависит от единиц измерения переменных, что очень неудобно. Разделим обе части равенства (5.11) на и представим уравнение в эквивалентном виде: . (5.16) Величина (5.17) называется коэффициентом корреляции Пирсона и показывает на сколько величин изменится в среднем , когда увеличится на одно . Коэффициент корреляции характеризует близость к линейной зависимости между двумя переменными. Учитывая (5.12), формулу (5.17) для представим в виде, удобном для практических расчетов: , (5.18) где выборочные стандартные отклонения. находим по формуле (5.13), а по формуле: . (5.19) Коэффициент корреляции принимает значения (Рис. 5.2.). Чем ближе к единице, тем теснее связь. Если связь называется прямой (положительная корреляция), если обратной (отрицательная корреляция). При линейная корреляционная связь отсутствует. Оценка значимости коэффициента корреляции. Иногда требуется оценить значимость коэффициента корреляции (5.18). При этом исходят из того, что при отсутствии корреляционной связи статистика имеет распределение Стьюдента с степенями свободы. Коэффициент корреляции значим на уровне (т.е. гипотеза о равенстве генерального коэффициента корреляции нулю отвергается), если , (5.20) где – квантиль распределения Стьюдента с степенями свободы и уровнем значимости . Коэффициент детерминации. Наиболее эффективной оценкой адекватности регрессионной модели является коэффициент детерминации . Его величина показывает, какая доля вариации зависимой переменной обусловлена вариацией факторной переменной. Пределы изменения коэффициента детерминации . Критерий значимости уравнения парной регрессии или самого коэффициента детерминации может быть записан в виде , (5.21) где уровень значимости; число наблюдений; табличное значение критерия Фишера-Снедекора, определенное на уровне значимости при и степенях свободы.
5.1.3. Оценка уравнения регрессии. Доверительный интервал функции регрессии. Построим доверительный интервал для функции регрессии, то есть для условного математического ожидания , который с заданной надежностью (доверительной вероятностью) накрывает неизвестное значение . Найдем дисперсию , для чего уравнение регрессии представим в виде: . (5.22) Случайными величинами являются и , следовательно, дисперсия равна сумме их дисперсий: . (5.23) Дисперсия выборочной средней: , (5.24) где дисперсия возмущений (остаточная дисперсия). Она должна быть одинакова для всех . Несмещенной оценкой ее является . (5.25) Для определения дисперсии в формуле (5.23) ковариацию запишем как , (5.26) и . (5.27) Тогда (5.28) Заменим ее оценкой и окончательно получим: . (5.29) Статистика имеет распределение Стьюдента с степенями свободы. Следовательно, можно построить доверительный интервал для условного математического ожидания : , (5.30) где стандартная ошибка групповой средней , квантиль распределения Стьюдента для уровня значимости и степеней свободы. Из формулы (5.29) видно, что величина доверительного интервала зависит от значения фактора : при она минимальна, а по мере удаления от величина доверительного интервала увеличивается (рис. 5.3). Рис. 5.3. Доверительный интервал для индивидуальных значений результативной переменной. Построенная доверительная область (5.30) для (рис. 5.3) определяет местоположение модельной линии регрессии, но не отдельных возможных значений результативной переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений результативной переменной необходимо учитывать еще один источник вариации – рассеяние вокруг линии регрессии, то есть в оценку суммарной дисперсии следует включить величину . В результате оценка дисперсии индивидуальных значений при равна: , (5.31) а соответствующий доверительный интервал для прогнозов индивидуальных значений равен: . (5.32)
5.2. Непараметрические показатели связи. В статистической практике могут встречаться такие случаи, когда значения факторных и результативных переменных не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы. 5.2.1. Коэффициенты ранговой корреляции. В практике встречаются случаи, когда необходимо установить тесноту связи между порядковыми (ранговыми) переменными (например, качество жилищных условий, тестовые баллы и т.п.). В этом случае объекты анализа упорядочивают или ранжируют по степени выраженности измеряемых переменных. Если объекты ранжированы по двум признакам, то имеется возможность оценить тесноту связи между переменными, т.е. тесноту ранговой корреляции. Коэффициенты корреляции для этого случая были предложены К. Спирмэном и М. Кендэлом. Коэффициент ранговой корреляции Спирмена находят по формуле , (5.33) где и ранги го объекта по переменным и ; число пар наблюдений. Если ранги всех объектов равны, т.е. при полной прямой связи, . При полной обратной связи, когда ранги объектов по двум переменным расположены в обратном порядке, . Иногда сталкиваются со случаями, когда несколько объектов имеют одинаковое значение признака. Тогда всем этим объектам присваивают средний ранг. Например, два объекта 3 и 4 оказались равными, тогда каждому приписывается ранг 3,5. При проверке значимости исходят из того, что при статистика (5.34) имеет распределение Стьюдента с степенями свободы. Поэтому значим на уровне значимости , если , где табличное значение критерия Стьюдента.
Коэффициент Спирмена может быть использован и для оценки тесноты связи между обычными количественными переменными. Достоинство заключается в том, что не требуется нормального распределения переменных, линейной связи между ними. Однако, при переходе от первоначальных значений переменных к их рангам теряется часть информации. Чем теснее связь, тем ближе коэффициент корреляции Спирмена к коэффициенту парной корреляции
Коэффициент ранговой корреляции Кендэла находят по формуле , (5.35) где число пар наблюдений; и , соответственно, число согласованных и несогласованных пар рангов для всех , таких, что . Здесь пары называются согласованными, если оба значения одной пары одновременно больше или меньше обоих значений другой. В противном случае пары называются несогласованными. Коэффициент Кендэла изменяется в пределах: . Для проверки значимости сначала вычисляют величину , (5.36) а затем статистику , (5.37) которая имеет нормальное распределение. Критическое значение берем из таблицы стандартного нормального распределения для двусторонней критической области при уровне значимости α. Если , то коэффициент корреляции значим. Использование коэффициента ранговой корреляции Кендэла продемонстрируем на данных Примера 5.4.
Для оценки тесноты множественной связи ранговых переменных также применяют коэффициент конкордации, который будет подробно рассмотрен в Главе 8 (раздел 8.2.1). 5.2.2. Анализ связи атрибутивных признаков. Взаимосвязь между атрибутивными признаками анализируется посредством таблиц взаимной сопряженности. При наличии статистической связи оценка тесноты связи базируется на отклонениях фактических частот от пропорциональным итоговым частотам: , (5.38) где - суммарные частоты по - той строке; - суммарные частоты по j - тому столбцу; - объем совокупности. Абсолютную величину отклонений фактических частот от характеризуют критерием («хи»-квадрат): , (5.39) где – соответственно количество групп по признакам и . При отсутствии статистической связи . Для вывода о тесноте связи рассчитанное значение сравнивается с табличным значением , которое выбирается из таблиц распределения «хи»-квадрат в зависимости от принятого уровня значимости α и степеней свободы делают вывод о наличии тесной связи между признаками и . Относительной мерой тесноты статистической связи между признаками служат: коэффициент взаимной сопряженности Чупрова ; (5.40) коэффициент взаимной сопряженности Крамера V , (5.41) где – минимальное количество групп ( или ). Значение коэффициентов изменяется от 0 до 1, и теснота связи тем сильнее, чем ближе к 1.
Если необходимо оценить тесноту связи между альтернативными признаками, которые могут принимать любое число вариантов значений, применяется коэффициент взаимной сопряженности Пирсона (КП ). Для исследования такого рода связи первичную статистическую информацию располагают в форме таблицы:
Здесь mij - частоты взаимного сочетания двух атрибутивных признаков; П - число пар наблюдений. Коэффициент взаимной сопряженности Пирсона определяется по формуле: , (5.42) где - показатель средней квадратической сопряженности: . Коэффициент взаимной сопряженности изменяется от 0 до 1.
Наконец, следует упомянуть коэффициент корреляции знаков Фехнера, характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Данный коэффициент определяется по формуле: , (5.43) где С - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; Н - соответственно количество несовпадений. Коэффициент Фехнера может изменяться в пределах -1,0 ≤ Кф ≤ +1,0. 5.2.3. Анализ связи альтернативных признаков. Тесноту связи в случае анализа альтернативных признаков можно оценивать посредством коэффициента ассоциации Юла и коэффициента контингенции Пирсона. Для расчета коэффициентов используется таблица взаимной сопряженности (таблица «четырех полей»):
Здесь а, b, c, d – частоты взаимного сочетания (комбинации) двух альтернативных признаков А и В; n - общая сумма частот. Коэффициент ассоциации вычисляется по формуле: . (5.44) При между изучаемыми качественными признаками существует корреляционная связь. В случае, когда один из показателей таблицы отсутствует, величина коэффициента ассоциации будет равна единице, что дает завышенную оценку тесноты связи. В этом случае необходимо использовать коэффициент контингенции: . (5.45) Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от - 1 до +1) всегда меньше коэффициента ассоциации.
1 2 3 4 5 6 7 |