1 2 3 4 5 6 7 Глава 4. Выборочное наблюдение. 4.1. Выборочная совокупность (выборка) и способы её отбора. По охвату элементов изучаемой совокупности статистическое наблюдение подразделяется на сплошное и выборочное. При сплошном наблюдении учету подвергаются все элементы совокупности, а при выборочном – лишь их часть. Выборочное наблюдение должно обеспечить равные возможности для отбора элементов совокупности и, тем самым, позволяет дать, с достаточной для практики достоверностью, оценки обобщающих показателей всей изучаемой совокупности. При этом вся подлежащая изучению совокупность элементов, из которых производится отбор, называется генеральной совокупностью, а элементы, отобранные из генеральной совокупности для проведения выборочного наблюдения, составляет выборочную совокупность или просто выборку. Число элементов в генеральной совокупности и в выборке называется их объёмом. По способу формирования выборки различают: 1) случайный отбор; 2) типический отбор; 3) механический отбор; 4) серийный отбор. При случайном отборе каждый элемент генеральной совокупности с одинаковой вероятностью может попасть в выборку. Различают повторный (выборка осуществляется каждый раз из элементов всей генеральной совокупности) и бесповторный случайный отбор (каждый элемент генеральной совокупности может быть отобран только один раз). При типическом отборе генеральная совокупность предварительно делится по определенному признаку на непересекающиеся группы, а затем уже образуются случайные выборки (с повторным или бесповторным отбором элементов) из каждой группы. Например, пусть генеральная совокупность состоит из элементов и делится на 3 типических группы; отбор элементов внутри каждой группы производится случайным бесповторным методом пропорционально её объёму; при этом отбирается элементов; результаты такого отбора представляются в виде следующей таблицы:
Число наблюдений по каждой группе определяется по формуле: . Механической называется выборка, в которую элементы генеральной совокупности отбираются через определенный интервал. При серийном отборе генеральную совокупность делят на одинаковые по объёму серии (группы) и производят выборку случайным повторным или бесповторным способом не элементов совокупности, а серий; попавшие в выборку серии обследуются сплошь. Например, пусть всю продукцию на предприятии производят 100 станков; тогда образуется генеральная совокупность из 100 единиц, отобрав из которой какое-то число станков, получим выборочную совокупность; вся продукция, попавшая в эту выборку, обследуется полностью. По степени охвата элементов исследуемой совокупности различают большие и малые ( ) выборки. Рассчитанные по материалам выборочного наблюдения статистические показатели не будут, как правило, точно совпадать с соответствующими характеристиками генеральной совокупности. Величины этих отклонений называются ошибками наблюдения. В первую очередь они вызваны тем, что обследуется не вся совокупность, а только её часть. Расчет этой ошибки составляет суть выборочного метода. 4.2. Оценка математического ожидания (средней величины). Пусть распределение значений количественного признака в большой выборке ( ) известно и записано в табличной форме:
Выборочные среднее и дисперсия рассчитываются по формулам: (4.1) (4.2) Величины и являются оценками параметров генеральной совокупности: математического ожидания и дисперсии . Оценка является случайной величиной, распределенной по нормальному закону. Величина является центрированной (математическое ожидание равно нулю) и нормированной (дисперсия равна 1), поэтому для нахождения квантилей распределения можно использовать таблицы функции распределения стандартного нормального распределения. Истинное значение параметра можно оценить при помощи доверительного интервала, который его включает , (4.3) где доверительная вероятность (надежность оценки), а уровень значимости, то есть вероятность ошибки. Величина предельной ошибки равна: повторная выборка , (4.4) бесповторная выборка . (4.5) Если объем генеральной совокупности существенно больше объема выборки, либо неизвестен, то пользуются формулой (4.4). Средние ошибки выборки находят по формулам и . (4.6) Интервал может быть двусторонним, либо односторонним.
Если объем выборки небольшой , то методика расчета доверительных интервалов немного изменяется. Для сгруппированных данных выборочное среднее определяем, как и ранее (4.1), а дисперсию по формуле: . (4.7) Для не сгруппированных данных используем формулы: (4.8) . (4.9) Величина описывается стандартным распределением Стьюдента с степенями свободы, поэтому для нахождения квантилей распределения используют таблицы распределения (Приложение 2). Предельная ошибка для повторной выборки будет равна . (4.10)
Если задана предельная ошибка и доверительная вероятность, из формул (4.4) и (4.10) можно найти необходимое количество измерений (объем выборки). Например, из (4.4) при заданных находим: (4.11)
4.3. Оценка вероятности или доли элементов генеральной совокупности, обладающих определенным признаком. Выборочная доля (или оценка вероятности) определяется как отношение числа элементов выборки с изучаемым признаком к её общему объёму : . (4.12) Выборочная дисперсия доли определяется величиной . (4.13) Величина предельной ошибки для доли равна: повторная выборка , (4.14) бесповторная выборка . (4.15) Минимальный объём выборки, который обеспечивает требуемую точность, находят по формуле . (4.16)
Глава 5. Корреляционная связь и ее анализ. 5.1. Корреляционно-регрессионный анализ. 5.1.1. Уравнение регрессии. В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая связь называется статистической. В силу неоднозначности такой связи зависимость рассматривают в среднем, то есть, усредняя при большом числе наблюдений. Если эта зависимость такова, что каждому значению одной переменной соответствует определенное условное среднее значение (математическое ожидание) другой, то ее называют корреляционной. Независимую переменную называют факторной или фактором, а зависимую – называют результативной переменной. Связь двух переменных и называется парной корреляцией. Влияние же нескольких факторов на результативную переменную называется множественной корреляцией. Корреляция может быть положительной, когда с увеличением признака увеличивается и признак (например, автоматизация труда способствует росту рентабельности производства), и отрицательной, когда, наоборот, с увеличением признака признак уменьшается (так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции). Корреляционная зависимость описывается уравнением регрессии. Для его точного описания необходимо знать условный закон распределения зависимой переменной при условии, что фактор примет значение . На практике такой информации получить не удается, так как обычно имеется лишь выборка пар значений ограниченного объема . В этом случае речь может идти о приближенном выражении уравнения регрессии: , (5.1) где условная (групповая) средняя переменной при фиксированном значении ; параметры кривой. Уравнение (5.1) называют выборочным уравнением регрессии. При правильно определенной аппроксимирующей функции с увеличением объема выборки она все надежнее описывает уравнение регрессии. Для установления наличия корреляционной связи и вида уравнения регрессии в случае парной корреляции зависимость изображают графически в виде точек на координатной плоскости. Это изображение статистической зависимости называют диаграммой рассеивания или полем корреляции. По расположению эмпирических точек выбирают вид регрессионной зависимости. Чаще всего выбирается линейное уравнение регрессии, которое имеет вид: (5.2) В уравнении регрессии используются и другие типы функций: 1) параболическая – ; 2) гиперболическая – ; 3) показательная – и др. Неизвестные параметры выбираются методом наименьших квадратов (МНК), то есть так, чтобы сумма квадратов отклонений эмпирических значений от значений , найденных по уравнению регрессии, была минимальной. Например, для линейной функции: (5.3) На основании необходимого условия экстремума функции двух переменных приравниваем к нулю ее частные производные: откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии: (5.4) Разделив обе части уравнений (5.4) на , получим: (5.5) где средние определяются по формулам: (5.6) (5.7) (5.8) (5.9) Подставляя значение (5.10) из первого уравнения системы (5.5) в уравнение регрессии (5.2) получим . (5.11) Коэффициент называется коэффициентом регрессии по . Он показывает на сколько единиц в среднем изменяется переменная при увеличении переменной на одну единицу. Решая систему (5.5), найдем (5.12) где выборочная дисперсия переменной : (5.13) выборочная ковариация: . (5.14) Для оценки влияния факторного признака на результативную переменную может рассчитываться коэффициент эластичности в среднем для всей совокупности: . (5.15) Коэффициент эластичности показывает на сколько процентов в среднем изменится результативная переменная при изменении фактора на 1%.
1 2 3 4 5 6 7 |