1   2   3   4   5   6   7
Ім'я файлу: Стат-часть1.docx
Розширення: docx
Розмір: 1259кб.
Дата: 20.05.2022
скачати
Глава 4. Выборочное наблюдение.

4.1. Выборочная совокупность (выборка) и способы её отбора.

По охвату элементов изучаемой совокупности статистическое наблюдение подразделяется на сплошное и выборочное. При сплошном наблюдении учету подвергаются все элементы совокупности, а при выборочном – лишь их часть. Выборочное наблюдение должно обеспечить равные возможности для отбора элементов совокупности и, тем самым, позволяет дать, с достаточной для практики достоверностью, оценки обобщающих показателей всей изучаемой совокупности. При этом вся подлежащая изучению совокупность элементов, из которых производится отбор, называется генеральной совокупностью, а элементы, отобранные из генеральной совокупности для проведения выборочного наблюдения, составляет выборочную совокупность или просто выборку. Число элементов в генеральной совокупности и в выборке называется их объёмом.

По способу формирования выборки различают:

1) случайный отбор;

2) типический отбор;

3) механический отбор;

4) серийный отбор.

При случайном отборе каждый элемент генеральной совокупности с одинаковой вероятностью может попасть в выборку. Различают повторный (выборка осуществляется каждый раз из элементов всей генеральной совокупности) и бесповторный случайный отбор (каждый элемент генеральной совокупности может быть отобран только один раз).

При типическом отборе генеральная совокупность предварительно делится по определенному признаку на непересекающиеся группы, а затем уже образуются случайные выборки (с повторным или бесповторным отбором элементов) из каждой группы. Например, пусть генеральная совокупность состоит из элементов и делится на 3 типических группы; отбор элементов внутри каждой группы производится случайным бесповторным методом пропорционально её объёму; при этом отбирается элементов; результаты такого отбора представляются в виде следующей таблицы:


Типические группы,

Численность групп,

Численность выборки,

1

2

3

100

300

600

20

60

120

Итого

1000

200

Число наблюдений по каждой группе определяется по формуле: .

Механической называется выборка, в которую элементы генеральной совокупности отбираются через определенный интервал.

При серийном отборе генеральную совокупность делят на одинаковые по объёму серии (группы) и производят выборку случайным повторным или бесповторным способом не элементов совокупности, а серий; попавшие в выборку серии обследуются сплошь. Например, пусть всю продукцию на предприятии производят 100 станков; тогда образуется генеральная совокупность из 100 единиц, отобрав из которой какое-то число станков, получим выборочную совокупность; вся продукция, попавшая в эту выборку, обследуется полностью.

По степени охвата элементов исследуемой совокупности различают большие и малые ( ) выборки.

Рассчитанные по материалам выборочного наблюдения статистические показатели не будут, как правило, точно совпадать с соответствующими характеристиками генеральной совокупности. Величины этих отклонений называются ошибками наблюдения. В первую очередь они вызваны тем, что обследуется не вся совокупность, а только её часть. Расчет этой ошибки составляет суть выборочного метода.
4.2. Оценка математического ожидания (средней величины).

Пусть распределение значений количественного признака в большой выборке ( ) известно и записано в табличной форме:

 Значение,

Частота,









Итого



Выборочные среднее и дисперсия рассчитываются по формулам:

(4.1)

(4.2)

Величины и являются оценками параметров генеральной совокупности: математического ожидания и дисперсии . Оценка является случайной величиной, распределенной по нормальному закону. Величина является центрированной (математическое ожидание равно нулю) и нормированной (дисперсия равна 1), поэтому для нахождения квантилей распределения можно использовать таблицы функции распределения стандартного нормального распределения.

Истинное значение параметра можно оценить при помощи доверительного интервала, который его включает

, (4.3)

где доверительная вероятность (надежность оценки), а

уровень значимости, то есть вероятность ошибки.

Величина предельной ошибки равна:

  • повторная выборка

, (4.4)

  • бесповторная выборка

. (4.5)

Если объем генеральной совокупности существенно больше объема выборки, либо неизвестен, то пользуются формулой (4.4).

Средние ошибки выборки находят по формулам

и . (4.6)

Интервал может быть двусторонним, либо односторонним.


Пример 4.1. Произведены измерения признака, распределенного на элементах генеральной совокупности неизвестного объема. Результаты измерений и вычислений приведены в таблице.

№ п/п

1

6

5

30

1,98

3,92

19,6

2

7

10
0

0,98

0,96

9,6

3

8

20

160

0,02

0,0004

0,008

4

9

11

99

1,02

1,04

11,44

5

10

4

40

2,02

4,08

16,32

Итого
50

399

56,968

Точечные оценки находим по формулам (4.1) и (4.2).

; ; .

  • правосторонний интервал, .

По таблице нормального распределения (Приложение 1) находим .

По формуле (4.4) найдем .

Следовательно, с вероятностью 0,95 .

  • левосторонний интервал, .

Проводим те же вычисления и находим: с вероятностью 0,95 .

  • двусторонний интервал, .

Так как интервал двусторонний, квантиль распределения находим для : .

По формуле (4.4) найдем .

Вычисляем левую и правую границы интервала: ; .

Получили: с вероятностью 0,95 .

Если объем выборки небольшой , то методика расчета доверительных интервалов немного изменяется. Для сгруппированных данных выборочное среднее определяем, как и ранее (4.1), а дисперсию по формуле:

. (4.7)

Для не сгруппированных данных используем формулы:

(4.8)

. (4.9)

Величина описывается стандартным распределением Стьюдента с степенями свободы, поэтому для нахождения квантилей распределения используют таблицы распределения (Приложение 2).

Предельная ошибка для повторной выборки будет равна

. (4.10)

Пример 4.2. Произведены измерения признака, распределенного на элементах генеральной совокупности неизвестного объема. Результаты измерений и вычислений приведены в таблице.

По формулам (4.1) и (4.7) получаем точечные оценки.

№ п/п













1

6

1

6

1,9

3,61

3,61

2

7

3

21

0,9

0,81

2,43

3

8

3

24

0,1

0,01

0,03

4

9

2

18

1,1

1,21

2,42

5

10

1

10

2,1

4,41

4,41

Итого




10

79







12,9

; ; .

  • правосторонний интервал, .

По таблице распределения (Приложение 2) для односторонней критической области и числа

степеней свободы находим .

По формуле (4.10) найдем .

Следовательно, с вероятностью 0,95 .

  • левосторонний интервал, .

Находим: с вероятностью 0,95 .

  • двусторонний интервал, .

Для двусторонней критической области, квантиль распределения .

По формуле (4.10) найдем .

Вычисляем левую и правую границы интервала: ; .

Получили: с вероятностью 0,95 .

Если задана предельная ошибка и доверительная вероятность, из формул (4.4) и (4.10) можно найти необходимое количество измерений (объем выборки). Например, из (4.4) при заданных находим:

(4.11)

Пример 4.3. В условиях Примера 4.1 определить необходимое число измерений, если и . Из таблиц (Приложение 1) для двустороннего интервала находим . По формуле (4.11) получаем ; то есть .


4.3. Оценка вероятности или доли элементов генеральной совокупности, обладающих определенным признаком.

Выборочная доля (или оценка вероятности) определяется как отношение числа элементов выборки с изучаемым признаком к её общему объёму :

. (4.12)

Выборочная дисперсия доли определяется величиной

. (4.13)

Величина предельной ошибки для доли равна:

  • повторная выборка

, (4.14)

  • бесповторная выборка

. (4.15)

Минимальный объём выборки, который обеспечивает требуемую точность, находят по формуле

. (4.16)


Пример 4.4. Имеется совокупность 10 000 деталей, произведенных на двух предприятиях. Для определения доли деталей, произведенных на первом предприятии, осуществили случайный бесповторный отбор 100 деталей. В выборке оказалось 20 деталей, произведенных на первом предприятии. Определить:

1) двусторонний доверительный интервал для доли, если уровень значимости ;

2) требуемый объем выборки, если предельная ошибка .

Решение.

1) Выборочную долю и дисперсию определяем по (4.12) и (4.13):

 ; .

Предельную ошибку находим по (4.15) для

.

Как видно для условий примера практически нет разницы между повторным и бесповторным отбором.

Левая и правая границы равны: .

Можно утверждать, что с вероятностью 0,95 выполняется .

2) Если и , то получим (9.16): ;

то есть .



Глава 5. Корреляционная связь и ее анализ.

5.1. Корреляционно-регрессионный анализ.

5.1.1. Уравнение регрессии.

В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует определенное (условное) распределение другой переменной. Такая связь называется статистической. В силу неоднозначности такой связи зависимость рассматривают в среднем, то есть, усредняя при большом числе наблюдений.

Если эта зависимость такова, что каждому значению одной переменной соответствует определенное условное среднее значение (математическое ожидание) другой, то ее называют корреляционной.

Независимую переменную называют факторной или фактором, а зависимую – называют результативной переменной. Связь двух переменных и называется парной корреляцией. Влияние же нескольких факторов на результативную переменную называется множественной корреляцией. Корреляция может быть положительной, когда с увеличением признака увеличивается и признак (например, автоматизация труда способствует росту рентабельности производства), и отрицательной, когда, наоборот, с увеличением признака признак уменьшается (так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции).

Корреляционная зависимость описывается уравнением регрессии. Для его точного описания необходимо знать условный закон распределения зависимой переменной при условии, что фактор примет значение . На практике такой информации получить не удается, так как обычно имеется лишь выборка пар значений ограниченного объема . В этом случае речь может идти о приближенном выражении уравнения регрессии:

, (5.1)

где условная (групповая) средняя переменной при фиксированном значении ;

параметры кривой.

Уравнение (5.1) называют выборочным уравнением регрессии. При правильно определенной аппроксимирующей функции с увеличением объема выборки она все надежнее описывает уравнение регрессии.

Для установления наличия корреляционной связи и вида уравнения регрессии в случае парной корреляции зависимость изображают графически в виде точек на координатной плоскости. Это изображение статистической зависимости называют диаграммой рассеивания или полем корреляции.

По расположению эмпирических точек выбирают вид регрессионной зависимости. Чаще всего выбирается линейное уравнение регрессии, которое имеет вид:

(5.2)

В уравнении регрессии используются и другие типы функций:

1) параболическая – ;

2) гиперболическая – ;

3) показательная – и др.

Неизвестные параметры выбираются методом наименьших квадратов (МНК), то есть так, чтобы сумма квадратов отклонений эмпирических значений от значений , найденных по уравнению регрессии, была минимальной. Например, для линейной функции:

(5.3)

На основании необходимого условия экстремума функции двух переменных приравниваем к нулю ее частные производные:

откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:

(5.4)

Разделив обе части уравнений (5.4) на , получим:

(5.5)

где средние определяются по формулам:

(5.6) (5.7)

(5.8) (5.9)

Подставляя значение

(5.10)

из первого уравнения системы (5.5) в уравнение регрессии (5.2) получим

. (5.11)

Коэффициент называется коэффициентом регрессии по . Он показывает на сколько единиц в среднем изменяется переменная при увеличении переменной на одну единицу.

Решая систему (5.5), найдем

(5.12)

где выборочная дисперсия переменной :

(5.13)

выборочная ковариация:

. (5.14)

Для оценки влияния факторного признака на результативную переменную может рассчитываться коэффициент эластичности в среднем для всей совокупности:

. (5.15)

Коэффициент эластичности показывает на сколько процентов в среднем изменится результативная переменная при изменении фактора на 1%.


Пример 5.1. Экспериментальные данные, характеризующие зависимость между сменной добычей угля на одного рабочего (т) и мощностью пласта (м), по шахтам приведены в Таблице 5.1. Найти уравнение регрессии по .

Таблица 5.1



1

2

3

4

5

6

7

8

9

10





6

11

13

10

6

7

9

8

8

12

90



4

10

10

8

6

4

9

7

5

11

74



36

121

169

100

36

49

81

64

64

144

864



16

100

100

64

36

16

81

49

25

121

608



24

110

130

80

36

28

81

56

40

132

717

Изобразим полученную зависимость графически (рис. 5.1).

Рис. 5.1.

По расположению точек можно предполагать линейную зависимость между переменными и По формулам (5.6)-(5.14) находим выборочные характеристики и параметры уравнения регрессии:

Уравнение регрессии по

или .

Из уравнения следует, что при увеличении мощности пласта на 1 метр добыча угля на одного рабочего увеличивается в среднем на 0,944 тонн.

По формуле (5.15) определяем коэффициент эластичности: ,

который показывает, что при увеличении мощности пласта на 1% добыча угля на одного рабочего увеличивается в среднем на 1,216%.



1   2   3   4   5   6   7

скачати

© Усі права захищені
написати до нас