Лекції зі статистики

виправити

Введення. Термін "статистика" ("status" в перекладі з латинської означає державу) з'явився в 17 столітті.

Спочатку статистика виникла як наука кількісного опису відбуваються в суспільстві процесів з використанням "міри, ваги і кількості". У сучасному житті слово "статистика" має два основних значення: по-перше, воно позначає самі числа або дані. Під цим терміном звичайно розуміють деяку інформацію про навколишній світ, не цікавлячись способом її отримання, що представляє потенційний інтерес і упорядковану певним чином. Прикладами даних є результати перепису населення, відомості про концентрацію шкідливих речовин у повітряному басейні міста, що відповідають один одному курси валют і так далі.

Все зростаюча кількість накопичуваних даних породжує проблеми можливого скорочення їх кількості без істотної втрати корисної інформації, потенційно в них закладеної. Тому, по-друге, під статистикою розуміють науку вилучення корисної інформації з безлічі даних.

Існує кілька визначень статистики - наука прийняття розумних рішень перед обличчям невизначеності. Для прийняття рішення щодо досліджуваного об'єкта ми повинні:

мати про нього інформацію, тобто розташовувати певним чином зібраними і згрупованими результатами спостереження; мати методи аналізу та обробки статистичних даних в залежності від мети дослідження. Таким чином, статистика - наука про методи організації збору, систематизації і обробки статистичних даних з метою зручного з уявлення, правильної інтерпретації і отримання наукових і практичних висновків.

Статистика може бути представлена у вигляді двох складових частин:

описової статистики, яка дозволяє за допомогою спеціальних методів здійснити зручне подання даних для подальшого аналізу в вигляді частотних розподілів, графічних зображень і різних характеристик. математичної (теорії прийняття статистичних рішень) Зародження описової статистики відзначається вже в 2200 році до н. е.. в. Китаї. Надалі, практична статистика в адміністративних і військових цілях знаходить застосування в Єгипті, Персії, Римської Імперії, підтверджуючи свою назву. Значно пізніше, на базі теорії ймовірностей, зародилася математична статистика, завдяки працям видатних математиків Я.. Бернуллі, П. Лапласа, К. Гаусса.

Спільною рисою відомостей, що становлять статистику служить те, що в кожному конкретному випадку об'єктом статистичного вивчення є статистична сукупність, що складається з якісно однорідних одиниць, але відрізняються за якимось іншими ознаками. Якісна однорідність елементів сукупності визначається виходячи з мети дослідження. Генеральною сукупністю називаються всі досліджувані однорідні об'єкти, вибірка - спеціально організована частина генеральної сукупності.

Завдання отримання необхідної інформації вирішується за допомогою двох взаємно доповнюють принципів: вибіркового методу і згортки інформації. Перший передбачається відмова від генеральної сукупності на користь вибірки, другий - замінює всю вибірку кількома числами (її характеристиками). Статистичні характеристики розрізняють як для генеральної сукупності, так і для вибірки. Необхідно зробити кілька зауважень щодо застосування статистичних методів:

результати статистичного аналізу можу суперечити дійсності, це відбувається тоді, коли дослідник не розуміє проблеми або застосовуваних статистичних методів. існує можливість навмисне вводити в оману за допомогою статистики. останнім часом фахівці намагаються застосують все більш тонкі статистичні методи. Такої практики слід уникати, так як мета аналізу не показати знання складних аналітичних методів, а правильно вирішити завдання. Статистичні методи в сучасному житті знаходять своє застосування в самих різноманітних областях: в економіці (дослідження ринку і виробництва, контроль якості продукції, підбір кадрового персоналу, передбачення кон'юнктури ринку і т.д.), в управлінні (апарат якого має потребу в інформації про народонаселення, сукупному суспільному продукті, зовнішньої торгівлі). Без застосування стат. методів практично неможливо ніяке соціально-наукове дослідження. З появою ЕОМ, статистика проникає і в медицину, біологію, психологію та інші науки.

У залежності від установ, що використовують статистичні методи, розрізняють офіційну й неофіційну статистику. Під офіційною статистикою розуміють статистичні дослідження та заходи щодо збору інформації, що вживаються у відповідності з урядовими розпорядженнями. До неофіційною статистикою відносять дослідження, проведені у фірмах, інститутах громадської думки та на підприємствах.

Тема 1. Основні поняття описової статистики. Сукупність - безліч елементів, які мають деякими загальними властивостями, істотними для їх характеристики.

Одиниця сукупності - елемент сукупності, що підлягає спостереженню. Ознака - властивість елементів сукупності. Найважливішим відмінністю ознак є їх класифікація на контрольовані (вхідні) і ознаки відгуку (вихідні). Наприклад, рівень фінансових вкладень у виробництво є вхідним ознакою, а продуктивність - вихідним. Другою особливістю спостережень є математичний характер відповідної ознаки, зокрема, тип множини допустимих значень, який приймає ознака в процесі спостереження. У цьому сенсі ознаки поділяються на якісні і кількісні. Якісні ознаки це ті ознаки, якими об'єкт або має, або не володіє. До них відносяться: стать, колір волосся або національність і т.д. Такі ознаки не є фізично вимірними, однак вони можуть бути двозначними або багатозначними.

Кількісні ознаки є вимірними і визначаються шляхом вимірювань, зважувань і підрахунків. Відповідно до цього розрізняють дискретні і безперервні кількісні ознаки. Дискретні ознаки можуть приймати лише ізольовані значення, що відрізняються один від одного на деяку кінцеву величину. Прикладом таких ознак є академічна система успішності: 5 - відмінно, 4 - добре і т.д. Сукупність можливих значень, серед яких змінюється (варіюється) дискретний ознака називається системою варіант. Окреме значення системи називає варіант.

Безперервні ознаки можуть приймати будь-які значення на деякій числовому інтервалі, що відрізняються один від одного на як завгодно малу величину. До таких ознак належать, наприклад, вік, ріст і вагу людини.

Безліч допустимих значень ознак як якісного, так і кількісного виду характеризуються типом шкали в якій вони змінюються. розрізняють три основних типи шкал: номінальна або шкала найменувань, порядкова і кількісна, кількісна у свою чергу підрозділяється на інтервальну, шкалу відносин і абсолютну шкалу.

У номінальною шкалою всі елементи сукупності класифіковані і класи позначені номерами. Те, що номер оного класу більше або менше іншого, ще не говорить про властивості елементів, за винятком того, що вони розрізняються. Номінальна шкала може бути категоризовувану чи ні. У категоризовувану шкалою досліднику заздалегідь відомі рівні, приймаються ознакою. Наприклад, раса, колір очей, автомобільні номери, клінічні діагнози і т.д.

У порядкової шкалою відповідні значення чисел, які присвоюються елементам сукупності, відображає кількість аналізованого ознаки. Однак рівні різниці числі не означають рівних різниць в кількостях ознаки. Наприклад, твердість мінералів, нагороди за заслуги, військові ранги, рівень інтелекту і т.д.

У інтервальної шкалою існує одиниця виміру (масштаб), за допомогою якої об'єкти можна не тільки впорядкувати, але і приписати їм числа так. щоб рівні різниці чисел, присвоєні об'єктам, відображали б рівні відмінності в кількостях вимірюваного ознаки. Нульова точка інтервальної шкали вибирається довільно і не вказує на відсутність ознаки. Наприклад, календарне брешемо, шкали температур і т.д.

У шкалі відносин, числа, присвоєні елементам сукупності, володіють всіма інтервальними ознаками, але крім цього існує абсолютний нуль, який свідчить про відсутність аналізованого ознаки. Відношення чисел, привласнених елементів у процесі вимірювань. відбиває кількісний показник наявності ознаки. Наприклад, зріст, вага, об'єм, врожайність.

Абсолютна шкала є безрозмірною шкалою відносин.

Тема 2. Варіаційні ряди. Приклад 1. Наведемо оцінки 45 студентів за курсом статистика в порядку складання іспиту:

5 3 3 4 2 4 4 3 5 4 4 5 5 4 4

3 3 3 2 5 5 4 4 4 3 4 3 4 5 4

4 4 4 3 3 4 3 4 3 2 3 2 3 3 3

При такому поданні інформації важко робити які-небудь висновки про успішність. Зробимо угруповання даними шляхом підрахунку кількості різних оцінок.

оцінки	2	3	4	5
кількість	4	6	8	7

Як бачимо, замість 45 чисел залишилося 8, при цьому підвищилася інформативність таблиці, більше 50% студентів здали предмет на добре і відмінно. Даний приклад показує, що ці дані краще згрупувати, тобто розділити їх на однорідні групи за певною ознакою. Завдяки угрупованню дані набувають систематизований вигляд. Якщо дані систематизовано за часом, то моделлю угруповання буде тимчасовий ряд. Якщо ж з будь-якого іншого ознакою - то ряд розподілу. А для кількісних ознак - варіаційний ряд.

Нехай Х - одновимірний кількісний ознака і в результаті n його вимірювань спостерігалося n його значень x (1), x (2 )..... x (n), серед яких можуть бути однакові. Ці значення називають варіантами. Порожній серед наявних n варіант є k різних

. Причому x1 зустрічається m1 раз, xk - mk разів. Зрозуміло, що Лекції зі статистики

Визначення. Варіаційним рядом називається послідовність різних варіант. записаних у зростаючому порядку разом з відповідними частотами. Варіаційний ряд звичайно записується в одному з видів: в таблиці з частотами mi, через відносні частоти Wi = mi / n. Залежно від типу ознаки розрізняють дискретні та інтервальні варіаційні ряди. У залежності від обсягу вихідних даних і області допустимих значень одновимірного кількісного ознака, частотні розподілу також поділяються на дискретні та інтервальні. Якщо різних варіант дуже багато (більше 10-15), то ці варіанти групують, вибираючи певну кількість інтервалів угруповання і отримуючи таким чином інтервальне частотний розподіл. Алгоритм угруповання масиву даних

складається з наступних кроків:

знаходять мінімальну і максимальну варіанти

весь діапазон значень ознаки [Xmin, Xmax] розбивають на к інтервалів однакової довжини

Число До зазвичай береться в межах 10-15. Рідкісні випадки, коли потрібно більше 25 і менше 8 угруповань. Існують формули для визначення "оптимального" значення К і побудови в такий спосіб оптимального розподілу частот. Формула Старджеса

. Для великих n ця формула дає оцінку знизу для К.

знаходять граничні точки кожного з інтервалів

і т.д. підраховуємо кількість варіант Mi, що потрапили в інтервал

, Причому варіанти, що потрапили на межі інтервалів, відносять тільки до одного з інтервалів, результат заносять у таблицю

Приклад 2. Наведемо варіаційний ряд погодинної оплати 303 робітників промисловості

Xi	2.49	2.50	2.51	2.52	2.53	2.54	2.55	2.56	2.57	2.58	2.59	2.6	2.61
Mi	1	4	1	1	0	3	2	0	3	2	1	8	1

2.62	3	2.72	9	2.82	11	2.92	6	3.02	2	3.12	0	3.22	1	3.32	1
2.63	0	2.73	3	2.83	3	2.93	2	3.03	0	3.13	0	3.23	0	3.33	0
2.64	5	2.74	10	2.84	4	2.94	4	3.04	3	3.14	2	3.24	0	3.34	2
2.65	7	2.75	11	2.85	7	2.95	8	3.05	4	3.15	4	3.25	3	3.35	2
2.66	3	2.76	4	2.86	5	2.96	5	3.06	2	3.16	2	3.26	1	3.36	0
2.67	2	2.77	2	2.87	3	2.97	2	3.07	0	3.17	0	3.27	0	3.37	1
2.68	3	2.78	9	2.88	8	2.98	3	3.08	2	3.18	2	3.28	0
2.69	2	2.79	5	2.89	4	2.99	1	3.09	0	3.19	1	3.29	0
2.70	14	2.8	22	2.90	16	3.0	9	3.10	7	3.20	4	3.30	4
2.71	4	2.81	3	2.91	3	3.01	1	3.11	0	3.21	0	3.31	0

Побудуємо для даного ряду інтервальне частотний розподіл.

X min = 2,49 Xmax = 3,37

Для зручності обчислень візьмемо К = 10. і т.д.

Для наочного представлення дискретних частотних розподілів можуть застосовуватися вертикальні лінії. Кожен із прикладів можна розглядати або як вибірку, або як генеральну сукупність. Зазвичай дані збирають і аналізують для практичних результатів.

приклад.

Абсолютна частотний розподіл прибутку 100 великих міжнаціональних компаній, що базуються в США за 1988 р.

Клас компанії, розмір прибутку, млн. $	Число компаній в класі
-1500-0	3	\| \| \|
0-500	41	\| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \|
500 - 1000	32	\| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \| \|
1000 - 1500	9	\| \| \| \| \| \| \| \| \|
1500 - 2000	6	\| \| \| \| \| \|
2000 - 2500	6	\| \| \| \| \| \|
2500 - 5500	3	\| \| \|

3. Графічне зображення статистичних даних. Зазвичай табличне розподіл частот доповнюють його графічним поданням. Схематично все безліч графічних уявлень статистичних даних поділяють на два класи: діаграми та лінійні зображення. До класу лінійних графіків відносяться полігон, кумулятивна крива, крива концентрації, огіва.

Полігоном частот називають ламану, відрізки якої сполучають точки

Іноді крайні точки з'єднують з точками, що мають нульову ординату.

приклад. (З оцінками)

Полігоном відносних частот називають ламану, відрізки якої сполучають точки

Зауваження.

Якщо на вісь абсцис наносити можливі результати подій, а на вісь ординат - ймовірності цих результатів, то ламана лінія, що характеризує зміну ймовірностей різних результатів подій при випробуваннях називається полігоном розподілу ймовірностей.

Кумулятивна крива (крива сум) - ламана, складена по послідовно підсумовані, тобто накопиченим частотах або відносним частотах. При побудові кумулятивної кривої дискретного ознаки на вісь абсцис наносяться значення ознаки, а ординатами служать наростаючі підсумки частот. З'єднанням вершин ординат прямими лініями отримують кумуляту. При побудові кумуляти інтервального ознаки, на вісь абсцис відкладаються межі інтервалів і верхніх значень присвоюють накопичені частоти. Кумулятивну криву називають полігоном накопичених частот.

Якщо на вісь ординат завдати значення ознаки, а накопичені частоти - на вісь абсцис, то одержимо криву, називану огівой.

Кривий концентрації або кривої Лоренца називають криву відносної концентрації сумарного значення ознаки. Нехай є варіаційний ряд, що відображає, наприклад, частотний розподіл сімей за їх доходами, де

число (відсоток) сімей з доходом

. Тоді загальний прибуток

- Сумарний дохід.

Відносний накопичений дохід Лекції зі статистики

Побудова кривої Лоренца здійснюється наступним чином: по осі абсцис відкладають накопичені відносні частоти, а по осі ординат накопичений відносний дохід.

Якщо дохід розподіляється по сім'ях рівномірно, то крива Лоренца описується прямий ОВ. Це означає, що 10% сімей отримують 10% загального доходу і т.д. абсолютна (повна) концентрація задається ламаної ОАВ. Це означає, що переважне число сімей (наприклад 99%) зовсім не мають доходу і тільки 1% має весь сумарний дохід. У проміжних випадках між цими екстремальними графіками крива Лоренца описує збільшення концентрації доходу в руках невеликої частини сімей при наближенні її графіка до кривої ОАВ, при зменшенні концентрації її графік розташовується ближче до прямої ОВ. Концентрація визначається площею області ОСО, чим більше величина площі, тим сильніше концентрація. Площа S можна знайти за формулою середніх прямокутників. В якості міри концентрації використовується коефіцієнт Джині:

приклад.
4.ДІАГРАММИ. Діаграма (від грецького diagramma - зображення, креслення, малюнок) - це графічне зображення, наочно показує співвідношення між порівнюваними величинами. Діаграми бувають різних видів: смугові (стрічкові), стовпчикові, квадратні, кругові, секторні, фігурні, радіальні, знак Варзара.

Смугові - особливо наочні при порівнянні величин, пов'язаних між собою в єдине ціле. Ширина смуг повинна бути однаковою. По довжині смуги розбиваються на частини, пропорційні зображуваним величинам. приклад 1.

Дані за класифікацією безробітних у США (середні по місяцях)

Рік	шукають роботу	частково зайняті	немає роботи
1989	6.5	4.9	0.9
1990	6.9	5.1	0.8
1991	8.4	6.0	1.1