Лабораторна робота № 1
СТАТИСТИЧНІ МЕТОДИ ОБРОБКИ ДОСВІДЧЕНИХ ДАНИХ. ЧИСЛОВІ ХАРАКТЕРИСТИКИ ВБОРКІ
Мета: Навчитися основним методам обробки даних, представлених вибіркою. Вивчити графічні представлення даних. Оволодіти навичками розрахунку за допомогою ЕОМ основних числових характеристик вибірки.
Основним об'єктом дослідження в економетрики є вибірка. Вибіркою об'єму n називаються числа х 1. Х 2 .... Х n одержувані на практиці при n - короткому повторенні експерименту в незмінних умовах. На практиці вибірку найчастіше представляють статистичними поруч. Для цього вся числова вісь, на якій лежать значення вибірки, розбивається на k інтервалів (це число вибирається довільно від 5 до 10), які зазвичай рівні, обчислюються середини інтервалів z n і вважається число елементів вибірки, що потрапляють в кожен інтервал n 1. статистичними поруч називається послідовність пар (z 1. n 1). Розглянемо рішення задачі на ЕОМ і ППП EXCEL на наступному прикладі.
ПРИКЛАД. Дана вибірка чисел виручки магазину за 30 днів:
Побудуємо статистичний ряд, полігон, гістограму і кумулятивну криву.
Відкриємо книгу програми EXCEL. Введемо в перший стовпець (комірки А1-А30) вихідні дані. Визначимо область чисел, на якій лежать дані. Для цього знайдемо максимальний та мінімальний елементи вибірки. Введемо в В1 «Максимум», а в В2 "мінімум", а в сусідніх комірках С1 і С2 визначимо функції «МАХ» і «мin», в якості аргументів яких (у графі «число») обведемо область даних (комірки А1-А30 ). Результатом будуть 64 і 81. видно, що всі дані укладаються на відрізку [64; 81]. Розділимо його на 9 (вибирається довільно від 5 до 10) інтервалів:
64-66; 66-68: 68-70: 70-72: 72-74, 74-76, 76-78, 78-80, 80-82. у клітинці D1-D10 вводимо верхні межі інтегралів угруповання - числа 66, 68, 70, 72, 74, 76, 78, 80, 82. Для обчислення частот n 1 використовують функцію ЧАСТОТА, що знаходиться в категорії «Статистичні». Введемо її в комірку Е1. у рядку "Масив даних» введемо діапазон вибірки (комірки А1-А30). У рядку «Двійковий масив» введемо діапазон верхніх меж інтервалів групування (комірки D1-D9). Результат функції є масивом і виводиться в осередках Е1-Е9. для повного вибору (не тільки першого числа в Е1) потрібно виділити комірки Е1-Е9, обвівши їх мишею, і натиснути F2, а далі одночасно CTRL + SHIFT + ENTER. Результат - частоти інтервалів 2,2,5,7,3,7,3,0,1.
Для побудови гістограми потрібно вибрати ВСТАВКА / ДІАГРАМА або натиснути на відповідний значок на основній панелі (при цьому курсор повинен стояти у вільній клітинці) далі вибрати тип: гістограма, вид за вибіркою, натиснути «ДАЛІ», у рядку «ПІДПИСИ ОСІ Х» ввести інтервали осередках D1-D5, натиснути «ДАЛІ» ввести назву «Гістограма», підписи осей «ІНТЕВАЛИ» і «ЧАСТОТА», натиснути «ГОТОВО». Для створення полігону зробити те ж саме, тільки замість типу діаграми «Гістограма», вибрати «ГРАФІК». Для побудови кумулятивної кривої потрібно порахувати накопичені частоти. Для цього в комірку F1 вводимо «= Е1», в F2 - вводимо «= F1 + Е2» і автозаповненням перетаскиваем цю клітинку до F9. далі будуємо графік як і у випадку полігону, але в рядку «ДІАПАЗОН» вводимо накопичені частоти, посилаючись на F1-F9, а на вкладці «РЯД», у рядку «ПІДПИСИ ОСІ Х» вводимо інтервали в осередках D1-D9.
Знаходимо основні числові характеристики вибірки. Для їх введення виділяємо два стовпці, наприклад G і H, у першому вводимо назву характеристики, у другому - функцію, в якій в якості масиву даних (рядок »число1»), вказати посилання на А1-А30
Існує інший спосіб обчислення числових характеристик вибірки. Для цього ставимо курсор у вільну комірку (наприклад D11). Потім викликаємо в меню «Сервіс» підменю «Аналіз даних». Якщо в меню «Сервіс» відсутній цей пункт, то в меню «Сервіс» потрібно вибрати пункт «Надбудови» м в ньому поставити прапорець навпроти пункту «Пакет аналізу». У вікні «Аналіз даних» потрібно вибрати пункт «Описова статистика». У вікні в полі «Вхідний інтервал» робимо посилання на вибірку А1-А23. Залишаємо групування «За стовпцями» в розділі «Параметри виводу» ставимо прапорець на "Вихідний інтервал» і в сусідньому полі створюємо посилання на верхню ліву клітинку області виводу (наприклад D11), ставимо прапорець навпроти «Описова статистика», натискаємо «ОК». результат - основні характеристики вибірки (зробіть ширше стовпчиків D, перемістивши його кордон у заголовок).
Лабораторна робота № 2
Перевірки статистичних гіпотез
Мета: Ознайомитися з методом перевірки основних статистичних гіпотез, що використовуються в економіці, з допомогою ЕОМ.
1. ПЕРЕВІРКА ГІПОТЕЗИ ПРО ВІДПОВІДНІСТЬ (КРИТЕРІЙ ЗГОДИ)
Використовується для перевірки припущення про те, що отримані в результаті спостережень дані відповідають нормам. Розглядається гіпотеза про те, що відхилення від норм невеликі, і ними можна знехтувати. При цьому задається довірча ймовірність p яка має сенс імовірності не помилитися при прийнятті гіпотези. Розглянемо перевірку на прикладі.
ПРИКЛАД: 1. при виробництві мікросхем процесорів використовуються кристали кварцу. Стандартом передбачено, щоб 50% зразків не було виявлено жодного дефекту кристалічної структури, у 15% - один дефект, у 13% - 2 дефекту, у 12% - 3 дефекту, у 10% більше 3 дефектів. При аналізі вибіркової партії виявилося, що з 100 примірників розподіл за дефектами партії виявилося, що з 1000 примірників розподіл за дефектами наступного (варіант відповідає ЕОМ): Чи можна з вірогідністю 0,99 вважати, що партія відповідає стандарту?
Введемо в А1 заголовок «НОРМА» і нижче в А2-А6 показники - числа 500, 150, 130, 120, 100. в комірку В1 введемо заголовок «СПОСТЕРЕЖЕННЯ» і нижче в В2-В6 спостережувані показники 516, 148, 131, 110, 95. в третьому стовпці вводяться формули для критерію: С1 заголовок «КРИТЕРІЙ», в С2 формулу «= (А2-В2) * (А2-В2) / А2». Автозаповненням розмножимо цю формулу на С3-С6. в клітинку С7 запишемо загальне значення критерію - суму стовпця С2-С6. для цього поставимо курсор в С6 і викликавши функцію в категорії «Математичний» знайдемо СУМ і в аргументі «Число 1» зазначимо посилання на С2-С6. вийти результат критерію Z = 1,629692308. Для відповіді на питання, чи відповідають досвідчені показники нормам, Z порівнюють з критичним значенням Zkp. Вводимо в D1 текст "критичне значення» в Е1 вводимо функцію ХІ2ОБР (категорія «Статистичні») у якої два аргументи: «Імовірність» - вводимо рівень значимості α = 1-p і «Ступені свободи» - вводять число n-1, де n - число норм). Результат 13,27670414. видно, що критичне значення більше критерію, отже досвідчені дані відповідають стандартним і партія із заданою вірогідністю можна віднести як відповідну стандарту.
2. ПЕРЕВІРКА гіпотези про рівність ДИСПЕРСІЯ
Використовується у випадку, якщо потрібно перевірити чи розрізняється розкид даних (дисперсії) у двох виборів. Це може використовувати для порівняння точностей обробки деталей на двох верстатах, рівномірності продажів товару протягом деякого періоду в двох містах і т.д. Для перевірки статистичної гіпотези, про рівність дисперсій служить F - критерій Фішера. Основною характеристикою критерію є рівень значимості α, якій має сенсу ймовірності помилитися, припускаючи, що дисперсії і, отже, точність, різняться. Замість α в задачах так само іноді задають довірчу ймовірність p = 1 - α, що має сенс ймовірності того, що дисперсії і справді рівні. Зазвичай вибирають критичне значення рівня значимості, наприклад 0,05 або 0,1, і якщо α більше критичного значення, то дисперсії вважаються рівними, в іншому випадку, різні. При цьому критерій може бути одностороннім, коли потрібно перевірити, що дисперсія конкретної виділеної вибірки більше, ніж в іншої, і двостороннім, коли просто потрібно показати, що дисперсії не рівні. Існує два способи перевірки таких гіпотез. Розглянемо їх на прикладах.
ПРИКЛАД 2. Чотири верстата в цеху обробляють деталі. Для перевірки точності обробки, взяли вибірку розмірів деталей у кожного верстата. Необхідно порівняти за допомогою F-тесту попарно точності обробки всіх верстатів (розглянути пари 1-2, 1-3, 1-4, 2-3, 2-4, 3-4) і зробити висновок, для яких верстатів точності обробки (дисперсії ) рівні, для яких ні. Взяти рівень значимості α = 0,02.
Рівень значимості α = 0,02. вводимо дані вибірок (без підписів) в 4 рядки в осередку А1-J1 і А2-J2 і т.д. відповідно. Для обчислення ФТЕСТ (масив1; масив2). Вводимо А5 підпис А5 «Рівень значущості», а в В5 функцію, ФТЕСТ, аргументами якої повинні бути посилання на клітинку А1-J1 і А2-J2 відповідно. Результат 0,873340161 говорить про те, що ймовірність помилитися, прийнявши гіпотезу про відмінність дисперсій, близько 0,9, що більше критичного значення, заданого в умові завдання 0,02. отже, можна говорити що досвідчені дані з більшою ймовірністю підтверджують припущення про те, що дисперсії однакові і точність обробки верстатів однакова, такі ж результати показало порівняння інших пар. Слід зазначити, що функції ФТЕСТ виходить рівень значимості двостороннього критерію і якщо потрібно використовувати однобічний, то результат необхідно зменшити вдвічі.
3. ПЕРЕВІРКА гіпотези про рівність СЕРЕДНІХ
Використовується для перевірки пропозиції про те, що середнє значення двох показників, представлених вибірками, значимо різняться. Існує три різновиди критерію: один - для пов'язаних вибірок, і два для незв'язних вибірок (з однаковими та різними дисперсіями). Якщо вибірки не зв'язні, то попередньо потрібно перевірити гіпотезу про рівність дисперсій, щоб визначити, який з критеріїв використовувати. Так само як і у випадку порівняння дисперсій є 2 способи розв'язання задачі, які розглянемо на прикладі.
ПРИКЛАД 3. Є дані про кількість продажів товару в двох містах. Перевірити на рівні значущості 0,01 статистичну гіпотезу про те, що середня кількість продажів товару в містах різна.
Використовуємо пакет «Аналіз даних». У залежності від типу критерію вибирається один з трьох: «Парний двухвиборочний t-тест для середніх» - для зв'язних вибірок, і «Двухвиборочних t-тест з однаковими дисперсіями» або «Двухвиборочних t-тест з різними дисперсіями» - для незв'язних вибірок. Викличте тест з однаковими дисперсіями, у вікні, в полях "Інтервал змінної 1» і «Інтервал змінної 2» вводять посилання на дані (А1-N1 і А2-L2, відповідно), якщо є підписи даних, то ставлять прапорець у написи «Мітки »(у нас їх немає, тому прапорець не ставиться). Далі вводять рівень значимості в полі «Альфа» - 0,01. Поле «Гіпотетична середня різниця» залишають порожніми. У розділі «Параметри виводу» ставлять мітку біля «Вихідний інтервал» і помістивши курсор у полі, що з'явилося навпроти напису, клацають лівою кнопкою в комірці В7. висновок результату буде здійснюватися починаючи з цього осередку. Натиснувши на "ОК" з'являється таблиця результату. Посуньте кордон між стовпцями В і С, С і D, D і Е збільшивши ширину стовпців В, С і D так, щоб вміщалися всі написи. Процедура виводить основні характеристики вибірки, t-статистику, критичні значення цих статистик і критичні рівні значущості «Р (Т <= t) однобічне» і «Р (Т <= t) двостороннє». Якщо за модулем t-статистика менше критичного, то середні показники із заданою вірогідністю рівні. У нашому випадку │ -1,784242592 │ <2,492159469, отже, середнє число продажів значимо не відрізняється. Слід зазначити, що якщо взяти рівень значимості α = 0,05, то результати дослідження будуть зовсім іншими.
СТАТИСТИЧНІ МЕТОДИ ОБРОБКИ ДОСВІДЧЕНИХ ДАНИХ. ЧИСЛОВІ ХАРАКТЕРИСТИКИ ВБОРКІ
Мета: Навчитися основним методам обробки даних, представлених вибіркою. Вивчити графічні представлення даних. Оволодіти навичками розрахунку за допомогою ЕОМ основних числових характеристик вибірки.
Основним об'єктом дослідження в економетрики є вибірка. Вибіркою об'єму n називаються числа х 1. Х 2 .... Х n одержувані на практиці при n - короткому повторенні експерименту в незмінних умовах. На практиці вибірку найчастіше представляють статистичними поруч. Для цього вся числова вісь, на якій лежать значення вибірки, розбивається на k інтервалів (це число вибирається довільно від 5 до 10), які зазвичай рівні, обчислюються середини інтервалів z n і вважається число елементів вибірки, що потрапляють в кожен інтервал n 1. статистичними поруч називається послідовність пар (z 1. n 1). Розглянемо рішення задачі на ЕОМ і ППП EXCEL на наступному прикладі.
ПРИКЛАД. Дана вибірка чисел виручки магазину за 30 днів:
72 | 74 | 69 | 71 | 73 | 68 | 73 | 77 | 76 | 77 | 76 | 76 | 76 | 64 | 65 |
75 | 70 | 75 | 71 | 69 | 72 | 69 | 78 | 72 | 67 | 72 | 81 | 75 | 72 | 69 |
Відкриємо книгу програми EXCEL. Введемо в перший стовпець (комірки А1-А30) вихідні дані. Визначимо область чисел, на якій лежать дані. Для цього знайдемо максимальний та мінімальний елементи вибірки. Введемо в В1 «Максимум», а в В2 "мінімум", а в сусідніх комірках С1 і С2 визначимо функції «МАХ» і «мin», в якості аргументів яких (у графі «число») обведемо область даних (комірки А1-А30 ). Результатом будуть 64 і 81. видно, що всі дані укладаються на відрізку [64; 81]. Розділимо його на 9 (вибирається довільно від 5 до 10) інтервалів:
64-66; 66-68: 68-70: 70-72: 72-74, 74-76, 76-78, 78-80, 80-82. у клітинці D1-D10 вводимо верхні межі інтегралів угруповання - числа 66, 68, 70, 72, 74, 76, 78, 80, 82. Для обчислення частот n 1 використовують функцію ЧАСТОТА, що знаходиться в категорії «Статистичні». Введемо її в комірку Е1. у рядку "Масив даних» введемо діапазон вибірки (комірки А1-А30). У рядку «Двійковий масив» введемо діапазон верхніх меж інтервалів групування (комірки D1-D9). Результат функції є масивом і виводиться в осередках Е1-Е9. для повного вибору (не тільки першого числа в Е1) потрібно виділити комірки Е1-Е9, обвівши їх мишею, і натиснути F2, а далі одночасно CTRL + SHIFT + ENTER. Результат - частоти інтервалів 2,2,5,7,3,7,3,0,1.
Для побудови гістограми потрібно вибрати ВСТАВКА / ДІАГРАМА або натиснути на відповідний значок на основній панелі (при цьому курсор повинен стояти у вільній клітинці) далі вибрати тип: гістограма, вид за вибіркою, натиснути «ДАЛІ», у рядку «ПІДПИСИ ОСІ Х» ввести інтервали осередках D1-D5, натиснути «ДАЛІ» ввести назву «Гістограма», підписи осей «ІНТЕВАЛИ» і «ЧАСТОТА», натиснути «ГОТОВО». Для створення полігону зробити те ж саме, тільки замість типу діаграми «Гістограма», вибрати «ГРАФІК». Для побудови кумулятивної кривої потрібно порахувати накопичені частоти. Для цього в комірку F1 вводимо «= Е1», в F2 - вводимо «= F1 + Е2» і автозаповненням перетаскиваем цю клітинку до F9. далі будуємо графік як і у випадку полігону, але в рядку «ДІАПАЗОН» вводимо накопичені частоти, посилаючись на F1-F9, а на вкладці «РЯД», у рядку «ПІДПИСИ ОСІ Х» вводимо інтервали в осередках D1-D9.
Знаходимо основні числові характеристики вибірки. Для їх введення виділяємо два стовпці, наприклад G і H, у першому вводимо назву характеристики, у другому - функцію, в якій в якості масиву даних (рядок »число1»), вказати посилання на А1-А30
Характеристика | Функція |
Обсяг вибірки | 30 |
Вибіркове середнє | 72,46666667 |
Дисперсія | 15,63678161 |
Стандартне відхилення | 3,954337063 |
Медіана | 72 |
Мода | 72 |
Коефіцієнт ексцесу | -0,214617804 |
Коефіцієнт асиметрії | -0,154098799 |
Персентіль 40% | 72 |
Персентіль 80% | 76 |
Лабораторна робота № 2
Перевірки статистичних гіпотез
Мета: Ознайомитися з методом перевірки основних статистичних гіпотез, що використовуються в економіці, з допомогою ЕОМ.
1. ПЕРЕВІРКА ГІПОТЕЗИ ПРО ВІДПОВІДНІСТЬ (КРИТЕРІЙ ЗГОДИ)
Використовується для перевірки припущення про те, що отримані в результаті спостережень дані відповідають нормам. Розглядається гіпотеза про те, що відхилення від норм невеликі, і ними можна знехтувати. При цьому задається довірча ймовірність p яка має сенс імовірності не помилитися при прийнятті гіпотези. Розглянемо перевірку на прикладі.
ПРИКЛАД: 1. при виробництві мікросхем процесорів використовуються кристали кварцу. Стандартом передбачено, щоб 50% зразків не було виявлено жодного дефекту кристалічної структури, у 15% - один дефект, у 13% - 2 дефекту, у 12% - 3 дефекту, у 10% більше 3 дефектів. При аналізі вибіркової партії виявилося, що з 100 примірників розподіл за дефектами партії виявилося, що з 1000 примірників розподіл за дефектами наступного (варіант відповідає ЕОМ): Чи можна з вірогідністю 0,99 вважати, що партія відповідає стандарту?
Введемо в А1 заголовок «НОРМА» і нижче в А2-А6 показники - числа 500, 150, 130, 120, 100. в комірку В1 введемо заголовок «СПОСТЕРЕЖЕННЯ» і нижче в В2-В6 спостережувані показники 516, 148, 131, 110, 95. в третьому стовпці вводяться формули для критерію: С1 заголовок «КРИТЕРІЙ», в С2 формулу «= (А2-В2) * (А2-В2) / А2». Автозаповненням розмножимо цю формулу на С3-С6. в клітинку С7 запишемо загальне значення критерію - суму стовпця С2-С6. для цього поставимо курсор в С6 і викликавши функцію в категорії «Математичний» знайдемо СУМ і в аргументі «Число 1» зазначимо посилання на С2-С6. вийти результат критерію Z = 1,629692308. Для відповіді на питання, чи відповідають досвідчені показники нормам, Z порівнюють з критичним значенням Zkp. Вводимо в D1 текст "критичне значення» в Е1 вводимо функцію ХІ2ОБР (категорія «Статистичні») у якої два аргументи: «Імовірність» - вводимо рівень значимості α = 1-p і «Ступені свободи» - вводять число n-1, де n - число норм). Результат 13,27670414. видно, що критичне значення більше критерію, отже досвідчені дані відповідають стандартним і партія із заданою вірогідністю можна віднести як відповідну стандарту.
Норма | Спостереження | Критерій | Критичне значення | 13,27670414 |
500 | 516 | 0,512 | ||
150 | 148 | 0,026666667 | ||
130 | 131 | 0,007692308 | ||
120 | 110 | 0,833333333 | ||
100 | 95 | 0,25 | ||
1000 | 1,629692308 |
Використовується у випадку, якщо потрібно перевірити чи розрізняється розкид даних (дисперсії) у двох виборів. Це може використовувати для порівняння точностей обробки деталей на двох верстатах, рівномірності продажів товару протягом деякого періоду в двох містах і т.д. Для перевірки статистичної гіпотези, про рівність дисперсій служить F - критерій Фішера. Основною характеристикою критерію є рівень значимості α, якій має сенсу ймовірності помилитися, припускаючи, що дисперсії і, отже, точність, різняться. Замість α в задачах так само іноді задають довірчу ймовірність p = 1 - α, що має сенс ймовірності того, що дисперсії і справді рівні. Зазвичай вибирають критичне значення рівня значимості, наприклад 0,05 або 0,1, і якщо α більше критичного значення, то дисперсії вважаються рівними, в іншому випадку, різні. При цьому критерій може бути одностороннім, коли потрібно перевірити, що дисперсія конкретної виділеної вибірки більше, ніж в іншої, і двостороннім, коли просто потрібно показати, що дисперсії не рівні. Існує два способи перевірки таких гіпотез. Розглянемо їх на прикладах.
ПРИКЛАД 2. Чотири верстата в цеху обробляють деталі. Для перевірки точності обробки, взяли вибірку розмірів деталей у кожного верстата. Необхідно порівняти за допомогою F-тесту попарно точності обробки всіх верстатів (розглянути пари 1-2, 1-3, 1-4, 2-3, 2-4, 3-4) і зробити висновок, для яких верстатів точності обробки (дисперсії ) рівні, для яких ні. Взяти рівень значимості α = 0,02.
1 верстат | 29,1 | 26,2 | 30,7 | 33,8 | 33,6 | 35,2 | 23,4 | 29,3 | 33,3 | 26,7 |
2 верстат | 29,0 | 28,9 | 34,0 | 29,7 | 39,4 | 28,5 | 35,9 | 32,6 | 37,1 | 28,0 |
3 верстат | 25,7 | 27,5 | 25,4 | 28,9 | 29,9 | 30,1 | 29,0 | 36,6 | 24,8 | 27,8 |
4 верстат | 32,1 | 31,0 | 27,2 | 29,3 | 30,4 | 31,7 | 30,4 | 27,3 | 35,7 | 31,5 |
29,1 | 26,2 | 30,7 | 33,8 | 33,6 | 35,2 | 23,4 | 29,3 | 33,3 | 26,7 |
29 | 28,9 | 34 | 29,7 | 39,4 | 28,5 | 35,9 | 32,6 | 37,1 | 28 |
25,7 | 27,5 | 25,4 | 28,9 | 29,9 | 30,1 | 29 | 36,6 | 24,8 | 27,8 |
32,1 | 31 | 27,2 | 29,3 | 30,4 | 31,7 | 30,4 | 27,3 | 35,7 | 31,5 |
Рівень значимості | |||||||||
1 - 2 | 0,873340161 | ||||||||
1 - 3 | 0,688084317 | ||||||||
1 - 4 | 0,190932274 | ||||||||
2 - 3 | 0,575576041 | ||||||||
2 - 4 | 0,144572063 | ||||||||
3 - 4 | 0,357739717 |
Використовується для перевірки пропозиції про те, що середнє значення двох показників, представлених вибірками, значимо різняться. Існує три різновиди критерію: один - для пов'язаних вибірок, і два для незв'язних вибірок (з однаковими та різними дисперсіями). Якщо вибірки не зв'язні, то попередньо потрібно перевірити гіпотезу про рівність дисперсій, щоб визначити, який з критеріїв використовувати. Так само як і у випадку порівняння дисперсій є 2 способи розв'язання задачі, які розглянемо на прикладі.
ПРИКЛАД 3. Є дані про кількість продажів товару в двох містах. Перевірити на рівні значущості 0,01 статистичну гіпотезу про те, що середня кількість продажів товару в містах різна.
23 | 25 | 23 | 22 | 23 | 24 | 28 | 16 | 18 | 23 | 29 | 26 | 31 | 19 |
22 | 28 | 26 | 26 | 35 | 20 | 27 | 28 | 28 | 26 | 22 | 29 |
Використовуємо пакет «Аналіз даних». У залежності від типу критерію вибирається один з трьох: «Парний двухвиборочний t-тест для середніх» - для зв'язних вибірок, і «Двухвиборочних t-тест з однаковими дисперсіями» або «Двухвиборочних t-тест з різними дисперсіями» - для незв'язних вибірок. Викличте тест з однаковими дисперсіями, у вікні, в полях "Інтервал змінної 1» і «Інтервал змінної 2» вводять посилання на дані (А1-N1 і А2-L2, відповідно), якщо є підписи даних, то ставлять прапорець у написи «Мітки »(у нас їх немає, тому прапорець не ставиться). Далі вводять рівень значимості в полі «Альфа» - 0,01. Поле «Гіпотетична середня різниця» залишають порожніми. У розділі «Параметри виводу» ставлять мітку біля «Вихідний інтервал» і помістивши курсор у полі, що з'явилося навпроти напису, клацають лівою кнопкою в комірці В7. висновок результату буде здійснюватися починаючи з цього осередку. Натиснувши на "ОК" з'являється таблиця результату. Посуньте кордон між стовпцями В і С, С і D, D і Е збільшивши ширину стовпців В, С і D так, щоб вміщалися всі написи. Процедура виводить основні характеристики вибірки, t-статистику, критичні значення цих статистик і критичні рівні значущості «Р (Т <= t) однобічне» і «Р (Т <= t) двостороннє». Якщо за модулем t-статистика менше критичного, то середні показники із заданою вірогідністю рівні. У нашому випадку │ -1,784242592 │ <2,492159469, отже, середнє число продажів значимо не відрізняється. Слід зазначити, що якщо взяти рівень значимості α = 0,05, то результати дослідження будуть зовсім іншими.
Двухвиборочний t-тест з однаковими дисперсіями | ||
місто 1 | місто 2 | |
Середнє | 23,57142857 | 26,41666667 |
Дисперсія | 17,34065934 | 15,35606061 |
Спостереження | 14 | 12 |
Об'єднана дисперсія | 16,43105159 | |
Гіпотетична різниця середніх | 0 | |
df | 24 | |
t-статистика | -1,784242592 | |
P (T <= t) однобічне | 0,043516846 | |
t критичне однобічне | 2,492159469 | |
P (T <= t) двостороннє | 0,087033692 | |
t критичне двостороннє | 2,796939498 |
Лабораторна робота № 3
Парна лінійна РЕГРЕСІЇ
Мета: Опанувати методи побудови лінійного рівняння парної регресії за допомогою ЕОМ, навчитися отримувати і аналізувати основні характеристики регресійного рівняння.
Розглянемо методику побудови регресійного рівняння на прикладі.
ПРИКЛАД. Дано вибірки факторів х i і у i. За цим вибірках знайти рівняння лінійної регресії ỹ = ах + b. Знайти коефіцієнт парної кореляції. Перевірити на рівні значущості а = 0,05 регресійну модель на адекватність.
Х | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Y | 6,7 | 6,3 | 4,4 | 9,5 | 5,2 | 4,3 | 7,7 | 7,1 | 7,1 | 7,9 |
Побудуємо графік рівняння регресії. Для цього в третій рядок таблиці введемо значення функції в заданих точках Х (перший рядок) - у (х 1). Для отримання цих значень використовуються функція ТЕНДЕНЦІЯ категорії «Статистичні». Вводимо в А3 підпис «Y (X) і, помістивши курсор у В3, викликаємо функцію ТЕНДЕНЦІЯ. У полях «Ізв_знач_у» і «Ізв_знач_х» даємо посилання на В2-K2 і В1-K1. в полі «Нов_знач_х» вводимо також посилання на В1-K1. в полі «Константа» вводять 1, якщо рівняння регресії має вигляд y = ax + b, і 0, якщо у = ах. У нашому випадку вводимо одиницю. Функція ТЕНДЕНЦІЯ є масивом, тому для виведення всіх її значень виділяємо область В3-K3 і натискаємо F2 і Ctrl + Shift + Enter. Результат - значення рівняння регресії в заданих точках. Будуємо графік. Ставимо курсор в будь-яку вільну клітину, викликаємо майстер діаграм, вибираємо категорію «Точена», вид графіка - лінія без точок (у нижньому правому куті), натискаємо «Далі», в полі «Діагноз» вводимо посилання на В3-K3. переходимо на закладку «Ряд» і в полі «Значення Х» вводимо посилання на В1-K1, натискаємо «Готово». Результат - пряма лінія регресії. Подивимося, як різняться графіки дослідних даних і рівняння регресії. Для цього ставимо курсор в будь-яку вільну комірку, викликаємо майстер діаграм, категорія «Графік», вид графіка - ламається лінія з точками (друга зверху ліва), натискаємо «Далі», в полі «Діапазон» вводимо посилання на другу і третю рядка В2- K3. переходимо на закладку «Ряд» і в полі «Підписи осі Х» вводимо посилання на В1-K1, натискаємо «Готово». Результат - дві лінії (Синя - вихідні, червона - рівняння регресії). Видно, що лінії мало різняться між собою.
а = | 0,14303 |
b = | 5,976364 |
Для обчислення коефіцієнта кореляції r xy служить функція Пірсон. Розміщуємо графік так, щоб вони розташовувалися вище 25 рядки, і в А25 робимо підпис «Кореляція», в В25 викликаємо функцію Пірсон, в полях якої «Масив 2» вводимо посилання на вихідні дані В1-K1 і В2-K2. результат 0,993821. коефіцієнт детермінації R xy - це квадрат коефіцієнта кореляції r xy. У А26 робимо підпис «Детермінація», а в В26 - формулу «= В25 * В25». Результат 0,265207.
Однак, в Excel існує одна функція, яка розраховує всі основні характеристики лінійної регресії. Це функція ЛИНЕЙН. Ставимо курсор в В28 і викликаємо функцію ЛИНЕЙН, категорії «Статистичні». У полях «Ізв_знач_у» і «Ізв_знач_х» даємо посилання на В2-K2 і В1-K1. полі «Константа» має таке ж значення, що й функції ТЕНДЕНЦІЯ, у нас вона дорівнює 1. полі «Стат» має містити 1, якщо потрібно вивести повну статистику про регресії. У нашому випадку ставимо туди одиницю. Функція повертає масив розмірів 2 шпальти і 5 рядків. Після введення виділяємо мишею комірку В28-С32 і натискаємо F2 і Ctrl + Shift + Enter. Результат - таблиця значень, числа в якій мають наступний сенс:
Коефіцієнт а | Коефіцієнт b |
Стандартна помилка m o | Стандартна помилка m h |
Коефіцієнт детермінації R xy | Середньоквадратичне відхилення у |
F - статистика | Ступені свободи n-2 |
Регресійна сума квадратів S n 2 | Залишкова сума квадратів S n 2 |
0,14303 | 5,976364 |
0,183849 | 0,981484 |
0,070335 | 1,669889 |
0,60525 | 8 |
1,687758 | 22,30824 |
F-критичне | 5,317655 |
Висновок: У ході роботи я освоїв методи побудови лінійного рівняння парної регресії за допомогою ЕОМ, навчилася отримувати і аналізувати основні характеристики регресійного рівняння.
Лабораторна робота № 4
Нелінійної регресії
Мета: освоїти методи побудови основних видів нелінійних рівнянь парної регресії за допомогою за допомогою ЕОМ (внутрішньо лінійні моделі), навчитися отримувати і аналізувати показники якості регресійних рівнянь.
Розглянемо випадок, коли нелінійні моделі за допомогою перетворення даних можна звести до лінійних (внутрішньо лінійні моделі).
ПРИКЛАД. Побудувати рівняння регресії у = f (х) для вибірки х п у п (f = 1,2, ..., 10). Як f (х) розглянути чотири типи функцій - лінійна, статечна, показова і гіперболу:
у = Ах + В; у = Ах В; у = Ае Вх; у = А / г + В.
Необхідно знайти їх коефіцієнти А і В, і порівнявши показники якості, вибрати функцію, яка найкращим чином описує залежність.
Прибуток Y | 0,3 | 1,2 | 2,8 | 5,2 | 8,1 | 11,0 | 16,8 | 16,9 | 24,7 | 29,4 |
Прибуток X | 0,25 | 0,50 | 0,75 | 1,00 | 1,25 | 1,50 | 1,75 | 2,00 | 2,25 | 2,50 |
(Четвертий рядок, стовпець). Рівняння регресії одно
y = 12,96 x +6,18 (коефіцієнти a і b наведені в осередках B6 і C6).
Лінійна | 12,96 | -6,18 |
1,037152 | 1,60884 | |
0,951262 | 2,355101 | |
156,1439 | 8 | |
866,052 | 44,372 |
Гіпербола | -6,25453 | 18,96772 |
2,321705 | 3,655951 | |
0,475661 | 7,724727 | |
7,257293 | 8 | |
433,0528 | 477,3712 |
Експонента | 1,824212 | -0,67 | a = | 0,511707 | |
0,225827 | 0,350304 | b = | 6,197909 | ||
0,89079 | 0,512793 | ||||
65,25304 | 8 | ||||
17,15871 | 2,103652 |
Степенева | 1,993512 | 1,590799 | a = | 4,90767 | |
0,033725 | 0,023823 | b = | 7,341268 | ||
0,997716 | 0,074163 | ||||
3494,117 | 8 | ||||
19,21836 | 0,044002 |
Висновок: У ході роботи я освоїв методи побудови основних видів нелінійних рівнянь парної регресії за допомогою за допомогою ЕОМ (внутрішньо лінійні моделі), навчилася отримувати і аналізувати показники якості регресійних рівнянь.
Y | 0,3 | 1,2 | 2,8 | 5,2 | 8,1 | 11 | 16,8 | 16,9 | 24,7 | 29,4 |
X | 0,25 | 0,5 | 0,75 | 1 | 1,25 | 1,5 | 1,75 | 2 | 2,25 | 2,5 |
1 / x | 4 | 2 | 1,333333 | 1 | 0,8 | 0,666667 | 0,571429 | 0,5 | 0,444444 | 0,4 |
ln y | -1,20397 | 0,182322 | 1,029619 | 1,648659 | 2,0918641 | 2,397895 | 2,821379 | 2,827314 | 3,206803 | 3,380995 |
ln x | -1,38629 | -0,69315 | -0,28768 | 0 | 0,2231436 | 0,405465 | 0,559616 | 0,693147 | 0,81093 | 0,916291 |
Лінійна | 12,96 | -6,18 | Експонента | 1,824212 | -0,67 | a = | 0,511707 | |||
1,037152 | 1,60884 | 0,225827 | 0,350304 | b = | 6,197909 | |||||
0,951262 | 2,355101 | 0,89079 | 0,512793 | |||||||
156,1439 | 8 | 65,25304 | 8 | |||||||
866,052 | 44,372 | 17,15871 | 2,103652 | |||||||
Гіпербола | -6,25453 | 18,96772 | Степенева | 1,993512 | 1,590799 | a = | 4,90767 | |||
2,321705 | 3,655951 | 0,033725 | 0,023823 | b = | 7,341268 | |||||
0,475661 | 7,724727 | 0,997716 | 0,074163 | |||||||
7,257293 | 8 | 3494,117 | 8 | |||||||
433,0528 | 477,3712 | 19,21836 | 0,044002 | |||||||
F - критичне | 5,317655 | |||||||||
Лабораторна робота № 5
Поліномінальної РЕГРЕСІЇ
Мета: За досвідченим даними побудувати рівняння регресії виду у = ах 2 + b х + с.
ХІД РОБОТИ:
Розглядається залежність урожайності деякої культури у i від кількості внесених у грунт мінеральних добрив х i. Передбачається, що ця залежність квадратична. Необхідно знайти рівняння регресії виду ỹ = ах 2 + bx + c.
Поліномінальної РЕГРЕСІЇ
Мета: За досвідченим даними побудувати рівняння регресії виду у = ах 2 + b х + с.
ХІД РОБОТИ:
Розглядається залежність урожайності деякої культури у i від кількості внесених у грунт мінеральних добрив х i. Передбачається, що ця залежність квадратична. Необхідно знайти рівняння регресії виду ỹ = ах 2 + bx + c.
x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
y | 29,8 | 58,8 | 72,2 | 101,5 | 141 | 135,1 | 156,6 | 181,7 | 216,6 | 208,2 |
Введемо ці дані в електронну таблицю разом з підписами в осередку А1-K2. Побудуємо графік. Для цього обведемо дані Y (комірки В2-K2), викликаємо майстер діаграм, вибираємо тип діаграми «Графік», вид діаграми - графік з точками (другий зверху лівий), натискаємо «Далі», переходимо на закладку «Ряд» і в полі « Підписи осі Х »робимо посилання на В2-K2, натискаємо« Готово ». Графік можна наблизити поліномом 2 ступеня у = ах 2 + b х + с. Для знаходження коефіцієнтів a, b, c потрібно вирішити систему рівнянь:
Розрахуємо суми. Для цього в комірку А3 вводимо підпис «Х ^ 2», а в В3 вводимо формулу «= В1 * В1» і автозаповнення переносимо її на весь рядок В3-K3. У комірку А4 вводимо підпис «Х ^ 3», а в В4 формулу «= В1 * В3» і автозаповнення переносимо її на весь рядок В4-K4. У комірку А5 вводимо «Х ^ 4», а в В5 формулу «= В4 * В1», автозаполняем рядок. У осередок А6 вводимо «Х * Y», а в В8 формулу «= В2 * В1», автозаполняем рядок. У осередок А7 вводимо «Х ^ 2 * Y», а в В9 формулу «= В3 * В2", автозаполняем рядок. Тепер вважаємо суми. Виділяємо іншим кольором стовпець L, клацнувши по заголовку і вибравши колір. У осередок L1 поміщаємо курсор і клацнувши по кнопці Автосума із позначкою Σ, обчислюємо суму першого рядка. Автозаповненням переносимо формулу на клітинки L1-710.
Вирішуємо тепер систему рівнянь. Для цього вводимо основну матрицю системи. У комірку А13 вводимо підпис «А =», а в осередку матриці В13-D15 вводимо посилання, відображені в таблиці
Вводимо також праві частини системи рівнянь. У G13 вводимо підпис «В =», а в Н13-Н15 вводимо, відповідно посилання на клітинки «= L7», «= L6», «= L2». Вирішуємо систему матричним методом. З вищої математики відомо, що рішення однаково А -1 В. Знаходимо зворотну матрицю. Для цього в комірку J13 вводимо підпис «А обр.» І, поставивши курсор у K13 задаємо формулу МОБР (категорія «Математичні»). Як аргумент «Масив» даємо посилання на клітинки В13: D15. Результатом також повинна бути матриця розміром 4 × 4. Для її отримання обводимо осередку K13-М15 мишею, виділяючи їх і натискаємо F2 і Ctrl + Shift + Enter. Результат - матриця А -1. Знайдемо тепер твір цієї матриці на стовпець У (комірки Н13-Н15). Вводимо в клітинку А18 підпис «Коефіцієнти» і в В18 задаємо функцію МУМНОЖ (категорія «Математичні»). Аргументами функції «Масив 1» служить посилання на матрицю А -1 (осередку K13-М15), а в полі "Масив 2» даємо посилання на стовпець У (комірки Н13-Н16). Далі виділяємо В18-В20 і натискаємо F2 і Ctrl + Shift + Enter. Одержаний масив - коефіцієнти рівняння регресії a, b, c. У результаті отримуємо рівняння регресії виду: у = 1,201082 х 2 - 5,619177 х + 78,48095.
Побудуємо графіки вихідних даних і отриманих на основі рівняння регресії. Для цього в комірку А8 вводимо підпис «Регресія» і в В8 вводимо формулу «= $ В $ 18 * В3 + $ В $ 19 * В1 + $ В $ 20». Автозаповненням переносимо формулу в комірки В8-K8. Для побудови графіка виділяємо комірки В8-K8 і, утримуючи клавішу Ctrl, виділяємо також осередки В2-М2. Викликаємо майстра діаграм, вибираємо тип діаграми «Графік», вид діаграми - графік з точками (другий зверху лівий), натискаємо «Далі», переходимо на закладку «Ряд» і в полі «Підписи осі Х» робимо посилання на В2-М2, натискаємо «Готово». Видно, що криві майже збігаються.
ВИСНОВОК: в процесі роботи я за дослідними даними навчився будувати рівняння регресії виду у = ах 2 + bх + с.
Розрахуємо суми. Для цього в комірку А3 вводимо підпис «Х ^ 2», а в В3 вводимо формулу «= В1 * В1» і автозаповнення переносимо її на весь рядок В3-K3. У комірку А4 вводимо підпис «Х ^ 3», а в В4 формулу «= В1 * В3» і автозаповнення переносимо її на весь рядок В4-K4. У комірку А5 вводимо «Х ^ 4», а в В5 формулу «= В4 * В1», автозаполняем рядок. У осередок А6 вводимо «Х * Y», а в В8 формулу «= В2 * В1», автозаполняем рядок. У осередок А7 вводимо «Х ^ 2 * Y», а в В9 формулу «= В3 * В2", автозаполняем рядок. Тепер вважаємо суми. Виділяємо іншим кольором стовпець L, клацнувши по заголовку і вибравши колір. У осередок L1 поміщаємо курсор і клацнувши по кнопці Автосума із позначкою Σ, обчислюємо суму першого рядка. Автозаповненням переносимо формулу на клітинки L1-710.
Вирішуємо тепер систему рівнянь. Для цього вводимо основну матрицю системи. У комірку А13 вводимо підпис «А =», а в осередку матриці В13-D15 вводимо посилання, відображені в таблиці
B | C | D | |
13 | = L5 | = L4 | = L3 |
14 | = L3 | = L2 | = L1 |
15 | = L2 | = L1 | = 9 |
Побудуємо графіки вихідних даних і отриманих на основі рівняння регресії. Для цього в комірку А8 вводимо підпис «Регресія» і в В8 вводимо формулу «= $ В $ 18 * В3 + $ В $ 19 * В1 + $ В $ 20». Автозаповненням переносимо формулу в комірки В8-K8. Для побудови графіка виділяємо комірки В8-K8 і, утримуючи клавішу Ctrl, виділяємо також осередки В2-М2. Викликаємо майстра діаграм, вибираємо тип діаграми «Графік», вид діаграми - графік з точками (другий зверху лівий), натискаємо «Далі», переходимо на закладку «Ряд» і в полі «Підписи осі Х» робимо посилання на В2-М2, натискаємо «Готово». Видно, що криві майже збігаються.
ВИСНОВОК: в процесі роботи я за дослідними даними навчився будувати рівняння регресії виду у = ах 2 + bх + с.
x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |||
y | 29,8 | 58,8 | 72,2 | 101,5 | 141 | 135,1 | 156,6 | 181,7 | 216,6 | 208,2 | |||
X ^ 2 | 0 | 1 | 4 | 9 | 16 | 25 | 36 | 49 | 64 | 81 | |||
X ^ 3 | 0 | 1 | 8 | 27 | 64 | 125 | 216 | 343 | 512 | 729 | |||
X ^ 4 | 0 | 1 | 16 | 81 | 256 | 625 | 1296 | 2401 | 4096 | 6561 | |||
X * Y | 0 | 58,8 | 144,4 | 304,5 | 564 | 675,5 | 939,6 | 1271,9 | 1732,8 | 1873,8 | |||
X ^ 2 * Y | 0 | 58,8 | 288,8 | 913,5 | 2256 | 3377,5 | 5637,6 | 8903,3 | 13862,4 | 16864,2 | |||
Регрес. | 78,48095 | 85,30121 | 94,52364 | 106,1482 | 120,175 | 136,6039 | 155,435 | 176,6682 | 200,3036 | 226,3412 | |||
A = | 15333 | 2025 | 285 | B = | 52162,1 | A Обр. | 0,003247 | -0,03247 | 0,059524 | ||||
2025 | 285 | 45 | 7565,3 | -0,03247 | 0,341342 | -0,67857 | |||||||
285 | 45 | 9 | 1301,5 | 0,059524 | -0,67857 | 1,619048 | |||||||
Коеффіц. | 1,201082 | a | |||||||||||
5,619177 | b | ||||||||||||
78,48095 | c | ||||||||||||