Статистичний пакет STATISTIKA

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати


Зміст

Введення

1. Теоретичні відомості

1.1 Статистика. Види статистичного аналізу

1.2 Статистичний пакет STATISTICA

2. Статистичний аналіз економічних даних у STATISTICA

2.1 Практичне завдання. Кореляційно-регресійний аналіз в STATISTICA

2.2 Практичне завдання

2. Кластерний аналіз в STATISTICA

Введення

Для забезпечення ефективності виробництва необхідно чітко знати:

  • Як аналізувати і прогнозувати процеси?

  • Як підвищити ефективність виробництва і скоротити витрати?

  • Як забезпечити стабільність показників якості продукції?

  • Як прийняти оптимальне рішення на основі аналізу даних?

  • Як організувати управління корпоративними джерелами інформації?

Для вирішення цих та багатьох інших завдань у галузі соціологічних та маркетингових досліджень, прогнозування та управління якістю необхідні знання математичної та економічної статистики. Прийняття будь-якого технічного, фінансового та виробничого рішення немислимо без статистичного аналізу інформації; виділяти закономірності із випадковостей, порівнювати ймовірні альтернативи вибору, будувати прогнози розвитку процесів, виявляти зв'язки і відмінності безлічі об'єктів можливе тільки і виключно засобами математичної статистики.

Статистика дозволяє адекватно оцінювати ситуацію, що складається і виявляти тенденції, приймати оперативні й стратегічні рішення. В умовах сучасної ринкової економіки статистична інформація стала важливим інструментом боротьби і виживання на ринку. Тому пакети статистичного аналізу даних є настільним робочим інструментом фахівців будь-якого рівня. А для фахівця в галузі управління та економіки знання статистичних методів обробки інформації та сучасних комп'ютерних технологій, які дозволять автоматизувати громіздкі розрахунки, абсолютно необхідні.

Сучасний економіст повинен володіти декількома основними програмними засобами, в яких закладені методи статистичного аналізу. MS Excel пропонує широкий діапазон засобів для аналізу статистичних та експериментальних даних. До групи статистичних функцій входять функції кореляційного аналізу. Крім вбудованих засобів можна використовувати надбудову Пакет аналізу (Сервіс / Надбудови / Пакет Аналізу) для проведення регресійного та дисперсійного аналізу.

MathCad також має розвинений апарат роботи з завданнями математичної статистики і обробки експерименту. По-перше, є велика кількість вбудованих спеціальних функцій, які дозволяють розраховувати щільності ймовірності та інші основні характеристики основних законів розподілу випадкових величин. Поряд з цим, в MathCad запрограмовано відповідну кількість генераторів псевдовипадкових чисел для кожного закону розподілу, що дозволяє ефективно проводити моделювання методами Монте-Карло. По-друге, передбачена можливість побудови гістограм і розрахунку статистичних характеристик вибірок випадкових чисел і випадкових процесів, таких як середні, дисперсії, кореляції і т. п. При цьому випадкові послідовності можуть як створюватися генераторами випадкових чисел, так і вводиться із файлів. По-третє, є цілий арсенал засобів, спрямованих на інтерполяцію-екстраполяцію даних, побудова регресії за методом найменших квадратів, фільтрацію сигналів. Нарешті, реалізований ряд чисельних алгоритмів, що здійснюють розрахунок різних інтегральних перетворень, що дозволяє організувати спектральний аналіз різного типу.

Однак провідним пакетом статистичного аналізу є система STATISTICA, яка заснована на найсучасніших технологіях, повністю відповідає останнім досягненням в області IT, дозволяє вирішувати будь-які завдання в області аналізу і обробки даних, ідеально підходить для застосування в будь-якій області: маркетинг, фінанси, страхування, економіці , бізнесі, промисловості, медицині та ін Наприклад, рішення поставлених на початку статті завдань, може бути реалізовано на базі промислових модулів STATISTICA (карти контролю якості, планування експериментів, аналіз процесів).

1. Теоретичні відомості

1.1 Статистика. Види статистичного аналізу

Статистика - наука про збір, вимірюванні та аналізі масових кількісних даних. Статистичні дані завжди є наближеними, усередненими. Тому вони носять оціночний характер і для достовірності результатів необхідно велика кількість вихідних даних.

Існує кілька видів статистичного аналізу даних: кореляційний, регресійний, дисперсійний, факторний, кластерний та ін Розглянемо деякі з них.

Кореляційний аналіз

Іноді кореляцію і регресію розглядають як сукупний процес статистичного дослідження. Кореляційно-регресійний аналіз є одним із значущих методів побудови математичних моделей в економіці і вважається одним з головних методів у маркетингу.

Кореляція в широкому сенсі слова означає зв'язок між об'єктивно існуючими явищами.

Кореляційний аналіз - вид статистичного аналізу, який полягає в кількісній оцінці сили і напрямку зв'язку між двома (парна кореляція) або кількома (множинна кореляція) наборами даних. Для кількісної оцінки сили зв'язку використовуються коефіцієнти парної кореляції r і множинної кореляції R.

Коефіцієнт кореляції (безрозмірна величина) - кількісний показник лінійного зв'язку між двома або більше наборами даних, значення якого лежить в інтервалі від -1 до 1. Якщо коефіцієнт дорівнює ± 1, то зв'язок функціональна, якщо дорівнює 0, то зв'язок відсутній.

Для якісної оцінки сили зв'язку використовуються спеціальні табличні співвідношення (наприклад, шкала Чеддока, табл. 1)

Таблиця 1 - Шкала Чеддока

Значення коефіцієнта кореляції

Характер зв'язку

Дуже слабка

Слабка

Помітна

Сильна

Дуже сильна

Напрямок зв'язку визначається знаками ±: близькість до +1 означає, що зростанню одного набору значень відповідає зростання іншого набору, близькість до -1 означає протилежне.

Для наочності вимірювання всіх зв'язків у разі множинної кореляції доцільно використовувати кореляційну матрицю - матрицю з попарних коефіцієнтів кореляції.

Регресійний аналіз

Регресійний аналіз - вид статистичного аналізу, який полягає у поданні залежності одних чинників від інших у вигляді деякої функції (рівняння регресії) за допомогою якої здійснюється прогнозування і пошук відповіді на питання «Що буде через якийсь час?» Або «Що буде, якщо ...? ».

У випадку парної регресії рівняння визначається за двом наборам даних, один з яких представляє значення залежної змінної y, а інший - незалежної змінної х. У разі множинної регресії рівняння визначається за кількома розділами даних, один з яких представляє значення залежної змінної y, а інші незалежними змінними х 1, х 2, ..., x m.

Отримання рівняння регресії відбувається в два етапи: підбір виду функції і обчислення параметрів функції.

Вибір функції, в більшості випадків, виробляються серед лінійної, квадратичної, степеневої та ін видів функцій (табл. 2). До функції пред'являються наступні вимоги: вона повинна бути досить простою для використання її у подальших обчисленнях і графік цієї функції повинен проходити поблизу експериментальних точок так, щоб сума квадратів відхилень y-координати всіх експериментальних точок від y-координат графіка функції була ба мінімальної (метод найменших квадратів).

Таблиця 2 - Види функцій, що застосовуються в регресійних моделях

Парна (проста) регресія

Множинна регресія

Лінійна регресія

y = ax + b,

y = а 0 + a 1 x 1 + ... + a m x m

Квадратична (параболічна)

y = ax 2 + bx + c

y = а 0 + a 1 x 1 2 + ... + a m x m 2

Степенева

y = ax b

y = а 0 x 1 a1 x 2 a2 ... x m am

Логарифмічна y = alnx + b,

Гіперболічна

y = а 0 + a 1 (1 / x 1) + ... + a m (1 / x m)

Експоненціальна y = ae bx


де a, b, c - коефіцієнти парної регресії.

де а 0, a 1, a 2, ..., a m - Коефіцієнти множинної регресії,

n - обсяг сукупності,

m - кількість факторних ознак.

? Який вид регресійного аналізу (парний або множинний) більшою мірою відповідає реальним умовам?

? Чи можна врахувати всі фактори х 1, х 2, ..., x m, ... у разі множинної кореляції?

Для кількісної оцінки точності побудови рівняння регресії призначений коефіцієнт детермінації R 2, рівний квадрату коефіцієнта кореляції і в якому зазначено, який відсоток зміни функції у пояснюється впливом факторів х k. Чим його значення ближче до 1, тим рівняння точніше описує досліджувану залежність.

Істотний рівняння (з R 2 близьким до 1) використовується, як правило, для прогнозування досліджуваного явища. Прогноз - це ймовірнісна судження про майбутнє, отримане шляхом використання сукупності наукових методів. Наприклад, прогнозування фінансового стану виконується для того, щоб отримати відповіді на два питання: «як це може бути (якими можуть стати фінансові показники, якщо не будуть вжиті заходи щодо їх зміни)» і «як це має бути (якими повинні стати фінансові показники фірми для того, щоб її фінансовий стан забезпечувало високий рівень конкурентоспроможності) ». Прогнозування з метою отримання відповіді на перше питання прийнято називати дослідним, на другий - нормативним.

Існує два способи прогнозів по рівнянню регресії: у межах експериментальних значень (інтерполяція) і за межами (екстраполяція). Застосовність всякої регресійної моделі обмежена, особливо за межами експериментальної області, тому що характер залежності може істотно змінитися. Тому достовірність дослідного прогнозу може бути невисокою. Проте його виконання повністю обгрунтовано.

1.2 Статистичний пакет STATISTICA

Так як статистичні методи знаходять широке застосування у всіх сферах виробництва, то ринок комп'ютерних технологій пропонує велику кількість прикладних програм, які дозволяють проводити такий аналіз. Велика кількість систем, творці яких стверджують, що їхня програма є найкращою для обробки даних, а також відсутність у більшості фахівців достатнього часу для освоєння декількох пакетів приводить до ускладнення процесу вибору. Однак, за даними statsoft.ru, лідером статистичних пакетів є STATISTICA.

Історія розвитку, області застосування

STATISTICA (американської компанії StatSoft, http://www.statsoft.com, StatSoft RUSSIA - російське представництво StatSoft) - система, що реалізує відомі методи статистичної обробки та візуалізації даних, управління базами даних та розробки користувальницьких додатків за допомогою вбудованої мови програмування Statistica Basic.

Пакет розроблений в 1984 р., і спочатку він був представлений у вигляді модуля для самої популярної у той час електронної таблиці Lotus. Як самостоятений продукт Statistica вперше заявила про себе в 1991 р. і з тих пір постійно займає лідируюче місце серед спеціалізованих пакетів зі статистики.

Завдяки широкому набір процедур аналізу STATISTICA застосовується у наукових дослідженнях, техніці, бізнесі. Також система добре зарекомендувала себе у страхуванні (наприклад, у страховій компанії РОСНО). STATISTICA широко використовується в навчальному процесі (у Московському державному університеті, наприклад, на механіко-математичному та економічному факультетах, в Московському інституті електроніки і математики на економічному факультеті та факультеті прикладної математики, в Московському економіко-статистичному інституті та ін.) Крім загальних статистичних і графічних засобів у системі є спеціалізовані модулі, наприклад, для проведення соціологічних або біомедичних досліджень, вирішення технічних і, що дуже важливо, промислових завдань: Карти контролю якості, Аналіз процесів та Планування експерименту. Модуль Карта контролю дозволяє автоматизувати процес контролю за якістю готової продукції, аналізувати причини появи відхилень від планових специфікацій. Statistica здійснює аналіз придатності (придатності процесів / механізмів), як однієї з найважливіших характеристик виробничого процесу. Обчислення показників (або індексів) придатності дозволяє дати відповідь на важливе питання: яка кількість виробів потрапляє в задані межі інженерного допуску?

Таким чином, STATISTICA є однією з найбільш простих для непідготовленого користувача систем, з найменшим періодом оволодівання її можливостями і вдалим набір графічних можливостей.

Інтерфейс, основні можливості

Набори файлів даних системи STATISTICA (розширення *. sta) можна розглядати як "робочі книги" файлів, оскільки вони містять і автоматично зберігають інформацію про всі додаткові файлах (наприклад, графіках, звітах і програмах), які використовуються з поточним набором даних.

STATISTICA використовує стандартний інтерфейс електронних таблиць. Поточний файл даних завжди відображається у вигляді електронної таблиці. Дані організовані у вигляді спостережень і змінних. Спостереження можна розглядати як еквівалент стовпців електронної таблиці. Кожне спостереження складається з набору значень змінної.

Рис. 1

Система складається з ряду модулів, які працюють незалежно. Кожен модуль включає певний клас процедур. Майже всі процедури є інтерактивними, тобто для запуску обробки необхідно вибрати з меню змінні і відповісти на ряд питань системи. Це дуже зручно для початківців, однак різко уповільнює діяльність досвідченого і не дозволяє ефективно повторювати одну й ту ж процедуру кілька разів.

Модулі та процедури

Описові статистики

Аналіз багатовимірних таблиць

Підгонка розподілів

Кореляційний аналіз

Регресійний аналіз (у тому числі і багатовимірний, нелінійний)

Дисперсійний аналіз

Кластерний аналіз

Дискримінантний аналіз

Факторний аналіз

Аналіз відповідностей

Багатомірне шкалювання

Аналіз виживаності

Структурні моделі

Дерева класифікацій

Прогнозування часових рядів

Непараметричні статистика

Аналіз Монте-Карло та ін

Види аналізу

Basic Statistics / Tables (Основні статистики і таблиці):

Advanced Linear / Nonlinear Models (прогресивні лінійні / нелінійні моделі):

Multivariate Exploratory Techniques (Багатовимірні Исслед. Методи):

Industrial Statistic and Six Sigma (промислова статистика і статистика 6-ти сигм):

Графічне представлення даних в STATISTICA

STATISTICA дозволяє будувати різні типи графіків:

Матричні графіки

ПіктографікіДіаграмми розсіювання

ГістограммиТернарние графіки

Карти ліній уровняКруговие діаграми

Категоризовать

Імовірнісні

Графіки поверхонь

Трасувальні

Комбіновані

Обертання і перспектива

Підгонка, згладжування, перерізу та ін:

Типи графіків в

STATISTICA

Види 2D графіків

Види 3D графіків




Види 3D ліній

2. Статистичний аналіз економічних даних у STATISTICA

2.1 Практичне завдання 1. Кореляційно-регресійний аналіз в STATISTICA

Постановка завдання

Керівництво компанії за результатами виробничої діяльності 15 своїх філій у різних містах Росії аналізує фактори, що впливають на продуктивність праці (y) і припускає, що найважливішими з них є наступні:

x 1 - середньорічна вартість основних фондів, тис. руб.

х 2 - питома вага робітників високої кваліфікації в загальній чисельності робітників,%

х 3 - Трудомісткість одиниці продукції

х 4 - Середньорічна чисельність робітників

x 5 - Коефіцієнт змінності обладнання

x 6 - Питома вага втрат від браку

x 7 - Середньорічний фонд заробітної плати, тис. руб.

Були зібрані дані за останній рік (див. таб. 3).

Таблиця 3 - Вихідні дані

Місто

y

х 1

х 2

х 3

х 4

x 5

x 6

x 7

1

Москва

14

101,03

35

0,4

15780

2,01

0,22

13002

2

Санкт-Петербург

14,02

98,54

36

0,42

14760

1,86

0,25

10145,6

3

Нижній-Новгород

7,03

49

17

1,83

630

0,95

0,5

5040,9

4

Ульяновськ

7,01

50

17

1,85

633

0,93

0,52

5027,39

5

Пенза

8,21

57,42

19

1,43

752

1,08

0,44

5903,3

6

Самара

10

70

24

1,01

920

1,33

0,35

7100

7

Чебоксари

9,02

61,03

22

1,23

830

1,19

0,39

6494,6

8

Саранськ

11

78,09

26

0,82

1028

1,44

0,37

7500

9

Челябінськ

9,05

63,31

28

1,2

804

1,2

0,38

6516,5

10

Тольятті

11

77,05

29

0,81

1028

1,46

0,32

7940

11

Волгоград

12

84,03

27

0,64

1126

1,6

0,29

8900

12

Рязань

12

83

29

0,66

1127

1,59

0,25

8668

13

Красноярськ

12

84

30

0,68

1096

1,59

0,29

8670,91

14

Тула

7,26

50,81

17

1,75

657

0,96

0,49

5209,8

15

Казань

7,01

55,01

16

1,85

631

0,93

0,51

5027,3

З використанням системи STATISTICA необхідно:

1) для y і змінних, відповідних варіантом (див. таб. 4), побудувати матрицю приватних коефіцієнтів кореляції (кореляційну матрицю). Зобразити матрицю в графічному вигляді.

Таблиця 4 - Варіанти завдань

Варіант

j

Незалежні змінні

(Факторні ознаки)

Завдання з прогнозування



Як зміниться продуктивність праці на московському підприємстві, якщо

0

х 1, х 2, х 4, x 5

середньорічну чисельність робочих скоротити на 780 чоловік, а коефіцієнт змінності обладнання підвищити до 3?

1

х 1, х 3, х 4, x 5

середньорічну вартість основних фондів збільшити на 80 тис. руб., а і трудомісткість одиниці продукції на 0,6?

2

х 3, х 4, x 5, x 6

трудомісткість одиниці продукції скоротити в 4 рази, а коефіцієнт змінності устаткування знизити в 2 рази?

3

х 1, х 2, х 3, x 5

середньорічну вартість основних фондів збільшити на 60 тис. руб., а коефіцієнт змінності устаткування - на 0,9?

4

х 1, х 2, x 6, x 7

середньорічну вартість основних фондів скоротити до 90 тис. руб., а питома вага втрат від браку знизити в 2 рази?

5

х 1, х 3, х 4, x 7

середньорічну вартість основних фондів скоротити до 95 тис. руб., а трудомісткість одиниці продукції знизити на 0,1?

6

х 1, х 2, x 5, x 7

коефіцієнт змінності устаткування збільшити в 2 рази, а середньорічний фонд заробітної плати зменшити на 92 тис. руб.?

7

х 4, x 5, x 6, x 7

коефіцієнт змінності обладнання зменшити в 2 рази, а середньорічний фонд заробітної плати збільшити на 92 тис. руб.

8

х 2, х 3, x 5, x 7

коефіцієнт змінності устаткування збільшити на 1,5, а середньорічний фонд заробітної плати зменшити на 32 тис. руб.?

9

х 1, х 3, x 5, x 7

коефіцієнт змінності обладнання зменшити на 1,5, а середньорічний фонд заробітної плати збільшити на 32 тис. руб.?

2) побудувати лінійне рівняння множинної регресії, вибравши як залежної змінної - y, в якості незалежних - змінні х i, відповідні варіантом (див. таб. 4).

3) Визначити коефіцієнт множинної кореляції та коефіцієнт детермінації R 2 отриманої моделі

4) Перевірити значимість побудованої моделі (наприклад, використовуючи рівень значимості α = 0,05).

5) Якщо модель значима дати оцінку коефіцієнтів множинної регресії на основі t-критерію, якщо t табл (15-4-1) = t табл (10) = 2,2281 і рівня значущості α = 0,05.

6) Перерахувати рівняння множинної регресії використовуючи тільки значущі чинники.

7) Перевірити адекватність регресійної моделі (отриманої на попередньому етапі аналізу).

8) Здійснити прогнозування відповідно до варіанта

9) Оформити звіт про виконану роботу використовуючи роздруківки звіту, отриманого засобами пакета STATISTICA або в MS Word.

Порядок виконання завдання

У системі STATISTICA для побудови кореляційної матриці можна скористатися модулем Basic Statistics / Tables (Основні статистики і таблиці), вибравши процедури ® , Використовуючи в якості змінних всі вихідні дані (Select all). І процедуру для представлення матриці в графічному вигляді.

За кореляційної матриці можна в першому наближенні судити про тісноту зв'язку факторних ознак х 1, х 2, ..., x m між собою і з результативною ознакою y, а також здійснювати попередній відбір факторів для включення їх у рівняння регресії. При цьому не слід включати в модель фактори, слабо корелюють з результативним ознакою і тісно пов'язані між собою. Не допускається включати в модель функціонально пов'язані між собою факторні ознаки, так як це призводить до невизначеності рішення.

Вибір рівняння моделі, в більшості випадків, виробляються серед функцій перерахованих у таблиці 3. У системі STATISTICA для побудови лінійного рівняння множинної регресії можна скористатися модулем множинної регресії , Визначивши залежну (dependent) змінну y і незалежні (independent) змінні х 1, х 2, x 3, x 4.

Статистичний висновок про придатність (значимості) рівняння регресії в системі Statistica зазвичай перевіряється в такій послідовності.

  1. Проводиться загальна перевірка моделі, метою якої є з'ясування, пояснюють чи х-змінні значиму частку зміни у. Визначення значущості моделі рекомендується проводити за такими методами (див. табл. 5).

Таблиця 5

Критерій Фішера

Використання рівня

значущості α

Використання коефіцієнта детермінації R 2

Перевіряється нульова гіпотеза H 0 про рівність отриманих коефіцієнтів регресії нулю: a 0 = a 1 = a 2 = ... = a m = 0. Для цього розраховане системою Statistica значення F-критерію (F розр), порівнюється з табличним значенням F табл, визначеним з використанням спеціальних таблиць по заданих рівнем значущості (наприклад, a = 0,05) і числа ступенів свободи (df1 = m, df2 = nm-1). Якщо виконується нерівність F розр <F табл, то з упевненістю, наприклад на 95%, можна стверджувати, що розглянута залежність y = а 0 + a 1 x 1 + ... + a m x m є статистично значущою.

Якщо розраховане у Statistica значення рівня значимості р більше, ніж заданий рівень значимості a (наприклад, a = 0,05), то отриманий результат потрібно трактувати як незначний

(Для 95% імовірності). У тому випадку, коли величина р <0,05, то висновок такий: це значуща рівняння з імовірністю 95%.

Розрахована системою Statistica величина порівнюється з табличними (критичними) значеннями , Обумовленим з використанням спеціальних таблиць за заданим рівнем значущості (наприклад, α = 0,05). Якщо виявиться, що > , То з згаданої ступенем ймовірності (95%) можна стверджувати, що аналізована регресія є значущою.

Якщо регресія НЕ є значущою, то говорити більше нема про що.

У наведеній прикладі модель значуща, тому що обчислений рівень значимості моделі р = 0,000000 <0,05.

Здійснивши перехід до результатів регресії (Summary: Regression results) отримуємо рівняння лінійної множинної регресії виду y (x 1, x 2, x 3, x 4) = 6,9 +0,07 x 1 -0,00035 x 2 -2,08 x 3 +0,00003 x 4:

2. Якщо регресія виявляється значущою, то існує взаємозв'язок між параметром в і змінними х 1, х 2, ..., x m. Однак залишається неясно, як впливають конкретних факторів х 1, х 2, ..., x m на досліджувану функцію у. Можна продовжити аналіз, використовуючи t-тести для окремих коефіцієнтів регресії а 0, a 1, a 2, ..., a m з метою з'ясувати, наскільки значущою є вплив тієї чи іншої змінної х на параметр у за умови, що всі інші фактори х k залишаються незмінними. Перевірку на адекватність коефіцієнтів регресії рекомендується проводити за такими еквівалентним методам (див. табл. 5).

Таблиця 5

Використання t-критерію Стьюдента

Використання

рівня значущості α

Аналізований коефіцієнт а 0, a 1, a 2, ..., a m вважається значимим, якщо розраховане системою Statistica для нього значення t-критерію за абсолютною величиною перевищує t табл, визначеним з використанням спеціальних таблиць по заданих рівнем значущості (наприклад, a = 0,05) і числа ступенів свободи (df = nm-1).

Коефіцієнт регресії а 0, a 1, a 2, ..., a m визнається значущим, якщо розраховане системою Statistica для нього значення рівня значимості р менше (або дорівнює) 0,05 (для 95%-ної довірчої ймовірності).

Оскільки обчислені рівні значимості p-level для коефіцієнтів, що стоять при x 2 і x 4 менше 0,05, то вони не значущі. До аналогічного висновку можна прийти, скориставшись t-критерієм: t 2 (10) =- 0,013 <2,228 і t 3 (10) = 1,44 <2,228.

З урахуванням цього факту, перерахуємо рівняння множинної регресії, вибравши як залежною (dependent) змінну y і незалежні (independent) змінні х 1 і x 3, коефіцієнти при яких значимі:

Одержуємо:

Т.ч., рівняння регресії має вигляд

y (x 1, x 3) = 4,957 +0,096 x 1 -1,559 x 3

Для виконання прогнозів по отриманому рівнянню необхідно показати, що регресійна модель адекватна результатами спостережень. З цією метою можна скористатися критерієм Дарбіна-Уотсона, згідно якого, розрахований системою Statistica коефіцієнт d розр необхідно порівняти з табличним значенням d табл (Для сукупності обсягом n = 15, рівня значущості a = 0,05 і трьох оцінюваних параметрів регресії, значення d таб л = 1,75). Якщо d розр> d табл, то отримана модель адекватна і придатна для прогнозування. Для визначення d розр в Statistica у вікні Residual Analysis на вкладці Advanced необхідно вибрати опцію Durbin-Watson statistic:

У розглянутому прикладі d розр = 1,2 <1,75, отже, модель не бажано використовувати для прогнозування.

У випадку, коли модель адекватна результатами спостереження для виконання прогнозу в вікні Multyple Regression Results вкладки Residuals / assumptions / prediction (Залишки / Припущення / Прогнозування) вибрати опцію (Прогнозування залежної змінної). Наприклад, якщо в Москві середньорічну вартість основних фондів (Змінна x 1) підвищити на 50 тис. руб., А трудомісткість одиниці продукції (змінна х 3) зменшити в два рази, то слід очікувати продуктивності праці рівної 19,16 (збільшиться на 19,16-14 = 5,16):

2.2 Практичне завдання 2. Кластерний аналіз в STATISTICA

Постановка завдання

Двадцять банків, акції яких котируються на ринку, надали таку інформацію (див. табл.), Де - x витрати за минулий період, y - прибуток за минулий період.

Необхідно:

1) доповнити таблицю до 20 значень. Дані можна не просто придумати, а взяти з будь-яких прикладів діяльності банків того чи іншого міста, наведених у книгах за статистикою, економетрики, ЗМІ, Internet або будь-яких інших джерел.

2) побудувати графік по вихідним даним (Scatterplot)

3) c використанням системи STATISTICA з'ясувати (дати рекомендацію) акції яких банків деякого підприємству має сенс придбати, яких - притримати, а від яких - позбутися.

Таблиця

Номер

банку

Витрати

x

Прибуток

y

1

4

2

2

6

10

3

5

7

4

12

3

5

17

4

6

3

10

7

6

1

8

6

3

9

15

1

10

15

4

11

5

4

12

3

8

13

13

5

14

15

3

15

5

9

Порядок виконання завдання

Кластерний аналіз - один з методів статистичного багатомірного аналізу, призначений для групування (кластеризації) сукупності елементів, які характеризуються багатьма факторами, і отримання однорідних груп (кластерів). Завдання кластерного аналізу полягає в представленні вихідної інформації про елементи в стислому вигляді без її суттєвої втрати.

STATISTICA пропонує кілька методів кластерного аналізу. Надалі будемо використовувати Joining (tree clustering) - групу ієрархічних методів (7 видів), які використовуються в тому випадку, якщо число кластерів заздалегідь невідомо.

Використовуваний метод - Ward's method - метод Уорда, який добре працює з невеликою кількістю елементів і націлений на вибір кластерів з приблизно однаковою кількістю членів. В якості метрики відстані пакет пропонує різні заходи, але найбільш вживаними є Euclidean distance (евклідова відстань). При кластеризації елементів у пакеті STATISTICA слід вибирати режим: cases (rows) - рядки, а при кластеризації факторів: variables (columns) - стовпці. В якості змінних для розглянутого прикладі слід вибрати всі змінні (all).

Для виведення результатів на екран слід вибрати

або .

Вивести графік на друк.

Проаналізувати результат і заповнити таблицю.

Номер

банку

Витрати

x

Прибуток

y

Рекомендація

придбати / притримати / позбутися

1

4

2


2

6

10


3

5

7


4

12

3


5

17

4


6

3

10


7

6

1


8

6

3


9

15

1


10

15

4


11

5

4


12

3

8


13

13

5


14

15

3


15

5

9


16




17




18




19




20





Додати в блог або на сайт

Цей текст може містити помилки.

Бухгалтерія | Курсова
125.5кб. | скачати


Схожі роботи:
Пакет Coreldraw
Статистичний аналіз зв`язку
Економіко-статистичний аналіз
Основні статистичний розрахунки
Побудова статистичний рядів
Статистичний аналіз основних фондів
Статистичний аналіз діяльності підприємства
Статистичний аналіз міграції населення
Статистичний аналіз вибіркових сукупностей
© Усі права захищені
написати до нас