Зміст
Введення
1. Теоретичні відомості
1.1 Статистика. Види статистичного аналізу
1.2 Статистичний пакет STATISTICA
2. Статистичний аналіз економічних даних у STATISTICA
2.1 Практичне завдання. Кореляційно-регресійний аналіз в STATISTICA
2.2 Практичне завдання
2. Кластерний аналіз в STATISTICA
Введення
Для забезпечення ефективності виробництва необхідно чітко знати:
Як аналізувати і прогнозувати процеси?
Як підвищити ефективність виробництва і скоротити витрати?
Як забезпечити стабільність показників якості продукції?
Як прийняти оптимальне рішення на основі аналізу даних?
Як організувати управління корпоративними джерелами інформації?
Для вирішення цих та багатьох інших завдань у галузі соціологічних та маркетингових досліджень, прогнозування та управління якістю необхідні знання математичної та економічної статистики. Прийняття будь-якого технічного, фінансового та виробничого рішення немислимо без статистичного аналізу інформації; виділяти закономірності із випадковостей, порівнювати ймовірні альтернативи вибору, будувати прогнози розвитку процесів, виявляти зв'язки і відмінності безлічі об'єктів можливе тільки і виключно засобами математичної статистики.
Статистика дозволяє адекватно оцінювати ситуацію, що складається і виявляти тенденції, приймати оперативні й стратегічні рішення. В умовах сучасної ринкової економіки статистична інформація стала важливим інструментом боротьби і виживання на ринку. Тому пакети статистичного аналізу даних є настільним робочим інструментом фахівців будь-якого рівня. А для фахівця в галузі управління та економіки знання статистичних методів обробки інформації та сучасних комп'ютерних технологій, які дозволять автоматизувати громіздкі розрахунки, абсолютно необхідні.
Сучасний економіст повинен володіти декількома основними програмними засобами, в яких закладені методи статистичного аналізу. MS Excel пропонує широкий діапазон засобів для аналізу статистичних та експериментальних даних. До групи статистичних функцій входять функції кореляційного аналізу. Крім вбудованих засобів можна використовувати надбудову Пакет аналізу (Сервіс / Надбудови / Пакет Аналізу) для проведення регресійного та дисперсійного аналізу.
MathCad також має розвинений апарат роботи з завданнями математичної статистики і обробки експерименту. По-перше, є велика кількість вбудованих спеціальних функцій, які дозволяють розраховувати щільності ймовірності та інші основні характеристики основних законів розподілу випадкових величин. Поряд з цим, в MathCad запрограмовано відповідну кількість генераторів псевдовипадкових чисел для кожного закону розподілу, що дозволяє ефективно проводити моделювання методами Монте-Карло. По-друге, передбачена можливість побудови гістограм і розрахунку статистичних характеристик вибірок випадкових чисел і випадкових процесів, таких як середні, дисперсії, кореляції і т. п. При цьому випадкові послідовності можуть як створюватися генераторами випадкових чисел, так і вводиться із файлів. По-третє, є цілий арсенал засобів, спрямованих на інтерполяцію-екстраполяцію даних, побудова регресії за методом найменших квадратів, фільтрацію сигналів. Нарешті, реалізований ряд чисельних алгоритмів, що здійснюють розрахунок різних інтегральних перетворень, що дозволяє організувати спектральний аналіз різного типу.
Однак провідним пакетом статистичного аналізу є система STATISTICA, яка заснована на найсучасніших технологіях, повністю відповідає останнім досягненням в області IT, дозволяє вирішувати будь-які завдання в області аналізу і обробки даних, ідеально підходить для застосування в будь-якій області: маркетинг, фінанси, страхування, економіці , бізнесі, промисловості, медицині та ін Наприклад, рішення поставлених на початку статті завдань, може бути реалізовано на базі промислових модулів STATISTICA (карти контролю якості, планування експериментів, аналіз процесів).
1. Теоретичні відомості
1.1 Статистика. Види статистичного аналізу
Статистика - наука про збір, вимірюванні та аналізі масових кількісних даних. Статистичні дані завжди є наближеними, усередненими. Тому вони носять оціночний характер і для достовірності результатів необхідно велика кількість вихідних даних.
Існує кілька видів статистичного аналізу даних: кореляційний, регресійний, дисперсійний, факторний, кластерний та ін Розглянемо деякі з них.
Кореляційний аналіз
Іноді кореляцію і регресію розглядають як сукупний процес статистичного дослідження. Кореляційно-регресійний аналіз є одним із значущих методів побудови математичних моделей в економіці і вважається одним з головних методів у маркетингу.
Кореляція в широкому сенсі слова означає зв'язок між об'єктивно існуючими явищами.
Кореляційний аналіз - вид статистичного аналізу, який полягає в кількісній оцінці сили і напрямку зв'язку між двома (парна кореляція) або кількома (множинна кореляція) наборами даних. Для кількісної оцінки сили зв'язку використовуються коефіцієнти парної кореляції r і множинної кореляції R.
Коефіцієнт кореляції (безрозмірна величина) - кількісний показник лінійного зв'язку між двома або більше наборами даних, значення якого лежить в інтервалі від -1 до 1. Якщо коефіцієнт дорівнює ± 1, то зв'язок функціональна, якщо дорівнює 0, то зв'язок відсутній.
Для якісної оцінки сили зв'язку використовуються спеціальні табличні співвідношення (наприклад, шкала Чеддока, табл. 1)
Таблиця 1 - Шкала Чеддока
Значення коефіцієнта кореляції | Характер зв'язку |
| Дуже слабка |
| Слабка |
| Помітна |
| Сильна |
| Дуже сильна |
Напрямок зв'язку визначається знаками ±: близькість до +1 означає, що зростанню одного набору значень відповідає зростання іншого набору, близькість до -1 означає протилежне.
Для наочності вимірювання всіх зв'язків у разі множинної кореляції доцільно використовувати кореляційну матрицю - матрицю з попарних коефіцієнтів кореляції.
Регресійний аналіз
Регресійний аналіз - вид статистичного аналізу, який полягає у поданні залежності одних чинників від інших у вигляді деякої функції (рівняння регресії) за допомогою якої здійснюється прогнозування і пошук відповіді на питання «Що буде через якийсь час?» Або «Що буде, якщо ...? ».
У випадку парної регресії рівняння визначається за двом наборам даних, один з яких представляє значення залежної змінної y, а інший - незалежної змінної х. У разі множинної регресії рівняння визначається за кількома розділами даних, один з яких представляє значення залежної змінної y, а інші незалежними змінними х 1, х 2, ..., x m.
Отримання рівняння регресії відбувається в два етапи: підбір виду функції і обчислення параметрів функції.
Вибір функції, в більшості випадків, виробляються серед лінійної, квадратичної, степеневої та ін видів функцій (табл. 2). До функції пред'являються наступні вимоги: вона повинна бути досить простою для використання її у подальших обчисленнях і графік цієї функції повинен проходити поблизу експериментальних точок так, щоб сума квадратів відхилень y-координати всіх експериментальних точок від y-координат графіка функції була ба мінімальної (метод найменших квадратів).
Таблиця 2 - Види функцій, що застосовуються в регресійних моделях
Парна (проста) регресія |
Множинна регресія | |
Лінійна регресія | |
y = ax + b, | y = а 0 + a 1 x 1 + ... + a m x m |
Квадратична (параболічна) | |
y = ax 2 + bx + c | y = а 0 + a 1 x 1 2 + ... + a m x m 2 |
Степенева | |
y = ax b | y = а 0 x 1 a1 x 2 a2 ... x m am |
Логарифмічна y = alnx + b, | Гіперболічна y = а 0 + a 1 (1 / x 1) + ... + a m (1 / x m) |
Експоненціальна y = ae bx | |
де a, b, c - коефіцієнти парної регресії. | де а 0, a 1, a 2, ..., a m - Коефіцієнти множинної регресії, n - обсяг сукупності, m - кількість факторних ознак. |
? Який вид регресійного аналізу (парний або множинний) більшою мірою відповідає реальним умовам?
? Чи можна врахувати всі фактори х 1, х 2, ..., x m, ... у разі множинної кореляції?
Для кількісної оцінки точності побудови рівняння регресії призначений коефіцієнт детермінації R 2, рівний квадрату коефіцієнта кореляції і в якому зазначено, який відсоток зміни функції у пояснюється впливом факторів х k. Чим його значення ближче до 1, тим рівняння точніше описує досліджувану залежність.
Істотний рівняння (з R 2 близьким до 1) використовується, як правило, для прогнозування досліджуваного явища. Прогноз - це ймовірнісна судження про майбутнє, отримане шляхом використання сукупності наукових методів. Наприклад, прогнозування фінансового стану виконується для того, щоб отримати відповіді на два питання: «як це може бути (якими можуть стати фінансові показники, якщо не будуть вжиті заходи щодо їх зміни)» і «як це має бути (якими повинні стати фінансові показники фірми для того, щоб її фінансовий стан забезпечувало високий рівень конкурентоспроможності) ». Прогнозування з метою отримання відповіді на перше питання прийнято називати дослідним, на другий - нормативним.
Існує два способи прогнозів по рівнянню регресії: у межах експериментальних значень (інтерполяція) і за межами (екстраполяція). Застосовність всякої регресійної моделі обмежена, особливо за межами експериментальної області, тому що характер залежності може істотно змінитися. Тому достовірність дослідного прогнозу може бути невисокою. Проте його виконання повністю обгрунтовано.
1.2 Статистичний пакет STATISTICA
Так як статистичні методи знаходять широке застосування у всіх сферах виробництва, то ринок комп'ютерних технологій пропонує велику кількість прикладних програм, які дозволяють проводити такий аналіз. Велика кількість систем, творці яких стверджують, що їхня програма є найкращою для обробки даних, а також відсутність у більшості фахівців достатнього часу для освоєння декількох пакетів приводить до ускладнення процесу вибору. Однак, за даними statsoft.ru, лідером статистичних пакетів є STATISTICA.
Історія розвитку, області застосування
STATISTICA (американської компанії StatSoft, http://www.statsoft.com, StatSoft RUSSIA - російське представництво StatSoft) - система, що реалізує відомі методи статистичної обробки та візуалізації даних, управління базами даних та розробки користувальницьких додатків за допомогою вбудованої мови програмування Statistica Basic.
Пакет розроблений в 1984 р., і спочатку він був представлений у вигляді модуля для самої популярної у той час електронної таблиці Lotus. Як самостоятений продукт Statistica вперше заявила про себе в 1991 р. і з тих пір постійно займає лідируюче місце серед спеціалізованих пакетів зі статистики.
Завдяки широкому набір процедур аналізу STATISTICA застосовується у наукових дослідженнях, техніці, бізнесі. Також система добре зарекомендувала себе у страхуванні (наприклад, у страховій компанії РОСНО). STATISTICA широко використовується в навчальному процесі (у Московському державному університеті, наприклад, на механіко-математичному та економічному факультетах, в Московському інституті електроніки і математики на економічному факультеті та факультеті прикладної математики, в Московському економіко-статистичному інституті та ін.) Крім загальних статистичних і графічних засобів у системі є спеціалізовані модулі, наприклад, для проведення соціологічних або біомедичних досліджень, вирішення технічних і, що дуже важливо, промислових завдань: Карти контролю якості, Аналіз процесів та Планування експерименту. Модуль Карта контролю дозволяє автоматизувати процес контролю за якістю готової продукції, аналізувати причини появи відхилень від планових специфікацій. Statistica здійснює аналіз придатності (придатності процесів / механізмів), як однієї з найважливіших характеристик виробничого процесу. Обчислення показників (або індексів) придатності дозволяє дати відповідь на важливе питання: яка кількість виробів потрапляє в задані межі інженерного допуску?
Таким чином, STATISTICA є однією з найбільш простих для непідготовленого користувача систем, з найменшим періодом оволодівання її можливостями і вдалим набір графічних можливостей.
Інтерфейс, основні можливості
Набори файлів даних системи STATISTICA (розширення *. sta) можна розглядати як "робочі книги" файлів, оскільки вони містять і автоматично зберігають інформацію про всі додаткові файлах (наприклад, графіках, звітах і програмах), які використовуються з поточним набором даних.
STATISTICA використовує стандартний інтерфейс електронних таблиць. Поточний файл даних завжди відображається у вигляді електронної таблиці. Дані організовані у вигляді спостережень і змінних. Спостереження можна розглядати як еквівалент стовпців електронної таблиці. Кожне спостереження складається з набору значень змінної.
Рис. 1
Система складається з ряду модулів, які працюють незалежно. Кожен модуль включає певний клас процедур. Майже всі процедури є інтерактивними, тобто для запуску обробки необхідно вибрати з меню змінні і відповісти на ряд питань системи. Це дуже зручно для початківців, однак різко уповільнює діяльність досвідченого і не дозволяє ефективно повторювати одну й ту ж процедуру кілька разів.
Модулі та процедури
Описові статистики
Аналіз багатовимірних таблиць
Підгонка розподілів
Кореляційний аналіз
Регресійний аналіз (у тому числі і багатовимірний, нелінійний)
Дисперсійний аналіз
Кластерний аналіз
Дискримінантний аналіз
Факторний аналіз
Аналіз відповідностей
Багатомірне шкалювання
Аналіз виживаності
Структурні моделі
Дерева класифікацій
Прогнозування часових рядів
Непараметричні статистика
Аналіз Монте-Карло та ін
Види аналізу
Basic Statistics / Tables (Основні статистики і таблиці):
Advanced Linear / Nonlinear Models (прогресивні лінійні / нелінійні моделі):
Multivariate Exploratory Techniques (Багатовимірні Исслед. Методи):
Industrial Statistic and Six Sigma (промислова статистика і статистика 6-ти сигм):
Графічне представлення даних в STATISTICA
STATISTICA дозволяє будувати різні типи графіків:
Матричні графіки
ПіктографікіДіаграмми розсіювання
ГістограммиТернарние графіки
Карти ліній уровняКруговие діаграми
Категоризовать
Імовірнісні
Графіки поверхонь
Трасувальні
Комбіновані
Обертання і перспектива
Підгонка, згладжування, перерізу та ін:
Типи графіків в STATISTICA |
Види 2D графіків |
Види 3D графіків |
Види 3D ліній |
2. Статистичний аналіз економічних даних у STATISTICA
2.1 Практичне завдання 1. Кореляційно-регресійний аналіз в STATISTICA
Постановка завдання
Керівництво компанії за результатами виробничої діяльності 15 своїх філій у різних містах Росії аналізує фактори, що впливають на продуктивність праці (y) і припускає, що найважливішими з них є наступні:
x 1 - середньорічна вартість основних фондів, тис. руб.
х 2 - питома вага робітників високої кваліфікації в загальній чисельності робітників,%
х 3 - Трудомісткість одиниці продукції
х 4 - Середньорічна чисельність робітників
x 5 - Коефіцієнт змінності обладнання
x 6 - Питома вага втрат від браку
x 7 - Середньорічний фонд заробітної плати, тис. руб.
Були зібрані дані за останній рік (див. таб. 3).
Таблиця 3 - Вихідні дані
№ | Місто | y | х 1 | х 2 | х 3 | х 4 | x 5 | x 6 | x 7 |
1 | Москва | 14 | 101,03 | 35 | 0,4 | 15780 | 2,01 | 0,22 | 13002 |
2 | Санкт-Петербург | 14,02 | 98,54 | 36 | 0,42 | 14760 | 1,86 | 0,25 | 10145,6 |
3 | Нижній-Новгород | 7,03 | 49 | 17 | 1,83 | 630 | 0,95 | 0,5 | 5040,9 |
4 | Ульяновськ | 7,01 | 50 | 17 | 1,85 | 633 | 0,93 | 0,52 | 5027,39 |
5 | Пенза | 8,21 | 57,42 | 19 | 1,43 | 752 | 1,08 | 0,44 | 5903,3 |
6 | Самара | 10 | 70 | 24 | 1,01 |