Дослідження відвідуваності WEB сайту

Дослідження відвідуваності WEB сайту

Теоретична частина роботи

Основні завдання кореляційно-регресійного аналізу

Всі явища і процеси, що характеризують соціально-економічний розвиток і становлять єдину систему національних рахунків, тісно взаємопов'язані і взаємозалежні між собою.

У статистиці показники, що характеризують ці явища, можуть бути пов'язані або кореляційною залежністю, або бути незалежними Кореляційна залежність є окремим випадком стохастичної залежності, за якої зміна значень факторних ознак (х 1 х2 ..., хn) тягне за собою зміну середнього значення результативної ознаки .

Кореляційна залежність досліджується за допомогою методів кореляційного та регресійного аналізів.

Кореляційний аналіз вивчає взаємозв'язки показників і дозволяє вирішити такі завдання.

1. Оцінка тісноти зв'язку між показниками за допомогою парних, приватних і множинних коефіцієнтів кореляції

2. Оцінка рівняння регресії.

Основною передумовою застосування кореляційного аналізу є необхідність підпорядкування сукупності значень всіх факторних (х1 х2 .... хn) і результативного (У) ознак r-мірному нормальному закону розподілу або близькість до нього. Якщо обсяг досліджуваної сукупності досить великий (n> 50), то нормальність розподілу може бути підтверджена на основі розрахунку і аналізу критеріїв Пірсона, Боярського, Колмогорова, чисел Вастергарда і т. д. Якщо n <50, то закон розподілу вихідних даних визначається на базі побудови та візуального аналізу поля кореляції. При цьому якщо в розташуванні точок має місце лінійна тенденція, то можна припустити, що сукупність вихідних даних підкоряється нормальному розподілу.

Метою регресійного аналізу є оцінка функціональної залежності умовного середнього значення результативної ознаки (У) від факторних (х1. Х2 ..., хn).

Основною передумовою регресійного аналізу є те, що тільки результативна ознака (У) підпорядковується нормальному закону розподілу, а факторні ознаки х1. Х2 ..., хn можуть мати довільний закон розподілу. В аналізі динамічних рядів як факторного ознаки виступає час t При цьому в регресійному аналізі заздалегідь мається на увазі наявність причинно-наслідкових зв'язків між результативним (У) і факторними х1. Х2 ..., хn ознаками.

Рівняння регресії, або статистична модель зв'язку соціально-економічних явищ, що виражається функцією Y = f (х1. Х2 ..., хn) є досить адекватним реальному модельованого явища чи процесу в разі дотримання таких вимог їх побудови.

1. Сукупність досліджуваних вихідних даних повинна бути однорідною і математично описуватися безперервними функціями.

2. Можливість опису модельованого явища одним або кількома рівняннями причинно-наслідкових зв'язків.

3. Всі факторні ознаки повинні мати кількісне (цифрове) вираз.

4. Наявність досить великого обсягу досліджуваної вибіркової сукупності.

5. Причинно-наслідкові зв'язки між явищами і процесами слід описувати лінійної або приводиться до лінійної формою залежності.

6. Відсутність кількісних обмежень на параметри моделі зв'язку.

7. Сталість територіальної і часової структури досліджуваної сукупності.

Дотримання даних вимог дозволяє досліднику побудувати статистичну модель зв'язку, найкращим чином апроксимуючу модельований соціально-економічні явища і процеси.

Кореляція випадкових величин

Пряме токування терміна кореляція - стохастична, ймовірна, можливий зв'язок між двома (парна) або кількома (множинна) випадковими величинами.

Для числової оцінки можливого зв'язку між двома випадковими величинами: Y (із середнім My і середньоквадратичним відхиленням Sy) і - X (із середнім Mx і середньоквадратичним відхиленням Sx) прийнято використовувати так званий коефіцієнт кореляції

Rxy = Дослідження відвідуваності WEB сайту .

Цей коефіцієнт може набувати значення від -1 до +1 - залежно від тісноти зв'язку між даними випадковими величинами.

Якщо коефіцієнт кореляції дорівнює нулю, то X і Y називають некоррелірованнимі. Вважати їх незалежними звичайно немає підстав - виявляється, що існують такі, як правило - нелінійні зв'язки величин, при яких Rxy = 0, хоча величини залежать один від одного. Зворотне завжди вірно - якщо величини незалежні, то Rxy = 0. Але, якщо модуль Rxy = 1, то є всі підстави припускати наявність лінійного зв'язку між Y і X. Саме тому часто говорять про лінійної кореляції при використанні такого способу оцінки зв'язку між СВ.

В окремих випадках доводиться вирішувати питання про зв'язки декількох (більше 2) випадкових величин або питання про множинної кореляції.

Нехай X, Y і Z - випадкові величини, за спостереженнями над якими ми встановили їх середні Mx, My, Mz і середньоквадратичні відхилення Sx, Sy, Sz.

Тоді можна знайти парні коефіцієнти кореляції Rxy, Rxz, Ryz за наведеною вище формулою. Але цього явно недостатньо - адже ми на кожному з трьох етапів просто забували про наявність третьої випадкової величини! Тому у випадках множинного кореляційного аналізу іноді потрібно відшукувати т. н. приватні коефіцієнти кореляції - наприклад, оцінка виляння Z на зв'язок між X і Y проводиться за допомогою коефіцієнта

Rxy.z = Дослідження відвідуваності WEB сайту

І, нарешті, можна поставити питання - а який зв'язок між даною СВ і сукупністю інших? Відповідь на такі питання дають коефіцієнти множинної кореляції Rx.yz, Ry.zx, Rz.xy, формули для обчислення яких побудовані за тими ж принципами - обліку зв'язку однієї з величин з усіма іншими в сукупності.

На складності обчислень всіх описаних показників кореляційних зв'язків можна не звертати особливої уваги - програми для їх розрахунку досить прості і є в готовому вигляді в багатьох ППП сучасних комп'ютерів. Наприклад програмне забезпечення «Олімп» за допомогою якого проводиться ряд розрахунків у цій роботі.

Лінійна регресія

У тих випадках, коли з природи процесів у моделі або з даних спостережень над нею випливає висновок про нормальному законі розподілу двох СВ - Y і X, з яких одна є незалежною, тобто Y є функцією X, то виникає спокуса визначити таку залежність "формульно", аналітично.

У випадку успіху нам буде набагато простіше вести моделювання. Звичайно, найбільш привабливою є перспектива лінійної залежності типу Y = a + b · X.

Подібне завдання носить назву задачі регресійного аналізу і припускає наступний спосіб рішення.

Висувається наступна гіпотеза:

H0: випадкова величина Y при фіксованому значенні величини X розподілена нормально з математичним очікуванням

My = a + b · X і дисперсією Dy, що не залежить від X.

При наявності результатів спостережень над парами Xi і Yi попередньо обчислюються середні значення My і Mx, а потім проводиться оцінка коефіцієнта b у вигляді

b = Дослідження відвідуваності WEB сайту = Rxy

що випливає з визначення коефіцієнта кореляції. Після цього обчислюється оцінка для a у вигляді {2 - 16}

і виробляється перевірка значущості отриманих результатів. Таким чином, регресійний аналіз є потужним, хоч і далеко не завжди допустимим розширенням кореляційного аналізу, вирішуючи все ту ж задачу оцінки зв'язків в складній системі.

Тепер більш докладно розглянемо множинну або багатофакторну регресію. Нас цікавить тільки лінійна модель вигляду: Y = A0 + A1X1 + A2X2 + ... .. AkXk.

Вивчення зв'язку між трьома і більш пов'язаними між собою ознаками носить назву множинної (багатофакторної) регресії. При дослідженні залежностей методами множинної регресії завдання формулюється так само, як і при використанні парної регресії, тобто потрібно визначити аналітичний вираз зв'язку між результативною ознакою (У) і факторними ознаками (х1 х2, х3 ..., хn) знайти функцію: Y = f (х1. Х2 ..., хn)

Побудова моделей множинної регресії включає кілька етапів:

• вибір форми зв'язку (рівняння регресії):

• відбір факторних ознак:

• забезпечення достатнього обсягу сукупності для отримання незміщені оцінок.

Розглянемо докладніше кожен з них.

Вибір форми зв'язку ускладнюється тим, що, використовуючи математичний апарат, теоретично залежність між ознаками може бути виражена великою кількістю різних функцій.

Вибір типу рівняння ускладнений тим, що для будь-якої форми залежності вибирається цілий ряд рівнянь, які певною мірою будуть описувати ці зв'язки. Деякі передумови для вибору певного рівняння регресії отримують на основі аналізу попередніх аналогічних досліджень або на базі аналізу подібних робіт в суміжних галузях знань. Оскільки рівняння регресії будується головним чином для пояснення і кількісного вираження взаємозв'язків, воно повинне добре відображати склалися між досліджуваними чинниками фактичні зв'язку,

Найбільш прийнятним способом визначення виду вихідного рівняння регресії є метод перебору різних рівнянь.

Сутність даного методу полягає в тому, що велике число рівнянь (моделей) регресії, відібраних для опису зв'язків будь-якого соціально-економічного явища чи процесу, реалізується на ЕОМ за допомогою спеціально розробленого алгоритму перебору з подальшою статистичною перевіркою, головним чином на основі t- крнтерія Стьюдeнта і F-критерію Фішера. Спосіб перебору є досить трудомістким і пов'язаний з великим обсягом обчислювальних робіт. Практика побудови багатофакторних моделей взаємозв'язку показує, що все реально існуючі залежності між соціально-економічними явищами можна описати, використовуючи п'ять типів моделей:

лінійна: Y = A0 + A1X1 + .... AkXk

статечна

показова

параболічна

гіперболічна

Основне значення мають лінійні моделі в силу простоти та логічності їх економічної інтерпретації. Нелінійні форми залежності приводяться до лінійним шляхом лінеаризації.

Важливим етапом побудови вже обраного рівняння множинної регресії є відбір і подальше включення факторних ознак. Складність формування рівняння множинної регресії полягає в тому, що майже всі факторні ознаки знаходяться в залежності один від іншого. Проблема розмірності моделі зв'язку, тобто визначення оптимального числа факторних ознак, є однією з основних проблем побудови множини рівняння регресії. З одного боку, чим більше факторних ознак включено в рівняння, тим воно краще описує явище. Проте модель розмірністю 100 і більше факторних ознак складно реалізувати і вимагає великих витрат машинного часу. Скорочення розмірності моделі за рахунок виключення другорядних, економічно і статистично несуттєвих факторів сприяє простоті і якості її реалізації. У той же час побудова моделі регресії малої розмірності може призвести до того, що така модель буде недостатньо адекватна досліджуваних явищ і процесів. Проблема відбору факторних ознак для побудови моделей взаємозв'язку може бути вирішена на основі евристичних або багатовимірних статистичних методів аналізу.

Метод експертних оцінок як евристичний метод аналізу основних макроекономічних показників, що формують єдину міжнарод-, рідну систему розрахунків, заснований на інтуїтивно-логічних передумовах, змістовно-якісному аналізі. Аналіз експертної інформації проводиться на базі розрахунку і аналізу непараметричних показників зв'язку: рангових коефіцієнтів кореляції Спірмена, Кендалла і конкордації.

Найбільш прийнятним способом відбору факторних ознак є крокова регресія (кроковий регресійний аналіз). Суть методу крокової регресії полягає в послідовному включенні факторів в рівняння регресії і подальшій перевірці їх значимості. Фактори по черзі вводяться в рівняння так званим "прямим методом". При перевірці значимості введеного фактора визначається, наскільки зменшується сума квадратів залишків і збільшується величина множинного коефіцієнта кореляції. одночасно використовується і зворотний метод, тобто , Виключення факторів, що стали незначущими на основі t-критерію Стьюдента. Фактор є незначним, якщо його включення в рівняння регресії тільки змінює значення коефіцієнтів регресії, не зменшуючи суми квадратів залишків і не збільшуючи їх значення. Якщо при включенні в модель відповідного факторного ознаки величина множинного коефіцієнта кореляції збільшується, а коефіцієнт регресії не змінюється (або змінюється несуттєво), то дана ознака суттєво і його включення в рівняння регресії необхідно.

Якщо ж при включенні в модель факторного ознаки коефіцієнти регресії змінюють не лише величину, а й знаки, а множинний

коефіцієнт кореляції не зростає, то даний факторний ознака визнається недоцільним для включення в модель зв'язку.

Складність і взаємне переплетення окремих факторів, що обумовлюють досліджуване економічне явище (процес), можуть виявлятися в так званої мультиколінеарності. Під

мультиколінеарності розуміється тісна залежність між факторними ознаками, включеними в модель.

Наявність мультиколінеарності між ознаками призводить до:

• спотворення величини параметрів моделі, які мають тенденцію до завищення;

• зміни сенсу економічної інтерпретації коефіцієнтів регресії;

. слабкою зумовленості системи нормальних рівнянь;

. ускладнення процесу визначення найбільш істотних факторних ознак.

Одним з індикаторів визначення наявності мультиколінеарності між ознаками є перевищення парним коефіцієнтом кореляції величини 0,8.

Усунення мультиколінеарності може реалізовуватися через виключення з кореляційної моделі одного або декількох лінійно-пов'язаних факторних ознак або перетворення вихідних факторних ознак у нові, укрупнені фактори.

Питання про те, який з чинників слід відкинути, вирішується на підставі якісного та логічного аналізів досліджуваного явища.

Якість рівняння регресії залежить від ступеня достовірності та надійності вихідних даних та обсягу сукупності. Дослідник повинен прагнути до збільшення числа спостережень, тому що великий обсяг спостережень є однією з передумов побудови адекватних статистичних моделей.

Аналітична форма вираження зв'язку результативної ознаки і ряду факторних називається багатофакторним (множинним) рівнянням регресії, або моделлю зв'язку.

Рівняння лінійної множинної регресії має вигляд:

Y = A0 + A1X1 + .... AkXk

Коефіцієнти Аn обчислюються за допомогою систем нормальних рівнянь. Наприклад система нормальних рівнянь для обчислення коефіцієнтів регресії для рівняння лінійної регресії з двома факторними ознаками:

Дослідження відвідуваності WEB сайту

де An = an

Загальний вигляд нормальних рівнянь для розрахунку коефіцієнтів регресії:

Дослідження відвідуваності WEB сайту

Оцінка суттєвості зв'язку, прийняття рішення на основі рівняння регресії.

Перевірка адекватності моделей, побудованих на основі рівнянь регресії, починається з перевірки значимості кожного коефіцієнта регресії.

Значимість коефіцієнтів регресії здійснюється за допомогою

Дослідження відвідуваності WEB сайту
t-критерію Стьюдента:

- Дисперсія коефіцієнта регресії.

Параметр моделі визнається статистично значимим, якщо tp> tкр

Найбільш складним у цьому виразі є визначення дисперсії, яка може бути розрахована двояким способом.

Дослідження відвідуваності WEB сайту
Найбільш простий спосіб, вироблений методикою експериментування, полягає в тому, що величина дисперсії коефіцієнта регресії може бути наближено визначена за виразом:

- Дисперсія результативної ознаки:

k - число факторних ознак у рівнянні.

Найбільш складним етапом, завершальним регресійний аналіз, є інтерпретація рівняння, тобто переклад його з мови статистики та математики на мову економіста.

Інтерпретація моделей регресії здійснюється методами тієї галузі знань, до якої відносяться досліджувані явища. Але будь-яка інтерпретація починається зі статистичної оцінки рівняння регресії в цілому та оцінки значущості входять у модель факторних ознак, тобто зі з'ясування, як вони впливають на величину результативної ознаки. Чим більше величина коефіцієнта регресії, тим значніше вплив даної ознаки на модельований. Особливе значення при цьому має знак перед коефіцієнтом регресії. Знаки коефіцієнтів регресії говорять про характер впливу на результативну ознаку. Якщо факторний ознака має знак плюс, то зі збільшенням даного чинника результативний ознака зростає; якщо факторний ознака зі знаком мінус, то з його збільшенням результативний ознака зменшується. Інтерпретація цих знаків повністю визначається соціально-економічним змістом модельованого (результативного) ознаки. Якщо його величина змінюється в бік збільшення, то плюсові знаки факторних ознак мають позитивний вплив. При зміні результативного призна-л-1 в бік зниження позитивне значення мають мінусові знаки факторних ознак. Якщо економічна теорія підказує, що факторний ознака повинен мати позитивне значення, а він зі знаком мінус, то необхідно перевірити розрахунки параметрів рівняння регресії. Таке явище найчастіше буває в силу допущених помилок при рішенні. Проте слід мати на увазі, що при аналізі сукупного впливу факторів, за наявності взаємозв'язків між ними характер їх впливу може мінятися. Для того щоб бути впевненим, що факторний ознака змінив знак впливу, необхідна ретельна перевірка вирішення даної моделі, так як часто знаки можуть змінюватися в силу допустимих помилок при зборі або обробці інформації.

При адекватності рівняння регресії досліджуваного процесу можливі наступні варіанти.

1. Побудована модель на основі її перевірки за F-критерієм Фішера в цілому адекватна, і всі коефіцієнти регресії значущі. Така модель може бути використана для прийняття рішень до здійснення прогнозів.

2. Модель за F-критерієм Фішера адекватна, але частина коефіцієнтів регресії незначущі. У цьому випадку модель придатна для прийняття деяких рішень, але не для виробництва прогнозів.

3. Модель за F-критерієм Фішера адекватна, але всі коефіцієнти регресії незначущі. Тому модель повністю вважається неадекватною. на її основі не приймаються рішення і не здійснюються прогнози.

Практична частина роботи

1. Опис об'єкту

У нашому випадку об'єктом дослідження є сукупність спостережень за відвідуваністю WEB сайту Комітету у справах сім'єю та молоді Уряду м. Москви www.telekurs.ru / ismm. Тематика сайту - це надання соціально незахищеним верствам населення: молоді, студентам інформації про працевлаштування в Москві. Інформація щоденно оновлюється, приблизно 200 нових вакансій в день. Також на сайті міститься інформація про поточні програми уряду м. Москви спрямованих на підтримку зазначених вище категорій населення. Модельованим показником є N-кількість людей на день відвідали сайт.

2. Чинники формують моделируемое явище

Відбір факторів для моделі здійснюється у два етапи. На першому йде аналіз, за результатами якого дослідник робить висновок про необхідність розгляду тих чи інших явищ в якості змінних, що визначають закономірності розвитку досліджуваного процесу, на другому - склад попередньо відібраних факторів уточнюється безпосередньо за результатами статистичного аналізу.

Отримані дані за допомогою програми спостереження за комп'ютерною мережею (Net Medic, Net lab) є не зовсім точними, але досить близькі до реальних і з цього будемо вважати, що вони дають уявлення про характер процесу. (Отримання більш точних даних було для автора неможливо у зв'язку з недостатньою технічною базою) Із сукупності цих факторів я відібрав наступні:

Залежний фактор:

N-кількість людей на день відвідали сайт.

Для моделі в абсолютних показниках

Незалежні фактори:

P - Завантаженість внутрішньої мережі (осіб / день)

S - Швидкість обміну даними в мережі Кбіт / сек

V - Кількість вакансій на поточний день

B - Кількість «Банерів» - рекламних посилань на досліджуваний сайт.

Дані представлені в таблиці 1.

Таблиця 1

№ Об'єкту спостереження	N Кількість людей на день	P Завантаженість внутрішньої мережі (Осіб / ден)	S Швидкість обміну даними в мережі Кбіт / сек	V Кількість вакансій на поточний день.	B Кількість банерів
1	11	651	2627	165	4
2	18	1046	3045	400	4
3	19	944	2554	312	5
4	11	1084	4089	341	4
5	15	1260	6417	496	7
6	10	1212	4845	264	8
7	12	254	923	78	1
8	14	1795	9602	599	13
9	9	2851	12542	622	12
10	15	1156	6718	461	9

3. Аналіз матриці коефіцієнтів парних кореляцій

Таблиця 2

№ фактора	N	P	S	V	B
N	1.00	-0.22	-0.06	0.44	0.12
P	-0.22	1.00	0.91	0.68	0.74
S	-0.06	0.91	1.00	0.86	0.91
V	0.44	0.68	0.86	1.00	0.85
B	0.12	0.74	0.91	0.85	1.00

З таблиці 2 знаходимо тісно корелюють фактори. У наявності мультіколленіарность факторів P і S (0.91). Залишимо тільки один фактор P. І дійсно якщо швидкість в мережі висока то вона може без значних затримок у часі обробити значну кількість запитів від користувачів, значить чим більше швидкість в мережі тим більше в ній користувачів. Тим завантажені мережу.

4. Побудова рівняння регресії

Використовуючи програмне забезпечення «ОЛІМП» (яке в свою чергу використовує для розрахунків зазначені вище принципи і формули чим значно полегшує нам життя), знайдемо шукане рівняння множинної регресії, виключивши з розрахунків, як зазначалося вище, фактори S - швидкість мережі (осіб / день)

Шляхом перебору можливих комбінацій залишилися факторних ознак отримаємо таку модель:

Функція N = +12.567-0.005 * P +0.018 * V

Оцінки коефіцієнтів лінійної регресії

№	Значення	Дисперсія	Середньоквадратичне відхилення	Значення tрасч
1	12.57	2.54	1.59	7.88
2	-0.01	0	0	-3.60
3	0.02	0	0	4.07

Кpитические значення t-pаспpеделения пpи 8 ступенях свободи мають таке значення:

веpоятность t-значення

0.900 1.400

0.950 1.863

0.990 2.887

У нашій моделі | tрасч |> tкрітіч у всіх коефіцієнтів регресії значить можна стверджувати, що модель є адекватною модельованого явища, тобто гіпотеза про значущість рівняння не відкидається, про що говорять також дані видаються комп'ютером:

Характеристики залишків

Середнє значення ................... ... ... ... ... .. -0.000

Оцінка дисперсії ................... ... ... ... .... 3.6

Оцінка наведеної дисперсії ...... .... 4.95

Середній модуль залишків ........... ... ... ... 1.391

Відносна помилка апроксимації. 9.898

Критерій Дарбіна-Уотсона ........... ... .... 1.536

Коефіцієнт детермінації ........... ... ... 0.690

F - значення (n1 = 3, n2 = 8). ... ... .... 143

Гіпотеза про значимість рівняння не відкидається з імовірністю 0.950

5. Сенс моделі

При збільшенні кількості вакансій в день, кількість відвідали сайт людей буде збільшуватися. Це означає що в даний момент сайт не повністю задовольняє запити користувачів, що необхідно збільшити кількість вакансій, але у зв'язку зі сформованим в економіці Росії становищем це представляється проблематичним.

При збільшенні завантаженості внутрішньої мережі в якій розташований сервер містить досліджуваний сайт кількість людей відвідали сайт буде зменшаться через зниження швидкості доступу до нього а також з-за можливих перевантаженнях у вузлах мережі, у зв'язку з чим сервер містить сайт може не відповідати на запити користувачів . Також з перевантаженням пов'язані різні збої в роботі системи, що негативно позначається на роботі сайту. Коефіцієнт детермінації у лінійної моделі - 0.69. Це означає, що фактори, які увійшли в модель пояснюють зміну кількості відвідувачів сайту людей на 69%. Відтак значення отримані за допомогою лінійної моделі близькі до фактичних.

Список літератури

«Теорія статистики» підручник під редакцією проф. Р. А. Шмойловой Видавництво «Фінанси та статистика» 1996 р.