Лабораторна робота 4 з «Аналіз даних засобами Python»

Ім'я файлу: Лаб 4.docx
Розширення: docx
Розмір: 134кб.
Дата: 05.04.2024
скачати
Пов'язані файли:
Реферат_Етика_ділового_спілкування_Гончаренко.docx

НАЦІОНАЛЬНИЙ АЕРОКОСМІЧНИЙ УНІВЕРСИТЕТ

ім. М.Є. ЖУКОВСЬКОГО

«Харківський авіаційний інститут»

Кафедра аерокосмічних радіоелектронних систем

Лабораторна робота 4

з «Аналіз даних засобами Python» ,

(назва дисципліни)

на тему: ”Дослідження статистичних методів в Python "

Студента (ки) 3-го курсу 530-ст групи

Спеціальності 172 Телекомунікації та радіотехніка

Козирєв Д.В .

(прізвище та ініціали)

Перевірив: зав. кафедри 301 ______

Дергачев К.Ю.

(посада, вчене звання, науковий ступінь, прізвище та ініціали)

Національна шкала ________________

Кількість балів: __________Оцінка: ECTS _____

_______________________________ (підпис, дата) (прізвище та ініціали)

м. Харків – 2023 рік

Лабораторна робота №4

Тема: Дослідження статистичних методів в Python.

Завдання по роботі:

1. Виконати демонстраційні приклади із даними, сформованими особисто.

2. Для одного набору даних (згідно варіанту) отримати оцінку середнього значення, моди, медіани, середньоквадратичного відхилення та дисперсії.

3. У висновках пояснити різницю між оцінками середнього значення, моди та медіани, дати смислову оцінку величині дисперсії.

Хід роботи

Бібліотека statistics в Python надає набір функцій для елементарних статистичних обчислень. Розглянемо основні функції та їх призначення:

1. mean(data) - Обчислює середнє арифметичне значення для списку чисел.

data = [1, 2, 3, 4, 5]

mean_value = statistics.mean(data)

# Результат: 3.0
2. mode(data) - Знаходить моду (найчастіше зустрічається значення) для списку чисел. Якщо немає унікального модального значення, функція повертає StatisticsError.

data = [1, 2, 2, 3, 4, 4, 5]

mode_value = statistics.mode(data)

# Результат: 2
3. median(data) - Знаходить медіану для впорядкованого списку чисел. Медіана - це значення, що розділяє впорядкований список на дві рівні половини.

data = [1, 2, 3, 4, 5]

median_value = statistics.median(data)

# Результат: 3.0
4. stdev(data) - Обчислює стандартне відхилення для списку чисел, яке вказує на розкид даних від середнього значення.

data = [1, 2, 3, 4, 5]

stdev_value = statistics.stdev(data)

# Результат: 1.5811388300841898
5. variance(data) - Обчислює дисперсію для списку чисел. Дисперсія - це квадрат стандартного відхилення.

data = [1, 2, 3, 4, 5]

variance_value = statistics.variance(data)

# Результат: 2.5
Перейдемо до 1 пункту завдання. Виконати демонстраційні приклади із даними, сформованими особисто.

Створимо свої приклади та виведемо пояснення для кожного з них.

Простий приклад - Вік учасників

ages_simple = [22, 25, 28, 32, 35, 40, 42, 45, 48, 50]

В цьому прикладі ми маємо список віку учасників. При обчисленні статистики ми можемо отримати середній вік, моду (найбільш часто зустрічається значення), медіану (значення, яке розташоване посередині впорядкованого списку), середньоквадратичне відхилення та дисперсію.

Складний приклад - Дохід родин

incomes_complex = [45000, 60000, 75000, 55000, 80000, 90000, 70000, 95000, 120000, 110000]

У цьому прикладі ми маємо список доходів родин. Обчислення статистики для цього списку може допомогти визначити середній дохід, моду (наприклад, найпоширеніший діапазон доходів), медіану (середній дохід), середньоквадратичне відхилення та дисперсію.
Приклад з використанням рандому - Випадкові оцінки

grades_random = [random.randint(60, 100) for _ in range(20)]

У цьому прикладі ми створюємо список випадкових оцінок для 20 учнів, використовуючи модуль random. Подібні дані можуть бути корисними для вивчення рівня випадкової оцінки в групі студентів.
І ще один приклад - Кількість кроків за день

steps_another = [8000, 10000, 12000, 7500, 11000, 13000, 9000, 10500, 9500, 8000]

У цьому прикладі ми маємо дані про кількість кроків, пройдених людьми протягом дня. Статистика може допомогти нам зрозуміти середню кількість кроків, моду (наприклад, популярну кількість кроків), медіану, середньоквадратичне відхилення та дисперсію.
Далі створюємо функцію print_statistics, яка використовується для виведення статистичних параметрів.
def print_statistics(data, title):

mean = statistics.mean(data)

mode = statistics.mode(data)

median = statistics.median(data)

stdev = statistics.stdev(data)

variance = statistics.variance(data)
print("\n", title)

print("Середнє значення:", mean)

print("Мода:", mode)

print("Медіана:", median)

print("Середньоквадратичне відхилення:", stdev)

print("Дисперсія:", variance)
except statistics.StatisticsError as e:

print(f"\n{title} - Помилка в обчисленнях: {e}")
1. Функція та її аргументи:

- print_statistics - це функція, яка приймає два аргументи: data (список даних) та title (заголовок для виведення).
2. Обчислення статистичних параметрів:

- mean = statistics.mean(data) - обчислення середнього значення.

- mode = statistics.mode(data) - обчислення моди (якщо існує, інакше генерується виняток).

- median = statistics.median(data) - обчислення медіани.

- stdev = statistics.stdev(data) - обчислення середньоквадратичного відхилення.

- variance = statistics.variance(data) - обчислення дисперсії.
3. Виведення результатів:

- print("\n", title) - виведення заголовка з нового рядка.

- print("Середнє значення:", mean) - виведення середнього значення.

- print("Мода:", mode) - виведення моди.

- print("Медіана:", median) - виведення медіани.

- print("Середньоквадратичне відхилення:", stdev) - виведення середньоквадратичного відхилення.

- print("Дисперсія:", variance) - виведення дисперсії.
Ця функція розраховує та виводить основні статистичні параметри для заданого списку даних та надає інформацію про їхню центральну та варіаційну тенденції. Функція також обробляє виняток типу StatisticsError, якщо обчислення певних параметрів неможливі для даного набору даних.
Далі додаємо код для виведення результатів.
print_statistics(ages_simple, "Простий приклад - вік учасників")

print_statistics(incomes_complex, "Складний приклад - дохід родин")

print_statistics(grades_random, "Приклад з використанням рандому - випадкові оцінки")

print_statistics(steps_another, "Інший приклад - кількість кроків за день")
Результати:

2 пункт завдання. Для одного набору даних (згідно варіанту) отримати оцінку середнього значення, моди, медіани, середньоквадратичного відхилення та дисперсії.

Зробимо на основі 1 пункту. Додамо дані та виведення результатів.

# Задані дані
degrees = [156, 158, 148, 50, 60, 45, 10, 12, 44, 16]
speeds = [36, 250, 58, 100, 160, 163, 240, 158, 165, 50]
times = [20, 19, 24, 56, 28, 16, 18, 22, 16, 16]
stages = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Виведемо статистику для всіх прикладів
print_statistics(degrees, "Істинний курс, градус")
print_statistics(speeds, "Швидкість польоту, км/год")
print_statistics(times, "Час руху ЛА, хв")

Результати:

Висновки:
1. Середнє значення (Mean): Це сума всіх значень поділена на їхню кількість. Використовується для оцінки "типового" представника вибірки.

2. Мода (Mode): Це значення, яке найчастіше зустрічається в наборі даних. Мода особливо корисна для категоріальних даних.

3. Медіана (Median): Значення, яке розділяє набір даних на дві рівні половини. Медіана чутлива до викидів і часто використовується для визначення центрального тренду.

4. Дисперсія та Середньоквадратичне відхилення (Variance and Standard Deviation): Дисперсія вказує на ступінь розкиду даних навколо середнього значення. Середньоквадратичне відхилення - це квадратний корінь дисперсії і вказує на "типовий" розкид даних.

Різниця між оцінками:
- Середнє значення враховує всі значення і чутливе до викидів. Якщо вибірка має великі викиди, середнє значення може бути спотвореним.

- Мода найменше чутлива до викидів, але може бути визначена не для всіх видів даних.

- Медіана не чутлива до викидів і використовується для визначення центрального тренду в умовах великого розкиду значень.

- Дисперсія та Середньоквадратичне відхилення вказують на розкид даних. Чим вища дисперсія, тим більше розкид даних навколо середнього значення.

Смислова оцінка величини дисперсії:

Велика дисперсія вказує на великий розкид даних, тобто значення вибірки можуть значно відрізнятися від середнього значення. Мала дисперсія, навпаки, вказує на те, що значення тісно сгруповані навколо середнього. Таким чином, дисперсія надає нам інформацію про стабільність чи ризик розкиду значень у вибірці.

Висновок

В ході лабораторної роботи були проведені аналіз та оцінка основних статистичних показників для особисто сформованих даних.
1. Демонстраційні приклади:

Були використані особисто сформовані дані, які дозволили відобразити різноманітність ситуацій та розподілу значень.
2. Оцінка статистичних показників:

Для набору даних були отримані наступні оцінки:

- Середнє значення

- Мода

- Медіана

- Середньоквадратичне відхилення

- Дисперсія
3. Різниця між оцінками та їх смислова оцінка:

- Середнє значення (Mean): Вказує на "типовий" представник даних, але чутливе до викидів.

- Мода (Mode): Визначає найчастіше зустрічається значення і корисна для категоріальних даних.

- Медіана (Median): Вказує на центральний тренд і нечутлива до викидів.

- Дисперсія та Середньоквадратичне відхилення: Вказують на ступінь розкиду даних. Велика дисперсія означає значний розкид даних навколо середнього, що може вказувати на непостійність. Мала дисперсія свідчить про стабільність.
Отже, використання статистичних інструментів Python дозволяє систематизувати та аналізувати дані, отримуючи цінні відомості про їх розподіл та характеристики. Розуміння цих параметрів дозволяє зробити обґрунтовані висновки про властивості досліджуваного набору даних.
скачати

© Усі права захищені
написати до нас