«Паралельне виконання операцій над матрицями та векторами»

1 2 3 4 5 6 7 8 9

Ім'я файлу: Розраха.docx
Розширення: docx
Розмір: 845кб.
Дата: 12.08.2021
скачати
Пов'язані файли:
5.docx
Лаба 4_РТП_СЗІ_Кліщ Богдан.docx
Лаба 5_РТП_СЗІ_Кліщ.docx
Тести, статистика праці.docx
Реферат Лесько П.В. Авторське право ЕЛЕП-11.docx.doc
Індивідуальна нормативне.docx
lab2.docx
ЦЕРКВА РІЗДВА ПРЕСВЯТОЇ БОГОРОДИЦІ У САМБОРІ.docx
ШАБЕЛЬКО КУРСОВА.docx
Сучасні методики здорового харчування.docx
Звіт до БД 2.docx
звіт_від_ред.docx
lab_8_Kravets.docx
Сєрий.docx
Сенсорне виховання.doc
СПЗ_ЛАБ_1.docx
lab5_бд.docx
Фізика5 Моя лаба.doc
Вебинар англ.docx
5.docx
ЛР 3 ФДП.docx
Методичка до ПЗ №5-6.doc
зразок РГР 2021 (1).docx
курсова 1.docx
Міністерство_освіти_та_науки_України_PI.docx
Контрольна робота Павло Коцаба.docx
Метод Баркера.docx
Grej_R._S.docx
знайомий реферат.docx
ОКРО.docx
Zvit№1ПСМ.doc

Міністерство освіти і науки, молоді та спорту України

Національний університет «Львівська політехніка»
Кафедра ЕОМ

Розрахункова робота

з дисципліни:

«Паралельні та розподілені обчислення»

на тему:

«Паралельне виконання операцій над матрицями та векторами»

Виконав:

Студент групи КІ-36

Чинков М.Д.

Прийняв:

Козак Н.Б.

Львів – 2021

Анотація

В даній розрахунковій роботі розроблено алгоритм паралельного перемноження матриць на структурі з восьми процесорів. Завантаження даних відбувається для всіх процесорів з одного елемента пам’яті. Вхідні матриці мають розмірності А(290*168) та В(168*349).

Робота складається з розрахунку часових характеристик алгоритму, розробки функціональної схеми алгоритму та програмної реалізації. Відповідно до часових затрат паралельного алгоритму визначено його ефективність відносно послідовного.

Програмно, алгоритм реалізований на С++ з простим інтуєтивним інтерфейсом, та з використанням MPI.

Зміст

Анотація 2

Зміст 3

1.Розрахунок варіанту 5

2.Теоретичний розділ 6

3.Розробка функціональної схеми 10

4.Розрахунковий розділ 11

Завантаження (T_z): 11

Обчислення: 12

Вивантаження (T_w): 13

Загальний час роботи (Т): 13

Умовний час виконання послідовного алгоритму 14

Час завантаження (T_z): 14

Час вивантаження (T_w): 14

Час операції пересилання (T_P): 14

Час обчислення (T_us): 14

Загальний час роботи (Т): 14

5.Результат моделювання роботи 15

Висновки: 23

Додаток А (код до МРІ проекту) 24

Header.h: 24

file.cpp: 24

input.cpp: 26

main.cpp: 29

} 30

Operations.cpp: 30

P0.cpp: 30

P1.cpp: 32

P2.cpp: 34

P3.cpp: 36

P4.cpp: 39

P5.cpp: 41

P6.cpp: 43

P7.cpp: 45

types.cpp: 47

Додаток В (код до послідовного розв’язання) 47

Header.h: 47

file.cpp: 48

input.cpp: 49

main.cpp: 50

Operations.cpp: 50

P0.cpp: 51

types.cpp: 51

Розрахунок варіанту

Вхідні дані студента:
Чинков Михайло Денисович

КІ – 36

1809213 (номер залікової)

Розробити схему та описати процедуру перемноження матриці А (розмірністю N1*N2) на матрицю В (розмірністю N2*N3) на структурі з восьми процесорів. Для цієї структури визначити час виконання алгоритму, відсоток послідовної частини алгоритму та ефективність алгоритму.

N1 = 290, N2 = 168, N3 = 349 Отже маємо матрицю А(290*168) та матрицю В(168*349)

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22
Ч	И	Н	К	О	В	М	И	Х	А	Й	Л	О	Д	Е	Н	И	С	О	В	И	Ч
8	7	2	3			1		6		4				5

Отримаємо - МНКЙЕХИЧ

Таблиця 1. Кодування букв

7	3	4	11	15	9	2	1
М	Н	К	Й	Е	Х	И	Ч
43	134	47	146	171	127	91	49
0010 1011	1000 0110	0010 1111	1001 0010	1010 1011	0111 1111	0101 1011	0011 0001

Таблиця 2. Матриця суміжності

	0	1	2	3	4	5	6	7
0	0	0	1	0	1	0	1	1
1	1	0	0	0	0	1	1	0
2	0	0	0	0	1	1	1	1
3	1	0	0	0	0	0	1	0
4	1	0	1	0	0	0	1	1
5	0	1	1	1	1	0	1	1
6	0	1	0	1	1	0	0	1
7	0	0	1	1	0	0	0	0

Type = (

_i)mod3 + 1=(1+8+9+2+1+3)mod3+1=24mod3 + 1 = 1

z = 1809213 (номер залікової книжки)

Type = 1 спільна пам’ять.

t_U= 10*t_S= 3*t_P= 2*t_Z= 4*t_W

Таблиця 3. Часові параметри

Співвідношення часових параметрів	Пояснення
t_u = 4*t_w	час виконання однієї операції множення
t_s = 4*t_w/10	час виконання однієї операції сумування
t_p = 4*t_w/3	час виконання однієї операції пересилання даних між процесорами
t_z = 2*t_w	час виконання операції завантаження одних даних
t_W	час виконання операції вивантаження одних даних

Теоретичний розділ

Особливості використання технології паралельного програмування Message Passing Interface (MPI).

MPI - бібліотека функцій, яка забезпечує взаємодію паралельних процесів за допомогою механізму передачі повідомлень і не має ніяких засобів для розподілення процесів по обчислювальних вузлах і для запуску їх на виконання. МРІ не містить механізмів динамічного створення і знищення процесів під час виконання програми.

Для ідентифікації наборів процесів вводиться поняття групи і комунікатора.

Процеси об’єднуються в групи, можуть бути вкладені групи. Усередині групи всі процеси понумеровані. З кожною групою асоційований свій комунікатор. Тому при здійсненні пересилок необхідно вказати ідентифікатор групи, усередині якої проводиться це пересилка.

Процедури МРІ:

- ініціалізації та закриття МРІ –процесів;

- реалізації комутаційних операцій типу “точка-точка”;

- реалізації колективних операцій;

- для роботи з групами процесів і комунікаторами;

- для роботи з структурами даних;

- формування топології процесів.

До базових функцій МРІ відносяться:

ініціалізація МРІ;
завершення МРІ;
визначення кількості процесів в області зв’язку;
визначення номеру процесу, який виконується;
передача повідомлень;
приймання повідомлень;
функції відліку часу.

Кожна МРІ – функція характеризується способом виконання.

Локальна функція – виконується всередині процесу, що її викликав. Її завершення не вимагає комунікацій.
Нелокальна функція – для її завершення необхідно виконати МРІ – процедуру іншим процесом.
Глобальна функція – процедуру повинні виконати всі процеси групи. Невиконання цієї умови може привести до “зависання” задачі.
Блокуюча функція – повернення керування з процедури гарантує можливість повторного використання параметрів, які приймали участь у виклику. Ніякої змін в стан процесу, що викликав блокуючий запит до виходу з процедури не може відбуватися.

Неблокуюча функція – повернення з процедури відбувається негайно, без очікування завершення операції. Завершення неблокуючих операцій здійснюється спеціальними функціями.
Операції обміну повідомленнями

Розглянемо: режими обміну, обмін типу “точка-точка”, колективний обмін, способи реалізації моделі передачі повідомлень.

Режими обміну:

В загальному випадку є чотири режими обміну: асинхронний (стандартний), синхронний, з буферизацією, по “готовності”.

Обмін типу “точка-точка” – найпростіша форма обміну повідомленнями, в якій приймають участь тільки два процеси: джерело і адресат. Є кілька різновидностей двохточкового обміну:

синхронний обмін – супроводжується повідомленням про завершення прийому повідомлення;
асинхронний обмін – таким повідомленням не супроводжується;
блокуючі прийом/передача – призупиняють виконання процесу на час приймання повідомлення. Організація блокуючого обміну повідомленнями наведена на рис.2.7;
неблокуючі прийом/передача - виконання процесу продовжується в фоновому режимі, а програма в потрібний момент може запитати підтвердження завершення приймання повідомлення. Організація неблокуючого обміну повідомленнями наведена на рис.2.8.

Неблокуючий обмін вимагає акуратності при виконанні функцій прийому. Оскільки неблокуючий прийом завершується негайно, для системи неважливо, чи прибуло повідомлення до місця призначення чи ні. Переконатися про це можна за допомогою функції перевірки отримання повідомлення. Звичайно виклик таких функцій розміщується в циклі, який повторюється до тих пір, доки функція перевірки не поверне значення “істина” (перевірка отримання пройшла успішно). Після цього можна викликати функцію прийому повідомлення з буферу повідомлень.

Рис.2.7. Блокуючий обмін повідомленнями

Рис.2.8. Неблокуючий обмін повідомленнями

Колективний обмін . В операціях використовуються не два а більше процесів. Різновидностями обміну є:

широкосмугова передача – передача виконується від одного процесу до всіх;
обмін з бар’єром – форма синхронізації роботи процесів, коли обмін повідомленнями проходить тільки після того, як до певної процедури звернулась певна кількість процесів;
операції приведення – вхідними є дані кількох процесів, а результат – одне значення, яке стає доступним всі процесам, які приймали участь в обміні.

Важливою властивістю системи передачі повідомлень є гарантія збереження порядку прийому повідомлень (при відправленні одним процесом іншому кількох повідомлень вони повинні бути прийняті в тій самій послідовності в якій були відправлені). Більшість реалізацій моделі передачі повідомлень забезпечують цю властивість, але не у всіх режимах обміну.

Паралельна система складається з певної кількості процесорів та модулів пам’яті. В даному випадку це структура з 8 процесорів та спільна пам’ять.

Множення матриці на матрицю або матриці на вектор є базовими мікроопераціями різних задач. Для їх реалізації використовують різні алгоритми та різні структури.

Для вирішення цієї задачі використовується алгоритм, при якому матриця А розбивається на 8 горизонтальних смуг, а матриця В – на 8 вертикальних, в такому разі матриця результату буде складатись з 8 горизонтальних смуг (рис.1.1)

Рис. 1.1 Розбиття матриць

Кожний процес зчитує з пам’яті відповідну підматрицю А та підматрицю В. Після того як процесор помножив під матрицю А на підматрицю В, він обмінюється з іншим процесором підматрицею В. Підматриця А завжди знаходиться у відповідному процесорі, а підматриці В рухаються по всіх процесорах. Отже кожен процес повинен помножити відповідну підматрицю А на всі підматриці В. В результаті всіх множень у пам’яті буде результуюча матриця. Однак обмін підматрицями В між процесорами відбувається не в довільному порядку. Схема обміну відображена у графі (рис. 1.3).

Рис. 1.2 Граф обміну даними між процесорами

Рис. 1.3. Кільцевий граф для обміну підматрицями В0-В7

Розробка функціональної схеми

Процес0	Процес7	Процес2	Процес4	Процес6	Процес1	Процес5	Процес3
Завантаження
Z(A0,B0)								t0
	Z(A7,B7)							t1
		Z(A2,B2)						t2
			Z(A4,B4)					t3
				Z(A6,B6)				t4
					Z(A1,B1)			t5
						Z(A5,B5)		t6
							Z(A3,B3)	t7
Множення
M(A0;B0)	M(A7;B7)	M(A2;B2)	M(A4;B4)	M(A6;B6)	M(A1;B1)	M(A5;B5)	M(A3;B3)	t8
P(B0)→7 O(B3)←3	P(B7)→2 O(B0)←0	P(B2)→4 O(B7)←7	P(B4)→6 O(B2)←2	P(B6)→1 O(B4)←4	P(B1)→5 O(B6)←6	P(B5)→3 O(B1)←1	P(B3)→0 O(B5)←5	t9
M(A0;B3)	M(A7;B0)	M(A2;B7)	M(A4;B2)	M(A6;B4)	M(A1;B6)	M(A5;B1)	M(A3;B5)	t10
P(B3)→7 O(B5)←3	P(B0)→2 O(B3)←0	P(B7)→4 O(B0)←7	P(B2)→6 O(B7)←2	P(B4)→1 O(B2)←4	P(B6)→5 O(B4)←6	P(B1)→3 O(B6)←1	P(B5)→0 O(B1)←5	t11
M(A0;B5)	M(A7;B3)	M(A2;B0)	M(A4;B7)	M(A6;B2)	M(A1;B4)	M(A5;B6)	M(A3;B1)	t12
P(B5)→7 O(B1)←3	P(B3)→2 O(B5)←0	P(B0)→4 O(B3)←7	P(B7)→6 O(B0)←2	P(B2)→1 O(B7)←4	P(B4)→5 O(B2)←6	P(B6)→3 O(B4)←1	P(B1)→0 O(B6)←5	T13
M(A0;B1)	M(A7;B5)	M(A2;B3)	M(A4;B0)	M(A6;B7)	M(A1;B2)	M(A5;B4)	M(A3;B6)	t14
P(B1)→7 O(B6)←3	P(B5)→2 O(B1)←0	P(B3)→4 O(B5)←7	P(B0)→6 O(B3)←2	P(B7)→1 O(B0)←4	P(B2)→5 O(B7)←6	P(B4)→3 O(B2)←1	P(B6)→0 O(B4)←5	t15
M(A0;B6)	M(A7;B1)	M(A2;B5)	M(A4;B3)	M(A6;B0)	M(A1;B7)	M(A5;B2)	M(A3;B4)	t16
P(B6)→7 O(B4)←3	P(B1)→2 O(B6)←0	P(B5)→4 O(B1)←7	P(B3)→6 O(B5)←2	P(B0)→1 O(B3)←4	P(B7)→5 O(B0)←6	P(B2)→3 O(B7)←1	P(B4)→0 O(B2)←5	t17
M(A0;B4)	M(A7;B6)	M(A2;B1)	M(A4;B5)	M(A6;B3)	M(A1;B0)	M(A5;B7)	M(A3;B2)	t18
P(B4)→7 O(B2)←3	P(B6)→2 O(B4)←0	P(B1)→4 O(B6)←7	P(B5)→6 O(B1)←2	P(B3)→1 O(B5)←4	P(B0)→5 O(B3)←6	P(B7)→3 O(B0)←1	P(B2)→0 O(B7)←5	t19
M(A0;B2)	M(A7;B4)	M(A2;B6)	M(A4;B1)	M(A6;B5)	M(A1;B3)	M(A5;B0)	M(A3;B7)	t20
P(B2)→7 O(B7)←3	P(B4)→2 O(B2)←0	P(B6)→4 O(B4)←7	P(B1)→6 O(B6)←2	P(B5)→1 O(B1)←4	P(B3)→5 O(B5)←6	P(B0)→3 O(B3)←1	P(B7)→0 O(B0)←5	t21
M(A0;B7)	M(A7;B2)	M(A2;B4)	M(A4;B6)	M(A6;B1)	M(A1;B5)	M(A5;B3)	M(A3 ;B0)	t22
Вивантаження
W(C0)								t23
					W(C1)			t24
		W(C2)						t25
							W(C3)	t26
			W(C4)					t27
						W(C5)		t28
				W(C6)				t29
	W(C7)							t30

Розрахунковий розділ

Дані обраховуються для процесорів з типом завантаження пам’яті «спільна

пам’ять».

Час завантаження це сумарний час завантаження усіма процесорами по одній підматриці А та В.

t_U= 10*t_S= 3*t_P= 2*t_Z= 4*t_W

Для проведення розрахунків вводяться додаткові параметри:

n1 ─ кількість рядків підматриці А;

n2 ─ кількість стовпців підматриці В;
Завантаження (T_z):

t_n – це певний такт, який зображено на функціональній схемі.

t₀= (36*168+168*43)*t_z = 13272*t_z;

t₁= (38*168+168*48)*t_z = 14448*t_z;

t₂= (36*168+168*43)*t_z = 13272*t_z;

t₃= (36*168+168*43)*t_z = 13272*t_z;

t₄= (36*168+168*43)*t_z = 13272*t_z;

t₅= (36*168+168*43)*t_z = 13272*t_z;

t₆= (36*168+168*43)*t_z = 13272*t_z;

t₇= (36*168+168*43)*t_z = 13272*t_z;

Загальний час завантаження:

T_z = t₀ + t₁ + t₂ + t₃ + t₄ + t₅ + t₆ + t₇ = 13272*7 + 14448= 107352*t_z = 214704*t_w;

Обчислення:

Множення та сумування:

(MAX) – вибираємо підматрицю, в якої найбільша кількість стовпців або рядків.

T_u = (n1(MAX)*N2*n2(MAX))

T_s = (n1(MAX)*n2(MAX)*(N2-1))

t₈ = (38*168*48)*t_u + (38*48*167)*t_s = 306432*t_u + 304608*t_s = 1225728*t_w + 121843.2*t_w = 1347571.2*t_w;

t₁₀ = (38*168*48)*t_u + (38*48*167)*t_s = 306432*t_u + 304608*t_s = 1225728*t_w + 121843.2*t_w = 1347571.2*t_w;

t₁₂ = (38*168*48)*t_u + (38*48*167)*t_s = 306432*t_u + 304608*t_s = 1225728*t_w + 121843.2*t_w = 1347571.2*t_w;

t₁₄ = (38*168*48)*t_u + (38*48*167)*t_s = 306432*t_u + 304608*t_s = 1225728*t_w + 121843.2*t_w = 1347571.2*t_w;

t₁₆ = (38*168*48)*t_u + (38*48*167)*t_s = 306432*t_u + 304608*t_s = 1225728*t_w + 121843.2*t_w = 1347571.2*t_w;

t₁₈ = (38*168*48)*t_u + (38*48*167)*t_s = 306432*t_u + 304608*t_s = 1225728*t_w + 121843.2*t_w = 1347571.2*t_w;

t₂₀ = (38*168*48)*t_u + (38*48*167)*t_s = 306432*t_u + 304608*t_s = 1225728*t_w + 121843.2*t_w = 1347571.2*t_w;

t₂₂ = (38*168*48)*t_u + (38*48*167)*t_s = 306432*t_u + 304608*t_s = 1225728*t_w + 121843.2*t_w = 1347571.2*t_w;
Час множення та сумування загальний (T_u):

T_us = t₈ + t₁₀+ t₁₂+ t₁₄+ t₁₆+ t₁₈+ t₂₀+ t₂₂= 8 * 1347571.2*t_w = 10780569.6*t_w;
Час операції пересилання (Т_р):

Т_р = (N2*n2(MAX))

t₉ = (168*48)*t_p = 8064*t_p = 10752*t_w;

t₁₁ = (168*48)*t_p = 8064*t_p = 10752*t_w;

t₁₃ = (168*48)*t_p = 8064*t_p = 10752*t_w;

t₁₅ = (168*48)*t_p = 8064*t_p = 10752*t_w;

t₁₇ = (168*48)*t_p = 8064*t_p = 10752*t_w;

t₁₉ = (168*48)*t_p = 8064*t_p = 10752*t_w;

t₂₁ = (168*48)*t_p = 8064*t_p = 10752*t_w;
Загальний час пересилання:

Т_р = t₉ + t₁₁ + t₁₃ + t₁₅ + t₁₇ + t₁₉ + t₂₁ = 7 * 10752*t_w = 75264*t_w;

Загальний час обчислення:

T_usp = 10780569.6*t_w+ 75264*t_w = 10855833.6*t_w;

Вивантаження (T_w):

T_w = (n1*n2)

Час операції вивантаження ─ це час запису до пам'яті відповідних для кожного процесора результуючих підматриць.

t₂₃ = (36*43)*t_w = 1548*t_w;

t₂₄ = (36*43)*t_w = 1548*t_w;

t₂₅ = (36*43)*t_w = 1548*t_w;

t₂₆ = (36*43)*t_w = 1548*t_w;

t₂₇ = (36*43)*t_w = 1548*t_w;

t₂₈ = (36*43)*t_w = 1548*t_w;

t₂₉ = (36*43)*t_w = 1548*t_w;

t₃₀ = (38*48)*t_w = 1824 * t_w;
Загальний час вивантаження (T_w):

T_w = t₂₃ + t₂₄ + t₂₅ + t₂₆ + t₂₇ + t₂₈ + t₂₉ + t₃₀ = 12660*t_w;
Загальний час роботи (Т):

T = T_z + T_usp + T_w

T = 214704*t_w+ 10855833.6*t_w + 12660*t_w = 11083197.6*t_w.

Умовний час виконання послідовного алгоритму

Час завантаження (T_z):

Час завантаження ─ це час вичитки з пам'яті матриць А та B.

T_z= (N1*N2+N2*N3);

T_z = (290*168+168*349)*t_z = 107352*t_z = 214704*t_w;

Час вивантаження (T_w):

Час завантаження ─ це час запису до пам'яті результуючої матриці С з відповідними розмірами (N1хN3).

T_w= (N1*N3);

T_w = (290*349)*t_w = 101210*t_w;

Час операції пересилання (T_P):

Пересилань ніяких не буде, тому час пересилання T_Pпос = 0.

Час обчислення (T_us):

T_u = (N1*N2*N3)*t_u = (290*168*349) *t_u = 17003280*t_u = 68013120*t_w;

T_s = (N1*(N2-1)*N3)*t_s = (290*167*349)*t_s = 16902070*t_s = 6760828*t_w;

T_us = 68013120*t_w+ 6760828*t_w = 74773948*t_w;

Загальний час роботи (Т):

T = T_z + T_us + T_w = 214704*t_w + 74773948*t_w + 101210*t_w = 75089862*t_w.

Ефективність визначається як відношення часу виконання алгоритму на однопроцесорній системі, до часу потрібного для виконання на багатопроцесорній системі, помноженого на кількість процесорів в ній.

E = T_ПОС / (T * P) = 75089862/(11083197.6*8) ≈ 0,846.

Результат моделювання роботи

Запускаємо виконавчий файл проекту в папці Debug через mpiexec в консолі для моделювання 8 процесів.

Тепер можна вибрати, щоб програма згенерувала матриці або вписати цифру/число вручну для заповнення всієї матриці. Незалежно від вибору генерація, в консоль буде виводитися послідовний порядок зчитування зі спільної пам’яті.

Якщо вибрати автоматичну генерацію, то потім треба прописати діапазон чисел, в якому будуть створюватися елементи матриць. Тут можна спостерігати процес обміну даними між процесами.

В один момент процеси, по закінченню своєї роботи, починають виводити час виконання всіх дій. В самому кінці виводиться в консоль загальний час.

Елементи пам’яті реалізовані завдяки одному текстовому файлу. Відкриваючи його, можна спостерігати результат генерації матриць та їх обчислення.

Нижче буде приведено набір зображень, які ілюструють роботу програми для набору даних з одиницями.

Далі буде представлено зображення роботи програми для послідовного алгоритму множення матриць. Послідовний алгоритм виходить швидше за часом, бо обмін даними в МРІ проекті займає багато часу.

1 2 3 4 5 6 7 8 9

скачати

Анотація

Зміст

Час завантаження (Tz):

Час вивантаження (Tw):

Час операції пересилання (TP):

Час обчислення (Tus):

Загальний час роботи (Т):

Час завантаження (T_z):

Час вивантаження (T_w):

Час операції пересилання (T_P):

Час обчислення (T_us):