Аналіз ефективності MPI-програм

виправити

Зміст

1.Вступ.

2. Огляд існуючих моделей паралельного програмування.

3. Огляд засобів налагодження ефективності MPI-програм

3.1 Загальні проблеми всіх коштів трасування.

3.2 Огляд основних засобів налагодження.

3.2.1 AIMS - Automated Instrumentation and Monitoring System

3.2.2 Vampir, VampirTrace

3.2.3 Jumpshot

3.2.4 Pablo Performance Analysis Toolkit Software

3.2.5 Paradyn

3.2.6 CXperf

4. Характеристики та методика налагодження DVM-програм.

4.1 Основні характеристики продуктивності

4.2 Методика налагодження ефективності

4.3 Рекомендації з аналізу.

5. Засіб аналізу ефективності MPI програм.

5.1. Постановка завдання.

5.2 Етапи роботи аналізатора.

5.3 Пристрій аналізатора.

5.3.1 Збір траси

5.3.2 Аналіз.

5.3.3 Візуалізація

Висновок.

Список літератури

Додаток 1.

Додаток 2.

1.Вступ

Сьогодні неможливо уявити собі ефективну організацію роботи без застосування комп'ютерів у таких областях, як планування та управління виробництвом, проектування і розробка складних технічних пристроїв, видавнича діяльність, освіта - словом, у всіх областях, де виникає необхідність в обробці великих обсягів інформації. Однак найбільш важливим, як і раніше залишається використання їх у тому напрямку, для якого вони власне й створювалися, а саме, для вирішення великих завдань, що вимагають виконання величезних обсягів обчислень. Такі задачі виникли в середині минулого століття в зв'язку з розвитком атомної енергетики, авіабудування, ракетно-космічних технологій та ряду інших галузей науки і техніки.

У наш час коло завдань, що вимагають для свого рішення застосування потужних обчислювальних ресурсів, ще більш розширився. Це пов'язано з тим, що відбулися фундаментальні зміни в самій організації наукових досліджень. Внаслідок широкого впровадження обчислювальної техніки значно посилився напрямок чисельного моделювання і чисельного експерименту. Чисельне моделювання, заповнюючи проміжок між фізичними експериментами і аналітичними підходами, дозволило вивчати явища, які є або занадто складними для дослідження аналітичними методами, або занадто дорогими, або небезпечними для експериментального вивчення. При цьому чисельний експеримент дозволив значно здешевити процес наукового і технологічного пошуку. Стало можливим моделювати в реальному часі процеси інтенсивних фізико-хімічних і ядерних реакцій, глобальні атмосферні процеси, процеси економічного та промислового розвитку регіонів і т.д. Очевидно, що вирішення таких масштабних завдань вимагає значних обчислювальних ресурсів [12].

Обчислювальний напрямок застосування комп'ютерів завжди залишалося основним двигуном прогресу в комп'ютерних технологіях. Не дивно тому, що в якості основної характеристики комп'ютерів використовується такий показник, як продуктивність - величина, що показує, яку кількість арифметичних операцій він може виконати за одиницю часу. Саме цей показник з найбільшою очевидністю демонструє масштаби прогресу, досягнутого в комп'ютерних технологіях.

В даний час головним напрямком підвищення продуктивності ЕОМ є створення багатопроцесорних систем з розподіленою пам'яттю. Створення прикладних програм для подібних розподілених систем наштовхується на ряд серйозних труднощів. Розробка паралельної програми вимагає вибору або створення підходящого обчислювального методу. При цьому для досягнення необхідної ефективності доводиться багато разів проходити шлях від специфікації алгоритму до програми на мові програмування, який для паралельних обчислювальних систем виявляється набагато складнішим, ніж для послідовних.

При переході від одного процесора до кількох різко зростає складність програмування. І багато традиційні підходи тут вже не працюють. Причому якщо на мультипроцессорной системі досить правильно розподілити обчислення, то у випадку розподіленої системи необхідно ще розподілити дані, і найголовніше, потрібно, щоб розподіл даних і обчислень було узгодженим.

Однією з ключових проблем є проблема ефективності комп'ютерної програми. Важливо бачити, який ефект дає розпаралелювання нашої програми і що можна зробити, щоб максимізувати цей ефект.

Ефективність виконання паралельних програм на багатопроцесорних ЕОМ з розподіленою пам'яттю визначається наступними основними факторами:

ступенем розпаралелювання програми - часткою паралельних обчислень в загальному обсязі обчислень;
рівномірністю завантаження процесорів під час виконання паралельних обчислень;
часом, необхідним для виконання міжпроцесорних обмінів;
ступенем суміщення міжпроцесорних обмінів з обчисленнями;
ефективністю виконання обчислень на кожному процесорі (а вона може змінюватись значно залежно від ступеня використання кеша).

Методи і засоби налагодження продуктивності паралельної програми істотно залежать від тієї моделі, в рамках якої розробляється паралельна програма.

2. Огляд існуючих моделей паралельного програмування

Для організації доступу до даних на багатопроцесорних ЕОМ потрібна взаємодія між її процесорами. Ця взаємодія може відбуватися або через спільну пам'ять, або через механізм передачі повідомлень - дві основні моделі паралельного виконання програми. Проте ці моделі є досить низькорівневими. Тому головним недоліком вибору однієї з них у якості моделі програмування є те, що така модель незвична і незручна для програмістів, що розробляють обчислювальні програми.

Можна відзначити системи автоматичного розпаралелювання, які цілком успішно використовувалися на мультипроцесорах. А використання цих систем на розподілених системах істотно ускладнено тим, що

По-перше, оскільки взаємодія процесорів через комунікаційну систему вимагає значного часу (латентність - час самого простого взаємодії - велика в порівнянні з часом виконання однієї машинної команди), то обчислювальна робота повинна розподілятися між процесорами великими порціями.

По-друге, на відміну від багатопроцесорних ЕОМ із загальною пам'яттю, на системах з розподіленою пам'яттю необхідно провести не тільки розподіл обчислень, але й розподіл даних, а також забезпечити на кожному процесорі доступ до віддалених даних - даним, розташованим на інших процесорах. Для забезпечення ефективного доступу до віддалених даних потрібно робити аналіз індексних виразів не тільки всередині одного циклу, але і між різними циклами. До того ж, недостатньо просто виявляти факт наявності залежності за даними, а потрібно визначити точно той сегмент даних, який повинен бути пересланий з одного процесора на інший.

По-третє, розподіл обчислень і даних повинне бути зроблене узгоджено.

Неузгодженість розподілу обчислень і даних призведе, найімовірніше, до того, що паралельна програма буде виконуватися набагато повільніше послідовною. Узгоджене розподіл обчислень і даних вимагає ретельного аналізу всієї програми, і будь-яка неточність аналізу може призвести до катастрофічного уповільнення виконання програми.

В даний час існують наступні моделі програмування:

Модель передачі повідомлень. MPI. [1]

У моделі передачі повідомлень паралельна програма являє собою безліч процесів, кожен з яких має власне локальне адресний простір. Взаємодія процесів - обмін даними і синхронізація - здійснюється за допомогою передачі повідомлень. Узагальнення і стандартизація різних бібліотек передачі повідомлень призвели в 1993 році до розробки стандарту MPI (Message Passing Interface). Його широке впровадження в наступні роки забезпечило корінний перелом у вирішенні проблеми переносимості паралельних програм, що розробляються в рамках різних підходів, що використовують модель передачі повідомлень в якості моделі виконання.

У числі основних достоїнств MPI в порівнянні з інтерфейсами інших комунікаційних бібліотек зазвичай називають такі його можливості:

Можливість використання в мовах Фортран, Сі, Сі + +;
Надання можливостей для поєднання обмінів повідомленнями і обчислень;
Надання режимів передачі повідомлень, що дозволяють уникнути зайвого копіювання інформації для буферизації;
Широкий набір колективних операцій (наприклад, широкомовлення інформації, збір інформації з різних процесорів), що допускають набагато більш ефективну реалізацію, ніж використання відповідної послідовності пересилань точка-точка;
Широкий набір редукційних операцій (наприклад, підсумовування розташованих на різних процесорах даних, або знаходження їх максимальних або мінімальних значень), не тільки спрощують роботу програміста, але і припускають набагато більш ефективну реалізацію, ніж це може зробити прикладний програміст, який не має інформації про характеристики комунікаційної системи;
Зручні засоби іменування адресатів повідомлень, що спрощують розробку стандартних програм або розподіл програми на функціональні блоки;
Можливість завдання типу переданої інформації, що дозволяє забезпечити її автоматичне перетворення в разі розходжень у поданні даних на різних вузлах системи.

Однак розробники MPI піддаються і суворій критиці за те, що інтерфейс вийшов занадто громіздким і складним для прикладного програміста. Інтерфейс виявився складним і для реалізації, в результаті, в даний час практично не існує реалізацій MPI, в яких повною мірою забезпечується поєднання обмінів з обчисленнями.

З'явився в 1997, проект стандарту MPI-2 [2] виглядає ще більш громіздким і непідйомним для повної реалізації. Він передбачає розвиток у наступних напрямках:

Динамічне створення і знищення процесів;
Односторонні комунікації і засоби синхронізації для організації взаємодії процесів через загальну пам'ять (для ефективної роботи на системах з безпосереднім доступом процесорів до пам'яті інших процесорів);
Паралельні операції введення-виведення (для ефективного використання існуючих можливостей паралельного доступу багатьох процесорів до різних дисковим пристроїв).

Коротенько про інші моделі:

Модель неструктурованих ниток. Програма подається як сукупність ниток (threads), здатних виконуватися паралельно і мають загальний адресний простір. Наявні засоби синхронізації ниток дозволяють організовувати доступ до загальних ресурсів. Багато систем програмування підтримують цю модель: Win 32 threads, POSIX threads, Java threads.

Модель паралелізму за даними. Основним її представником є мова HPF [3]. У цій моделі програміст самостійно розподіляє дані послідовної програми по процесорах. Далі послідовна програма перетвориться компілятором в паралельну, виконуються або в моделі передачі повідомлень, або в моделі з загальною пам'яттю. При цьому кожен процесор робить обчислення тільки над тими даними, які на нього розподілені.

Модель паралелізму з управління. Ця модель виникла в застосуванні до мультипроцесорах. Замість термінів ниток пропонувалося використовувати спеціальні конструкції - паралельні цикли і паралельні секції. Створення, знищення ниток, розподіл на них витків паралельних циклів чи паралельних секцій - все це брав на себе компілятор. Стандартом для цієї моделі зараз є інтерфейс OpenMP [4].

Гібридна модель паралелізму з управління з передачею повідомлень. Програма являє собою систему взаємодіючих MPI - процесів, кожен з яких програмується на OpenMP.

Модель паралелізму по даними і управлінню - DVM (Distributed Virtual Machine, Distributed Virtual Memory) [5]. Ця модель була розроблена в Інституті прикладної математики ім. М. В. Келдиша РАН.

3. Огляд засобів налагодження ефективності MPI-програм

При аналізі MPI-програм можуть виникати різні складні ситуації, для аналізу яких можна застосувати спеціально розроблені інструменти. Ці програми можуть допомогти в вирішенні виникаючих проблем. Більшість таких інструментів об'єднує те, що вони під час виконання програми проводять збір інформацію в трасу (опис подій), а потім надають різні засоби аналізу та візуалізації отриманих даних.

Зазвичай для цілей трасування у досліджувану програму вбудовуються "профілювальних" виклики, які фіксують настання певних подій чи тривалість інтервалів, і фіксують цю інформацію в журналі трасування, передають її online-аналізатору або просто модифікують збирається статистику.

Можна виділити два основних підходи до аналізу продуктивності:

A. "Трасування + Візуалізація". Даний підхід передбачає два етапи:
- A1. Під час виконання програми збирається "траса", тобто журнал про хід роботи програми.
- A2. Потім отримана траса проглядається і аналізується.
B. "Online-аналіз". Поведінка програми аналізується безпосередньо в ході її виконання.

Рис.1 Схема А. "Трасування + Візуалізація".

3.1 Загальні проблеми всіх коштів трасування

Формат трас не уніфікований і зазвичай орієнтований на конкретну бібліотеку передачі повідомлень.
Збір інформації - слабкі можливості налаштування фільтрів подій (які події і яку інформацію включати в траси). Немає можливості варіювати обсяг траси.

Не враховується ефекту виміру - засіб трасування достатньо сильно змінює поведінку програми.

Проблеми візуалізації.

Що показувати? Яка інформація цікава і корисна для налагодження ефективності MPI програми.
Як показувати? Рис.2. Треба проводити узагальнення, що збирається. Просто вигляд всіх подій може бути неінформатівен.
Коли показувати? Важливо показувати те, що корисно в даний момент для налагодження ефективності, щоб не захаращувати користувача зайвою інформацією.

Рис.2 VAMPIR.

3.2 Огляд основних засобів налагодження

Нижче будуть коротко описані деякі основні засоби налагодження MPI-програм:

AIMS-інструментарій, бібліотека моніторингу та засоби аналізу
MPE-бібліотека збереження Log-файлів засіб візуалізації Nupshot
Pablo - бібліотека моніторингу та засоби аналізу
Paradyn - динамічний інструментарій і ран тайм бібліотека
SvPablo - інтегрований інструментарій, бібліотека моніторингу, засоби аналізу
VAMPIRtrace - бібліотека моніторингу and VAMPIR - засіб візуалізації

3.2.1 AIMS - Automated Instrumentation and Monitoring System

Місце розробки:	Некомерційний продукт, розробляється в NASA Ames Research Center в рамках програми High Performance Computing and Communication Program.
Тип	Тип А (трасування + візуалізація)
Мови / Бібліотеки	Fortran 77, HPF, С. Бібліотеки передачі повідомлень: MPI, PVM, NX.
Платформи	IBM RS/6000 SP, робочі станції Sun і SGI, Cray T3D/T3E.
Функціональність трасування	Збір трас. Автоматизоване зміна вихідного коду програми шляхом вставки спеціальних викликів. Паралельно зі збором траси створюється файл зі статичною інформацією. Рівні деталізації. Підпрограми, виклики процедур, процедури різного типу (процедури введення-виведення, MPI процедури тощо) Формат трас. Формат описаний в [7]. Орієнтований на передачу повідомлень. Тип трасування. Події, статистика (може збиратися без повної траси).
Візуалізація	Процеси - паралельні лінії. Події зображуються точками на цих лініях. Особливим чином зображуються накладні витрати: часи очікування, блокування. Є можливість "програвання" трас. Час - реальне (астрономічне) Зв'язок ліній процесів лініями, що позначають взаємодії (передача повідомлень, глобальні операції). Діаграми взаємодії процесів, часові зрізи, історія викликів і трассируемого блоків. Підтримується зв'язок з вихідним кодом.
Статистика	Сумарний час по заміряються інструкцій або типами інструкцій і кількість спрацьовувань.

Рис.3 AIMS. Результат докладного аналізу запуску.

Vampir, VampirTrace

URL	http://www.pallas.de/pages/vampir.htm
Де розробляється?	Комерційний продукт, розробка компанії Pallas (Німеччина).
Версії	VAMPIR 4 .0 (X Window), VAMPIRtrace 4. 0
Тип	Тип А (трасування + візуалізація). VampirTrace - система генерації трас (A1), Vampir - система візуалізації (A2).
Мови / бібліотеки	Мови - Fortran, C; передача повідомлень у рамках MPI.
Платформи	Cray T3D/T3E DEC Alpha (OSF / 1) Fujitsu VP 300/700 Hitachi SR2201 HP 9000 IBM RS/6000, SP Intel Paragon NEC SX-4 SGI Origin, PowerChallenge (IRIX 6) Sun SPARC Intel x86 (Solaris 2.5)
Функціональність трасування.	Збір трас. Лінкування з VampirTrace - прошарком між MPI і для користувача програмою. Рівні деталізації. Cлабие вохможно налаштування рівня деталізації - тільки за підпрограм. Можлива установка точок початку / кінця трасування. Тип трасування. Тільки події (статистика збирається на етапі аналізу трас).
Візуалізація	Процеси - паралельні лінії, події - точки на них. Взаємодії. Зв'язок ліній процесів, матриці обсягів та кількості пересилань Інші об'єкти. Кругові діаграми і статистичні гістограми. Підтримується зв'язок з вихідним кодом.
Статистика	Сумарні час за заміряються інструкцій або типами інструкцій і кількості спрацьовувань; відображається на кругових діаграмах і гістограмах.

Рис.4. VAMPIR квітня .0

Jumpshot

URL	http://www-unix.mcs.anl.gov/mpi/www/www1/Jumpshot.html
Де розробляється?	Некомерційне засіб, розроблено в Аргоннської національної лабораторії. Розповсюджується разом з пакетом MPICH.
Версія	Jumpshot 1.0 (потрібно Java 1.1 або вище)
Тип	A2 (візуалізація трас)
Мови / бібліотеки	Передача повідомлень: MPI.
Платформа	Збір трас - будь-які платформи, де працює MPICH. Візуалізація - Java.

Функціональність трасування

URL	http://vibes.cs.uiuc.edu/Software/Pablo/pablo.htm
Де розробляється?	Некомерційний пакет, розроблений в університеті шт. Іллінойс.
Мови / бібліотеки	ANSI C, Fortran 77, Fortran 90 (з обмеженнями), HPF (Portland Group).
Платформи	SvPablo - SunOS 5.6, SGI Irix 6.5 Trace Library and Extensions - Sun SunOS, Sun Solaris, RS6000, SP2, Intel Paragon, Convex Exemplar, SGI IRIX I / O Analysis - Sun Solaris, SGI IRIX MPI I / O Analysis - Sun SunOS, SGI IRIX HDF Analysis - Sun Solaris, SGI IRIX Analysis GUI - Sun Solaris (X11R5 + Motif) IO Benchmarks - Sun Solaris, SGI IRIX, Intel Paragon
Функціональність трасування.	Рівні деталізації. Hа рівні інтерфейсів, можна робити ручну розмітку з використанням svPablo. Формат трас - SDDF Тип трас. Статистика, події.
Візуалізація	SvPablo. Основа візуалізації - зв'язок з вихідним кодом. Представляє кольором число викликів і загальний час фрагмента. Analysis GUI. Бібліотека підпрограм для візуалізації трас у форматі SDDF
Статистика	Розгорнуті засоби статистики, у вигляді набору пакетів. I / O Analysis: аналіз операцій введення-виведення MPI I / O Analysis: аналіз введення-виведення MPI функцій HDF Analysis: аналіз операцій HDF.
Працює	Є конвертори з різних форматів в SDDF - IBM VT Trace, AIMS.
Розвиток	Підтримка HPF, Fortran 90. Підтримка MPI 2.0.

URL	http://www.cs.wisc.edu/paradyn
Де розробляється?	Некомерційне засіб, розробляється в University of Wisconsin,
Версія	4. 0
Тип	B (онлайн-аналіз)
Мови / бібліотеки	Fortran, Fortran 90, C, C + +: MPI, PVM; HPF
Платформи	Sun SPARC (тільки PVM) Windows NT на x86 IBM RS/6000 (AIX 4.1 або старше)
Функціональність трасування	Динамічна настроюється інструментування програм під час виконання. У код програми під час її виконання динамічної вставляються і прибираються виклики трасуючих процедур. Все робиться автоматично, в результаті значно зменшуються накладні витрати. Починає з великих блоків, потім поступово деталізує вузькі місця (для цього програма повинна досить довго працювати)
Візуалізація	В основі візуалізації лежать два вектори вимірювані параметри продуктивності: процесорний час, різні накладні витрати, очікування, часи пересилань і введення-виведення і т.д. компоненти програми / обчислювальної системи, до яких відносяться параметри: процедури, процесори, диски, канали передачі повідомлень, бар'єри і т.д. На цих векторах утворюється матриця: її елементи або скаляр (значення, середнє, мінімум, максимум і т.д.), або тимчасова діаграма (історія зміни характеристики). Всі характеристики відображаються під час виконання програми.
Проблеми	Є проблеми з масштабованість. На програмі при малому числі процесорів (менше 12) все виглядало нормально, а на більшій кількості процесорів - більше ніж 80% збільшення часу. Так само зараз самою системою займається дуже багато пам'яті.
Розвиток	Усунення проблем масштабованості, зменшення необхідної пам'яті, підтримка інших платформ.