Особливості розвитку структурна і функціональна організація суперЕОМ

МІНІСТЕРСТВО АГЕНСТВО ДО ОСВІТИ
Державна освітня установа вищої професійної освіти
«ТОМСЬКИЙ ПОЛІТЕХНІЧНИЙ УНІВЕРСИТЕТ»
Факультет автоматики та обчислювальної техніки
Кафедра обчислювальної техніки
Організація ЕОМ і систем
Реферат на тему
«Особливості розвитку, структурна і функціональна організація суперЕОМ»
Виконавець
студент групи 8030 __________ І.А. Перелівскій
Керівник
доцент, к.т.н__________А.Д. Чередов
Томськ - 2008

ЗМІСТ
Введення ................................................. .................................................. ...... 3
1. Коротка історія появи параллелелізма в ЕОМ ................... 5
2. Класифікація паралельних обчислювальних систем ............ 8
3. Основні концепції проектування суперЕОМ .................... 15
4. Короткі харатерістіки найбільш поширених суперкомп'ютерів ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .20
5. Десятка самих потужних комп'ютерів ........................................ 30
Висновок ................................................. ................................................. 32
Список джерел ................................................ ..................................... 33

ВСТУП
В даний час перехід до нових поколінь обчислювальних засобів набуває особливої актуальності. Це пов'язано з потребами вирішення складних задач великих розмірностей. Безперервне зростання характеристик нових зразків озброєнь вимагає розробки і створення принципово нових обчислювальних засобів для підтримки їх ефективного функціонування. У зв'язку з цим, все більш зростають вимоги до продуктивності і надійності обчислювальних засобів для вирішення військово-прикладних завдань. Однопроцесорні обчислювальні системи вже не справляються з рішенням більшості військово-прикладних задач у реальному часі, для підвищення продуктивності обчислювальних систем військового призначення все частіше використовуються багатопроцесорні обчислювальні системи (МВС).
Найбільший внесок у розвиток обчислювальних засобів завжди вносили технологічні рішення, при цьому основною характеристикою покоління обчислювальних систем була елементна база, оскільки перехід на нову елементну базу добре корелюється з новим рівнем показників продуктивності і надійності обчислювальних систем. Розробка все нових і нових поколінь мікропроцесорів кілька призупинило пошуки принципово нових архітектурних рішень. У той же час стає очевидним, що чисто технологічні рішення втратили своє монопольне становище. Так, наприклад, в найближчій перспективі помітно зростає значення проблеми подолання розриву між апаратними засобами і методами програмування. Дана проблема вирішується чисто архітектурними засобами, при цьому роль технології є непрямою: висока ступінь інтеграції створює умови для реалізації нових архітектурних рішень. При цьому стало очевидним, що без кардинальної перебудови архітектурних принципів підтримувати інтенсивні темпи розвитку засобів обчислювальної техніки вже неможливо.
Основними вимогами, що пред'являються до багатопроцесорним систем з масовим паралелізмом, є: необхідність високої продуктивності для будь-якого алгоритму; узгодження продуктивності пам'яті з продуктивністю обчислювальної частини; здатність мікропроцесорів узгоджено працювати при непередбачуваних затримках даних від будь-якого джерела і, нарешті, машинно-незалежне програмування.
Збільшення ступеня паралелізму викликає збільшення числа логічних схем, що супроводжується збільшенням фізичних розмірів, в результаті чого зростають затримки сигналів на межсоединения. Цей фактор призводить або до зниження тактової частоти, або до створення додаткових логічних ступенів і, в результаті, до втрати продуктивності. Зростання числа логічних схем також призводить до зростання споживаної енергії і відведеного тепла. Крім того, слід підкреслити, що більш високочастотні логічні схеми при інших рівних умовах споживають велику потужність на один вентиль. У результаті виникає теплофізичний бар'єр, обумовлений двома факторами: високою питомою щільністю теплового потоку, що вимагає застосування складних засобів відведення тепла, і високою загальною потужністю системи, що викликає необхідність використання складної системи енергозабезпечення та спеціальних приміщень.
Іншим фактором, що впливає на архітектуру високопродуктивних обчислювальних систем, є взаємозалежність архітектури та алгоритмів задач. Цей фактор часто призводить до необхідності створення проблемно-орієнтованих систем, при цьому може бути досягнута максимальна продуктивність для даного класу задач. Зазначена взаємозалежність є стимулом для пошуку алгоритмів, які найкраще відповідають можливим формам паралелізму на рівні апаратури. А так як для написання програм використовуються мови високого рівня, необхідні певні засоби автоматизації процесів розпаралелювання та оптимізації програм.

1. КОРОТКА ІСТОРІЯ ПОЯВИ ПАРАЛЛЕЛЕЛІЗМА У ЕОМ
Ідеї паралельної обробки з'явилися дуже давно. Спочатку вони впроваджувалися в самих передових, а тому одиничних, комп'ютерах свого часу. Потім після належної відпрацювання технології і здешевлення виробництва вони спускалися в комп'ютери середнього класу, і нарешті, сьогодні, все це в повному обсязі втілюється в робочих станціях і персональних комп'ютерах.
Для того щоб переконатися, що всі основні нововведення в архітектурі сучасних процесорів насправді використовуються ще з часів, коли ні мікропроцесорів, ні поняття суперкомп'ютерів ще не було, спробуємо в історію, почавши практично з моменту народження перших ЕОМ.
IBM 701 (1953), IBM 704 (1955): розрядно-паралельна пам'ять, розрядно-паралельна арифметика. Всі самі перші комп'ютери (EDSAC, EDVAC, UNIVAC) мали розрядно-послідовну пам'ять, з якої слова зчитувалися послідовно біт за бітом. Першим комерційно доступним комп'ютером, використовують розрядно-паралельну пам'ять (на CRT) і розрядно-паралельну арифметику, став IBM 701, а найбільшу популярність отримала модель IBM 704 (продано 150 екз.), В якій, крім сказаного, була вперше застосована пам'ять на феритових сердечниках і апаратне АУ з плаваючою крапкою.
IBM 709 (1958): незалежні процесори введення / виводу. Процесори перших комп'ютерів самі керували вводом / виводом. Однак швидкість роботи найшвидшого зовнішнього пристрою, а на ті часи це магнітна стрічка, була в 1000 разів менше швидкості процесора, тому під час операцій введення / виведення процесор фактично простоював. У 1958р. до комп'ютера IBM 704 приєднали 6 незалежних процесорів введення / виводу, які після отримання команд могли працювати паралельно з основним процесором, а сам комп'ютер перейменували на IBM 709. Дана модель вийшла напрочуд вдалою, тому що разом з модифікаціями було продано близько 400 екземплярів, причому останній був вимкнений у 1975 році - 20 років існування!
IBM STRETCH (1961): випереджаюче перегляд вперед, розшарування пам'яті. У 1956 році IBM підписує контракт з Лос-Аламоської наукової лабораторії на розробку комп'ютера STRETCH, що має дві принципово важливі особливості: випереджаюче перегляд вперед для вибірки команд і розшарування пам'яті на два банки для узгодження низькій швидкості вибірки з пам'яті і швидкості виконання операцій.
ATLAS (1963): конвеєр команд. Вперше конвеєрний принцип виконання команд був використаний в машині ATLAS, розробленої в Манчестерському університеті. Виконання команд розбито на 4 стадії: вибірка команди, обчислення адреси операнда, вибірка операнда і виконання операції. Конвейеризация дозволила зменшити час виконання команд з 6 мкс до 1,6 мкс. Комп'ютер зробив величезний вплив, як на архітектуру ЕОМ, так і на програмне забезпечення: в ньому вперше використана мультипрограмна ОС, заснована на використанні віртуальної пам'яті і системи переривань.
CDC 6600 (1964): незалежні функціональні пристрої.
Фірма Control Data Corporation (CDC) при безпосередній участі одного з її засновників, Сеймура Р. Крея (Seymour R. Cray) випускає комп'ютер CDC-6600 - перший комп'ютер, в якому використовувалося кілька незалежних функціональних пристроїв. Для порівняння з сьогоднішнім днем наведемо деякі параметри комп'ютера:
§ час такту 100нс;
§ продуктивність 2-3 млн. операцій у секунду;
§ оперативна пам'ять розбита на 32 банку за 4096 60-ти розрядних слів;
§ цикл пам'яті 1мкс;
§ 10 незалежних функціональних пристроїв.
Машина мала величезний успіх на науковому ринку, активно витісняючи машини фірми IBM.
CDC 7600 (1969): конвеєрні незалежні функціональні пристрої.
CDC випускає комп'ютер CDC-7600 з вісьмома незалежними конвеєрними функціональними пристроями - поєднання паралельної і конвеєрної обробки. Основні параметри:
§ такт 27,5 нс;
§ 10-15 млн. опер / сек;
§ 8 конвеєрних ФУ;
§ 2-х рівнева пам'ять.
ILLIAC IV (1974): матричні процесори.
§ Проект: 256 процесорних елементів (ПЕ) = 4 квадранта по 64ПЕ, можливість реконфігурації: 2 квадранта по 128ПЕ або 1 квадрант з 256ПЕ, такт 40нс, продуктивність 1Гфлоп;
§ роботи розпочато в 1967 році, до кінця 1971 виготовлена система з 1 квадранта, в 1974р. вона введена в експлуатацію, доведення велася до 1975 року;
§ центральна частина: пристрій управління (УУ) + матриця з 64 ПЕ;
§ УУ це проста ЕОМ з невеликою продуктивністю, керуюча матрицею ПЕ; всі ПЕ матриці працювали в синхронному режимі, виконуючи в кожен момент часу одну і ту ж команду, що поступила від УУ, але над своїми даними;
§ ПЕ мав власне АЛП з повним набором команд, ОП - 2Кслова по 64 розряду, цикл пам'яті 350нс, кожен ПЕ мав безпосередній доступ тільки до своєї ВП;
§ мережа пересилання даних: двовимірний тор із зсувом на 1 по кордоні по горизонталі.
Не дивлячись на результат у порівнянні з проектом: вартість в 4 рази вище, зроблений лише 1 квадрант, такт 80нс, реальна продуктивність до 50Мфлоп - даний проект зробив величезний вплив на архітектуру наступних машин, побудованих за схожим принципом, зокрема: PEPE, BSP, ICL DAP.
CRAY 1 (1976): векторно-конвейєрні процесори.
У 1972 році С. Крей залишає CDC і засновує свою компанію Cray Research, що в 1976р. випускає перший векторно-конвеєрний комп'ютер CRAY-1: час такту 12.5нс, 12 конвеєрних функціональних пристроїв, пікова продуктивність 160 мільйонів операцій в секунду, оперативна пам'ять до 1Мслова (слово - 64 розряду), цикл пам'яті 50нс. Головним нововведенням є введення векторних команд, які працюють з цілими масивами незалежних даних і дозволяють ефективно використовувати конвеєрні функціональні пристрої.

2. Таксономія Флінна
Основним параметром класифікації паралельних комп'ютерів є наявність загальної (SMP) або розподіленої пам'яті (MPP). Щось середнє між SMP і MPP представляють собою NUMA-архітектури, де пам'ять фізично розподілена, але логічно загальнодоступною. Кластерні системи є більш дешевим варіантом MPP. За підтримки команд обробки векторних даних говорять про векторно-конвейєрних процесорах, які, у свою чергу можуть об'єднуватися в PVP-системи з використанням загальної або розподіленої пам'яті. Все більшу популярність набувають ідеї комбінування різних архітектур в одній системі і побудови неоднорідних систем.
При організаціях розподілених обчислень в глобальних мережах (Інтернет) говорять про мета-комп'ютерах, які, строго кажучи, не являють собою паралельних архітектур.
Більш докладно особливості всіх перерахованих архітектур будуть розглянуті далі на цій сторінці, а також в описах конкретних комп'ютерів - представників цих класів. Для кожного класу наводиться така інформація:
§ короткий опис особливостей архітектури;
§ приклади конкретних комп'ютерів;
§ перспективи масштабованості;
§ типові особливості побудови операційних систем;
§ найбільш характерна модель програмування (хоча можливі й інші).
Таблиця 2.1 - Масивно-паралельні системи (MPP)

Архітектура	Система складається з однорідних обчислювальних вузлів, що включають: § один або кілька центральних процесорів (звичайно RISC); § локальну пам'ять (прямий доступ до пам'яті інших вузлів неможливий); § комунікаційний процесор чи мережевий адаптер; § іноді - жорсткі диски (як в SP) та / або інші пристрої В / В. До системи можуть бути додані спеціальні вузли введення-виведення і управляючі вузли. Вузли зв'язані через деяку комунікаційне середовище (високошвидкісна мережа, комутатор і т.п.)
Приклади	IBM RS/6000 SP2, Intel PARAGON / ASCI Red, CRAY T3E, Hitachi SR8000, транспьютерние системи Parsytec.
Масштабованість	Загальне число процесорів у реальних системах досягає кількох тисяч (ASCI Red, Blue Mountain).
Операційна система	Існують два основні варіанти: Повноцінна ОС працює тільки на керуючій машині (front-end), на кожному вузлі працює сильно урізаний варіант ОС, що забезпечують лише роботу розташованої в ньому гілки паралельного застосування. Приклад: Cray T3E. На кожному вузлі працює повноцінна UNIX-подібна ОС (варіант, близький до кластерному підходу). Приклад: IBM RS/6000 SP + ОС AIX, встановлювана окремо для кожного сайту.
Модель програмування	Програмування в рамках моделі передачі повідомлень (MPI, PVM, BSPlib)

Таблиця 2.2 - Симетричні мультипроцесорні системи (SMP)

Архітектура	Система складається з декількох однорідних процесорів і масиву загальної пам'яті (звичайно з декількох незалежних блоків). Всі процесори мають доступ до будь-якій точці пам'яті з однаковою швидкістю. Процесори підключені до пам'яті або за допомогою загальної шини (базові 2-4 процесорні SMP-сервери), або за допомогою crossbar-комутатора (HP 9000). Апаратно підтримується когерентність кешів.
Приклади	HP 9000 V-class, N-class; SMP-cервера і робочі станції на базі процесорів Intel (IBM, HP, Compaq, Dell, ALR, Unisys, DG, Fujitsu та ін.)
Масштабованість	Наявність загальної пам'яті значно спрощує взаємодію процесорів між собою, однак накладає сильні обмеження на їх число - не більше 32 у реальних системах. Для побудови масштабованих систем на базі SMP використовуються кластерні або NUMA-архітектури.
Операційна система	Вся система працює під управлінням єдиної ОС (зазвичай UNIX-подібної, але для Intel-платформ підтримується Windows NT). ОС автоматично (у процесі роботи) розподіляє процеси / нитки по процесорам (scheduling), але іноді можлива і явна прив'язка.
Модель програмування	Програмування в моделі загальної пам'яті. (POSIX threads, OpenMP). Для SMP-систем існують порівняно ефективні засоби автоматичного розпаралелювання.

Таблиця 2.3 - Системи з неоднорідним доступом до пам'яті (NUMA)

Архітектура	Система складається з однорідних базових модулів (плат), що складаються з невеликого числа процесорів і блоку пам'яті. Модулі об'єднані за допомогою високошвидкісного комутатора. Підтримується єдиний адресний простір, апаратно підтримується доступ до віддаленої пам'яті, тобто до пам'яті інших модулів. При цьому доступ до локальної пам'яті в кілька разів швидше, ніж до віддаленої. У випадку, якщо апаратно підтримується когерентність кешів у всій системі (зазвичай це так), говорять про архітектуру cc-NUMA (cache-coherent NUMA)
Приклади	HP HP 9000 V-class в SCA-конфігураціях, SGI Origin2000, Sun HPC 10000, IBM / Sequent NUMA-Q 2000, SNI RM600.
Масштабованість	Масштабованість NUMA-систем обмежується обсягом адресного простору, можливостями апаратури поддежкі когерентності кешів і можливостями операційної системи з управління великим числом процесорів. На справжній момент, максимальне число процесорів у NUMA-системах складає 256 (Origin2000).
Операційна система	Зазвичай вся система працює під управлінням єдиної ОС, як в SMP. Але можливі також варіанти динамічного "підрозділу" системи, коли окремі "розділи" системи працюють під управлінням різних ОС (наприклад, Windows NT і UNIX в NUMA-Q 2000).
Модель програмування	Аналогічно SMP.

Таблиця 2.4 - Паралельні векторні системи (PVP)

Архітектура		Основною ознакою PVP-систем є наявність спеціальних векторно-конвейєрних процесорів, в яких передбачені команди однотипної обробки векторів незалежних даних, ефективно виконуються на конвеєрних функціональних пристроях. Як правило, кілька таких процесорів (1-16) працюють одночасно над загальною пам'яттю (аналогічно SMP) у рамках багатопроцесорних конфігурацій. Кілька таких вузлів можуть бути об'єднані за допомогою комутатора (аналогічно MPP).
Приклади	NEC SX-4/SX-5, лінія векторно-конвейєрних комп'ютерів CRAY: від CRAY-1, CRAY J90/T90, CRAY SV1, CRAY X1, серія Fujitsu VPP.
Модель програмування	Ефективне програмування увазі векторизацію циклів (для досягнення розумної продуктивності одного процесора) і їх розпаралелювання (для одночасного завантаження декількох процесорів одним додатком).

Таблиця 2.5 - Кластерні системи

Архітектура	Набір робочих станцій (або навіть ПК) загального призначення, використовується в якості дешевого варіанту масивно-паралельного комп'ютера. Для зв'язку вузлів використовується одна із стандартних мережевих технологій (Fast / Gigabit Ethernet, Myrinet) на базі шинної архітектури або комутатора. При об'єднанні в кластер комп'ютерів різної потужності або різної архітектури, говорять про гетерогенних (неоднорідних) кластерах. Вузли кластера можуть одночасно використовуватися в якості користувача робочих станцій. У випадку, коли це не потрібно, вузли можуть бути істотно полегшені і / або встановлені в стійку.
Приклади	NT-кластер в NCSA, Beowulf-кластери.
Операційна система	Використовуються стандартні для робочих станцій ОС, найчастіше, вільно розповсюджувані - Linux / FreeBSD, разом із спеціальними засобами підтримки паралельного програмування і розподілу навантаження.
Модель програмування	Програмування, як правило, в рамках моделі передачі повідомлень (найчастіше - MPI). Дешевизна подібних систем обертається великими накладними витратами на взаємодію паралельних процесів між собою, що сильно звужує потенційний клас розв'язуваних завдань.

Класифікація паралельних обчислювальних систем, запропонована Т. Джоном, заснована на поділі МВС за двома критеріями: способом побудови пам'яті (загальна або розподілена) і способу передачі інформації. Основні типи машин за класифікацією Т. Джона представлені в таблиці 2.6. Тут прийняті наступні позначення: p - елементарний процесор, M - елемент пам'яті, K - комутатор, С - кеш-пам'ять.
Паралельна обчислювальна система з загальною пам'яттю та шинної організацією обміну (машина 1) дозволяє кожному процесору системи бачити ", як вирішується завдання в цілому, а не тільки ті частини, над

Типи передачі Повідомлень	Типи пам'яті
Типи передачі Повідомлень	Спільна пам'ять	Загальна та розподілена	Розподілена пам'ять
Шинні з'єднання	1. \ * MERGEFORMAT	2. \ * MERGEFORMAT	3. \ * MERGEFORMAT
Фіксований-ні перехрест-ні сполуки	4. \ * MERGEFORMAT	5. \ * MERGEFORMAT	6. \ * MERGEFORMAT
Комутаційні-ні структури	7. \ * MERGEFORMAT	8. \ * MERGEFORMAT	9. \ * MERGEFORMAT

Таблиця 2.6 - Класифікація МВС за типами пам'яті і передачі повідомлень якими він працює. Загальна шина, пов'язана з пам'яттю, викликає серйозні проблеми для забезпечення високої пропускної здатності каналів обміну. Одним із способів обійти цю ситуацію є використання кеш-пам'яті (машина 2). У цьому випадку виникає проблема когерентності вмісту кеш-пам'яті і основної. Іншим способом підвищення продуктивності систем є відмова від центральної пам'яті (машина 3).
Ідеальною машиною є обчислювальна система, у якій кожен процесор має прямі канали зв'язку з іншими процесорами, але в цьому випадку потрібно надзвичайно великий об'єм обладнання для організації міжпроцесорних обмінів. Певний компроміс представляє мережу з фіксованою топологією, в якій кожен процесор з'єднаний з деяким підмножиною процесорів системи. Якщо процесорам, що не мають безпосереднього каналу обміну, необхідно взаємодіяти, вони передають повідомлення через проміжні процесори. Одна з переваг такого підходу - не обмежується зростання числа процесорів в системі. Недолік - потрібно оптимізація прикладних програм, щоб забезпечити виконання паралельних процесів, для яких необхідно активний вплив на сусідні процесори.
Найбільш цікавим варіантом для перспективних паралельних обчислювальних комплексів є поєднання гідності архітектур з розподіленою пам'яттю і каналами межпроцессорного обміну. Один з можливих методів побудови таких комбінованих архітектур - конфігурація з комутацією, коли процесор має локальну пам'ять, а з'єднуються процесори між собою за допомогою комутатора (машина 9). Комутатор може виявитися вельми корисним для групи процесорів з розподіленою пам'яттю (машина 8). Дана конфігурація схожа на машину з загальною пам'яттю (машина 7), але тут виключені проблеми пропускної здатності шини.
Недоліками класифікації Т. Джона є приховування рівня паралелізму в системі.
Паралелізм будь-якого роду вимагає одночасної роботи, принаймні, двох пристроїв. Такими пристроями можуть бути: арифметико-логічні пристрої (АЛП), пристрої керування (УУ). У ЕОМ класичної архітектури УУ і АЛУ утворюють процесор. Збільшення числа процесорів або числа АЛУ в кожному з них призводить до відповідного зростання паралелізму. Наявність в ЕОМ декількох процесорів означає, що одночасно (паралельно) можуть виконуватися кілька програм або кілька фрагментів однієї програми. Робота декількох АЛУ під керуванням одного УУ означає, що безліч даних може оброблятися паралельно за однією програмою. Відповідно до цього опис структур паралельних систем можна представити у вигляді впорядкованої трійки:
<k,d,w>,
де k - кількість пристроїв управління, тобто найбільшу кількість незалежно і одночасно виконуваних програм в системі;
d - кількість АЛП, що припадають на один пристрій управління;
w - кількість розрядів, вміст яких обробляється одночасно (паралельно) одним арифметико-логічним пристроєм.
Інша форма розпаралелювання - конвейеризация, також вимагає наявності кількох ЦП або АЛУ. У той час, як безліч даних обробляється на одному пристрої, іншу множину даних може оброблятися на наступному пристрої і т.д., при цьому в процесі обробки виникає потік даних від одного пристрою (ЦП або АЛУ) до наступного. Протягом всього процесу над одним безліччю даних виконується одне за іншим n дій. Одночасно в конвеєрі на різних стадіях обробки можуть знаходитися від 1 до n даних.
Паралелізм і конвейеризацию можна розглядати на трьох різних рівнях, представлених у таблиці 2.7. Шість основних форм паралелізму, в широкому сенсі цього слова, дозволяють побудувати схему класифікації, в рамках якої можна описати різноманітність високопродуктивних обчислювальних систем і відобразити їх еволюцію.
Таблиця 2.7 - Класифікація МВС за типом розпаралелювання

Рівень паралелізму	Паралелізм	Конвейеризация
Програми	Мультипроцесор \ * MERGEFORMAT	Макроконвейер \ * MERGEFORMAT
Команди	Матричний процесор \ * MERGEFORMAT	Конвеєр команд \ * MERGEFORMAT
Дані	Безліч розрядів \ * MERGEFORMAT	Арифметичний конвеєр \ * MERGEFORMAT

3. ОСНОВНІ КОНЦЕПЦІЇ ПРОЕКТУВАННЯ суперЕОМ
У векторних суперЕОМ забезпечена гранична продуктивність для процесів скалярної та векторної обробки, яка присутня в більшості завдань. Завдання, що містять високу ступінь внутрішнього паралелізму, можуть бути добре адаптовані до систем масового паралелізму. Реальні завдання і, тим більше, пакети завдань містять цілий ряд алгоритмів, що мають різні рівні паралелізму.
Все це говорить про те, що замість спроб пристосувати всі типи алгоритмів до однієї архітектурі, що відбивається на конфігурації архітектур і супроводжується не завжди коректними порівняннями пікової продуктивності, більш продуктивним є взаємодоповнення архітектур в єдиній системі. Одним з перших прикладів такої системи є об'єднання векторної системи Cray Y-XM з системою Cray T3D. Проте, це об'єднання за допомогою високошвидкісного каналу призводить до необхідності розбивки завдань на великі блоки і до втрат часу і пам'яті на обмін інформацією.
Ситуація в даному випадку подібна до тієї, яка існувала до появи векторних машин. Для вирішення завдань, що містять велике число операцій над векторами і матрицями, використовувалися так звані матричні процесори, наприклад, фірми FSP, які підключалися до універсальної машині за допомогою каналу введення / виводу. Інтеграція скалярної та векторної обробки в одному процесорі поряд із забезпеченням високої швидкості роботи синхронного конвеєра забезпечила успіх векторних машин.
Наступним логічним кроком є інтеграція скалярної, векторної і паралельної обробки. Завдяки цьому, може бути досягнута висока реальна продуктивність за рахунок розподілу окремих частин програми з підсистем з різною архітектурою. Природно, це розподіл роботи має бути підтримано апаратно-програмними засобами автоматизації програмування. Ці кошти повинні містити можливість інтерактивного втручання програміста на етапі аналізу завдання і можливість моделювання або пробного запуску програми з вимірюванням параметрів ефективності. Слід підкреслити, що форми паралелізму в алгоритмах досить різноманітні, тому й їх апаратне відображення може бути різним. До найбільш простим можна віднести системи з одним потоком команд і множинними потоками даних, системи з множинними потоками команд і даних, систолические системи.
Одним з багатообіцяючих підходів, що забезпечують автоматичне розпаралелювання, є принцип потоку даних, при якому послідовність або одночасність обчислень визначається не командами, а готовністю операндів і наявністю вільного функціонального арифметичного пристрою. Однак, і в цьому випадку ступінь реального розпаралелювання залежить від внутрішнього паралелізму алгоритму і, очевидно, потрібні ефективні способи підготовки завдань. Крім того, для реалізації таких систем необхідне створення асоціативної пам'яті для пошуку готових до роботи пар операндів і систем розподілу обчислень по великому числу функціональних пристроїв.
Апаратна реалізація паралельних підсистем повністю залежить від обраних мікропроцесорів, БІС пам'яті та інших компонентів. В даний час з економічних причин доцільно використовувати найбільш високопродуктивні мікропроцесори, розроблені для уніпроцессорних машин.
Разом з тим, існують підходи, пов'язані із застосуванням спеціалізованих мікропроцесорів, орієнтованих на використання в паралельних системах. Типовим прикладом є серія транспьютеров фірми Inmos. Однак, через обмежений ринку ця серія по продуктивності різко відстала від універсальних мікропроцесорів, таких, як Alpha, Power PC, Pentium. Спеціалізовані мікропроцесори зможуть бути конкурентноспроможними тільки за умови скорочення витрат на проектування та освоєння у виробництві, що у великій мірі залежить від продуктивності інструментальних обчислювальних засобів, що використовуються в системах автоматизованого проектування.
У різних обчислювальних машинах використовувалися різні підходи, спрямовані на досягнення, в першу чергу, однією з таких цілей:
§ максимальна арифметична продуктивність процесора;
§ ефективність роботи операційної системи і зручність спілкування з нею для програміста;
§ ефективність трансляції з мов високого рівня і виключення написання програм на автокод;
§ ефективність розпаралелювання алгоритмів для паралельних архітектур.
Проте, в будь-якій машині необхідно в тій чи іншій формі вирішувати всі зазначені завдання. Відзначимо, що спочатку цього намагалися досягти за допомогою одного або декількох однакових процесорів.
Диференціація функцій і спеціалізація окремих підсистем почала розвиватися з появи окремих підсистем і процесорів для обслуговування введення / виводу, комунікаційних мереж, зовнішньої пам'яті і т.п.
У суперЕОМ крім основного процесора (машини) включалися зовнішні машини. У різних системах можна спостерігати елементи спеціалізації в напрямках автономного виконання функцій операційної системи, системи програмування та підготовки завдань.
По-перше, ці допоміжні функції можуть виконуватися паралельно з основними обчисленнями. По-друге, для реалізації не потрібні багато з тих коштів, які забезпечують високу продуктивність основного процесора, наприклад, можливість виконання операцій з плаваючою комою і векторних операцій. Надалі, при інтеграції скалярної, векторної і паралельної обробки в рамках єдиної обчислювальної підсистеми складу цих допоміжних функцій має бути доповнений функціями аналізу програм з метою забезпечення необхідного рівня паралелізму і розподілу окремих частин програми з різним гілкам обчислювальної підсистеми.
Поява суперЕОМ супроводжувалося підвищенням їх загальної потужності споживання (вище 100 кВт) і збільшенням щільності теплових потоків на різних рівнях конструкції. Їх створення не в останню чергу виявилося можливим, завдяки використанню ефективних рідинних та фреонових систем охолодження. Чи є значна потужність суттєвою ознакою суперЕОМ? Відповідь на це питання залежить від того, що вкладається в поняття суперЕОМ.
Якщо вважати, що суперЕОМ або, точніше, суперсистема - це система з найвищою можливою продуктивністю, то енергетичний чинник залишається одним з визначальних цю продуктивність. У міру розвитку технології потужність одного вентиля в мікропроцесорах зменшується, але при підвищенні продуктивності процесора за рахунок паралелізму загальна потужність у ряді випадків зростає. При об'єднанні великої кількості мікропроцесорів в системі з масовим паралелізмом інтегральна потужність і тепловиділення стають порівнянними з аналогічними показниками для векторно-конвейєрних систем. Проте, іноді в рекламних цілях паралельні системи з невеликим числом процесорів порівнюються з суперкомп'ютерами попереднього або більш раннього поколінь, щоб показати їх переваги в сенсі простоти і зручності експлуатації. Природно, з такого некоректного порівняння не можна зробити висновок про доцільність створення сучасних суперсистем.
Основним стимулом створення суперсистем є потреби вирішення великих завдань. У свою чергу, дослідження та розробки з суперсистем стимулюють цілий комплекс фундаментальних і прикладних досліджень, результати яких використовуються в подальшому в інших областях. Перш за все, це стосується архітектури та схемотехніки обчислювальних машин, високочастотних інтегральних схем і засобів межз'єднань, ефективних систем відведення тепла. Не менш важливі результати за методами розпаралелювання при виконанні окремих операцій та ділянок програм на апаратному рівні, методам побудови паралельних алгоритмів, мов і програмних систем для ефективного вирішення великих завдань.
У розвитку обчислювальних засобів можна виділити три основні проблеми:
§ підвищення продуктивності;
§ підвищення надійності;
§ покриття семантичного розриву.
Етапи розвитку обчислювальних засобів прийнято розрізняти за поколінням машин. Характеристика покоління визначається конкретними показниками, що відображають досягнутий рівень у вирішенні трьох перерахованих проблем. Оскільки переважний внесок у розвиток обчислювальних засобів завжди належав технологічним рішенням, основною характеристикою покоління машин вважалася елементна база. І дійсно, перехід на нову елементну базу добре корелюється з новим рівнем показників продуктивності, надійності і скорочення семантичного розриву.
В даний час актуальним є перехід до нових поколінь обчислювальних засобів. За традицією, що склалася вирішальна роль відводиться технології виробництва елементної бази. У той же час стає очевидним, що технологічні рішення втратили монопольне становище. Так, наприклад, в найближчій перспективі помітно зростає значення проблеми покриття семантичного розриву, що відбивається в необхідності створення високоскладних програмних продуктів і вимагає кардинального зниження трудоемкотсі програмування. Ця проблема вирішується переважно архітектурними засобами. Роль технології тут може бути тільки непрямої: висока ступінь інтеграції створює умови для реалізації архітектурних рішень.
В даний час одним з домініруюшіх напрямків розвитку суперЕОМ є обчислювальні системи c MIMD-паралелізмом на основі матриці мікропроцесорів. Для створення подібних обчислювальних систем, що складаються з сотень і тисяч пов'язаних процесорів, потрібно подолати низку складних проблем як в програмному забезпеченні (мови Parallel Pascal, Modula-2, Ada), так і в апаратних засобах (ефективна комутаційна середа, високошвидкісні засоби обміну, потужні мікропроцесори). Елементна база сучасних виcокопроізводітельних систем характеризується стандартною ступенем інтеграції (до 3,5 млн. транзисторів на кристалі) і високими тактовими частотами (до 600 МГц).
В даний час всі фірми і всі університети США, Західної Європи та Японії, які розробляють суперЕОМ, ведуть інтенсивні дослідження в області багатопроцесорних суперЕОМ з масовим паралелізмом, створюють безліч їх типів, організовують їх виробництво і прискореними темпами освоюють світовий ринок у цій області. Багатопроцесорні ЕОМ з масовим паралелізмом вже зараз істотно випереджають по продуктивності традиційні суперЕОМ з векторно-конвеєрною архітектурою. Системи з масовим паралелізмом пред'являють менші вимоги до мікропроцесорах і елементній базі і мають значно меншу вартість при будь-якому рівні продуктивності, ніж векторно-конвейєрні суперЕОМ.
На щорічній конференції в Чепел-Хілл (Сев.Кароліна) представлений проект фірми IBM, метою якого є створення гіперкубіческого паралельного процесора в одному корпусі. Конструкція, названа Execube, має 8 16-розрядних мікропроцесоров, вбудованих в кристал 4Мбит динамічного ЗП (ДЗУ). При цьому ступінь інтегр становить 5 млн. транзисторів. Мікросхема виготовлена по КМОП-технології з трьома рівнями металізації на заводі IBM Microelectronic (Ясу, Японія). Execube являє собою спробу підвищення ступеня інтеграції процесора з пам'яттю шляхом більш ефективного доступу до інформації ДЗУ. По суті, пам'ять перетворюється в розширені регістри процесорів. Продуктивність мікросхеми складає 50 млн оп / с.
Фірма CRAY Research обеявіла про початок випуску суперкомп'ютерах CRAY T3 / E. Основна характеристика, на якій акцентували увагу розробники - масштабованість. Мінімальна конфігурація становить 8 мікропроцесорів, максимальна - 2048. У порівнянні з попередньою моделлю T3 / D співвідношення ціна / продуктивність знижена в 4 рази і становить 60 дол / Мфлопс, чому сприяло застосування недорогих процесорів DEC Alpha EVC, виготовлених за КМОП-технології. Передбачувана вартість моделі Т3 / Е на основі 16 процесорів з 1-Гбайт ЗУ складе 900 тис. доларів, а ціна найбільш потужної конфігурації (1024 процесора, ЗУ 64 Гбайт) -39,7 млн. доларів при пікової продуктивності 600 Гфлопс.
Одним із способів подальшого підвищення продуктивності обчислювальної системи є об'єднання суперкомп'ютерів у кластери за допомогою оптоволоконних з'єднань. З цією метою комп'ютери CRAY T3 / E забезпечені каналами введення / виводу з пропускною здатністю 128 Гбайт / с. Потенційні замовники виявляють підвищений інтерес до нової розробки фірми. Бажання придбати комп'ютер виявили такі організації як Pittsburgh Supercomputer Center, Mobile Oil, Департамент з океанографії і атмосферних досліджень США. При цьому підписано кілька контрактів на виготовлення кількох комп'ютерів 512-процесорної конфігурації.
Серед японських компаній слід виділити фірму Hitachi, яка випустила суперкомп'ютер SR2201 з масовим паралелізмом, що містить до 2048 процесоров. В основі системи перероблена компанією процесорна архітектура RA-RISC від фірми Hewlett-Paccard. Псевдовекторний процесор функціонує під управлінням ОС HP-UX/MPP Mash 3.0. У комп'ютері, крім того, використана система підтримки паралельного режиму роботи Exdivss, створена корпорацією Parasoft і отримала назву ParallelWare. Продуктивність нового комп'ютера становить 600 Гфлопс.

4. Коротку характеристику найбільш поширених Суперкомп'ютер
IBM RS/6000 SP

Виробник	International Business Machines (IBM), підрозділ RS/6000.
Клас архітектури	Швидка, масивно-паралельна обчислювальна система (MPP).
Вузли	Вузли мають архітектуру робочих станцій RS/6000. Існують декілька типів SP-вузлів, які комплектуються різними процесорами: PowerPC 604e/332MHz, POWER3/200 і 222 MHz (більш ранні системи комплектувалися процесорами POWER2). High-вузли на базі POWER3 включають до 8 процесорів та до 16 GB пам'яті.
Масштабується-тість	До 512 вузлів. Можливо поєднання вузлів відмінності типів. Вузли встановлюються в стійки (до 16 вузлів в кожній).
Комутатор	Вузли зв'язані між собою високопродуктивних комутатором (IBM high-performance switch), який має багатостадійну структуру і працює з комутацією пакетів.
Cистемное ПЗ	OC AIX (встановлюється на кожному вузлі), система пакетної обробки LoadLeveler, паралельна файлова система GPFS, паралельна СУБД INFORMIX-OnLine XPS. Паралельні програми виконуються під управлінням Parallel Operating Environment (POE).
Засоби програмування-ня	Оптимізована реалізація інтерфейсу MPI, бібліотеки паралельних математичних підпрограм - ESSL, OSL.
Огляд	Огляд архітектури суперкомп'ютерів серії RS/6000 SP корпорації IBM.

HP 9000 (Exemplar)

Виробник	Hewlett-Packard, підрозділ високопродуктивних систем.
Клас	Багатопроцесорні сервера із загальною пам'яттю (SMP).
Передує-ники	SMP / NUMA-системи Convex SPP-1200, SPP-1600, SPP-2000.
Модифікації	В даний час доступні кілька "класів" систем сімейства HP 9000: сервера початкового рівня (D, K-class), середнього рівня (N-class) і найбільш потужні системи (V-class).
Процесори	64-бітові процесори c архітектурою PA-RISC 2.0 (PA-8200, PA-8500).
Число процесорів	N-class - до 8 процесорів. V-class - до 32 процесорів. Надалі очікується збільшення кількості процесорів до 64, а потім до 128.
Масштабується-тість	SCA-конфігурації (Scalable Computing Architecture) - до 4 вузлів V-class, тобто до 128 процесорів.
Системне ПЗ	Встановлюється операційна система HP-UX (сумісна на рівні двійкового коду з ОС SPP-UX комп'ютерів Convex SPP).
Засоби програмування-ня	HP MPI - реалізація MPI 1.2, оптимізована до архітектури Exemplar. Розпаралелюючих компілятори Fortran / C, математична бібліотека HP MLIB. CXperf - з редством аналізу продуктивності програм.
Огляд	Огляд архітектури серверів HP 9000 класу V корпорації Hewlett-Packard

Cray T3E

Виробник	Cray Inc.
Клас архітектури	Швидка, масивно-паралельна система, складається з процесорних елементів (PE).
Передує-ники	Cray T3D
Модифікації	T3E-900, T3E-1200, T3E-1350
Процесорний елемент	PE складається з процесора, блоку пам'яті і пристрої сполучення з мережею. Використовуються процесори Alpha 21164 (EV5) з тактовою частотою 450 MHz (T3E-900), 600 MHz (T3E-1200), 675 MHz (T3E-1350) пікова продуктивність яких становить 900, 1200, 1350 MFLOP / sec відповідно. Процесорний елемент володіє своєю локальною пам'яттю (DRAM) об'ємом від 256MB до 2GB.
Число процесорів	Системи T3E масштабуються до 2048 PE.
Комутатор	Процесорні елементи пов'язані високопродуктивної мережею GigaRing з топологією тривимірного тора і двонаправленими каналами. Швидкість обмінів по мережі досягає 500MB/sec в кожному напрямку.
Системне ПЗ	Використовується операційна система UNICOS / mk.
Засоби програмування-ня	Підтримується явне паралельне програмування c допомогою пакета Message Passing Toolkit (MPT) - реалізації інтерфейсів передачі повідомлень MPI, MPI-2 і PVM, бібліотека Shmem. Для Фортран-програм можливо також неявне розпаралелювання в моделях CRAFT і HPF. Середовище розробки включає також набір візуальних засобів для аналізу і налагодження паралельних програм.

Cray T90

Виробник	Cray Inc., Cray Research.
Клас архітектури	Багатопроцесорна векторна система (кілька векторних процесорів працюють на загальній пам'яті).
Передує-ники	CRAY Y-MP C90, CRAY X-MP.
Моделі	Серія T90 включає моделі T94, T916 і T932.
Процесор	Системи серії T90 базуються на векторно-конвеєрному процесорі Cray Research з піковою продуктивністю 2GFlop / s.
Число процесорів	Система T932 може включати до 32 векторних процесорів (до 4-х у моделі T94, до 16 моделі T916), забезпечуючи пікову продуктивність більш 60GFlop / s.
Масштабується-тість	Можливе об'єднання декількох T90 в MPP-системи.
Пам'ять	Система T932 містить від 1GB до 8GB (до 1 GB в моделі T94 і до 4GB в моделі T916) оперативної пам'яті і забезпечує швидкість обміну з пам'яттю до 800MB/sec.
Системне ПЗ	Використовується операційна система UNICOS.

Cray SV1

Виробник	Cray Inc.
Клас архітектури	Масштабований векторний суперкомп'ютер.
Процесор	Використовуються 8-конвеєрні векторні процесори MSP (Multi-Streaming Processor) з піковою продуктивністю 4.8 GFLOP / sec, кожен MSP може бути поділені на 4 стандартних 2-конвеєрних процесора з піковою продуктивністю 1.2 GFLOP / sec. Тактова частота процесорів - 250MHz.
Число процесорів	Процесори об'єднуються в SMP-вузли, кожен з яких може містити 6 MSP і 8 стандартних процесорів. Система (кластер) може містити до 32 таких вузлів.
Пам'ять	SMP-вузол може містити від 2 до 16GB пам'яті. Система може містити до 1TB пам'яті. Вся пам'ять глобально адресується (архітектура DSM).
Системне ПЗ	Використовується операційна система UNICOS.
Засоби програмування-ня	Поставляється векторизуется і розпаралелюючих компілятор CF90. Підтримується також явна паралельне програмування з використанням інтерфейсів MPI, OpenMP або Shmem.

Cray X1

Виробник	Cray Inc.
Клас архітектури	Масштабований векторний суперкомп'ютер.
Процесор	Використовуються 16-конвеєрні векторні процесори з піковою продуктивністю 12.8 GFLOP / sec. Тактова частота процесорів - 800MHz.
Число процесорів	У максимальній конфігурації - до 4096.
Пам'ять	Кожен процесор може містити до 16GB пам'яті. У максимальній конфігурації система може містити до 64TB пам'яті. Вся пам'ять глобально адресується (архітектура DSM). Максимальна швидкість обміну з оперативною пам'яттю становить 34.1 Гбайт / сек. на процесор, швидкість обміну з кеш-пам'яттю 76.8 Гбайт / сек. на процесор.
Системне ПЗ	Використовується операційна система UNICOS / mp.
Засоби програмування-ня	Реалізовано компілятори з мов Фортран і Сі + +, що включають можливості автоматичної векторизації та розпаралелювання, спеціальні оптимізовані бібліотеки, інтерактивний відладчик і засоби для аналізу продуктивності. Додатки можуть писатися з використанням MPI, OpenMP, Co-array Fortran і Unified Parallel C (UPC).

Cray XT3

Виробник	Cray Inc.
Клас архітектури	Масивно-паралельний суперкомп'ютер.
Процесор	Використовуються процесори AMD Opteron.
Число процесорів	У максимальній конфігурації - до 30508.
Пам'ять	Кожен процесор може містити від 1 до 8 Гбайт оперативної пам'яті. У максимальній конфігурації система може містити до 239 Тбайт пам'яті.
Системне ПЗ	Використовується операційна система UNICOS / lc.
Засоби програмування-ня	На комп'ютері встановлюються компілятори Fortran 77, 90, 95, C / C + +, комунікаційні бібліотеки MPI (з підтримкою стандарту MPI 2.0) і SHMEM, а також оптимізовані версії бібліотек BLAS, FFTs, LAPACK, ScaLAPACK і SuperLU. Для аналізу продуктивності системи встановлюється система Cray Apdivntice2 performance analysis tools.

SGI Origin2000

Виробник	Silicon Graphics
Клас архітектури	Модульна система із загальною пам'яттю (cc-NUMA).
Процесор	64-розрядні RISC-процесори MIPS R10000, R12000/300MHz
Модуль	Основний компонент системи - модуль Origin, що включає від 2 до 8 процесорів MIPS R10000 і до 16GB оперативної пам'яті.
Масштабується-тість	Поставляються системи Origin2000, що містять до 256 процесорів (тобто до 512 модулів). Вся пам'ять системи (до 256GB) глобально адресуються, апаратно підтримується когерентність кешів.
Комутатор	Модулі системи з'єднані за допомогою мережі CrayLink, побудованої на маршрутизаторах MetaRouter.
Системне ПЗ	Використовується операційна система SGI IRIX.
Засоби програмування-ня	Поставляється розпаралелюючих компілятор Cray Fortran 90. Підтримується стандарт OpenMP.

SGI Altix3000

Виробник	Silicon Graphics
Клас архітектури	Модульна система із загальною пам'яттю (cc-NUMA).
Процесор	Intel Itanium II 1.3GHz/1.5GHz
Модулі	Вся система будується з модулів (обчислювальних, комутаційних, інш.) Обчислювальний компонент системи - модуль C-brick, що складається з 2-х блоків, що включає 4 процесора (по 2 на блок), 4 слота пам'яті за 8DIMM (від 4 до 16Gb на C-brick).
Масштабується-тість	Поставляються системи Origin2000, що містять до 256 процесорів (тобто до 512 модулів). Вся пам'ять системи (до 256GB) глобально адресуються, апаратно підтримується когерентність кешів.
Комутатор	Модулі системи з'єднані за допомогою мережі NUMAlink, побудованої на власних маршрутизаторах R-bricks.
Системне ПЗ	Використовується допрацьована ("відкриті" доопрацювання) операційна система Linux.

Onyx2 InfiniteReality2

Виробник	Silicon Graphics
Клас архітектури	Багатопроцесорна система візуалізації; по апаратній архітектурі дуже схожа на Origin2000.
Число процесорів	Система може включати до 128 процесорів MIPS R10000.
Візуалізація	Графічні можливості системи забезпечують спеціальні пристрої трьох типів: геометричні (векторні) процесори, растрові процесори, генератори аналогових сигналів. Система може бути обладнана 16 незалежними каналами графічного виводу (visualization pipelines). На апаратному рівні підтримується графічний інтерфейс OpenGL.
Системне ПЗ	Використовується операційна система SGI IRIX.

Sun HPC 10000 (StarFire)

Виробник	Sun Microsystems, серія Sun HPC.
Клас архітектури	Багатопроцесорний SMP-сервер.
Процесор	UltraSPARC II/336MHz
Число процесорів	Система StarFire об'єднує від 16 до 64 процесорів.
Пам'ять	Система включає від 2GB до 64GB пам'яті.
Системне ПЗ	ОС Solaris, ПЗ розподілу ресурсів Load Sharing Facility (LSF).
Засоби розробки	Поставляється пакет підтримки паралельних програм Sun HPC 2.0, що включає такі засоби як HPF, MPI, PVM, PFS (паралельна файлова система), Prism (візуальне середовище розробки), S3L (бібліотека математичних підпрограм), та ін

Sun Fire 15K

Виробник	Sun Microsystems.
Клас архітектури	Багатопроцесорний SMP-сервер.
Процесор	UltraSPARC III/900MHz
Число процесорів	Система Sun Fire 15K об'єднує до 106 процесорів.
Пам'ять	Система включає до 576GB пам'яті.
Системне ПЗ	ОС Solaris 8.

NEC SX-5

Виробник	NEC, серія SX.
Клас архітектури	Паралельний векторний суперкомп'ютер (PVP).
Передує-ники	NEC SX-4.
Вузол	Кожен вузол системи є векторно-конвеєрним SMP-суперкомп'ютером, об'єднуючим до 16 індивідуальних векторних процесорів (кожен з піковою векторної продуктивністю 8 Gflop / s і скалярної продуктивністю 500 MFlop / s).
Пам'ять	Обсяг пам'яті кожного вузла - до 128GB, продуктивність обмінів з пам'яттю досягає 1TB/sec.
Масштабується-тість	Система може включати до 32 вузлів, забезпечуючи сукупну пікову продуктивність до 4 TFlop / s.
Комутатор	Для зв'язку вузлів використовується високошвидкісний комутатор (IXS Internode Crossbar Switch).
Системне ПЗ	Використовується операційна система SUPER-UX.
Засоби програмування-ня	поставляються компілятор мови HPF, реалізація інтерфейсу MPI, компілятори Фортран 77/90 з автоматичною векторизації і підтримкою OpenMP 1.1, а також інтегрована середовище розробки та оптимізації PSUITE.

NEC SX-6

Виробник	NEC, серія SX.
Клас архітектури	Паралельний векторний суперкомп'ютер (PVP).
Передує-ники	NEC SX-5.
Вузол	Кожен вузол системи є векторно-конвеєрним SMP-суперкомп'ютером, об'єднуючим від 2 до 8 індивідуальних векторних процесорів (кожен з піковою векторної продуктивністю 8 Gflop / s і скалярної продуктивністю 500 MFlop / s).
Пам'ять	Обсяг пам'яті кожного вузла - до 64GB, продуктивність обмінів з пам'яттю досягає 1TB/sec.
Масштабується-тість	Система може включати до 128 вузлів, забезпечуючи сукупну пікову продуктивність до 8 TFlop / s.
Комутатор	Для зв'язку вузлів використовується високошвидкісний комутатор (IXS Internode Crossbar Switch).
Системне ПЗ	Використовується операційна система SUPER-UX з поліпшеною підтримкою SSI (Single System Image).
Засоби програмування-ня	поставляються компілятор мови HPF 2.0, реалізація інтерфейсу MPI, компілятори Фортран 77/90 з автоматичною векторизації, інтегрована середовище розробки та оптимізації PSUITE, підтримується OpenMP 1.1 (в кінці 2002 року передбачається підтримка OpenMP 2.0).

Fujitsu VPP

Виробник	Fujitsu
Клас архітектури	Паралельний векторний суперкомп'ютер (PVP).
Модифікації	VPP300, VPP700, VPP5000
Процесорний елемент	Кожен процесорний елемент (PE) системи VPP700E складається скалярного пристрої (SU), векторного пристрої (VU), блоку пам'яті і пристрою сполучення. Для VPP700: VU складається з 7 конвеєрів і забезпечує пікову продуктивність до 2.4 GFLOP / sec. Об'єм пам'яті - до 2GB. Для VPP5000: VU складається з 4 конвеєрів, пікова продуктивність - 9.6 GFLOP / sec. Об'єм пам'яті - до 16GB.
Масштабується-тість	Для VPP700: система може включати від 8 до 256 PE, сумарна пікова продуктивність до 14.4 GFLOP / sec Для VPP5000: до 512 PE, сумарна пікова продуктивність до 4.9 TFLOP / sec.
Комутатор	Процесорні елементи пов'язані комутатором (crossbar network), який виробляє двосторонні обміни, не перериваючи обчислень. Пропускна здатність каналів комутатора: для VPP700 - 615MB/sec, для VPP5000 - 1.6GB/sec.
Системне ПЗ	Використовується операційна система UXP / V, заснована на UNIX System VR4.
Засоби програмування-ня	Серед засобів розробки поставляються: розпаралелюється та векторизуется компілятор Fortran90/VPP, оптимізована для VPP бібліотека математичних підпрограм SSLII / VPP, бібліотеки передачі сообшеній MPI-2 і PVM 3.3.

Fujitsu PrimePower 2000

Виробник	Fujitsu
Клас архітектури	Багатопроцесорні сервера із загальною пам'яттю (SMP).
Призначення	Сервер масштабу підприємства (Enterprise Server)
Віртуальні домени	до 15
Процесори	від 8 до 128 SPARC64-V, тактова частота 675/788MHz, L1 кеш 128/128KB, L2 кеш 8MB
Пропускна здатність шини	57.6 GB / sec
Пам'ять	2GB - 512GB ECC SDRAM
Дискові накопичувачі	внутрішні 8,736 GB, зовнішні 414 TB, підтримується гаряча заміна
Слоти введення-виведення	PCI 12-192, з них 6-96 64bit/66MHz/33MHz і 6-96 64bit/33MHz, вбудований SCSI контролер UltraWide
Операційна система	Solaris 2.6, 7, 8, 9
Мінімальна конфігурація	8 * 675MHz CPU, 4 GB пам'ять, 18.2 GB диски, вартість 1004730 доларів США

Fujitsu PrimePower 2500

Виробник	Fujitsu
Клас архітектури	Багатопроцесорні сервера із загальною пам'яттю (SMP).
Призначення	Сервер масштабу підприємства (Enterprise Server)
Partitions (розділи)	до 15 незалежних фізичних, до 15 додаткових
Процесори	від 8 до 128 SPARC64-V, тактова частота 1.35GHz, L1 кеш 256KB, L2 кеш 8MB
Пропускна здатність шини	133 GB / sec
Пам'ять	2GB - 512GB ECC SDRAM
Дискові накопичувачі	внутрішні 9,34 TB (32 PCI / Disk box), зовнішні 147GB * 4 диски на PCI / Disk box, підтримується гаряча заміна
Слоти введення-виведення	PCI до 320, вбудований SCSI контролер UltraWide
Операційна система	Solaris 8, 9

AlphaServer

Виробник	Compaq (Digital).
Клас архітектури.	AlphaServer GS / ES - високопродуктивний SMP-сервер, AlphaServer SC - масивно-паралельна система, AlphaServer HPC - кластерні системи.
Модифікації	GS320, GS160, HPC320, HPC160, GS140, GS60, ES40, DS20 та ін
Процесор	Alpha 21264, 21264A (тактова частота до 731 MHz в нових моделях)
Число процесорів	до 32 (модель GS320)
Пам'ять	до 256 GB (модель GS320)
Масштабується-тість	Системи HPC320 включають до 4-х вузлів AlphaServer ES40, тобто до 16 процесорів. Системи AlphaServer SC можуть об'єднувати до 128 вузлів AlphaServer ES40, тобто до 512 процесорів. Також Compaq пропонує різноманітні кластерні рішення на базі своїх серверів.
Системне ПЗ	На платформі AlphaServer підтримуються операційні системи Tru64 UNIX (це нове ім'я Digital UNIX), OpenVMS і Linux. Поставляється ПО кластеризації TruCluster Software.
Засоби програмування-ня	Підтримується паралельне програмування в стандартах OpenMP і MPI.

5. ДЕСЯТКА найпотужніших комп'ютерів
Даний список був узятий з Top500 на листопад 2004 року. У списку представлені наступні дані по кожному комп'ютера:
§ Rank - порядковий номер у списку Top500;
§ Site - організація, в якій встановлено комп'ютер;
§ Country - країна - місце розташування системи;
§ Year - рік інсталяції або останнього серйозного оновлення системи;
§ Computer - назва (тип) комп'ютера, вказане постачальником;
§ Processors - кількість процесорів;
§ Manufacturer - виробник або постачальник комп'ютера;
§ Computer Family - сімейство комп'ютерів;
§ Model - модель комп'ютера або обчислювального вузла;
§ Installation Type - вид установки (дослідницька, академічна, урядова, промислова, закрита);
§ Installation Area - область застосування (погода, геофізика);
§ Nmax - розмір задачі, необхідний для досягнення Rmax;
§ Nhalf - розмір задачі, необхідний для досягнення половини Rmax;
§ Rmax - максимальна отримана продуктивність по LINPACK;
§ Rpeak - теоретична пікова продуктивність.
Таблиця 5.1 - десятка найбільш потужних комп'ютерів

Rank	Site Country / Year	Computer Processors Manufacturer	Computer Family Model	Inst. type Installation Area	Rmax Rpeak	Nmax nhalf
1	IBM / DOE United States/2004	BlueGene / L beta-System BlueGene / L DD2 beta-System (0.7 GHz PowerPC 440) / 32768 IBM	IBM BlueGene / L BlueGene / L	Research	70720 91750	933887
2	NASA / Ames Research Center / NAS United States/2004	Columbia SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 SGI	SGI Altix SGI Altix 1.5 GHz	Research	51870 60960	1.29024e +06
3	The Earth Simulator Center Japan/2002	Earth-Simulator / 5120 NEC	NEC Vector SX6	Research	35860 40960	1.0752e +06 266240
4	Barcelona Supercomputer Center Spain/2004	MareNostrum eServer BladeCenter JS20 (PowerPC970 2.2 GHz), Myrinet / 3564 IBM	IBM Cluster JS20 CLuster, Myrinet	Academic	20530 31363	812592
5	Lawrence Livermore National Laboratory United States/2004	Thunder Intel Itanium2 Tiger4 1.4GHz - Quadrics / 4096 California Digital Corporation	NOW - Intel Itanium Itanium2 Tiger4 Cluster - Quadrics	Research	19940 22938	975000 110000
6	Los Alamos National Laboratory United States/2002	ASCI Q ASCI Q - AlphaServer SC45, 1.25 GHz / 8192 HP	HP AlphaServer SC Alpha-Server-Cluster	Research	13880 20480	633000 225000
7	Virginia Tech United States/2004	System X 1100 Dual 2.3 GHz Apple XServe / Mellanox Infiniband 4X/Cisco GigE / 2200 Self-made	NOW - PowerPC XServe Cluster	Academic	12250 20240	620000
8	IBM - Rochester United States/2004	BlueGene / L DD1 Prototype (0.5GHz PowerPC 440 w / Custom) / 8192 IBM / LLNL	IBM BlueGene / L BlueGene / L	Vendor	11680 16384	331775
9	Naval Oceanographic Office (NAVOCEANO) United States/2004	eServer pSeries 655 (1.7 GHz Power4 +) / 2944 IBM	IBM SP SP Power4 +, Federation	Research	10310 20019.2
10	NCSA United States/2003	Tungsten PowerEdge 1750, P4 Xeon 3.06 GHz, Myrinet / 2500 Dell	Dell Cluster PowerEdge 1750, Myrinet	Academic	9819 15300	630000

ВИСНОВОК
Бурхливий розвиток індустрії суперЕОМ послужило відгуком на необхідність людства в машинах, моделюючих процеси в реальному часі і виконують ряд інших складних завдань. СуперЕОМ завжди були втіленням новітніх науково-технічних досягнень і задавали темп і тенденції розвитку інших видів машин. Поки зростання продуктивності суперЕОМ відповідає збільшенню складності постають перед людиною. Проте, можна помітити, що сучасна концепція розвитку обчислювальних засобів спрямована, в основному, на кількісне покращення характеристик. Процес розробки в деякій мірі можна назвати "вижимання" максимуму з вже створеного. Це має на увазі, що сучасний етап розвитку обчислювальної техніки вже увійшов у стан відносної стабільності, і будь-яких якісних змін в межах сучасної концепції навряд чи доведеться очікувати. Очевидно, що за етапом стабільності, який може тривати невизначений час (але явно невелике в масштабі постійно прискорюється темпу життя), піде "смутний період", коли рівень можливостей суперЕОМ вже не зможе йти в ногу з потребами людства. Ця проблема породить необхідність у переході на якісно новий рівень обчислювальної техніки.
Ще одним великим знаком питання у розвитку суперЕОМ залишається проблема практичної відсутності достатньо чітких і зрозумілих стратегічних напрямів досягнення очевидну мету - створення штучної інтелектуальної системи, максимально відповідної природної, тобто Людині. Вносячи істотну невизначеність у саму стратегію розвитку суперЕОМ, ця проблема породжує ситуацію, коли постійно розширюється останнім часом мозаїка феноменальних наукових досягнень у галузі створення ЕОМ, позбавлена чіткої сполучною системи поглядів на опис та моделювання інтелектуальних систем, не тільки не зменшує цю невизначеність, а й в ряді випадків створює передумови до її збільшення.
Тому дуже важливим кроком, який слід зробити зараз, є конкретизація стратегії подальшого розвитку суперЕОМ.

СПИСОК ДЖЕРЕЛ
1. Інформаційно-аналітичний центр з паралельних обчислень