Мікропроцесори сімейства Intel

МОУ СЗШ «Іштеряковская середня загальноосвітня школа»

Реферат з інформатики
Тема: Мікропроцесори сімейства Intel

2007

Зміст

Вступ
Два кристала в одному корпусі
Pentium як точка відліку
Основна проблема на шляху підвищення продуктивності
Рішення прийняте в P6
Архітектура P6
1. Пристрій вибірки / декодування
2. Пристрій диспетчирування / виконання
3. Пристрій відкоту
4. Інтерфейс шини
5. Висновок
P6 як платформа для побудови потужних серверів
Системи на основі P6
Наступне покоління процесорів
Висновок
Програми
Література

Вступ
Всі IBM-сумісні персональні комп'ютери укомплектовані Intel-сумісними процесорами. Історія розвитку мікропроцесорів сімейства Intel коротенько така. Перший універсальний мікропроцесор фірми Intel з'явився в 1970 р. Він називався Intel 4004, був чотирирозрядний і мав можливість введення / виводу і обробки четирехбітних слів. Швидкодія його становила 8000 операцій в секунду. Мікропроцесор Intel 4004 був розрахований на застосування в програмованих калькуляторах з пам'яттю розміром в 4 Кбайт.
Через три роки фірма Intel випустила процесор 8080, який міг виконувати вже 16-бітові арифметичні операції, мав 1б-розрядну адресну шину і, отже, міг адресувати до 64 Кбайт пам'яті (2 516 0 = 65536). 1978 ознаменувався випуском процесора 8086 з розміром слова в 16 біт (два байти), 20-розрядною шиною і міг оперувати вже з 1 Мбайт пам'яті (2 520 0 = 1048576, або 1024 Кбайт), розділеної на блоки (сегменти) по 64 Кбайт кожен. Процесором 8086 комплектувалися комп'ютери, сумісні з IBM PC і IBM PC / XT. Наступним великим кроком у розробці нових мікропроцесорів став з'явився в 1982 році процесор 8028б. Він володів 24-розрядної адресної шиною, міг розпоряджатися 16 мегабайтами адресного простору і ставився на комп'ютери, сумісні з IBM PC / AT. У жовтні 1985 року був випущений 80386DX з 32 - розрядною шиною адреси (максимальне адресний простір - 4 Гбайт), а в червні 1988 року - 80386SX, дешевший в порівнянні з 80386DX і володів 24-розрядної адресної шиною. Потім у квітні 1989 року з'являється мікропроцесор 80486DX, а в травні 1993 - перший варіант процесора Pentium (обидва з 32-розрядною шиною адреси).
У травні 1995 року в Москві на міжнародній виставці Комтек-95 фірма Intel представила новий процесор - P6.
Однією з найважливіших цілей, поставлених при розробці P6, було подвоєння продуктивності в порівнянні з процесором Pentium. При цьому виробництво перших версій P6 буде здійснюватися за вже налагодженої "Intel" і використовуваної при виробництві останніх версій Pentium напівпровідникової технології (О, 6 мкм, З, З В).
Використання того ж самого процесу виробництва дає гарантію того, що масове виробництво P6 буде налагоджено без серйозних проблем. Разом з тим це означає, що подвоєння продуктивності досягається тільки за рахунок всебічного поліпшення мікроархітектури процесора. При розробці мікроархітектури P6 використовувалася ретельно продумана і налаштована комбінація різних архітектурних методів. Частина з них була раніше випробувана в процесорах "великих" комп'ютерів, частина запропонована академічними інститутами, що залишилися розроблені інженерами фірми "Intel". Ця унікальна комбінація архітектурних особливостей, яку в "Intel" визначають словами "динамічне виконання", дозволила першому кристалам P6 перевершити спочатку планувався рівень продуктивності.
При порівнянні з альтернативними "Intel" процесорами сімейства х86 з'ясовується, що мікроархітектура Р6 має багато спільного з мікроархітектури процесорів Nx586 фірми NexGen і K5 фірми AMD, і, хоча і в меншій мірі, з M1 фірми "Cyrix". Ця спільність пояснюється тим, що інженери чотирьох компаній вирішували одну і ту ж задачу: впровадження елементів RISC-технології при збереженні сумісності з CISC-архітектурою Intel х86.
Два кристала в одному корпусі
Головна перевага і унікальна особливість Р6 - розміщена в одному корпусі з процесором вторинна статична кеш-пам'ять розміром 256 кб, поєднана з процесором спеціально виділеної шиною. Така конструкція повинна істотно спростити проектування систем на базі Р6. Р6 - перший призначений для масового виробництва мікропроцесор, що містить два чіпа в одному корпусі.
Кристал ЦПУ в Р6 містить 5,5 мільйонів транзисторів; кристал кеш-пам'яті другого рівня - 15,5 мільйонів. Для порівняння, остання модель Pentium включала близько 3,3 мільйона транзисторів, а кеш-пам'ять другого рівня реалізовувалася за допомогою зовнішнього набору кристалів пам'яті.
Така велика кількість транзисторів в кеші пояснюється його статичної природою. Статична пам'ять в P6 використовує шість транзисторів для запам'ятовування одного біта, в той час як динамічної пам'яті було б достатньо одного транзистора на біт. Статична пам'ять швидше, але дорожче.
Хоча число транзисторів на кристалі з вторинним кешем втричі більше, ніж на кристалі процесора, фізичні розміри кеша менше: 202 квадратних міліметра проти 306 у процесора. Обидва кристала разом укладені в керамічний корпус з 387 контактами ("dual cavity pin-drid array"). Обидва кристала виробляються із застосуванням однієї і тієї ж технології (0,6 мкм, 4-шарова метал - БіКМОП, 2,9 В). Передбачуване максимальне споживання енергії: 20 Вт при частоті 133 МГц.
Перша причина об'єднання процесора і вторинного кеша в одному корпусі - полегшення проектування і виробництва високопродуктивних систем на базі Р6. Продуктивність обчислювальної системи, побудованої на швидкому процесорі, дуже сильно залежить від точної настройки мікросхем оточення процесора, зокрема вторинного кеша. Далеко не всі фірми-виробники комп'ютерів можуть дозволити собі відповідні дослідження. У Р6 вторинний кеш вже налаштований на процесор оптимальним чином, що полегшує проектування материнської плати.
Друга причина об'єднання - підвищення продуктивності.
КЗШ другого рівня пов'язаний із процесором спеціально виділеної шиною шириною 64 біта і працює на тій же тактовій частоті, що і процесор.
Перші процесори Рentium з тактовою частотою 60 і 66 МГц зверталися до вторинного кешу по 64-розрядній шині з тією ж тактовою частотою. Однак зі зростанням тактової частоти Pentium для проектувальників стало занадто складно і дорого підтримувати таку частоту на материнській платі. Тому стали застосовуватися подільники частоти. Наприклад, у 100 МГц Pentium зовнішня шина працює на частоті 66 МГц (у 90 МГц Pentium - відповідно 60 МГц). Pentium використовує цю шину як для звернень до вторинного кешу, так і для звернення до основної пам'яті і інших пристроїв, наприклад до набору чіпів PCI.
Використання спеціально виділеної шини для доступу до вторинного кешу покращує продуктивність обчислювальної системи.
По-перше, при цьому досягається повна синхронізація швидкостей процесора і шини, по-друге, виключається конкуренція з іншими операціями введення-виведення та пов'язані з цим затримки. Шина кеша другого рівня повністю відділена від зовнішньої шини, через яку відбувається доступ до пам'яті і зовнішніх пристроїв. 64-бітова зовнішня шина може працювати зі швидкістю, яка дорівнює половині, однієї третьої чи однієї четвертої від швидкості процесора, при цьому шина вторинного кеша працює незалежно на повній швидкості.
Об'єднання процесора і вторинного кеша в одному корпусі і їх зв'язок через виділену шину є кроком у напрямку до методів підвищення продуктивності, використовуваним в найбільш потужних RISC-процесорах. Так, в процесорі Alpha 21164 фірми "Digital" кеш другого рівня розміром 96 кб розміщений в ядрі процесора, як і первинний кеш. Це забезпечує дуже високу продуктивність кешу за рахунок збільшення числа транзисторів на кристалі до 9,3 мільйона. Продуктивність Alpha 21164 складає 330 SPECint92 при тактовій частоті 300 МГц. Продуктивність Р6 нижче (за оцінками "Intel" - 200 SPECint92 при тактовій частоті 133 МГц), однак Р6 забезпечує краще співвідношення вартість / продуктивність для свого потенційного ринку.
При оцінці співвідношення вартість / продуктивність слід враховувати, що, хоча Р6 може виявитися дорожче своїх конкурентів, велика частина інших процесорів повинна бути оточена додатковим набором чіпів пам'яті і контролером кеша. Крім того, для досягнення порівнянної продуктивності роботи з кешом, інші процесори повинні будуть використовувати кеш більшого, ніж 256 кб розміру.
"Intel", як правило, пропонує численні варіації своїх процесорів. Це робиться з метою задовольнити різноманітним вимогам проектувальників систем і залишити менше простору для моделей конкурентів. Тому можна припустити, що незабаром після початку випуску Р6 з'являться як модифікації зі збільшеним об'ємом вторинної кеш-пам'яті, так і більш дешеві модифікації із зовнішнім розташуванням вторинного кеша, але при збереженій виділеної шині між вторинним кешом і процесором.
Pentium як точка отсчетаПроцессор Pentium зі своєю конвеєрної і суперскалярной архітектурою досяг вражаючого рівня продуктивності.
Pentium містить два 5-стадійних конвеєра, які можуть працювати паралельно і виконувати дві цілочисельні команди за машинний такт. При цьому паралельно може виконуватися тільки пара команд, наступних у програмі один за одним і відповідають певним правилам, наприклад, відсутність реєстрових залежностей типу "запис після читання".
У P6 для збільшення пропускної здатності здійснено перехід до одного 12-стадійному конвеєру. Збільшення числа стадій призводить до зменшення виконуваної на кожній стадії роботи і, як наслідок, до зменшення часу знаходження команди на кожній стадії на 33 відсотка в порівнянні з Pentium. Це означає, що використання при виробництві P6 тією ж технологією, що й при виробництві 100 МГц Pentium, призведе до отримання P6 з тактовою частотою 133 Мгц.
Можливості суперскалярной архітектури Pentium, з її здатністю до виконання двох команд за такт, було б важко перевершити без абсолютно нового підходу. Застосований в P6 новий підхід усуває жорстку залежність між традиційними фазами "вибірки" і "виконання", коли послідовність проходження команд через ці дві фази відповідає послідовності команд у програмі.
Новий підхід пов'язаний з використанням так званого пулу команд і з новими ефективними методами передбачення майбутньої поведінки програми. При цьому традиційна фаза "виконання" замінюється на дві: "диспетчирування / виконання" і "відкат". У результаті команди можуть починати виконуватися в довільному порядку, але завершують своє виконання завжди відповідно до їх вихідним порядком у програмі. Ядро P6 реалізовано як три незалежних пристрої, які взаємодіють через пул команд (рис. 1).
Основна проблема на шляху підвищення проізводітельностіРешеніе про організацію P6 як трьох незалежних і взаємодіючих через пул команд пристроїв було ухвалене після ретельного аналізу факторів, що обмежують продуктивність сучасних мікропроцесорів. Фундаментальний факт, справедливий для Pentium і багатьох інших процесорів, полягає в тому, що при виконанні реальних програм потужність процесора не використовується повною мірою. Розглянемо як приклад наступний фрагмент програми, записаний на деякій умовному мовою: r1 <- mem [r0] / * Команда 1 * / r2 <- r1 + r2 / * Команда 2 * / r5 <- r5 + 1 / * Команда 3 * / r6 <- r6 - r3 / * Команда 4 * /
Припустимо, що при виконанні першої команди фрагмента завантаження з пам'яті в регістр r1 - виявилося, що вміст відповідної комірки пам'яті відсутній в кеші. При традиційному підході процесор перейде до виконання команди 2 тільки після того, як дані з комірки mem [r0] основною пам'яті будуть прочитані через інтерфейс шини. Весь час очікування процесор буде простоювати.
У той час як швидкість процесорів за останні 10 років зросла щонайменше в 10 разів, час доступу до основної пам'яті зменшилася тільки на 60 відсотків. Це збільшується відставання швидкості роботи з пам'яттю по відношенню до швидкості процесора і було тієї фундаментальною проблемою, яку довелося вирішувати при проектуванні P6.
Один з можливих підходів до вирішення цієї проблеми - перенесення-6 її центру ваги на розробку високопродуктивних компонентів, що оточують процесор. Однак масовий випуск систем, які включають і високопродуктивний процесор, і високошвидкісні спеціалізовані мікросхеми оточення, був би занадто дорогим.
Можна було спробувати вирішити проблему з використанням грубої сили, а саме збільшити розмір кеша другого рівня, щоб зменшити відсоток випадків відсутності необхідних даних у кеші.
Це рішення ефективне, але теж надзвичайно дороге, особливо з огляду на сьогоднішні швидкісні вимоги до компонентів кеша другого рівня. P6 проектувався з точки зору ефективної реалізації цілісної обчислювальної системи, і було потрібно, щоб висока продуктивність системи в цілому досягалася з використанням дешевої підсистеми пам'яті.
Рішення, прийняте в P6Решеніе сформульованої в попередньому розділі проблеми пам'яті, прийняте в P6, полягає у зверненні до пулу команд, вилученні з нього команд, наступних за командою, що вимагає звернення до пам'яті, і виконання до моменту завершення команди-гальма максимуму корисної роботи. У наведеному в попередньому розділі прикладі процесор не може виконати команду 2 до завершення команди 1, так як команда 2 залежить від результатів команди 1. У той же час процесор може виконати команди 3 і 4, які не залежать від результату виконання команди 1. Ми будемо називати таке виконання команд випереджаючим виконанням. Результати випереджаючого виконання команд 3 та 4 не можуть бути одразу записані у регістри, оскільки ми повинні змінювати стан обчислювальної системи тільки у відповідності з правильним порядком виконання програми.
Ці результати зберігаються в пулі команд і витягуються звідти пізніше. Таким чином, процесор виконує команди відповідно до їх готовністю до виконання, незалежно від їх первісного ладу в програмі, тобто з точки зору реального порядку виконання команд P6 є машиною, керованої потоком даних. У той же час зміна стану обчислювальної системи, наприклад запис у регістри, здійснюється в суворій відповідності з істинним порядком команд у програмі.
Читання з пам'яті даних, необхідних для команди 1, може займати достатньо багато тактів. Тим часом P6 продовжує випереджаюче виконання команд, наступних за командою 1, і встигає обробити, як правило, 20-30 команд. Серед цих 20-30 команд буде в середньому п'ять команд переходу, які пристрій вибірки / декодування має правильно передбачити для того, щоб робота пристрою диспетчирування / виконання не виявилася марною. Невелика кількість регістрів в архітектурі процесорів "Intel" призводить до інтенсивного використання кожного з них і, як наслідок, до виникнення безлічі уявних залежностей між командами, які використовують один і той же регістр. Тому, щоб виключити затримку у виконанні команд із-за уявних залежностей, пристрій диспетчирування / виконання працює з дублями регістрів, що знаходяться в пулі команд (одному регістру може відповідати кілька дублів). Реальний набір регістрів контролюється пристроєм відкоту, і результати виконання команд відбиваються на стані обчислювальної системи тільки після того, як виконана команда видаляється з пулу команд відповідно до істинним порядком команд у програмі.
Таким чином, прийнята в P6 технологія динамічного виконання може бути описана як оптимальне виконання програми, засноване на передбаченні майбутніх переходів, аналізі графа потоків даних з метою вибору найкращого порядку виконання команд і на випереджальному виконанні команд в обраному оптимальному порядку.
Далі ми будемо розуміти під "упорядкованим" пристрій, який працює відповідно до початкового порядком команд у програмі, а під "безладним" - пристрій, який не звертає уваги на вихідний порядок команд у програмі.

Пристрій вибірки / декодування є "упорядкованим" пристроєм, що сприймає на вході потік команд з програми користувача і декодує їх, перетворюючи в послідовність мікрокоманд, відповідних потоку даних в програмі користувача.
Пристрій диспетчирування / виконання є "безладним" пристроєм, що сприймає потік даних і планує виконання мікрокоманд з урахуванням залежностей за даними і доступності ресурсів, а також тимчасово зберігає результати випереджаючого виконання в пулі команд.
Пристрій відкату "впорядковане" пристрій, який знає, як і коли завершити виконання команди, тобто перевести тимчасові результати випереджаючого виконання в постійний стан обчислювальної системи.
Інтерфейс шини є "частково упорядкованим" пристроєм, що відповідає за зв'язок трьох вищезгаданих пристроїв із зовнішнім світом. Інтерфейс шини взаємодіє безпосередньо з кешем 2-го рівня і підтримує до 4 паралельних звернень до кешу.
Інтерфейс шини також управляє обміном даними з основною пам'яттю, який відбувається з використанням протоколу MESI [1].
Пристрій вибірки / декодірованіяСтруктура цього пристрою наведена на рисунку 3.
Команди з кеша команд можуть бути швидко вибрані для подальшої обробки. Покажчик на наступну команду - це індекс кеша команд, вміст якого визначається буфером переходів, станом процесора і повідомленнями про неправильне пророкуванні переходу, що надходять із пристрою виконання цілих команд. Буфер переходів з 512 входами використовує розширення алгоритму Йе (Yeh), яке забезпечує більш ніж 90-процентну точність передбачення переходів.
Припустимо, що нічого виняткового не відбувається і що буфер переходів у своїх прогнозах виявився прав (в P6 передбачені ефективні дії в разі неправильного передбачення переходу).
Кеш команд вибирає рядок кеша, відповідну індексу в покажчику на наступну команду, і наступну за нею рядок, після чого передає 16 вирівняних байтів декодеру. Два рядки зчитуються з-за того, що команди в архітектурі Intel вирівняні по межі байта, і тому може відбуватися передача керування на середину або кінець рядка кеша. Виконання цієї ступені конвеєра займає три такти, включаючи час, необхідний для обертання предвибранних байтів і їх подачі на декодери команд. Початок і кінець команд помічаються.
Три паралельних декодера приймають потік зазначених байтів і обробляють їх, відшукуючи і декодуючи містяться в потоці команди. Декодер перетворить команди архітектури Intel в мікрокоманд-тріади (два операнди, один результат). Більшість команд архітектури Intel перетворюються в одну мікрокоманду, деякі вимагають чотирьох мікрокоманд, а складні команди вимагають звернення до мікрокоду, який представляє з себе набір заздалегідь складених послідовностей мікрокоманд. Деякі команди, так звані байт-префікси, модифікують наступну за ними команду, що також ускладнює роботу декодера. Мікрокоманд ставляться в чергу, посилаються в таблицю псевдонімів регістрів, де посилання на логічні регістри перетворюються в посилання на фізичні регістри P6, після чого кожна з мікрокоманд разом з додатковою інформацією про її стан (статус) посилається в пул команд. Пул команд реалізований у вигляді масиву контекстно-пам'яті, що адресується, званого також буфером переупорядочивания.
У цій точці закінчується "впорядкована" частина конвеєра.
Пристрій диспетчирування / виполненіяУстройство диспетчирування вибирає мікрокоманд з пулу команд залежно від їх статусу. Під статусом ми будемо розуміти інформацію про доступність операндів мікрокоманд і наявності необхідних для її виконання обчислювальних ресурсів. Якщо статус мікрокоманд показує, що її операнди вже обчислені і доступні, а необхідне для її виконання обчислювальний пристрій (ресурс) також є, то пристрій диспетчирування вибирає мікрокоманду з пулу команд і спрямовує її на пристрій для виконання. Результати виконання мікрокоманд повертаються в пул.
Взаємодія з обчислювальними ресурсами відбувається через пятіпортовую розподільну станцію. Структура пристрої диспетчирування / виконання показана на малюнку 4.
P6 може запускати на виконання до 5 мікрокоманд за такт, по одній на кожен порт. Середня тривало підтримувана пропускна здатність мікрокоманд за такт. Процес планування виконання мікрокоманд є принципово "безладним": момент направлення мікрокоманд на обчислювальні ресурси визначається тільки потоками даних і доступністю ресурсів, без якої б то не було зв'язку з початковим порядком команд у програмі.
Алгоритм, що відповідає за планування виконання мікрокоманд, є вкрай важливим для продуктивності процесора в цілому.
Якщо в кожному такті для кожного ресурсу готова до виконання тільки одна мікрокоманда, то проблеми вибору не виникає. Але якщо готових до виконання на даному ресурсі мікрокоманд кілька, то яку з них вибрати? Можна довірити вибір нагоди. Можна застосувати алгоритм "перший прийшов - перший обслужений". Ідеальним був би вибір мікрокоманд, виконання якої привело б до максимального скорочення графа потоків даних виконуваної програми. Проте оскільки немає можливості визначити таку мікрокоманду в ході виконання програми, використовується алгоритм планування, що імітує модель "перший прийшов - перший обслужений", вважаючи за краще суміжне виконання суміжних мікрокоманд.
Оскільки система команд Intel містить безліч команд переходу, багато мікрокоманд також є переходами. Алгоритм, реалізований в буфері переходів, дозволяє в більшості випадків правильно передбачити, відбудеться чи не відбудеться перехід, але іноді він все ж таки буде помилятися. Розглянемо для прикладу випадок, коли буфер переходів передбачає перехід тому в кінці циклу: до тих пір, поки умова виходу з циклу не виконується, перехід буде передбачати вірно, однак коли це умова стане справжнім, пророкування буде помилковим.
Для виправлення випадків невірного передбачення переходу застосований наступний підхід. Мікрокоманда переходу ще в упорядкованій частини конвеєра ставляться у відповідність адреса наступної команди і передбачуваний адресу переходу. Після обчислення переходу реальна ситуація порівнюється з передбаченою. Якщо вони збігаються, то виконана, виходячи з припущення про результат переходу, робота виявляється корисною, оскільки відповідає реальному ходу програми, а мікрокоманда переходу видаляється з пулу команд.
Якщо ж допущена помилка (перехід був передбачений, але не відбувся, або було передбачене відсутність переходу, а насправді він відбувся), то пристрій виконання переходів змінює статус усіх мікрокоманд, засланих у пул команд після команди переходу, щоб прибрати їх з пулу команд. Правильний адреса переходу направляється в буфер переходів, який перезапускає весь конвеєр з нової адреси.
Пристрій відкату також перевіряє статус мікрокоманд в пулі команд: воно шукає мікрокоманд, які вже виконані і можуть бути видалені з пулу. Саме при видаленні мікрокоманд результати її виконання, що зберігаються в пулі команд, реально змінюють стан обчислювальної системи, наприклад, відбувається запис у регістри.
Пристрій відкату має не тільки виявляти завершилися мікрокоманд, але і видаляти їх з пулу команд таким чином, щоб зміна стану обчислювальної системи відповідало початкового порядку команд у програмі. При цьому він повинен враховувати і правильно обробляти переривання, виняткові ситуації, неправильно передбачені переходи та інші екстремальні-10 випадки.
Процес відкату займає два такту. У першому такті пристрій відкату зчитує пул команд і відшукує готові до відкоту мікрокоманд; потім воно визначає, які з цих мікрокоманд можуть бути видалені з пулу відповідно до початкового порядком команд у програмі. У другому такті результати відкату записуються в пул команд і в регістровий файл відкоту. Пристрій відкоту може обробити три мікрокоманди за такт.
Інтерфейс шини
Структура інтерфейсу шини зображена на малюнку 6.
Є два типи звернень до пам'яті: читання з пам'яті в регістр і запис з регістра в пам'ять.
При читанні з пам'яті повинні бути задані адресу пам'яті, розмір блоку зчитувальних даних і регістр-призначення. Команда читання кодується однією мікрокоманд.
При записи треба задати адресу пам'яті, розмір блоку записуваних даних і самі дані. Тому команда запису кодується двома мікрокомандами: перша генерує адресу, друга готує дані.
Ці мікрокоманд плануються незалежно і можуть виконуватися паралельно; вони можуть переупорядочіваться в буфері запису.
Запис у пам'ять ніколи не виконується випереджаючим чином, так як немає ефективного способу організації відкату в разі невірного передбачення. Різні команди запису ніколи не переупорядочіваются один щодо одного. Буфер запису ініціює запис, тільки коли сформовані і адресу, і дані, і немає очікують виконання попередніх команд записи.
При вивченні питання про можливість і доцільності переупорядоченія доступу до пам'яті інженери "Intel" прийшли до наступних висновків.
Команда запису не повинна обганяти що йде попереду команду запису, так як це може лише трохи збільшити продуктивність.
Можна заборонити командам запису обганяти команди читання з пам'яті, так як це призведе лише до незначної втрати продуктивності.
Заборона командам читання обганяти інші команди читання або команди запису може спричинити суттєві втрати в продуктивності.
Тому була реалізована архітектура підсистеми пам'яті, що дозволяє командам читання випереджати команди записи й інші команди читання. Буфер упорядкування пам'яті служить як розподільної станції і буфера переупорядочивания. У ньому зберігаються відкладені команди читання і запису, і він здійснює їх повторне диспетчирование, коли блокуючу умова (залежність за даними або недоступність ресурсів) зникає.

Висновок
Таким чином, реалізована в P6 комбінація таких архітектурних методів, як покращене пророкування переходів (майже завжди правильно визначається майбутня послідовність команд), аналіз потоків даних (визначається оптимальний порядок виконання команд) і випереджальний виконання (передбачувана послідовність команд виконується без простоїв в оптимальному порядку), дозволила подвоїти продуктивність по відношенню до Pentium при використанні тієї ж самої технології виробництва. Ця комбінація методів називається динамічним виконанням.
В даний час "Intel" веде розробку нової 0,35 мкм технології виробництва, що дасть можливість випускати процесори P6 з тактовою частотою ядра понад 200 МГц.
Р6 як платформа для побудови потужних серверів.
Серед найбільш значущих тенденцій розвитку комп'ютерів в останні роки можна виділити як все зростаюче використання систем на основі процесорів сімейства х86 як сервери додатків, так і зростаючу роль "Intel" як постачальника непроцессорних технологій, таких як шини, мережеві технології, стиснення відеозображень, флеш- пам'ять і засоби системного адміністрування.
Випуск процесора Р6 продовжує проводиться "Intel" політику перенесення можливостей, якими раніше володіли лише більш дорогі комп'ютери, на масовий ринок. Для внутрішніх регістрів Р6 передбачений контроль по парності, а з'єднує ядро процесора і кеш другого рівня 64-бітова шина оснащена засобами виявлення та виправлення помилок. Вбудовані в Р6 нові можливості діагностики дозволяють виробникам проектувати більш надійні системи. У Р6 передбачена можливість одержання через контакти процесора або за допомогою програмного забезпечення інформації про більш ніж 100 змінних процесора або відбуваються в ньому події, таких як відсутність даних у кеші, вміст регістрів, поява самомодіфіцірующіеся коду і так далі. Операційна система та інші програми можуть зчитувати цю інформацію для визначення стану процесора. У Р6 також реалізована поліпшена підтримка контрольних точок, тобто забезпечується можливість відкоту комп'ютера в зафіксоване раніше стан у разі виникнення помилки.
Р6 підтримує ті ж можливості по контролю за допомогою функціональної надмірності (FRC), що і Pentium. Це означає, що в P6 передбачена можливість побудови систем з паралельним виконанням одних і тих же операцій двома процесорами з взаємним контролем результатів і повідомленням про помилку в разі розбіжності. При цьому, на жаль, P6 як і раніше не повідомляє про причину помилки.
У моделі Р54С процесора Pentium "Intel" запропонувала простий і недорогий спосіб організації двопроцесорної роботи: ведучий і ведений процесори використовують загальний кеш і невидимо для додатків поділяють програму на потоки. Однак використовувати таку організацію роботи можуть лише багатопотокові операційні системи.
Р6 переводить організацію багатопроцесорної роботи на новий рівень, відповідний певної "Intel" мультипроцессорной специфікації MPS 1.1. Одним з найбільш складних аспектів симетричної багатопроцесорної роботи є підтримка кеш-відповідності для всіх приєднаних до окремих процесорам кешів.
Р6 підтримує кеш-відповідність для вторинного кеша на внутрішньому рівні, а зовнішня шина P6 виступає як симетрична мультипроцесорна шина.
Раніше проектувальники мультипроцесорних систем повинні були створювати власні шини для зв'язку процесорів, або купувати ліцензію на вже існуючі рішення, наприклад Corollary C-bus II. Тепер кошти, реалізовані "Intel" в Р6, дозволяють об'єднати чотири процесори в мультипроцесорну систему. Чотири - це межа, обумовлює прийняття в Р6 логікою арбітражу.
Ще одна проблема для виробників багатопроцесорних систем на базі Р6 полягає в тому, що для ефективної роботи таких систем до кожного процесору підключається виділений кеш, розмір якого повинен бути більше, ніж 256 кб - розмір кеша в корпусі Р6. Таким чином, проектувальники високопродуктивних серверів будуть змушені використовувати зовнішні контролери кешу і додаткові мікросхеми статичної пам'яті.
Ця проблема буде вирішена, якщо "Intel" збільшить розмір кеша другого рівня в корпусі Р6, що досяжно або за рахунок збільшення розміру кристала, або за рахунок переходу до більш мініатюрної технології виробництва. Сьогодні виробники, які хочуть будувати системи з більш ніж чотирма процесорами, повинні об'єднувати дві або більше чотирипроцесорних системи за допомогою високошвидкісного послідовного з'єднання пам'ять-пам'ять. Реалізації таких сполук для PCI очікуються цього року.
Системи на основі Р6
Можна припустити, що комп'ютери на базі P6 спочатку будуть нагадувати сьогоднішні найбільш потужні Pentium-комп'ютери: щонайменше 1 Гб жорсткий диск, 32 Мб оперативної пам'яті, потужні графічні контролери. З'являться перші багатопроцесорні сервери на Р6.
Покращена діагностика і засоби обробки помилок в Р6 дозволяють проектувати на базі Р6 надійні сервери рівня підприємства. Покращена підтримка симетричної багатопроцесорної роботи в поєднанні з підтримуючими таку роботу версіями OS / 2 і NetWare призведе до побудови на Р6 ще більш потужних серверів.
"Intel" припускає, що першими Р6-системами будуть сервери, однак настільні комп'ютери на P6 з'являться майже одночасно з ними. Ціна перших настільних Р6-комп'ютерів буде починатися з 4000 доларів і зростати із зростанням потужності конфігурації. З урахуванням розміру корпусу Р6, його споживання енергії і розсіюється тепла (потрібне активне охолодження), не слід очікувати швидкого появи портативних комп'ютерів на Р6.
Як завжди, першими користувачами настільних комп'ютерів на процесорі нового покоління будуть розробники програмного забезпечення і користувачі з таких областей, як САПР, настільні видавничі системи, наукове моделювання і візуалізація його результатів, статистика, одним словом, ті області, яким завжди бракувало і буде бракувати існуючих швидкостей.
Що стосується серверів, то першими кандидатами на перехід до Р6 є сервери додатків, що здійснюють такі роботи, як розсилку повідомлень, доступ до баз даних і сховищ документів. Системні сервери і сервери друку не прив'язані до конкретного типу процесорів і тому не відчувають такої потреби у збільшенні потужності.

Цілком ймовірно, що першими покупцями Р6-систем будуть порівняно невеликі організації, де на ці системи буде покладено виконання самостійно розроблених критичних для діяльності організації додатків. Великі підприємства будуть купувати такі системи дещо пізніше, після ретельної оцінки-14 і підготовки. Справа в тому, що великі організації експлуатують значно більше число розроблених на замовлення програм і стандартного програмного забезпечення, і потрібно провести перевірку на його сумісність з новими системами.
Типова Р6-система буде включати процесор Р6 з тактовою частотою 133 Мгц, зовнішню шину, що працює на половині, однієї третьої чи однієї чверті від цієї частоти, набір чіпів Intel Р6/PCI на ім'я Orion, що підтримує версію 2.1 32-бітової шини PCI з частотою 33 МГц, але не підтримує 64-бітові розширення PCI.
Внаслідок наявності вбудованого кеша другого рівня, в більшості Р6-систем буде відсутній зовнішній кеш і контролер кешу. Для побудови основної пам'яті будуть використовуватися звичайні 60-наносекундних DRAM або, в деяких випадках, підтримувані в наборі чіпів Intel Triton для Pentium більш швидкісні EDO DRAM.
Стандартної буде конфігурація з 16 Мб оперативної пам'яті при все зростаючому числі систем з 32 Мб.
Спочатку Р6-системи будуть включати як шину PCI, так і шини EISA / ISA. Однак у міру зростання підтримки PCI необхідність в EISA і ISA буде зменшуватися. Особливо важливим для цього є поява передбачених в PCI 2.1 мостів PCI-PCI. Головною проблемою при використанні PCI сьогодні є обмеження на ступінь її навантаження. Мости між шинами дозволяють працювати з великим числом пристроїв у межах одного логічного адресного простору.
Включення в систему декількох шин PCI, з'єднаних мостами, дозволить як уникнути використання інших шин, так і підключати крім пам'яті і графіки високошвидкісні мережеві інтерфейси (наприклад, 100 Мбіт / сек Ethernet, FDDI і ATM) і високошвидкісний послідовний уведення-виведення.
Ємність пам'яті на жорсткому диску буде щонайменше 730 Мб з використанням інтерфейсу IDE або SCSI. Велика частина систем буде включати 2-швидкісні або більш швидкі CDROM. Графіка буде забезпечувати здатність 1024 на 768 пікселів і управлятися картами-акселераторами з 2-4 Мб пам'яті.
Більш незвичайні конфігурації можуть включати слоти PCMCIA, 4-швидкісні CD-ROM, підтримку 40 Мб / сек Ultra SCSI, вбудовані 10-100 Мбіт / сек мережеві порти і вбудовані можливості мультимедіа, реалізовані за допомогою цифрових сигнальних процесорів або спеціальних чіпів для обробки звуку, вводу / виводу відеозображень, компресії / декомпресії. Деякі виробники, можливо, вдадуться до використання нових типів пам'яті, 128-бітових графічних акселераторів, 64-бітових розширень шини та інших нововведень, що допускаються специфікацією PCI.
Наступне покоління процесорів Технологія Р6 є логічним розвитком технології Pentium. Очікується що в процесорі Р7 буде реалізована істотно відмінна від Р6 технологія, що забезпечує прорив в продуктивності при збереженні сумісності з сімейством x86.
У минулому році "Intel" і "Hewlett-Packard" домовилися про-15 сумісну розробку нового мікропроцесора, поява якого планується на 1997 або 1998 рік. Про внутрішній устрій нового мікропроцесора поки відомо лише те, що він буде використовувати RISC-технологію і забезпечувати виконання всього існуючого для процесорів Intel х86 і Hewlett-Packard PA-RISC програмного забезпечення. Крім підтримки існуючих наборів команд цих родин, по всій видимості, в Р7 буде введена власна система команд.
Згідно переважної точки зору, "Intel" і "Hewlett-Packard" ведуть експерименти з технологією VLIW ("very long instruction word" - дуже довге командне слово). Можна сказати, що VLIW в певному сенсі прямо протилежна технології, яка у Р6. У Р6 витончено побудований декодер транслює складні команди х86 в більш короткі і прості RISC-мікрокоманди.
VLIW-процесор грунтується на компіляторі нового типу, який, навпаки, упаковує декілька простих операцій в одну "дуже довгу" команду. Кожна "дуже довга" команда містить незалежні один від одного операції, які виконуються паралельно.
Іншими словами, під VLIW-процесорі відповідальність за планування виконання команд переноситься з апаратури на програмне забезпечення. Планування здійснює компілятор, і виходить в результаті компіляції код прикладної програми містить всю інформацію про порядок виконання команд.
Однак поки VLIW-технологія дуже недосконала. По-перше, не розроблені ефективні методи проектування VLIW-компіляторів. По-друге, цілком імовірно, що програмне забезпечення, розроблене для VLIW-процесора, доведеться перекомпілювати при появі процесора нового покоління.
З цих причин, а також враховуючи і інші обставини, багато оглядачів сумніваються в тому, що Intel і Hewlett-Packard зможуть випустити життєздатний з точки зору конкуренції на ринку VLIW-процесор. Ринок процесорів х86 надто важливий для Intel, і навряд чи Intel може повністю покластися на невипробувані технологію. Тому цілком ймовірно, що Intel працює над паралельним проектом Р7, заснованим на більш традиційної технології, щоб застрахуватися на випадок невдачі VLIW-проекту.
Справа в тому, що можливості удосконалення архітектури х86 не вичерпані. Природний напрям її розвитку включає посилення суперскалярной до шести одночасно виконуваних команд, збільшення розміру первинних кешей, розміщення вторинного кеша на кристалі процесора, більше число виконавчих пристроїв, збільшення розміру буферів і підтримка більш довгих ланцюжків виконуються з випередженням команд.
Конкуренти "Intel" також не збираються сидіти, склавши руки.
"NexGen" планує випуск процесора Nx686 в кінці 1995 року і стверджує, що його продуктивність буде в 2-4 рази перевищувати продуктивність Nx586. "Cyrix" також працює над процесором-наступником М1, але подробиць поки не повідомляє.
Найбільш докладно повідомляє про свої плани AMD. Наступний за К5 процесор К6 з'явиться в 1996 році, а його масове виробництво почнеться в 1997 році. К6 буде виготовлятися за технологією 0,35 мкм і буде містити близько 6,5 мільйонів транзисторів. Передбачувана виробник К6 - 300 SPECint92. У 1997 році AMD планує випуск процесора К7, з початком його масового виробництва, у 1998 році. К7 буде виготовлятися за технологією 0,18 мкм; число транзисторів - 10-15 мільйонів. Передбачається, що при тактовій частоті 400 МГц він досягне продуктивності 700 SPECint92.
Нарешті, в 2001 році AMD планує випуск процесора K8, що містить 20 мільйонів транзисторів і забезпечує продуктивність 1000 SPECint92 на тактовій частоті 600 МГц.
Можливо і поява нових конкурентів. Процесори 386 і 486 виробляють IBM Microelectronics, "Texas Instruments", SGS-Thompson і ряд азіатських фірм. Проте до цих пір ніхто з них не намагався вийти на передові позиції і не брався за розробку сучасного процесора сімейства х86, який міг би конкурувати з новітніми процесорами "Intel", AMD, "Cyrix" і NexGen.

Висновок
Процесори Р6 фірми Intel обрані в якості елементної бази для першого у світі комп'ютера продуктивністю понад трильйон операцій в секунду. Унікальна машина призначена головним чином для розрахунків з ядерної тематики Міністерства енергетики США.
Міністерство зупинило свій вибір на Intel Corporation, доручивши їй виготовлення нового комп'ютера, продуктивність якого в десять разів перевищить аналогічну характеристику найшвидших сучасних суперкомп'ютерів. Нова обчислювальна система буде встановлена в Sandia National Laboratories - багатоцільовий лабораторії Міністерства енергетики США у місті Альбукерк (штат Нью-Мексико). У складі машини Intel / Sandia буде працювати понад 9000 мікропроцесорів компанії Intel наступного покоління, що отримали кодову назву Р6.
Чудово, що машина Intel / Sandia будується з тих же комп'ютерних "будівельних цеглинок", які Intel представляє виробникам комп'ютерної техніки для використання у великомасштабних паралельних системах, високопродуктивних серверах, робочих станціях і настільних комп'ютерах.
Нова система буде мати пікову продуктивність 1.8 трильйонів операцій у секунду і в десять разів підвищить швидкодію при роботі з важливими прикладними програмами Міністерства енергетики. Машина оснащується системної пам'яттю в 262 Гбайт і буде здана в експлуатацію до кінця 1996 року.
Нещодавно фірма Intel оголосила нову назву свого процесора P6. Тепер він буде називатися Pentium Pro.

Програми

	Intel P6		Intel Pentium	AMD K5		Cyrix M1	NexGen Nx 586
Тактова частота (МГц)	133		100	100		100	93
Продуктивність (SPECint92)	200		112,7	147		147-169	112,7
Суперскалярной (команди)	3		2	4		2	3
Виконавчі пристрої	5		3	5		4	3
Передбачення переходів	динамічне		динамічне	динамічне		динамічне	динамічне
Випереджаюче виконання	є		немає	є		є	є
"Безладна" виконання	є		немає	є		є	є
Число транзисторів	5,5 млн.		3,3 млн.	4,3 млн.		3,3 млн.	3,5 млн.
Кеш першого рівня (кб)	16 - роздільний		16 - роздільний	24 - роздільний		16 - єдиний	32 - роздільний
Кеш другого рівня	256 кб		зовнішній	зовнішній		зовнішній	зовнішній
Технологія	0,6 мкм БіКМОП		0,6 мкм БіКМОП	0,5 мкм КМОП		0,65 мкм КМОП	0,5 мкм КМОП
Розмір кристала (кв. мм)	306		163	невідомо		394	196
Початок випуску	я. підлогу. 1995	середина 1994	я. підлогу. 1995	а пол. 1995	Кінець 1994
Ціна (в партіях по 1000)	невідома		$ 673 ¹	невідома		невідома	$ 569

1. Зараз ця ціна вже реально менше ($ 200-300) - 22

Література
1. Монітор N 3 1995р. Д. Бройтман "Мікроархітектура процесора P6" с. 6-11.
2. Монітор N 5 1995р. Д. Бройтман "Процесор P6: загальний огляд", стор. 8-12.
3. Hard 'n' Soft N 10 1995р.

Мікропроцесори сімейства Intel

МОУ СЗШ «Іштеряковская середня загальноосвітня школа»

Реферат з інформатики Тема: Мікропроцесори сімейства Intel

2007

Зміст

Реферат з інформатики
Тема: Мікропроцесори сімейства Intel