Нижегородский государственный университет им. Н.И.Лобачевского
Опубликован: 30.05.2014 | Доступ: свободный | Студентов: 302 / 34 | Длительность: 11:26:00
Лекция 1:

Обзор архитектуры современных многоядерных процессоров

Лекция 1: 1234567 || Лекция 2 >

Процессоры AMD Phenom™ и AMD Opteron™

Компания AMD основана в 1969 г. (всего на год позже, чем Intel) и в сознании рядового пользователя прочно занимает место главного конкурента Intel на рынке процессоров для настольных систем и отчасти на рынке серверных, при этом практически всегда выступая в роли догоняющего. Если принимать во внимание только "внешние" факторы вроде рыночной доли, то ситуация действительно может быть воспринята именно так. И в этом свете основной успех компании за последнее десятилетие связан с выпуском в 2003 г. 64-битных процессоров AMD Opteron™, быстро завоевавших популярность и позволивших AMD значительно упрочить свое положение, в том числе в сегменте высокопроизводительных решений. Достаточно отметить, что в 28-м списке Top500 (ноябрь 2006 г.) доля систем, построенных на основе процессоров AMD, достигла своего исторического максимума и составила 22,6% против 52,6% у компании Intel и 18% у компании IBM. Однако кроме такого чисто количественного сравнения, в котором AMD неизменно проигрывает своим конкурентам, есть еще показатели качественные, и тут компания за прошедшие годы нередко бывала первопроходцем и реализовывала действительно интересные архитектурные решения.

Среди прочего это и интеграция в процессор северного моста, что дает более быстрый доступ к оперативной памяти, и использование Direct Connect Architecture для взаимодействия процессоров между собой посредством высокоскоростной шины HyperTransport™, позволяющей без существенных потерь в производительности объединять в рамках одной системы до 8 процессоров Opteron. Стоит отметить, что процессоры AMD поддерживают технологии, аналогичные рассмотренных ранее у Intel: расширенная технология оптимизации энергопотребления (AMD PowerNow!™ Technology), увеличение частоты ядер при необходимости (AMD Turbo CORE Technology), поддержка новых инструкций (AVX, AES, FMA4, XOP), общий кэш третьего уровня (AMD Balanced Smart Cache) и многое другое. Последними серверными процессорами компании AMD являются шестнадцатиядерные модели Opteron на ядре Piledriver.

На рынке настольных систем основное оружие компании AMD сегодня – процессоры AMD FX™. Процессоры FX построены на той же микроархитектуре (Piledriver), что и серверные Opteron. Текущее поколение процессоров FX выпускается по технологии 32 нм.

Приведем технические данные текущих лидеров в классе настольных и серверных процессоров.

Процессор AMD FX 8350

Тактовая частота: 4,0 ГГц (максимальная 4,2 ГГц).

Число ядер: 8.

Кэш второго уровня: 8 МБ (по 1 МБ на каждое ядро).

Кэш третьего уровня: 8 МБ (общий на все ядра).

Технологический процесс: 32 нанометров.

Процессор AMD Opteron™ 6386 SE

Тактовая частота: 2,8 ГГц (максимальная 3,5 ГГц).

Число ядер: 16.

Кэш второго уровня: 16 МБ (по 1 МБ на каждое ядро).

Кэш третьего уровня: 16 МБ (общий на все ядра).

Технологический процесс: 32 нанометров.

В заключение, как и для процессоров компании Intel, приведем усредненные данные из списка Top500. Для систем в Top500, построенных на процессорах компании AMD, отношение "показанная мощность/пиковая мощность" составляет в 40-м списке 70,2%, при этом "удельная мощность" в расчете на один процессор/ядро равна 17,85 гигафлопс. Как и ранее, от-метим, что значительная часть этих систем введена в строй уже несколько лет назад и построена не на новейших процессорах, а часть систем содержит ускорители и сопроцессоры, что значительно повышает их производительность. Отметим, что лидер 40-го списка TOP-500 Titan построен на 16-ядерных процессорах AMD Opteron 6274.

Процессоры IBM Power7

История компании IBM значительно длиннее, чем у Intel и AMD, и, в отличие от последних, IBM никогда не производила только процессоры. Фактически компания, говоря сегодняшним языком, всегда пыталась поставлять "готовые решения". Однако обсуждения всего списка продукции IBM выходит за рамки данного материала, и мы остановимся только на процессорах, которые выпускает компания сегодня и на основе которых строит как серверы "начального" уровня, так и суперкомпьютеры вроде Roadrunner или BlueGene.

Микропроцессорная архитектура Power (расшифровывается как Performance Optimization With Enhanced RISC) имеет не менее богатую историю, чем сама компания IBM. Начиная с 1990 г., когда были выпущены первые компьютеры на основе процессоров Power, и по сегодняшний день архитектура постоянно развивается, с каждым поколением процессоров привнося значительные новшества. Текущая версия процессоров Power – Power7 выпущена в 2010 г., тем не менее уже 13 систем в 40-м списке Top500 построено на основе этих процессоров.

Процессор Power7 выпускается по 45 нм технологическому процессу. Максимальная частота серийно выпускаемых образцов на сегодня равна 4,25 ГГц.

Процессоры Power7 могут иметь четыре, шесть или восемь ядер, способных выполнять по четыре потока команд одновременно, по 4 МБ кэша третьего уровня на каждое ядро. Каждое ядро содержит два блока работы с целыми числами и четыре – с числами с плавающей точкой. Процессор поддерживает внеочередное (out-of-order7Процессор может изменить порядок выполнения инструкций (если это возможно), чтобы не допустить простаивания своих вычислительных блоков. Внеочередное выполнение команд поддерживается многими современными процессорами. В том числе процессорами Intel и AMD.) исполнения команд и каждое ядро способно выполнять до 8 инструкций за такт. Процессоры Power7 поставляются в многочиповом корпусе, вмещающем до 4 процессоров.

В заключение, как и ранее, приведем усредненные данные из списка Top500. Для систем в Top500, построенных на процессорах IBM семейства Power, отношение "показанная мощность/пиковая мощность" составляет в 40-м списке 81%, при этом "удельная мощность" в расчете на один процессор/ядро равна 12,5 гигафлопс. Как и ранее, отметим, что значительная часть этих систем построена не на новейших процессорах.

В августе 2012 IBM представила процессоры Power7+, которые являются развитием процессоров Power7 с большей тактовой частотой (4,4 ГГц) и размером кэша (10 МБ на ядро). Процессоры Power7+ выпускается по 32 нм технологическому процессу.

Процессоры PowerXCell™ 8i

Рассказ о процессоре PowerXCell™ 8i конечно же нужно начать с его прямого предка – процессора Cell ( рис. 1.6), разработанного альянсом STI (Sony, Toshiba, IBM) в первую очередь для использования в игровых приставках Sony PlayStation 3. В процессе создания этого процессора были приняты весьма интересные решения, дающие в итоге очень высокую пиковую производительность (более 200 гигафлопс, правда, только для вещественной арифметики одинарной точности), но требующие в качестве платы более сложного программирования.

Процессор Cell

Рис. 1.6. Процессор Cell

Прежде всего отметим, что процессор Cell имеет существенно "неоднородное" устройство. Он состоит из одного двухъядерного Power Processor Element (PPE) и 8 Synergistic Processor Element (SPE). PPE построен на архитектуре PowerPC и "отвечает" в процессоре Cell за исполнение кода общего назначения (операционной системы в частности), а также контролирует работу потоков на сопроцессорах SPE. Ядра PPE – 64-разрядные и так же, как и Power6, используют поочередный (in-order) порядок исполнения команд. PPE имеет блок векторных операций Vector Multimedia eXtensions (VMX), кэш первого уровня размеров 64 КБ (по 32 КБ на кэш инструкций и данных) и кэш второго уровня размером 512 КБ.

В отличие от PPE, SPE-ядра представляют собой специализированные векторные процессоры, ориентированные на быструю потоковою работу с SIMD-инструкциями. Архитектура SPE довольно проста: четыре блока для работы с целочисленными векторными операциями и четыре блока для работы с числами с плавающей запятой. Большинство арифметических инструкций представляют данные в виде 128-разрядных векторов, разделенных на четыре 32-битных элемента. Каждый SPE оснащён 128 регистрами, разрядность которых – 128-бит. Вместо кэша первого уровня SPE содержит 256 КБ собственной "локальной памяти" (local memory, также называемой local store или LS), разделенной на четыре отдельных сегмента по 64 КБ каждый, а также DMA-контроллер, который предназначен для обмена данными между основной памятью (RAM) и локальной памятью SPE (LS), минуя PPE. Доступ к LS составляет 6 тактов, что больше, чем время обращения к кэшу первого уровня, но меньше, чем к кэшу второго уровня для большинства современных процессоров. SPE-ядра, также как и PPE, используют упорядоченную схему (in-order) исполнения инструкций.

Частота всех ядер в процессоре Cell составляет 3,2 ГГц, что дает производительность одного SPE в 3,2 ? 4 ? 2 = 25,6 гигафлопс (последняя двойка в произведении за счет двух конвейеров, позволяющих за один такт выполнять операции умножения и сложения над вещественными числами). Таким образом, пиковая производительность всего процессора Cell получается превышающей 200 гигафлопс.

Модель программирования для процессора Cell "изначально" многопоточная, поскольку на SPE могут выполняться только специализированные потоки. Данные, с которыми они работают, должны располагаться в LS, соответственно типичным подходом является их предвыборка. В целом Cell весьма эффективно справляется с "потоковой" обработкой, характерной для мультимедиа, для задач кодирования, сжатия и т. д.

Основное отличие процессора PowerXCell™ 8i от своего "предка" состоит в значительном улучшении работы с вещественными числами двойной точности, что позволило довести пиковую производительность на них до уровня в 100 гигафлопс. Кроме того, PowerXCell™ 8i производится по 65 нм технологии, в отличие от 90 нм, использующихся в Cell. Наконец, в PowerXCell™ 8i был кардинально (до 32 GB) увеличен объем поддержи-ваемой памяти.

В ноябре 2012 г. в списке Top500 две системы были построены на процессорах PowerXCell 8i. Обе системы собраны в 2009 году. Как и ранее, приведем усредненные данные из списка Top500 по этим трем системам. Отношение "показанная мощность/пиковая мощность" систем на основе процессоров PowerXCell 8i составляет в 31-м списке 76,9%, при этом "удельная мощность" в расчете на одно ядро равна 11,24 гигафлопс (т. е. порядка 110 гигафлопс на процессор).

Лекция 1: 1234567 || Лекция 2 >
Svetlana Svetlana
Svetlana Svetlana

Здравствуйие! Я хочу пройти курс Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi), в презентации самостоятельной работы №1 указаны логин и пароль для доступ на кластер и выполнения самостоятельных работ, но войти по такой паре логин-пароль не получается. Как предполагается выполнение самосоятельных работ в этом курсе?