Нижегородский государственный университет им. Н.И.Лобачевского
Опубликован: 30.05.2014 | Доступ: свободный | Студентов: 288 / 30 | Длительность: 11:26:00
Лекция 1:

Обзор архитектуры современных многоядерных процессоров

Лекция 1: 1234567 || Лекция 2 >
Аннотация: Параллелизм как основа высокопроизводительных вычислений. Процессоры. Ускорители вычислений.

Введение

Презентацию к лекции Вы можете скачать здесь.

"Citius, Altius, Fortius"1"Быстрее, Выше, Сильнее" – лат. – девиз Олимпийских игр современности, как ни к какой другой области, применим к вычислительной технике. Воплощение в жизнь не раз видоизменявшего свою исходную формулировку, но до сих пор действующего эмпирического закона, сформулированного в 1965 г. Гордоном Муром, похоже, стало "делом чести" производителей аппаратного обеспечения. Из всех известных формулировок этого закона точку зрения потребителя/пользователя наилучшим образом отражает вариант: "производительность вычислительных систем удваивается каждые 18 месяцев". Мы сознательно не использовали термин "процессор", поскольку конечного пользователя вовсе не интересует, кто обеспечивает ему повышение мощности: процессор, ускоритель, видеокарта – ему важен лишь сам факт роста возможностей "за те же деньги".

Закон Мура в общем случае гласит, что за небольшой период времени происходит удвоение количества транзисторов на кристалле2Имеется несколько законов Мура, вот один из них: "число транзисторов в производимых чипах удваивается каждые два года". Формулировка: "производительность микропроцессо-ров удваивается каждые 18 месяцев", - была выдвинута Дэвидом Хаусом на основе преды-дущего закона, но принято и эту формулировку считать "законом Мура".. Величина этого периода обычно составляет 1-2 года и определяется уровнем развития промышленности в конкретный момент времени. Закон Мура достигается за счёт более плотного размещения транзисторов, т.к. линейное расстояние между электродами транзисторов уменьшается (происходит уменьшение техпроцесса, определяющего размер транзисторов). В результате тепловыделение и энергопотребление транзисторов уменьшается. Как следствие, становится возможным размещение большого количества транзисторов на кристалле с сохранением прежних (или даже меньших) показателей тепловыделения и энергопотребления.

До настоящего момента увеличение количества транзисторов выражалось в росте тактовой частоты процессоров, увеличении размеров локальной памяти процессоров (кэш-памяти3Первые процессоры либо не содержали кэш-память, либо их кэш-память была размером несколько КБ. Современные процессоры общего назначения имеют многоуровневую иерар-хию кэш-памяти, суммарным размером несколько МБ.) и усложнению логики процессоров (интеллектуальные предсказатели ветвлений, многоэтапные конвейеры, блоки векторных вычислений, возможность выполнять несколько инструкций за такт и др.). Основным способом повышения производительности было увеличение тактовой частоты процессоров. Со временем это стало невыгодно в силу физических ограничений, т.к. увеличение тактовой частоты приводит к нелинейному росту тепловыделения и потребляемой мощности4Значительно повышаются энергопотребление процессора и его системы охлаждения. . Производители, выбрав в качестве магистрального пути развития увеличение числа ядер на кристалле, были вынуждены призвать на помощь разработчиков программного обеспечения. Старые последовательные программы, способные использовать лишь одно ядро, теперь уже не будут работать быстрее на новом поколении процессоров "задаром" – требуется практически повсеместное внедрение программирования параллельного.

Кроме представленной выше известна и другая формулировка закона Мура: "доступная (человечеству) вычислительная мощность удваивается каждые 18 месяцев". Зримое свидетельство этого варианта формулировки – список Top500 [106] самых высокопроизводительных вычислительных систем мира, обновляемый дважды в год. В ноябре 1993 г. был представлен 2-ой список Top500, содержащий одну вычислительную систему с производительностью больше 100 гигафлопс (Numerical Wind Tunnel производства Fujitsu). Барьер в один терафлопс был преодолен системой ASCI Red [111] производства компании Intel в 1997 г. В июне 2005 система IBM BlueGene/L имела производительность более 100 терафлопс, а уже в 31-м списке Top500 (июнь 2008 г.) впервые в истории был преодолен петафлопный порог производительности – суперкомпьютер Roadrunner [112] производства компании IBM показал на тесте LINPACK 1,026 петафлопс (всего за 15 лет пик мощности вырос на четыре порядка). А суммарная мощность систем, представленных в 31-м списке Top500, составила 11,7 петафлопс. Много это или мало? Если взять за основу, что реальная производительность хорошей "персоналки" на четырехъядерном процессоре составляет порядка 20 гигафлопс, то весь список Top500 будет эквивалентен половине миллиона таких персоналок. Очевидно, что это лишь вершина айсберга. По данным аналитической компании Gartner, общее число используемых в мире компьютеров превысило в 2008 г. 1 миллиард.

Представленные в списке Top500 данные позволяют проследить характерные тенденции развития индустрии в сфере суперкомпьютерных вычислений. Первый список Top500 датирован июнем 1993 г. и содержал 249 многопроцессорных систем с общей памятью и 97 суперкомпьютеров, построенных на основе единственного процессора; более 40% всех решений в нем были созданы на платформе, разработанной компанией Cray. Уже четырьмя годами позже в Top500 не осталось ни одного суперкомпьютера на основе единственного процессора, а взамен появилась первая система с производительностью всего в 10 гигафлопс (в 100 раз меньше, чем у лидера списка системы ASCI Red), относящаяся к довольно новому тогда виду кластерных вычислительных систем, которые сегодня занимают в Top500 более 80% списка и являются, фактически, основным способом построения суперкомпьютеров.

Основным преимуществом кластеров, предопределившим их повсеместное распространение, было и остается построение из стандартных массово выпускающихся компонентов, как аппаратных, так и программных. В 31-м списке Top500 75% систем построены на основе процессоров компании Intel, чуть больше 13% – на процессорах компании IBM и 11% – компании AMD (на двух оставшихся производителей – NEC и Cray – приходится по одной системе соответственно); 81% систем используют всего два типа сетей передачи данных: Gigabit Ethernet или Infiniband; 85% систем работают под управлением операционной системы из семейства Linux. Как видим, список использующихся программно-аппаратных компонент весьма ограничен, что является несомненным плюсом с точки зрения пользователей.

Однако для массового пользователя еще большим плюсом была бы возможность иметь персональный суперкомпьютер у себя на столе или в "облаке" с надёжным и быстрым доступом к нему. И кластеры, принесшие в индустрию высокопроизводительных вычислений идею "собери суперкомпьютер своими руками", как нельзя лучше отвечают этой потребности. Сейчас трудно достоверно установить, какая система может быть названа первым в мире "персональным кластером". Во всяком случае, уже в начале 2001 г. компания RenderCube [109] представила одноименный мини-кластер из 4-х двухпроцессорных систем, заключенных в кубический корпус со стороной всего в 42 см.

Тенденция "персонализации" супервычислений в последнее время развивается все активнее, и недавно была подхвачена в том числе и производителями видеокарт, мощности которых возросли настолько, что возникло естественное желание использовать их не только в графических расчетах, но и в качестве ускорителей вычислений общего назначения. Соответствующие решения представлены в настоящее время компанией NVIDIA (семейство NVIDIA® Tesla™) и компанией AMD (семейство ATI FireStream™) и демонстрируют – в силу специфики внутреннего устройства – потрясающую (в сравнении с универсальными процессорами) пиковую производительность, превышающую 1 терафлопс.

Основная идея кластера в "облаке" заключается в предоставление пользователям вычислительных ресурсов кластера удалённо через сеть Internet. При этом, пользователю не нужно покупать кластер, заниматься его содержанием и обслуживанием. Кроме того, оплачиваются только потреблённые ресурсы при выполнении вычислении. Одной из популярных облачных систем является Amazon Web Services (в 41-ом списке Top500 кластер Amazon EC2 занимает 128 место с производительность 240 терафлопс).

Данная глава посвящена рассмотрению современных многоядерных процессоров, которые являются основой для построения самых быстродействующих вычислительных систем. Для полноты картины приводится также описание ряда аппаратных устройств (видеокарт и вычислительных сопроцессоров), которые могут быть использованы для существенного ускорения вычислений.

Лекция 1: 1234567 || Лекция 2 >
Svetlana Svetlana
Svetlana Svetlana

Здравствуйие! Я хочу пройти курс Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi), в презентации самостоятельной работы №1 указаны логин и пароль для доступ на кластер и выполнения самостоятельных работ, но войти по такой паре логин-пароль не получается. Как предполагается выполнение самосоятельных работ в этом курсе?

Владимир Хаванских
Владимир Хаванских
Россия, Москва, Высшая школа экономики
Дмитрий Кифель
Дмитрий Кифель
Казахстан, Темиртау