НОУ ИНТУИТ | Архитектура параллельных вычислительных систем. Лекция 3: Распараллеливание в ВС на уровне исполнительных устройств

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Твой путь к знаниям!

Опубликован: 22.12.2006 | Уровень: специалист | Доступ: свободно | ВУЗ: Московский государственный университет путей сообщения

|

Вам нравится? Нравится 29 студентам

| Поделиться |

Поддержать программу

Аннотация: Изучается проблема второго уровня распараллеливания — уровня исполнительных устройств. Рассматривается организация конвейеров операций, векторных конвейеров, выполнения операций на стеке. Исследуются принципы динамического распараллеливания в многофункциональном арифметическо-логическом устройстве.

Ключевые слова: операции, ВС, делимое, время выполнения, быстродействие, время такта, поток команд, доступ, диаграмма, количество уровней конвейера, глубина перекрытия, АЛУ, векторный конвейер, класс, векторно-конвейерная ВС, супер-ЭВМ, векторизация, моделирование, разбиение, группа, загрузка, значение, маска, логическая переменная, "зацепление" векторов, структура данных, стек, очередь, механизмы, команда, сумматор, указатель вершины стека УВС, адрес, вершина стека, загрузка стека, слово, регистр, память, польская инверсная (бесскобочная) запись, ПОЛИЗ, программа, запись из стека, коды операций, работ, опыт, адресный стек, блок динамического распределения регистров, список свободных регистров, стек выполнения, команда выполнения операции, регистр адреса, адресное распараллеливание, полностью сегментированы

Конвейеры операций

Выполнение любой операции складывается из нескольких последовательных этапов, каждый из которых может выполняться своим функциональным узлом. Это легко показать на операциях сложения и умножения. Выполнение деления мантисс (порядки вычитаются) чаще всего производятся с помощью вычитания из делимого делителя, сдвига влево полученного остатка, нового вычитания делителя из результата сдвига и т.д. В некоторых ВС находится обратная величина делителя с помощью аппроксимирующих полиномов. Затем делимое умножается на эту величину.

Пусть задана операция, выполнение которой разбито на n последовательных этапов. Пусть t_i — время выполнения i -го этапа. При последовательном их выполнении операция выполняется за время

$t_\text{посл}=\sum_{i=1}^{n} t_{i}[c] ,$

а быстродействие ЭВМ или одного процессора ВС, выполняющего только эту операцию, составит

$S_\text{посл} = \frac{1}{t_\text{посл}} = \frac{1}{\sum_{i=1}^{n}t_i} [\text{операций/с}] .$

Выберем время такта — величину t_T = max t_i} и потребуем при разбиении на этапы, чтобы для любого i = 1, ...,n выполнялось условие t_i + t_{(i+1) mod n} > t_T. Т.е. чтобы никакие два последовательных этапа (включая конец и новое начало операции) не могли быть выполнены за время одного такта.

Функциональные узлы, выполняющие последовательные этапы одной операции, целесообразно выстроить в единую конвейерную линию, где устройство, выполняющее некоторый этап, закончив его для операции над одним набором данных, переходило бы в следующем такте к выполнению этого же этапа той же операции для другого набора исходных данных.

Например, на рис. 3.1 представлен конвейер выполнения операции сложения.

Рис. 3.1. Выполнение операции сложения на конвейере

Пусть реализуется поток команд одного процессора или существует доступ к этому устройству нескольких процессоров так, что в каждом такте возможно задание на выполнение сложения новой пары чисел. Тогда временная диаграмма работы конвейера может иметь вид, представленный на рис. 3.2.

Рис. 3.2. Схема заполнения конвейера

Максимальное быстродействие процессора при полной загрузке конвейера составляет

$S_{\text{кон}} =\frac{1}{t_{T}}[\text{операций}/c].$

Число n — количество уровней конвейера, или глубина перекрытия, т.к. каждый такт на конвейере параллельно выполняются n операций. Чем больше число уровней (станций), тем больший выигрыш в быстродействии может быть получен.

В проекте МВК "Эльбрус-3" АЛУ его ЦП имеет конвейерные ИУ сложения ( n=5 ), умножения ( n=5 ), деления ( n=8 для полусловного формата, — 32 разряда, n=16 для словного формата). Логические операции также выполняются на конвейере с n=2.

Известна оценка

$\frac{n}{2} < \frac{S_{\text{кон}} }{S_{\text{посл}} } \le n,$

т.е. выигрыш в быстродействии получается в $\frac{n}{2} - n$ раз.

Реальный выигрыш в быстродействии оказывается всегда меньше, чем указанный выше, поскольку:

некоторые операции, например, над целыми, могут выполняться за меньшее количество этапов, чем другие арифметические операции. Тогда отдельные станции конвейера будут простаивать.
при выполнении некоторых операций на определённых этапах могут требоваться результаты более поздних, ещё не выполненных этапов предыдущих операций. Приходится приостанавливать конвейер.
поток команд порождает недостаточное количество операций для полной загрузки конвейера.

Векторные конвейеры. "Зацепление" векторов

Наряду с использованием конвейеров для обработки единичных (скалярных) данных, используют так называемые векторные конвейеры, единичной информацией для которых являются вектора — массивы данных. Применение векторных конвейеров определило класс ВС — векторно-конвейерных ВС, сегодня ещё являющихся основой построения некоторых супер-ЭВМ — ВС сверхвысокой производительности.

Для эффективности векторно-конвейерных ВС (например, для подготовки алгоритмов решения задач на ВС "Электроника-ССБИС") необходима векторизация задач. Это — такое преобразование алгоритма, при котором максимально выделяются (если не вся задача сводится к этому) элементы обработки массивов данных одинаковыми операциями. Сюда входят все задачи, основанные на матричных преобразованиях, обработка изображений, сигналов, моделирование поведения среды и т.д.

В основе векторного конвейера лежит то же самое разбиение операции на уровни или этапы выполнения, но он дополняется средствами аппаратной поддержки, позволяющими по информации о векторах организовать последовательную загрузку конвейера элементами векторов, учитывая их длину.

Пусть необходимо выполнить операцию C = A x B, т.е. c_j = a_j + b_j, j = 1, ...,N. Пусть на регистрах СОЗУ записаны вектора A и B. Группа регистров отведена для результатов C. Для управления этим процессом известны дескрипторы векторов D_A ,D_B ,D_C, где $D_{\alpha } = \{ a_{\alpha }, h_{\alpha }, N\}$ , $\alpha = A,B,C,h_{\alpha }$ — шаг переадресации. Если загрузка векторов производится всегда в одни и те же регистры АЛУ, то достаточно знать значение N. Может задаваться маска M длиной N, состоящая из нулей и единиц. Каждый элемент M соответствует элементу вектора-результата C. Если элемент m_j = 1 (логическая переменная), то операция получения c_j производится, в противном случае соответствующие элементы векторов пропускаются. Это применимо для альтернативного счёта в соответствии со значением логических переменных.

Пусть операция умножения выполняется за три этапа. Тогда можно представить временную диаграмму получения N результатов при предположении о назначении функциональных устройств (рис. 3.3).

Рис. 3.3. Умножение векторов на конвейере

В составе АЛУ может быть два и более конвейерных устройств, специализированных каждое для выполнения некоторой операции. Тогда возможно и эффективно "зацепление" векторов, иллюстрируемое примером на рис. 3.4 для выполнения сложной операции над векторами: D=Ax B+C.

Рис. 3.4. "Зацепление" векторов

Здесь два конвейера образовали один, с глубиной перекрытия n = n_x + n₊. Очередной результат умножения немедленно направляется на конвейер сложения, куда параллельно направляется необходимый сомножитель.

Дальше >>

Авторизоваться

Архитектура параллельных вычислительных систем

Распараллеливание в ВС на уровне исполнительных устройств

Конвейеры операций

Векторные конвейеры. "Зацепление" векторов

Вопросы и ответы