НОУ ИНТУИТ | Архитектура параллельных вычислительных систем. Лекция 12: SPMD-технология на базе симметричной ВС

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Московский государственный университет путей сообщения

Опубликован: 22.12.2006 | Доступ: свободный | Студентов: 2503 / 622 | Оценка: 4.07 / 4.02 | Длительность: 16:07:00

ISBN: 978-5-9556-0071-0

Темы: Программирование, Аппаратное обеспечение, Суперкомпьютерные технологии

Специальности: Разработчик аппаратуры

|

Вам нравится? Нравится 29 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Программирование

Здесь приведены примеры экспериментального программирования некоторых задач. Сложился общий подход, который заключается в выделении в каждой задаче опорного массива, распределяемого для обработки разными процессорными элементами. Все другие структурированные данные "привязываются" к элементам опорного массива. Опыт программирования показывает, что такая практическая возможность существует всегда. Опорный массив может быть любой размерности и структуры. В различных задачах это — массив, подвергающийся операции "свертки", сведенный к одномерному (линейному) массиву элементов матрицы, записей в списке, формируемых логических цепочек в задаче логического вывода, фреймов базы знаний и др. Представляется логичным распределение нейронов для обработки нейросети. Т.е. нейроны должны составлять опорный массив. Легко просматривается план обработки нейросети как в режиме обучения (например, при реализации метода "обратного прохождения ошибки"), так и в режиме распознавания. Экспериментальное программирование логического вывода на языке ПРОЛОГ наводит на обобщение. А именно, принцип параллельного ветвления возможных вариантов преобразования сложной цепи полностью соответствует реализации метода "ветвей и границ". И здесь целесообразно применение счетчиков для развития возможных вариантов ветвления. Это определяет возможность параллельного решения сложных задач оптимизации, основанного на переборе с возвратом и имеющего экспоненциальную сложность.

Векторная операция свертки

Под операцией свертки понимается преобразование вектора в скаляр. Такой операции может соответствовать сложение или умножение всех элементов массива, нахождение максимума или минимума и др. Небольшая модификация этой операции позволяет получить скалярное произведение, произвести численное интегрирование.

Найдем способом "пирамиды" произведение элементов массива $\{ a_{\nu }\}$ , $\nu = 0,\dots ,k-1$ . Пусть для наглядности N = 4. Для k = 10 схема счета приведена на рис. 12.2. Введены вершины a₁₀,...,a₁₇, соответствующие промежуточным результатам, и вершина a₁₈, соответствующая результату счета. У каждой вершины, обозначающей операцию, указан номер выполняющего ее процессора. Это закрепление операций за процессорами в программе жестко не планируется, так как программа не зависит ни от числа процессоров, ни от числа элементов в массиве. Однако при организации программы порядок использования процессоров предусматривается и для известного их числа может быть предсказан.

Рис. 12.2. Схема свёртки способом пирамиды

Пусть дескрипторы массивов, комплектом которых располагает каждый процессор в своей памяти, содержат дескрипторные элементы, облегчающие аппаратную (микропрограммную) реализацию нахождения и анализа адресов элементов массива. Каждый дескрипторный элемент выполняет определенную функцию; при отсутствии необходимости некоторые дескрипторные элементы могут не формироваться. Как дескриптор в целом, так и каждый его элемент адресуемы и располагаются в смежных регистрах.

Сформируем в ПП _i, i = 0,...,N-1, дескриптор D₁ массива {a₀, a₂, a₄,...,a_2k-4}, содержащий восемь (максимальное количество) дескрипторных элементов, D₁ = {D₁₀,...,D₁₇}. В D₁₀ содержится адрес a₀ первого элемента массива, D₁₁ содержит шаг h = 2 переадресации (предполагаем, что элементы массива $\{ a_{\nu }\}$ в памяти расположены в смежных ячейках), D₁₂ — количество k-1 элементов, D₁₃ — адрес последнего ( a_2k-4 ) элемента массива. Элемент D₁₄ служит для организации автоматической переадресации при последовательном обращении к данному массиву. В D₁₄ хранится адрес a₀+jh для выборки элемента массива при j -м ( j = 0,1,...) обращении к нему ( j может быть параметром цикла). После выполнения обращения этот адрес увеличивается на шаг h, т.е. выполняется операция (D₁₄) := (D₁₄)+(D₁₁). Следующая группа дескрипторных элементов предназначена для автоматического распределения элементов массива между процессорами. В D₁₅ содержится адрес a₀+ih, где i — номер процессора. Таким образом, каждый процессор формирует собственное значение D₁₅, располагая адресом регистра в своей памяти, содержащего значение i, для начального обращения к "своему" элементу массива. В D₁₆ содержится значение N_h, используемое для переадресации к следующему "своему" элементу массива с учетом числа процессоров. В D₁₇ содержится текущее значение адреса a₀+ih+jNh = (D₁₅)+j(D₁₆), используемое для автоматической переадресации при последовательном ( j = 0,1,...) обращении к дескриптору. При этом предполагается начальное обращение (при j = 0 ) к "своему" элементу массива и последующее изменение адреса элемента на величину N_h, хранимую в D₁₆.

Сформируем дескриптор D₂ = {D₂₀,...,D₂₇} для массива {a_k,...,a_2k-2} = {a₁₀,...,a₁₈}. Отличие элементов этого дескриптора от элементов дескриптора D1 определяется другими значениями адресов первого и последнего элементов массива, а также шагом h = 1.

В табл.12.1 представлена программа счета.

По команде 0 производится синхронизация системы для одновременного выполнения следующей команды. По данной команде каждый процессор посылает в блок C сигнал. Обратный сигнал, по которому процессор приступает к выполнению следующей команды, приходит в том случае, если все процессоры при выполнении данной команды послали сигнал в C. Выполнение команды СИНХ повторяется до получения сигнала от C.

Таблица 12.1.
№_k	КОП	I₁	A₁	I₂	A₂	I₃	A₃
0	СИНХ
1	ПРАД	D₁₅		D₂₅			007
2	ЗАКРА	D₂₇
3	x	D₁₇		D₁₇	001	D₂₇
4	УЗАП	D₂₇		D₂₃		M
5	ИЗМАД	D₁₇		D₂₇			001
6	БП		002
7	В

По команде 1 (ПРоверка АДреса) адрес, записанный в дескрипторном элементе D₁₅, сравнивается с адресом, записанным в дескрипторном элементе D₁₃, а адрес, записанный в дескрипторном элементе D₂₅, сравнивается с адресом, записанным в D₂₃. (Команда допускает одновременно два сравнения, но может быть предусмотрено лишь одно.) Если (D₁₅) > (D₁₃) или (D₂₅) > (D₂₃), производится переход на выполнение команды, номер которой указан по третьему адресу. В противном случае выполняется следующая команда. С помощью команды ПРАД в данном случае проверяется, принадлежат ли адреса, на которые первоначально "смотрит" процессор, множеству адресов элементов массива. В примере при N > 9 результат проверки положителен для процессоров i = 0,1,...,8. Это позволяет автоматически исключать остальные процессоры из счета; на них выполняется переход на конец программы. При N = 4 все процессоры приступают к выполнению следующей команды.

По команде 2 (ЗАКРыть Адрес) адрес, записанный в дескрипторном элементе D₂₇, заносится в ПЗА. При первом выполнении на процессоре 0 (D₂₇) = a₁₀, на процессоре 3 (D₂₇) = a₁₃.

По команде 3 выполняется операция умножения двух элементов массива. При первом выполнении команды на i -м процессоре и при данном значении k в дескрипторном элементе D₁₇ находится адрес a₀+2i, в D₂₇ — адрес a₁₀+i. Так как по A₂ задано смещение, то сформируется адрес a₀+2i+1. Таким образом, на процессоре 0 сформируется исполнительный вид команды xa₀a₁a₁₀, на процессоре 1 — xa₂a₃a₁₁ ит.д. После выполнения команды и записи результатов в память адреса a₁₀,...,a₁₃ исключаются из ПЗА. Очевидно, что при N > [k/2] в исполнительном виде команды 3, сформированной на процессорах [k/2],...,N-1, используются ранее закрытые другими процессорами адреса. Попытка выполнения этой команды, точнее, считывание по закрытым адресам, будет циклически возобновляться до тех пор, пока процессоры, закрывшие адреса, не выполнят умножение и не зашлют по этим адресам промежуточные результаты. Так реализуется управление потоком данных.

По команде 4 (Условная ЗАПись) в случае (D₂₇) = (D₂₃) производится считывание по адресу, указанному в дескрипторном элементе D₂₇, и запись по третьему адресу команды ( M — модификатор, в котором указан адрес результата произведения всех элементов массива). Напомним, что в D₂₃ указан адрес того элемента расширенного массива, в котором при счете способом "пирамиды" образуется окончательный результат.

По команде 5 (ИЗМенение АДреса) выполняются операции (D₁₇) := (D₁₇)+(D₁₆) ; (D₂₇) := (D₂₇)+(D₂₆). В данном примере (D₁₆) = 8, (D₂₆) = 4. Выполнение каждой операции сопровождается анализом — не превосходит ли вновь найденное значение адреса последнего элемента массива, указанное соответственно в дескрипторных элементах D₁₃ и D₂₃. Если превосходит, управление передается на окончание выполнения программы.

Команда 6 — команда Быстрого Перехода на выполнение команды2, т.е. на повторное выполнение цикла попарного умножения элементов массива. В нашем примере следующий исполнительный вид команды 3 на процессоре 0 — xa₈a₉a₁₄, на процессоре 1 — xa₁₀a₁₁a₁₅ ит.д.

Выход за пределы массивов при повторном выполнении команды 5 приведет к окончанию счета на процессорах 1, 2 и 3. Процессор 0 по команде 4 произведет запись окончательного результата по адресу, указанному в модификаторе 0. Третье выполнение команды 5 на процессоре 0 приведет к окончанию счета и на нем.

Команда 7 является командой Возврата при обращении к данной программе как к процедуре. По этой команде одновременно с возвратом в программу, из которой было выполнено обращение, производится коррекция указателя вершины стека вложенных процедур.

Дальше >>

Авторизоваться

Архитектура параллельных вычислительных систем

SPMD-технология на базе симметричной ВС

Программирование

Векторная операция свертки

Вопросы и ответы