Опубликован: 23.04.2013 | Доступ: свободный | Студентов: 856 / 185 | Длительность: 12:54:00
Лекция 2:

Параллельные вычисления

< Лекция 1 || Лекция 2: 123456 || Лекция 3 >

Теорема_1

Время T_{\mathcal {1}} задается максимально нагруженным путем в графе зависимостей.

Прежде всего, докажем, что при неограниченном числе процессоров оптимальное расписание каждого процессора содержит не более одного модуля на каждом уровне. Доказательство дается индукцией по числу уровней. Для уровня 1 утверждение справедливо, поскольку на этом уровне число процессоров совпадает с числом модулей этого уровня для оптимального расписания. Пусть утверждение справедливо на уровне j. Покажем, что оно остается справедливым и для модулей следующего уровня j + 1. Действительно, рассмотрим процессор Pr, выполняющий i-й модуль уровня j - M_i^j. Когда этот процессор завершит работу, то может оказаться, что появятся готовые к выполнению m модулей уровня j +1, ожидавших завершения работы M_i^j. Только один из этих модулей включается в оптимальное расписание процессора Pr, а остальные будут включены в расписание свободных процессоров, участвующих в работе. Если таковых не окажется, то всегда можно добавить новые процессоры, так что все модули, ожидавшие завершения работы модуля M_i^j, начнут выполняться одновременно. Отсюда по индукции следует справедливость утверждения для всех уровней. Отсюда же следует, что T_{\mathcal {1}} не может быть больше времени, задаваемого критическим путем.

Покажем теперь, что оптимальное расписание может быть составлено таким образом, чтобы критический путь был назначен одному процессору. Пусть процессор Ps - тот процессор, которому назначен M_i^1 первого уровня, лежащий на критическом пути. Спускаясь по уровням, этому процессору будем назначать модуль, лежащий на критическом пути. Так построенное расписание сохраняет свойство оптимальности, поскольку процессор Ps не простаивает, и ни какой другой процессор не может начать выполнять модули, лежащие на критическом пути, раньше процессора Ps. Заметьте, критический путь, вообще говоря, может быть не единственным.

Сложнее получить формулу для вычисления T_p. Проблема составления оптимального расписания в этих условиях относится к NP - полным проблемам, что означает, отсутствие алгоритма полиномиальной сложности, и для решения задачи необходимы переборные алгоритмы. Этим мы не будем заниматься.

Займемся тем, что покажем справедливость ранее полученных оценок (8) для T_p в случае, когда время выполнения модулей различно и в графе зависимостей для каждого модуля задано время его работы:

\frac{T_1}{p}\le T_p\le \frac{T_1}{p}+T_{\mathcal {1}} ( 1.12)

Дадим вначале графическую интерпретацию. Задание нижней и верхней оценки для T_p(p) означает, что эта функция ограничена двумя гиперболами. Функция убывающая. В начальной точке при p=1 по определению T_p(1) = T_1, так что функция находится в заданном коридоре. Это же справедливо и для конечных точек, для всех p, больших некоторого значения p*, при котором T_p = T_{\mathcal {1}}. Остается показать, что утверждение верно и для остальных значений 1 <  p < p*. Рис. 1.2 иллюстрирует поведение T_p.

Поведение функции Tp(p)

увеличить изображение
Рис. 1.2. Поведение функции Tp(p)

Приведем пример. Рассмотрим двух уровневую систему модулей, граф зависимостей которых показан на Рис. 1.1.

Нетрудно посчитать, что в этом случае:

T_1 = 30;  T_{\mathcal {1}} = 13;

Для случая двух процессоров для этого конкретного примера несложно задать оптимальное расписание. Для первого процессора последовательность выполняемых им модулей может быть следующей:

P1 = M_1^1, M_2^1, M_1^2, M_3^2\}

Для второго процессора последовательность следующая:

P2 = \{M_3^1, M_4^1, M_2^2\}

Время работы первого процессора равно 15, второго - 15. Следовательно, T_2 равно 15. Критический путь входит в расписание второго процессора. Подключение второго процессора в этой задаче позволяет вдвое уменьшить время выполнения в сравнении со случаем использования только одного процессора. Подключение третьего процессора, хотя и не столь эффективно, но позволит свести время выполнения до минимально возможного результата - T_{\mathcal {1}}. Добавление других процессоров не имеет смысла, поскольку не позволяет сократить время решения задачи.

После рассмотрения примера, перейдем к получению оценок.

Оценка снизу

Лемма 1

Для T_p справедлива оценка

T_p\ge \frac{T_1}{p} ( 1.13)

Докажем справедливость оценки. Пусть p процессоров выполняют работу согласно оптимальному расписанию, и ни один из процессоров не простаивает до окончания всей работы. Поскольку в результате все модули будут выполнены, и ни один модуль не будет выполняться дважды, то суммарное время работы всех процессоров равно T_1:

T_1=\sum^p_{i=1} T(P_i) ( 1.14)

Поскольку T_p - это максимальное значение, затраченное одним из процессоров, на выполнение своей работы:

T_p=max_iT(P_i) ( 1.15)

Справедливость нижней оценки

T_p\ge \frac{T_1}{p} ( 1.16)

следует из общих свойств суммы компонентов. Максимальный компонент всегда больше или равен среднего арифметического значения суммы.

Если некоторые процессоры могут простаивать, то время T_p может только увеличиваться, что гарантирует выполнения условия (16).

Равенство достигается в единственном случае, когда все компоненты суммы имеют одно и то же значение. Содержательно это означает, что все процессоры одновременно начинают свою работу и одновременно ее заканчивают. В этом случае общее время выполнения работы сокращается в p раз.

Оценка сверху

Пусть работу выполняют p процессоров. Составление расписания означает, что граф зависимостей разбивается на p непересекающихся подграфов. Все модули каждого из подграфов выполняются одним процессором. Подграф с максимальным временем выполнения для данного разбиения будем называть максимально нагруженным подграфом. Оптимальное расписание предполагает такое разбиение, при котором максимально нагруженный подграф выполняется за минимально возможное время. Итак, будем предполагать, что граф зависимостей G разбит на непересекающиеся подграфы G_i:

G=\bigcup^p_{i=1}G_i ( 1.17)

Не снижая общности, будем полагать, что максимально нагруженным подграфом является подграф G_1.

Лемма 2

Для T_p справедлива оценка

T_p\le \frac{T_1}{p}+T_{\mathcal {1}} ( 1.18)

Доказательство от противного. Покажем, что в этом случае разбиение не является оптимальным и может быть улучшено, что приведет к уменьшению времени T_p.

Итак, предположим, что

T_p=T(G_1)> \frac{\sum^p_{i=1}}{p}+T_{\mathcal {1}} ( 1.19)

Отсюда следует:

p \cdot T(G_1)> \sum^p_{i=1}T(G_I)+p \cdot T_{\mathcal {1}} \Rightarrow T(G_1)> \frac{\sum_{i=2…p}T(G_i)}{p-1}+\frac{p}{p-1}T_{\mathcal {1}} ( 1.20)

Пусть G_0 - минимально нагруженный подграф, тогда время его выполнения не больше среднего времени выполнения, так что имеем:

T(G_1)>T(G_0)+\frac{p}{p-1}T_{\mathcal {1}} ( 1.21)

Подграфу G_0 можно передать часть работ подграфа G_1, уменьшив суммарное время работы. Действительно, подграф G_1 можно представить в виде:

G_1= Path \bigcup G_1^' ( 1.22)

Здесь Path это часть пути или некоторый путь, начинающийся на первом уровне, который заведомо меньше критического пути. При передаче его подграфу G_0 время выполнения этого подграфа останется меньше времени выполнения подграфа G_1. Общее время выполнения работ при этом уменьшится. Следовательно, пришли к противоречию с утверждением об оптимальности расписания, что доказывает справедливость соотношения:

T_p=T(G_1)\le \frac{\sum^p_{i=1}T(G_I)}{p}+T_{\mathcal {1}}\le \frac{T_1}{p}+T_{\mathcal {1}} ( 1.23)

В заключение дадим некоторые практические рекомендации, следующие из полученных оценок. Выигрыш, который можно получить, используя дополнительные процессоры, зависит от разницы между общим временем выполнения всех модулей программы - T_1 и временем выполнения критического пути в графе зависимостей - T_{\mathcal {1}}.

Эта разница максимальна для крайнего случая, когда все модули могут выполняться независимо, и в графе зависимостей все модули находятся на одном первом уровне. Критический путь в этом случае состоит из одного модуля, требующего максимального времени своего выполнения. Так что T_1 - это время выполнения всех модулей, а T_{\mathcal {1}} - это время выполнения одного модуля. Привлечение p процессоров может дать существенный эффект, уменьшая время выполнения практически до среднего времени выполнения одного модуля \frac{T_1}{p}.

Эта разница минимальна для другого крайнего случая - строго последовательной программы, когда N модулей программы расположены на N уровнях, и критический путь задает выполнение всех модулей. В этом случае T_1 и T_{\mathcal {1}} совпадают и, как следствие, T_p равно T_1 при любом числе процессоров, так что привлекать дополнительные процессоры в этом случае бессмысленно.

Для строго последовательной программы, когда i-й модуль зависит от модуля i-1, все три характеристики будут совпадать. Для строго последовательной программы дополнительные процессоры не позволяют уменьшить время выполнения программы в сравнении со временем выполнения этой же программы одним процессором. Так, например, задача о "Ханойской башне" на суперкомпьютере с сотнями тысяч процессоров будет решаться столь же долго, как и на компьютере с одним процессором. Это вытекает из сути задачи, - перенос следующего кольца требует завершение переноса предыдущего кольца, - параллельно эту работу выполнять нельзя.

< Лекция 1 || Лекция 2: 123456 || Лекция 3 >
Алексей Рыжков
Алексей Рыжков

не хватает одного параметра:

static void Main(string[] args)
        {
            x = new int[n];
            Print(Sample1,"original");
            Print(Sample1P, "paralel");
            Console.Read();
        }

Никита Белов
Никита Белов

Выставил оценки курса и заданий, начал писать замечания. После нажатия кнопки "Enter" окно отзыва пропало, открыть его снова не могу. Кнопка "Удалить комментарий" в разделе "Мнения" не работает. Как мне отредактировать недописанный отзыв?