НОУ ИНТУИТ | Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi). Лекция 5: Оптимизация вычислений в задаче матричного умножения. Оптимизация работы с памятью

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Нижегородский государственный университет им. Н.И.Лобачевского

Опубликован: 30.05.2014 | Доступ: свободный | Студентов: 304 / 36 | Длительность: 11:26:00

Темы: Программирование, Суперкомпьютерные технологии

Специальности: Программист, Системный архитектор

|

Вам нравится? Нравится 13 студентам

| Поделиться |

Поддержать курс

| Скачать электронную книгу

Векторизация вычислений

Существенная влияние на производительность программ на Intel Xeon Phi оказывает применении векторных инструкций сопроцессора. Если производительность алгоритма недостаточно высокая, полезно проверить, смог ли компилятор "векторизовать" код.

Проверим, векторизован ли внутренний цикл в алгоритме умножения матриц. Для этого соберем отчет о векторизации, добавив ключ компиляции:

icpc -mmic -mkl -openmp -vec-report3 ./single.cpp ./mainBlock.cpp ./routine.cpp -osingle

Результат отчета:

./single.cpp(8): (col. 5) remark: loop was not vectorized: loop was transformed to memset or memcpy
./single.cpp(7): (col. 3) remark: loop was not vectorized: not inner loop
./single.cpp(14): (col. 7) remark: LOOP WAS VECTORIZED
./single.cpp(14): (col. 7) remark: PEEL LOOP WAS VECTORIZED
./single.cpp(14): (col. 7) remark: REMAINDER LOOP WAS VECTORIZED
./single.cpp(14): (col. 7) remark: loop skipped: multiversioned
./single.cpp(13): (col. 5) remark: loop was not vectorized: not inner loop
./single.cpp(12): (col. 3) remark: loop was not vectorized: not inner loop

Из отчета видно, что внутренний цикл векторизован. При этом компилятор создал несколько версий кода. Как минимум создана версия, использующая векторные инструкции и аналогичная скалярная версия. Компилятор заранее не знает размеров матрицы. Также учитывая, что матрицы передаются в функцию как указатель на массив, массивы теоретически могут пересекаться. Как следствие, компилятор обязан предположить, что реализацию алгоритма векторизовать нельзя. Для того, что бы помочь компилятору векторизовать код и не порождать лишних версий, можно использовать директивы simd, ivdep или ключевое слово restrict [12.7, 12.8]. В рамках данной лабораторной работы ограничимся использованием директивы simd.

Применим директиву simd к внутреннему циклу.

void mult(ELEMENT_TYPE * A, ELEMENT_TYPE * B, 
          ELEMENT_TYPE * C, int n)
{
  ELEMENT_TYPE s;
  int i, j, k;
  for(j = 0; j < n; j++ )
    for(i = 0; i < n; i++ )  
      C[j * n + i] = 0;
  
  
  for(j = 0; j < n; j++ )
    for(k = 0; k < n; k++ )
#pragma simd
      for(i = 0; i < n; i++ )
        C[j * n + i] += A[j * n + k] * B[k * n + i];
}
Еще раз соберем отчет о векторизации.
./single.cpp(7): (col. 3) remark: loop was not vectorized: not inner loop
./single.cpp(15): (col. 7) remark: SIMD LOOP WAS VECTORIZED
./single.cpp(15): (col. 7) remark: PEEL LOOP WAS VECTORIZED
./single.cpp(15): (col. 7) remark: REMAINDER LOOP WAS VECTORIZED
./single.cpp(13): (col. 5) remark: loop was not vectorized: not inner loop
./single.cpp(12): (col. 3) remark: loop was not vectorized: not inner loop

Из отчета видно, что осталась только векторная ветка кода.

Стоит также отметить, что для векторизации важно, что бы данные были выровнены по границе 64 байт. Если данные не выровнены, то цикл разбивается на три части. Первая часть – часть до первого выровненного элемента. Вторая часть – основная часть цикла, векторизованная. Третья часть – "хвост" цикла. Наличие подобного разделения цикла может снизить производительность. Для оптимизации выполнения программ можно воспользоваться специальной функцией выделения памяти с выравниванием __mm_malloc. Ниже приведен код выделения и освобождения памяти для матриц:

#include <immintrin.h> 
…
void allocMatrix(ELEMENT_TYPE ** mat, int n)
{
  // выделяем память, выровненную по 64 байт
  (*mat) = (ELEMENT_TYPE *)_mm_malloc(sizeof(ELEMENT_TYPE)*
                                      (n * n), 64);
}
void freeMatrix(ELEMENT_TYPE ** mat)
{
  _mm_free((*mat));
}

Из таблицы 10.6 видно, что за счет выравнивания памяти и помощи компилятору путем применения директив удалось получить чуть лучшую реализацию алгоритма. Соберите отчет о векторизации и проверьте, что компилятор больше не создает "пролог" для цикла.

Таблица 10.6. Время работы алгоритма умножения матриц при добавлении директивы simd и выравнивании памяти на Intel Xeon Phi (время в секундах).
N	jki	jki + simd + _mm_malloc
1024	2,085	1,912
2048	15,929	15,126
3072	52,934	50,816

Дальше >>

Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi)

Самостоятельная работа 5: Оптимизация вычислений в задаче матричного умножения. Оптимизация работы с памятью

Векторизация вычислений

Вопросы и ответы

Авторизоваться

Введение в принципы функционирования и применения современных мультиядерных архитектур (на примере Intel Xeon Phi)

Самостоятельная работа 5: Оптимизация вычислений в задаче матричного умножения. Оптимизация работы с памятью

Векторизация вычислений

Вопросы и ответы