Опубликован: 01.10.2013 | Доступ: свободный | Студентов: 255 / 19 | Длительность: 24:58:00
ISBN: 978-5-9963-0223-9
Специальности: Разработчик аппаратуры
Лекция 8:

Методы и средства обеспечения живучести и восстановления работоспособности МКМД-бит-потоковых субпроцессоров

7.6. Оценка качества работы подсистемы локализации и идентификации отказов в МКМД-бит-процессорных матрицах

Как видно из изложенного, при использовании не Tlf -адаптивных алгоритмов тестирования локализация и идентификация отказов проводится по классической схеме аппаратного контроля, которая не зависит от содержимого функциональных микропрограмм. Поэтому объектом диагностики является не субпроцессор, а вся МКМД-бит-процессорная матрица, в которой каждый бит-процессор подтверждает свою работоспособность по всем реализуемым им функциям.

Качество работы подсистемы локализации и идентификации отказов в МКМД-бит-процессорных матрицах определяется тремя основными факторами: конструктивными ограничениями на средства ввода-вывода тестовых микропрограмм и данных, размерами самой бит-матрицы, а также размерами и топологией действующей карты отказов. Все эти факторы взаимозависимы, что делает задачу оценки качества работы подсистемы локализации и идентификации отказов в МКМД-бит-процессорных матрицах нелинейной. При этом основными показателями качества работы подсистемы локализации и идентификации отказов принято считать полноту и время проведения контроля, первый из которых влияет на качество парирования обнаруженных карт отказов, а второй - на темп реального времени работы всего субпроцессора.

В таких условиях работу подсистемы локализации и идентификации отказов проще всего оценить по каждому фактору отдельно, используя в качестве основного ограничения лучшие и худшие значения конструктивных параметров средства ввода-вывода тестовых микропрограмм и данных, то есть конфигурацию интерфейса подсистемы локализации и идентификации отказов, которая может не совпадать с конфигурацией интерфейса субпроцессора.

При оценке качества работы подсистемы локализации и идентификации отказов в МКМД-бит-процессорных матрицах прежде всего необходимо определить условия, при которых еще можно говорить о темпе реального времени. С этой целью определим структуру временных затрат на полное тестирование полностью работающей бит-матрицы, что снимает влияние действующей карты отказов на продолжительность диагностики.

При этом в качестве параметров будем использовать уровень распараллеливания ввода-вывода тестовых микропрограмм и данных:

  1. Полностью последовательная P -шина, которая обеспечивает максимум временных издержек на ввод тестовых микропрограмм, так как в ней все регистры бит-инструкций объединены в последовательный FIFO -регистровый канал ввода-вывода с однобитным входом и однобитным выходом. При этом FIFO -регистровая D -шина полностью распараллелена по периферийно доступным входам-выходам, что соответствует полнодоступной по периферии бит-матрице рис. 7.18-а.
  2. Самый худший случай - полностью последовательные FIFO -регистровые P - и D -шины, что соответствует конструкции D -шины рис. 7.18-г и однострочным U -образным Т -рекурсивным тестовым микропрограммам, вводимым в бит-матрицу по однобитной последовательной P -шине.
  3. Идеальный случай - полностью параллельные FIFO -регистровые P - и D -шины, что соответствует полнодоступной бит-матрице и требует гипрепараллельных гальванических P - и D -шин, реализуемых средствами оптоэлектроники или наноэлектроники.

При таких ограничениях удается ввести алгебраические соотношения для расчета времени тестирования бит-матриц (табл. 7.1-7.3) Tlf -адаптивного контроля бит-матрицы Т -рекурсивными возвратными тестами рисунков, где:

  • \theta - номер шага тестирования;
  • \mu - количество аффинных модификаций исходного многострочного теста ( \mu = 1 в однострочных тестах);
  • \rho - количество комбинаций тест-данных, образующих одну зондирующую посылку;
  • v - количество зондирующих посылок, обеспечивающих формирование полной матрицы переходов АЛУ;
  • N^{T} = \sum\limits_{\theta}N^{T}(\theta) - целочисленное время получения откликов от бит-процессоров одного канала;
  • N^0 = \sum\limits_{\theta}N^0 (\theta) - целочисленное время начальной задержки при получении первого отклика тестируемого канала;
  • N^p = \sum\limits_{\theta}N^p(\theta) - целочисленное время загрузки тестовой микропрограммы в бит-матрицу;
  • n_{p} - разрядность гальванической Р -шины;
  • L_p - "длина" тестовой микропрограммы, а R_p - разрядность регистра бит-инструкции.

Вне зависимости от конструктивно-технологических особенностей построения тестовых интерфейсов минимальное время контроля дает полностью исправная бит-матрица, так как при этом не проводится адаптация тестовых микропрограмм под действующую карту отказов, которая позволяет нейтрализовать действие обнаруженных отказов и продолжить процесс диагностики. Поэтому первому варианту построения тестового интерфейса отвечает минимально минимальное время полного не Tlf -адаптивного контроля бит-матрицы Т -рекурсивными возвратными тестами. В соответствии с данными табл. 7.1 его можно записать: \min(\min{N}) = N^{T} + N^{0} + N^{p} = 6J + 335I + 26L_{p}R_{p} + 96, а и при \min(I, J) = I: \min(\min {N}) = 6J + 353I + 26L_{p}R_{p} + 96.

Таблица 7.1. Структура временных затрат на контроль линейными Т-рекурсивными тестами полнодоступной по периферии бит-матрицы
Шаг Функция \theta \mu \rho v N^t(\theta) N^0(\theta) N^p(\theta)
1 P -шина 1 1 4 1 \rho(\theta)*v(\theta)
L_p*R_p
0
2 D -шина 2 3\min(I,J)
\mu(\theta)*L_p*R_p
3 WTRh 3 3 2 \rho(\theta)*v(\theta)*J
1
WTRv 4 \rho(\theta)*v(\theta)*I
4 AND 5 3 4 5 \mu(\theta)*
\rho(\theta)*
v(\theta)*\min(I,J)
4*\mu(\theta)
XOR 6
ADD 7
ST1 8
NAND 9 4 5*\mu(\theta)
CG 10 3 1 2*\mu(\theta)
NOP 11 \mu(\theta)*
\rho(\theta)*
v(\theta)*I 5*\mu(\theta)
Итого 25 18I+6J+332\min(I,J)+8 L_p*R_p+\\
3\min(I,J)+88 25*L_p*R_p

Отсюда, для платы СБИС Н1841 ВФ1, содержащей 30*88 бит-процессоров, или, что одно и то же, 6*22 СБИС, получим:

Р -шина L_p*R_p тактов N тактов N^{T} тактов N^0 тактов N^p тактов N^{T}/N N^0/N N^p/N Отношение
n_{p}=6 7040 194254 11036 7218 176000 0,057 0,037 0,906 N^p+N^0\gg N
n_{p}=132 320 19534 11036 498 8000 0,565 0,025 0,410 N^p+N^0 \approx N

где n_{p} = 6 отвечает P -шине, обеспечивающей последовательный ввод микропрограммы во все СБИС одной строки, а n_{p} = 132 - в каждую СБИС независимо.

Из приведенных данных видно, что при такой организации тестового интерфейса решающий вклад во время диагностики полностью исправной бит-матрицы вносит время ввода тестовых микропрограмм, которое составляет 90 % от общего времени диагностики. Поэтому увеличение более чем в 20 раз разрядности P -шины снижает почти на порядок общее время диагностики и приводит к тому, что системообразующее неравенство (6.1) курса "Задачи и модели вычислительных наноструктур" начинает выполняться и для тестовых микропрограмм, правда, в ослабленном виде N^{p}+N^{0}\approx N.

Второму варианту построения тестового интерфейса отвечает табл. 7.2, согласно которой максимально минимальное время полного не Tlf -адаптивного контроля бит-матрицы Т -тестами имеет вид:

\max (\min N) = 111I*J+318I+2J+1178+26*L_{p}*R_{p}.
Таблица 7.2. Структура временных затрат на контроль одноканальными, U-образными, Т-рекурсивными, возвратными тестами полностью исправной бит-матрицы
Шаг Функция \theta \mu \rho v N^t(\theta) N^0(\theta) N^p(\theta)
1 P -шина 1 1 4 1 \rho(\theta)*v(\theta)
L_p*R_p
0
2 D -шина 2 3*I*J \mu(\theta)*L_p*R_p
3 WTRh 3 3 2 \rho(\theta)*v(\theta)*J
1
WTRv 4 \rho(\theta)*v(\theta)*I
4 AND 5 3 4 5 \mu(\theta)*
\rho(\theta)*
v(\theta)* [\lambda(\theta)(J-3) +3] + 12(\lambda(\theta)-
1)
4*\mu(\theta)
XOR 6
ADD 7
ST1 8
NAND 9 4 \mu(\theta)*
\rho(\theta)*
v(\theta)*
[\lambda(\theta)(J-5) +5] + 14(\lambda(\theta)-1)
5*\mu(\theta)
CG 10 3 1 \mu(\theta)*
\rho(\theta)*
v(\theta)*
[\lambda(\theta)(J-2) +2] + 12(\lambda(\theta)-1)
2*\mu(\theta)
NOP 11 \mu(\theta)*
\rho(\theta)*
v(\theta)*
[\lambda(\theta)(J-2) +2] + 12(\lambda(\theta)-1)
4*\mu(\theta)
Итого 25 108I*J+318I+2J+1090
L_p*R_p+\\
3*I * J+88 25*L_p*R_p

Здесь топология тестовых микропрограмм выбрана по критерию минимума неполноты покрытия бит-матрицы одноканальным U-образным функциональным тестом и в предположении: \max(I, J) = J ; \min(I, J) = I, причем \lambda(\theta) = ]min(I, J)/\mu(\theta)[, где ][ - старшее целое.

Отсюда, системообразующее неравенство (6.1) курса "Задачи и модели вычислительных наноструктур" стало выполняться и при малоразрядной P -шине, но не за счет снижения системных временных издержек, а за счет более чем 25-кратного увеличения продолжительности времени получения откликов от каждого бит-процессора U -образного тестового канала. При этом суммарное время контроля полностью исправной бит-матрицы возросло более чем в 2,5 раза.

Минимум миниморум времени контроля полностью исправной бит-матрицы обеспечивает тестовый интерфейс с непосредственным доступом к каждому бит-процессору матрицы по параллельным P - и D -шинам (табл. 7.3).

В этом случае только разрядности P - и D -шин зависят от размеров бит-матрицы, а все временные характеристики подсистемы локализации и идентификации отказов остаются неизменными для всех размеров контролируемой бит-матрицы:

N = 136 = const; N^t/N = 0,802 = const; N^{0}/N = 0,125 = const;\\
N^{p}/N = 0,074 = const; (N^{p}+N^{0} = 27) << (N = 109).

Для платы СБИС Н1841 ВФ1, содержащей 30*88 бит-процессоров, и n_{p} = 6 получим:

Р -шина L_{p}*R_{p} тактов N тактов N^{T} тактов N^0 тактов N^p тактов N^{T}/N N^0/N N^{p}/N Отношение
n_{p} = 6 7040 476168 285120 15048 176000 0,599 0,032 0,370 N^{p}+N^0 < N
Таблица 7.3. Структура временных затрат контроля полностью исправной бит-матрицы с помощью гиперпараллельных гальванических P- и D-шин
Шаг Функция \theta \mu \rho v N^t(\theta) N^0(\theta) N^p(\theta)
1 Р-шина 1 1 4 1 \rho(\theta) 3 0
2 D-шина 1 1
3 WTRh 3 2 2
WTRv 4
4 AND 5 3 17 5 1
XOR 6
ADD 7
ST1 8
NAND 9 4
CG 10 3 4 1
NOP 11
Итого 109 \sum\limits_{\theta}\rho(\theta)=109 17 10

Приведенные данные позволяют утверждать: продолжительность диагностики современных микроэлектронных МКМД-бит-процессорных матриц в основном определяется временем загрузки тестовых микропрограмм в бит-матрицу и временем получения индивидуальных откликов от всех бит-процессоров тестируемого канала, которые прямо или косвенно зависят от конструктивных характеристик бит-матрицы. К ним относятся: размеры (I, J) бит-матрицы, разрядность ( n_{p} и n_{d} ) и конфигурация гальванических P - и D -шин, задающих длину L_{p} последовательной FIFO -регистровой P -шины и размеры 2-мерной, последовательной FIFO -регистровой D -шины (длину линейных или U -образных тестов).

Для МКМД-бит-процессорных матриц на основе СБИС Н1841 ВФ1 локализация и идентификация отказов требует не менее 19534*2*10^{-7} \approx 4 мс, но с увеличением тактовой частоты до 250 МГц и применением параллельной системы ввода микропрограмм рис. 7.19 это время можно сократить в 80 раз, что становится приемлемым для периодического контроля бит-матрицы и подтверждения ее работоспособности в реальном времени.

Необходимо помнить, что приведенные соотношения и полученные на их основе численные значения исходят из прямых временных затрат на диагностику МКМД-бит-процессорных матриц и они не учитывают системных временных издержек управляющей центральной БЦВМ, обеспечивающей заданную последовательность активизации тестовых микропрограмм, формирование и загрузку тест-данных, а также анализ полученных откликов. С учетом системных временных издержек центральной БЦВМ приведенные численные значения могут возрасти на порядок и более, так как исполняемые БЦВМ функции достаточно просты и значительно уступают по сложности задачам управления собственными ресурсами.

Другая центральная проблема проектирования устойчивых к отказам МКМД-бит-потоковых вычислителей - это задание или хотя бы описание катастрофической карты отказов, делающей бит-матрицу непригодной для решения возлагаемых на нее задач. Объективный критерий для такой оценки пока отсутствует. Более того, имеются признаки, указывающие, что дать такую оценку можно только в конкретных частных случаях, зависящих как от топологии отказов, так и от топологической схемы поток-оператора пользователя. Поэтому модельные исследования на этапе проектирования МКМД-бит-процессорных матричных СБИС должны быть направлены на то, чтобы определить важнейшие факторы, влияющие на формирование "катастрофической" карты отказов.

Очевидно: если остаточный аппаратный ресурс бит-матрицы не обеспечивает работоспособность простейших тестовых микропрограмм, то его явно недостаточно для обеспечения работоспособности более сложных микропрограмм пользователя. Поэтому уровень доступности бит-процессоров в матрице является одним из главных факторов появления "катастрофической" карты отказов.

Исследование доступности бит-процессоров матрицы проведено на основе гипотезы равномерного распределения отказов по матрице показали (рис. 7.24) и оно показало:

  • уже при 30 % отказавших бит-процессоров начинает наблюдаться эффект исключения исправных бит-процессоров либо за счет сильного сужения путей доступа, либо за счет их полного отсутствия;
  • при 50 % отказавших вообще наблюдается эффект доступности только периферийных процессоров.
Уровень доступности бит-процессоров при нарастании карты отказов

Рис. 7.24. Уровень доступности бит-процессоров при нарастании карты отказов

Ориентированные на режим реального времени средства (микро) программной диагностики без особых проблем локализуют и идентифицируют карту до 15 одновременно сформированных отказов. При плавном нарастании карты эта величина достигает уже 20-30 отказов. Дальнейшее нарастание карты отказов приводит к доминированию эффекта "белых пятен", недоступных для тестирования в темпе реального времени.

Евгений Акимов
Евгений Акимов

Добрый день!

 

Скажите, пожалуйста,планируется ли продолжение курсов по нанотехнологиям?

Спасибо,

Евгений