Наиболее жесткие требования к качеству решения задач обеспечения живучести и восстановления работоспособности предъявляются к (Б)ВС, обеспечивающих управление в реальном времени аэрокосмическими летательными аппаратами (ЛА). Несмотря на кажущееся сходство этих задач, между ними имеется достаточно важное системное отличие.
Под живучестью понимается способность некоторого объекта или системы сохранять заданные правила функционирования при наличии отказов в составляющих объект или систему частях. В отличие от надежности объекта или системы, которая оценивает вероятность появления отказа, живучесть априори предполагает наличие отказа, то есть при оценке надежности рассмотрение объекта или системы заканчивается после появления отказа, в то время как с позиций живучести отказ является только началом анализа поведения объекта или системы.
Обеспечение живучести (Б)ВС необходимо проводить в темпе реального времени или близком к реальному, чтобы сохранить боевую эффективность ЛА. Это требует соответствующих программно-аппаратных средств обнаружения, локализации, идентификации и парирования отказов, задействованных непосредственно во время вычислений. Поэтому основным показателем эффективности систем обеспечения живучести следует считать время парирования отказа, а израсходованный при этом аппаратный резерв приходится учитывать во вторую очередь.
Восстановление работоспособности (Б)ВС можно провести в пакетном режиме при подготовке самолето-вылета. Поэтому задействованные в этом процессе программно-аппаратные средства способны повысить только боеготовность ЛА, и их эффективность необходимо оценивать по минимуму аппаратурного резерва, задействованного в ремонтно-восстановительных работах непосредственно в районе боевых действий, а не в районе базирования. Минимум аппаратного резерва также оказывает прямое влияние на время перебазирования авиационного подразделения из района стационарного базирования в район боевых действий, что крайне важно в условиях динамично развивающихся локальных военных конфликтов.
В современных опто- и микроэлектронных ОКМД-технологиях [147, 237, 281] живучесть (сверх)параллельных (суб)процессоров поддерживается в реальном времени за счет встроенных в каждый вычислитель средств диагностики и средств подстановки на место отказавших исправных вычислителей из существенно меньшего (по отношению ко всему коллективу активных вычислителей) "горячего" резерва. Все эти средства реагируют, как правило, не на функциональный, а на аппаратный отказ, повышающий вероятность ложной тревоги, а значит, и необоснованный расход "горячего" аппаратного резерва.
В МКМД-бит-потоковой технологии живучесть (суб)процессоров поддерживается за счет создания на той же бит-матрице алгоритмически ориентированных устройств диагностики и толерантного (пере)размеще-ния "рабочего тела" (микро)программы на всей бит-матрице, включая и "горячий" резерв [298, 299].
Это исключает свойственные опто- и микроэлектронным ОКМД-технологиям аппаратно-временные издержки на встроенные и распределенные по всему коллективу вычислителей средства диагностики, коммутации и управления "перемещением" (с ограниченным радиусом) резервных ( rb ) вычислителей (рис. 7.1) на место отказавших, но требует дополнительных аппаратно-временных затрат на перекомпоновку топологии всей (микро)программы МКМД-бит-потокового (суб)процессора, включая и алгоритмически ориентированные модули диагностики.
В соответствии с решаемыми задачами система обеспечения живучести МКМД-бит-потоковых (суб)процессоров включает три работающие в режиме разделения времени подсистемы (рис. 7.2):
Полнота обнаружения, локализации и идентификации карт отказов и минимальный уровень аппаратно-временных затрат на толерантную перекомпоновку топологии "рабочего тела" каждой (микро)программы пользователя в основном определяются следующими особенностями построения и работы системы обеспечения живучести.
При этом не исключается использование классических методов и средств введения информационной и/или аппаратной избыточности на всех стадиях обнаружения, локализации и парирования отказов. В частности, допустимо на уровне субпроцессоров использовать фон-неймановскую схему мажоритарного резервирования, которая работает по принципу "два из трех", "три из пяти" и т. д. и которая эффективно парирует в темпе реального времени одиночные отказы аппаратуры, характерные для условий эксплуатации (Б)ВС в "нормальных" условиях.
Стратегия работы подсистемы локализации и идентификации отказов вносит решающий вклад в снижение размерности решаемых в ней задач, а значит, и в повышение динамики работы всей системы обеспечения живучести МКМД-бит-потоковых (суб)процессоров.
В рамках этой стратегии основной вклад в повышение эффективности работы программно-аппаратных средств локализации и идентификации множественных отказов вносит ОКМД-подобный режим работы тестовых микропрограмм, который позволяет обойти свойственное МКМД-режиму "проклятие размерности" задачи тестирования бит-матриц большой размерности (свыше 10^{3} бит-процессоров).
Действительно, мощность пространства состояний МКМД-бит-процессорной матрицы \[ Q(МКМД) = 2^{Rp*I*J} \] при сверхбольшом ( \[ I*J > 10^{3} \] ) коллективе вычислителей оценивается фантастическими даже для астрономии числами, превращающими процесс локализации и идентификации в "теравековой", даже если одно из этих состояний тестируется за 10-16 сек (0,1 фемтосекунды, что сравнимо с временем установления устойчивых состояний электронов при возбуждении атомов).
Мощность пространства состояний такой же бит-матрицы, но тестируемой в ОКМД-подобном режиме, определяется разрядностью \[ R_{p} \] регистров инструкций составляющих бит-процессоров: \[ Q(ОКМД) = 2^{Rp} \] , что для СБИС Н1841 ВФ1 ( \[ R_{p} = 16 \] ) требует более 64000 тестовых микропрограмм.
Такое кардинальное снижение размерности не нарушает полноту и достоверность тестирования, если неисправность в одном бит-процессоре не нарушает работоспособность ближайших ортогональных соседей. Для бит-процессоров, принадлежащих различным СБИС, такая гипотеза достоверна даже при работе на терагерцовых частотах, так как они размещаются на плате на достаточно больших расстояниях, которые исключают паразитные электромагнитные взаимодействия между периферийными бит-процессорами. Паразитные электромагнитные взаимодействия между исправными и неисправными бит-процессорами одной и той же СБИС исключаются специальными конструктивно-технологическими мерами, которые исключают появление тиристорных и т. п. эффектов в широком, но контролируемом диапазоне изменения внешних воздействующих факторов.
Однако даже такое кардинальное снижение размерности задач локализации и идентификации отказов не позволяет решать их в (квази) реальном масштабе времени из-за большого времени распространения тест-данных и индивидуальных откликов от периферии к центру бит-матрицы и наоборот.
Поэтому необходимо ввести достоверные ограничения, разбивающие пространство перебора на две части: тестируемые прямыми методами и косвенными. Это требует учета структурно-функциональных, схемотехнических и топологических особенностей построения конкретных бит-матричных СБИС и призвано снизить более чем на 3-4 порядка размерность задачи прямой диагностики. В таких случаях все пространство состояний объекта диагностики разбивается на два подпространства, одно из которых составляет ядро диагностики и контролируется прямыми методами анализа реальных физических реакций на тестовые данные. Выводы о работоспособности объекта диагностики в состояниях, принадлежащих второму подпространству, делаются косвенным путем на основе определенных правил вывода, достоверность которых поддерживается реализуемыми на практике допущениями ( гипотезами ).
Из структурно-функциональной схемы бит-процессора (см. рис. 3.2) видно, что такая достоверная (реализуемая в процессе производства СБИС и аппаратуры) упрощающая гипотеза требуется прежде всего для снижения размерности пространства системы внутренней коммутации каждого бит-процессора. Мощность этого пространства задается размером полей А1-А6 регистра бит-инструкций, и для СБИС Н1841 ВФ1 она равна 212.
При выборе подпространства прямой диагностики внутренней системы коммутации бит-процессоров необходимо учитывать, что она поддерживает условия требуемого пространственно-временного, FIFO - регистрового взаимодействия бит-инструкций активизированного поток-оператора пользователя. Поэтому выбранные кодовые комбинации для тестируемых бит-инструкций должны обеспечить опосредованный через другие бит-процессоры информационный доступ к каждому бит-процессору тестируемого канала как по входным воздействиям, так и по полученным откликам в процессе тестирования.