Опубликован: 09.01.2008 | Уровень: профессионал | Доступ: платный | ВУЗ: Компания IBM
Лекция 5:

Reliability, Availability, Serviceability (RAS)

< Лекция 4 || Лекция 5: 12345 || Лекция 6 >

Установка карты памяти


Усиленная конструкция для высокой надежности:

  • Электроника устанавливается в специальные карты (формат book)
  • Направляющие рельсы
  • Направляющие штыри
  • Фиксация замком
  • Результат:
    • Не повреждаются штыри
    • Надежное соединение

Расположение элементов внутри CEC хорошо продумано и обеспечивает электромагнитнуюсовместимость, снижает вероятность возникновения ошибок, вызванных электрическими помехами, а также обеспечивает надежное крепление, которое предотвращает разрыв критически важных соединений при ударах или вибрации.

Встроенная избыточность


  • Резервные чипы памяти
  • N+1 вентиляторы, источники питания
  • Избыточные каналы ввода-вывода
  • Резервный сервисный процессор
  • Резервная HMC

Внутри корпуса N+1 подсистема питания и охлаждения обеспечивают полнуюизбыточность на случай выхода из строя блоков питания, контроллеров питания, устройств охлаждения, и даже кабелей питания. Как и в мэйнфреймах zSeries, возможна немедленная замена компонентов питания и охлаждения.

В серверах pSeries имеется резервный внутренний аккумулятор IBF (Internal Battery Features), который поддерживает работоспособность системы в случае падения напряжения. Для защиты от полного отключения питания сервер pSeries может использовать блоки бесперебойного питания (UPS) в сочетании с IBF или вместо него.

Замена компонентов без остановки системы


  • Жесткие диски
  • Вентиляторы, воздушные фильтры
  • Блоки питания
  • PCI адаптеры

Дисковая корзина позволяет производить горячуюзамену дисков, обеспечивая динамическуюреконфигурациюи замену дисков. Каждый PCI-адаптер имеет функциюгорячей замены и доступен с тыльной стороны корзины ввода/вывода. Таким образом, при обслуживании PCI-адаптеров нет необходимости переключать корзину в режим обслуживания, при котором необходимо выдвинуть корзину и все подключенные к ней кабели для извлечения PCI адаптера из верхней части корзины. Такие движения корзины туда и обратно могут вызвать дополнительные сбои, связанные с повреждением самих адаптеров или подключенных к ним кабелей.

Активная защитная система


  • Технология bit-steering в модулях памяти с избыточностью для поддержания работоспособности сервера
  • Исправление одиночных сбоев (ECC) в оперативной памяти и L2, L3 кэшах
  • Технология error scrubbing для предотвращения сбоев памяти

Стандартные чипы памяти имеют схему исправления одиночных ошибок и обнаружения двойных (ECC). Чип памяти устроен так, что выход из строя одного модуля памяти влияет только на один бит ECC слова (bit scattering), таким образом, есть возможность исправить ошибку и продолжить работу даже при выходе из строя целого модуля памяти (Chipkill recovery).

В чипах памяти также используется "чистка" памяти (Memory scrubbing) и устанавливается критическое число исправляемых ошибок, превышение которого приводит к замене соответствующего модуля на резервный (dynamic bit steering).

"Чистка" памяти – это процесс, состоящий из чтения содержимого памяти во время бездействия, проверки и исправления одиночных ошибок. Одиночные ошибки могут быть устойчивыми (заводской брак) или случайными (вызванные, например, электрическим шумом).

Память Chipkill


  • Раз в год в одном из пяти серверов с памятью 1GB может возникнуть многобитовая ошибка памяти1Данные IBM MicroElectronics
    • Восстановление сервера с 4GB памяти после системного сбоя занимает 8-12 часов
  • Память Advanced ECC или Chipkill обеспечивает наилучшие возможности по выявлению и исправлению ошибок памяти
    • Исправляет ошибки памяти до 4-х бит на одну линейку чипа, т.е. компесирует потерючипа памяти
    • Высокоэффективная технология IBM обеспечивает исправление ошибок "на лету" прямо в DIMM
    • Базируется на стандартной памяти ECC
    • Надежность по сравнению с ECC возрастает в 600 раз

Если удалось обнаружить ошибку, то данные пропускаются через ECC логику и исправленные данные записываются обратно по соответствующим адресам. Такой алгоритм используется и после замены неисправного модуля на резервный. "Чисткой" занимается контроллер памяти и производит ее только во время бездействия, поэтому процесс чистки никак не отражается на производительности памяти.

Если возникает ситуация, когда в модуле памяти возникает ошибка, а все резервные биты уже исчерпаны, то для предотвращения отказа системы сервисный процессор инициирует запрос на обслуживание модуля памяти.

Управление электропитанием

System Power Control Network (SPCN)

  • Набор контроллеров и датчиков слежения за состоянием внутри системы, соединенных последовательной шиной
  • Функция управления может быть интегрирована в сервисный процессор
    • Включение и выключение электропитания для отдельных устройств
    • Выключение элементов системы при нарушениях в электропитании
    • Контроль за состоянием вентиляторов, температурой и оповещение сервисного процессора о нештатном значении параметров
    • Оповещение об нарушениях (индикаторная панель, сигнал сервисному процессору)
    • Запись о сбойном состоянии устройств в память устройства
< Лекция 4 || Лекция 5: 12345 || Лекция 6 >
Александр Панченко
Александр Панченко

Добрый день,

Я прошёл платный курс по программе «Архитектурные решения на базе аппаратных платформ IBM» получил диплом №ПК 100848460.

Как мне получить его ? Вы отправите его почтой ?

Игорь Студентов
Игорь Студентов
Россия
Денис Беспалов
Денис Беспалов
Россия