Добрый день, Я прошёл платный курс по программе «Архитектурные решения на базе аппаратных платформ IBM» получил диплом №ПК 100848460. Как мне получить его ? Вы отправите его почтой ? |
Reliability, Availability, Serviceability (RAS)
Установка карты памяти
Усиленная конструкция для высокой надежности:
- Электроника устанавливается в специальные карты (формат book)
- Направляющие рельсы
- Направляющие штыри
- Фиксация замком
- Результат:
- Не повреждаются штыри
- Надежное соединение
Расположение элементов внутри CEC хорошо продумано и обеспечивает электромагнитнуюсовместимость, снижает вероятность возникновения ошибок, вызванных электрическими помехами, а также обеспечивает надежное крепление, которое предотвращает разрыв критически важных соединений при ударах или вибрации.
Встроенная избыточность
- Резервные чипы памяти
- N+1 вентиляторы, источники питания
- Избыточные каналы ввода-вывода
- Резервный сервисный процессор
- Резервная HMC
Внутри корпуса N+1 подсистема питания и охлаждения обеспечивают полнуюизбыточность на случай выхода из строя блоков питания, контроллеров питания, устройств охлаждения, и даже кабелей питания. Как и в мэйнфреймах zSeries, возможна немедленная замена компонентов питания и охлаждения.
В серверах pSeries имеется резервный внутренний аккумулятор IBF (Internal Battery Features), который поддерживает работоспособность системы в случае падения напряжения. Для защиты от полного отключения питания сервер pSeries может использовать блоки бесперебойного питания (UPS) в сочетании с IBF или вместо него.
Замена компонентов без остановки системы
- Жесткие диски
- Вентиляторы, воздушные фильтры
- Блоки питания
- PCI адаптеры
Дисковая корзина позволяет производить горячуюзамену дисков, обеспечивая динамическуюреконфигурациюи замену дисков. Каждый PCI-адаптер имеет функциюгорячей замены и доступен с тыльной стороны корзины ввода/вывода. Таким образом, при обслуживании PCI-адаптеров нет необходимости переключать корзину в режим обслуживания, при котором необходимо выдвинуть корзину и все подключенные к ней кабели для извлечения PCI адаптера из верхней части корзины. Такие движения корзины туда и обратно могут вызвать дополнительные сбои, связанные с повреждением самих адаптеров или подключенных к ним кабелей.
Активная защитная система
- Технология bit-steering в модулях памяти с избыточностью для поддержания работоспособности сервера
- Исправление одиночных сбоев (ECC) в оперативной памяти и L2, L3 кэшах
- Технология error scrubbing для предотвращения сбоев памяти
Стандартные чипы памяти имеют схему исправления одиночных ошибок и обнаружения двойных (ECC). Чип памяти устроен так, что выход из строя одного модуля памяти влияет только на один бит ECC слова (bit scattering), таким образом, есть возможность исправить ошибку и продолжить работу даже при выходе из строя целого модуля памяти (Chipkill recovery).
В чипах памяти также используется "чистка" памяти (Memory scrubbing) и устанавливается критическое число исправляемых ошибок, превышение которого приводит к замене соответствующего модуля на резервный (dynamic bit steering).
"Чистка" памяти – это процесс, состоящий из чтения содержимого памяти во время бездействия, проверки и исправления одиночных ошибок. Одиночные ошибки могут быть устойчивыми (заводской брак) или случайными (вызванные, например, электрическим шумом).
Память Chipkill
- Раз в год в одном из пяти серверов с памятью 1GB может
возникнуть многобитовая ошибка памяти1Данные IBM MicroElectronics
- Восстановление сервера с 4GB памяти после системного сбоя занимает 8-12 часов
- Память Advanced ECC или Chipkill обеспечивает наилучшие возможности по выявлению и исправлению ошибок памяти
Если удалось обнаружить ошибку, то данные пропускаются через ECC логику и исправленные данные записываются обратно по соответствующим адресам. Такой алгоритм используется и после замены неисправного модуля на резервный. "Чисткой" занимается контроллер памяти и производит ее только во время бездействия, поэтому процесс чистки никак не отражается на производительности памяти.
Если возникает ситуация, когда в модуле памяти возникает ошибка, а все резервные биты уже исчерпаны, то для предотвращения отказа системы сервисный процессор инициирует запрос на обслуживание модуля памяти.
Управление электропитанием
System Power Control Network (SPCN)
- Набор контроллеров и датчиков слежения за состоянием внутри системы, соединенных последовательной шиной
- Функция управления может быть интегрирована в сервисный
процессор
- Включение и выключение электропитания для отдельных устройств
- Выключение элементов системы при нарушениях в электропитании
- Контроль за состоянием вентиляторов, температурой и оповещение сервисного процессора о нештатном значении параметров
- Оповещение об нарушениях (индикаторная панель, сигнал сервисному процессору)
- Запись о сбойном состоянии устройств в память устройства