Опубликован: 09.01.2008 | Уровень: профессионал | Доступ: платный | ВУЗ: Компания IBM
Лекция 5:

Reliability, Availability, Serviceability (RAS)

< Лекция 4 || Лекция 5: 12345 || Лекция 6 >

Надежность для дисковой подсистемы

  • Зеркалирование дисков
    • Информация записывается одновременно на два или три устройства
  • Поддержка разнообразных уровней RAID
    • RAID 1 - зеркалирование дисков
    • RAID 5 - контрольное суммирование с записью контрольной суммы на отдельный диск
  • Дублирование контроллеров и путей доступа к данным
    • Два контроллера в одной системе
    • Два пути доступа к данным в одной системе (SSA)
    • Два подключения к устройству от разных систем (SAN)
  • "Горячая" замена
    • Замена устройства без остановки системы
    • Индикация состояния устройства на панели устройства

Дисковая корзина позволяет производить горячуюзамену дисков, обеспечивая их динамическуюреконфигурациюи замену. Системы pSeries используют такие возможности ОС AIX, как AIX online diagnostics, Error Log Analysis, Service Aids. Это позволяет системному администратору или техническому специалисту IBM обнаруживать потенциальные отказы системы, не прерывая работу сервера. Если включена функция автоматической перезагрузки, то система будет сама перезагружаться в случае возникновения неустранимых ошибок в работе приложений, зависания приложений или неисправностей оборудования.

Маскирование сбоев


  • Повторные попытки запросов по шине CEC
  • Восстановление шины PCI
  • Исправление ошибок памяти - Chipkill

Деактивизация ресурсов


  • Деактивизация процессоров
  • Деактивизация L2 и L3 кэшей
  • Деактивизация раздела (LPAR) при перезагрузке
  • Деактивизация PCI шины

Динамическая деактивизация процессоров


Системы pSeries обладают огромными возможностями по обнаружению и предотвращению ошибок, так как обладают уникальными возможностями: "Динамическим отключением процессора" и "Постоянным отключением процессора". Обе используют такие возможности процессорной платы, как обнаружение ошибок и их изоляция, а также средства записи информации об ошибках. Таким образом, обеспечивается запись ключевой информации о сбоях. Запись происходит тогда, когда количество исправимых ошибок достигло критического числа.

Если процессор достигает критического числа сбоев, это событие записывается, а процессор будет помечен и деконфигурирован из системы. Операционная система продолжит работать на оставшихся процессорах.

Резервирование процессоров


При наличии резервного процессора (процессоров), установленного по программе Capacity on Demand, он будет автоматически активизирован в случае выхода из строя основного процессора.

Восстановление шин и адаптеров PCI


Взаимодействие корзин ввода/вывода, системного ПО, а так же ОС AIX позволяют исправлять периодические ошибки на шине и переводить устройства в недоступное состояние в случае постоянной ошибки четности. Этот механизм называется "Расширенной Обработкой Ошибок" (Extended Error Handling).

Для работы этого механизма необходимо, чтобы драйвер соответствующего устройства поддерживал функцию EEH. Такой драйвер должен отвечать на специальную последовательность данных, состоящую из одних единиц, обращением к системному ПО, которое, в свою очередь, должно протестировать PCI-слот и разрешить драйверу отключить его. Для достижения наивысших показателей доступности и отказоустойчивости компания IBM рекомендует использовать PCI-адаптеры только с поддержкой EEH.

< Лекция 4 || Лекция 5: 12345 || Лекция 6 >
Александр Панченко
Александр Панченко

Добрый день,

Я прошёл платный курс по программе «Архитектурные решения на базе аппаратных платформ IBM» получил диплом №ПК 100848460.

Как мне получить его ? Вы отправите его почтой ?

Игорь Студентов
Игорь Студентов
Россия
Денис Беспалов
Денис Беспалов
Россия