Опубликован: 09.01.2008 | Уровень: профессионал | Доступ: платный | ВУЗ: Компания IBM
Лекция 10:

Дисковая и сетевая подсистемы архитектуры HACMP

< Лекция 9 || Лекция 10: 12 || Лекция 11 >

Обнаружение и диагностика сбоев

  • Обнаружение сбоя - "что-то не в порядке" – например, пакеты не пересылаются между alpha - en0 и beta - en0
  • Диагностика сбоя - "что не в порядке" – вышел из строя сетевой адаптер en0 на узле alpha

Статусных пакетов достаточно для обнаружения сбоя. Однако, их недостаточно для корректной диагностики - какой конкретно компонент вышел из строя.

Диагностика сбоев

При обнаружении сбоя HACMP использует специальную схему обмена пакетами для диагнростики реальной причины сбоя

Пример:

  • Alpha обнаруживает, что статусные пакеты не приходят по en0 и сообщает об этом узлу beta
  • Beta также обнаруживает это
  • Оба узла посылают диагностические пакеты между различными комбинациями сетевых адаптеров (включая обмен пакетами между разными адаптерами на одном узле)
  • Оба узла обнаруживают, что все пакеты, проходящие через адаптер en0 на alpha, пропадают, но пакеты, проходящие через адаптер en0 на beta, приходят
  • Диагностика: Вышел из строя адаптер en0 на узле alpha

После того, как один или несколько узлов обнаружили сбой, они обмениваются этой информацией и начинают процедуру диагностики. Для этого они обмениваются специальными пакетами по всем возможным путям, для выявления более недоступного элемента топологии.

Потеря всех статусных пакетов

  • При отсутствии статусных пакетов от другого узла невозможно отличить сбой сети от сбоя узла
  • Каждый узел считает, что другой узел вышел из строя!

Если узел обнаруживает, что он больше не получает статусных пакетов от второго узла, то он считает, что этот узел вышел из строя и инициирует fallover.

А что произойдет, если оба узла в кластере будут считать так???

Дополнительная сеть

  • Для обеспечения возможности диагностирования сбоев необходима резервная сеть.
  • Сеть должна быть независима от работоспособности подсистемы TCP/IP – Non-IP Network, Serial Network (Не-IP сеть)
  • HACMP должен иметь возможность корректной диагностики сбоя сети – все сетевые адаптеры в каждой физической IP-сети на любом узле должны иметь IP-адреса в разных логических подсетях

Для того, чтобы избежать такой систуации, что в результате сбоя IP- подсистемы кластер окажется "разделенным", в нем обязательно должна быть сеть, работающая без IP, например соединение по RS232.

Восстановление после сбоя

  • HACMP продолжает мониторинг сбойных компонентов для обнаружения их восстановления
  • Реинтеграция восстановленного компонента в кластер может быть причиной для событий в кластере

Даже после сбоя компонента топологии, кластер продолжает отсылку статусных пакетов. Это обеспечивает то, что после восстановления элемента, он будет автоматически реинтегрирован в кластер.

IP Address Takeover (IPAT)

  • Для каждого высоконадежного приложения, как правило, требуется собственный IP адрес (Service IP address - сервисный IP адрес)
  • Сервисный IP адрес обычно входит в ресурсную группу приложения
  • HACMP отвечает за обеспечение доступности сервисного IP адреса на узле, отвечающем за данную ресурсную группу
  • При сбое узла, отвечающего за приложение, HACMP переносит ресурсную группу на другой узел
  • При настройке IPAT для ресурсной группы сервисный IP адрес приложения также перейдет на другой узел

В случае сбоя узла кластер переводит ресурсную группу на резервный узел. Как часть ресурсной группы, сервисный IP адрес (тот адрес, на котором работает приложение), также переходит на резерв.

IPAT (продолжение)

При сбое сетевого адаптера, отвечающего за сервисный IP адрес приложения, HACMP переносит этот адрес на другой сетевой адаптер (на том-же узле)


При сбое сетевого адаптера ресурсная группа остается на том-же узле, что и была. Кластер переводит сервисный IP адрес на резервный сетевой адаптер.

Итоги

  • Общее дисковое пространство используется для хранения изменяемых данных приложений
  • Для мониторинга топологии используются статусные пакеты (heartbeat)
  • Для корректной диагностики сбоев необходимо тщательное планирование топологии кластера
  • IPAT – перенос сервисного IP адреса на резервный адаптер

Источники информации

< Лекция 9 || Лекция 10: 12 || Лекция 11 >
Александр Панченко
Александр Панченко

Добрый день,

Я прошёл платный курс по программе «Архитектурные решения на базе аппаратных платформ IBM» получил диплом №ПК 100848460.

Как мне получить его ? Вы отправите его почтой ?

Игорь Студентов
Игорь Студентов
Россия
Денис Беспалов
Денис Беспалов
Россия