Компания IBM
Опубликован: 01.02.2008 | Доступ: свободный | Студентов: 616 / 22 | Оценка: 4.60 / 4.40 | Длительность: 43:55:00
Специальности: Разработчик аппаратуры
Лекция 8:

Управление кластером

Динамическая реконфигурация кластера – DARE

HACMP позволяет вносить некоторые изменения как в топологию, так и в ресурсы кластера при работающем кластере. Эта функция называется динамической реконфигурацией (dynamic reconfiguration, DARE). Можно выполнить несколько изменений ресурсов и топологии одной операцией динамической реконфигурации, что упрощает работу в целом, особенно при сложных изменениях конфигурации.

DARE поддерживает внесение изменений в ресурсы и топологию в одной операции. Начиная с HACMP 5.3 DARE поддерживается в конфигурациях HACMP/XD.

Внимание!
  1. Не следует вносить изменения в конфигурацию или выполнять какиелибо действия, влияющие на ресурсы, если для какого-либо узла установлено принудительное отключенное состояние (forced down).
  2. Во время миграции кластера на новую версию HACMP динамическая реконфигурация не поддерживается.

В активном кластере можно динамически внести следующие изменения в ресурсы кластера:

  • Добавить, удалить или изменить сервер приложения.
  • Добавить, удалить или изменить мониторинг приложения.
  • Добавить или удалить содержимое одного или нескольких групп ресурсов.
  • Добавить, удалить или изменить ресурс накопителя на магнитной ленте.
  • Добавить или удалить один или несколько групп ресурсов.
  • Добавить, удалить или изменить порядок участвующих узлов в группе ресурсов.
  • Изменить отношения узлов в группе ресурсов.
  • Изменить порядок обработки группы ресурсов.
  • Добавить, удалить или изменить политику таймера возврата после восстановления, связанную с группой ресурсов. Новый таймер возврата после восстановления не будет действовать до тех пор, пока группа ресурсов не будет подключена на другом узле.
  • Добавить, удалить или изменить время установления (settling time) для групп ресурсов.
  • Добавить или удалить политику распределения узлов (node distribution policy) для групп ресурсов.
  • Добавить, удалить или изменить зависимости "родительский объект/дочерний объект" ("parent/child") или зависимости расположения для групп ресурсов (здесь применяются некоторые ограничения).
  • Добавить, удалить или изменить политику межсайтового управления (inter-site management policy) для групп ресурсов.
  • Добавить, удалить или изменить скрипты пред- и постобработки событий.

Динамическую реконфигурацию можно инициировать только с активного узла, т. е. с узла, на котором запущены демоны кластера. Изменения необходимо вносить с работающего узла, чтобы можно было осуществлять синхронизацию кластера. Прежде чем вносить изменения в определение кластера, нужно проверить следующее:

  • На всех узлах должна быть установлена одинаковая версия HACMP.
  • Некоторые узлы должны быть включены и выполнять HACMP, а также быть способны вести обмен данными друг с другом. Ни для одного узла не должно быть установлено принудительное отключенное состояние (forced down).
  • Кластер должен быть в стабильном состоянии, и файл hacmp.out не должен содержать недавних ошибок или событий config_too_long.

В зависимости от конфигурации вашего кластера и от изменений, которые вы планируете внести в среду своего кластера, возможно множество различных ситуаций и ограничений при использовании утилиты динамической реконфигурации. Необходимо понимать возможные последствия некоторых изменений в кластере, поэтому мы рекомендуем обратиться к руководству HACMP for AIX Administration Guide за подробной информацией, прежде чем начинать вносить динамические изменений в среду своего кластера.

Файлы журналов верификации

Во время верификации кластера HACMP осуществляет сбор данных конфигурации со всех узлов в ходе выполнения наборов проверок. Подробные выходные данные сохраняются в файле /var/hacmp/clverify/clverify.log. При этом осуществляется чередование файлов журналов.

Приведенные ниже выходные данные содержат список файлов журналов верификации, находящихся в каталоге /var/hacmp/clverify/:

[p650n01][/var/hacmp/clverify]> ls -l
total 2024
-rw---- 1 root system 9 9 4 5 1 J u n 2 1 0 0 : 0 0 c l v e r i f y . l o g
-rw---- 1 root system 99956 Jun 20 12:13 clverify.log.1
-rw---- 1 root system 98639 Jun 20 00:00 clverify.log.2
-rw---- 1 root system 98639 Jun 19 00:00 clverify.log.3
-rw---- 1 root system 98639 Jun 18 00:00 clverify.log.4
-rw---- 1 root system 98549 Jun 17 18:46 clverify.log.5
-rw---- 1 root system 98549 Jun 17 18:24 clverify.log.6
-rw---- 1 root system 98866 Jun 17 18:02 clverify.log.7
-rw---- 1 root system 98866 Jun 17 17:49 clverify.log.8
-rw---- 1 root system 99091 Jun 17 16:58 clverify.log.9
-rw---- 1 root system 9296 Jun 21 00:00 clverify_daemon.log
drwx--- 4 root system 256 Jun 17 11:42 fail
drwx--- 4 root system 256 Jun 21 00:00 pass
drwx--- 4 root system 256 Jun 20 12:12 pass.prev

На узле, на котором инициируется утилита верификации, подробная информация собирается в файлах журналов, в которых регистрируются все собранные данные и выполненные задачи. Эти файлы журналов записываются в следующие каталоги и используются обслуживающим персоналом для определения расположения ошибок:

  • /var/hacmp/clverify/pass/nodename/ – при успешной верификации;
  • /var/hacmp/clverify/fail/nodename/ – при отказе верификации.
Примечание. Для выполнения верификации требуется 4 Мб дискового пространства на каждом узле в файловой системе /var. Как правило, файлы /var/hacmp/clverify/ clverify.log требуют дополнительно 1–2 Мб дискового пространства. В кластере из четырех узлов рекомендуется иметь 18 Мб [свободного] дискового пространства.

Автоматическое выполнение корректирующих действий во время верификации

HACMP 5.3 позволяет автоматически выполнять некоторые корректирующие действия во время верификации и синхронизации кластера. Активизация этой опции зависит от используемого пути верификации и синхронизации.

Функция автоматического выполнения корректирующих действий может исправлять только некоторые типы ошибок, обнаруживаемых во время верификации кластера. В следующем списке представлены ошибки, которые можно исправить с использованием этой функции.

  • Неактуальные отметки времени общей группы томов HACMP на узле.
  • Файл /etc/hosts на узле содержит не все IP-адреса, управляемые HACMP.
  • Группы томов SSA с одновременным доступом требуют использования уникальных номеров узлов SSA.
  • На узле не создана файловая система, хотя диски доступны.
  • Диски доступны, однако группа томов не была импортирована на узел.
  • На узле отсутствуют необходимые записи /etc/services.
  • На узле отсутствуют необходимые записи HACMP snmpd.

Путь верификации Initialization and Standard Configuration (Инициализация и стандартное конфигурирование)

При использовании пути верификации Initialization and Standard Configuration (Инициализация и стандартное конфигурирование) функция автоматического исправления ошибок всегда активна и не допускает отключения.

Примечание. Во время динамической реконфигурации автоматические корректирующие действия не выполняются.

Путь верификации Extended Configuration (Расширенное конфигурирование)

При использовании пути верификации Extended Configuration (Расширенное конфигурирование) возможность активизации функции автоматического исправления ошибок зависит от состояния кластера. Можно либо отключить эту функцию, либо запустить ее в одном из двух режимов:

  • Interactively (Интерактивный; опция меню Interactively) – верификация определяет исправимое состояние, связанное с импортом группы томов или экспортом и реимпортом точек подключения и файловых систем, и запрашивает подтверждения выполнения корректирующего действия, прежде чем продолжить верификацию;
  • Automatically (Автоматический; опция меню Yes) – верификация определяет, что имеет место одно из ошибочных состояний, перечисленных в разделе "Состояния, которые могут вызвать корректирующее действие", и инициирует корректирующее действие автоматически без запроса.

Если кластер неактивен, можно выбрать режим автоматического исправления ошибок непосредственно в меню пути верификации Extended Configuration (Расширенное конфигурирование), выполнив smit hacmp -> Extended Configuration (Расширенное конфигурирование) -> Extended Verification and Synchronization (Расширенная верификация и синхронизация), как показано на рис. 8.23. Изменение режима выполняется путем установки в поле Automatically correct errors found during verification (Автоматическое исправление ошибок, обнаруженных во время верификации) значений Yes, No или Interactively.

Если кластер активен, функция автоматического исправления ошибок включена по умолчанию. Можно изменить режим функции автоматического исправления ошибок в активном кластере непосредственно в меню SMIT кластера. Следует запустить smit hacmp > System Management (C-SPOC) > Manage HACMP Services (Управление службами HACMP) > Start Cluster Services (Запустить службы кластера) и выбрать одно из значений Yes, No или Interactive. Это установит режим автоматического исправления ошибок для следующих ситуаций:

  1. Для пути верификации Extended Configuration (Расширенное конфигурирование).
  2. Для автоматической верификации кластера при запуске служб кластера на узле или реинтеграции узла в кластер. Дополнительные сведения по этой теме см. в разделе "Автоматическая верификация кластера".
  3. Для периодически выполняемой автоматической верификации кластера. Дополнительные сведения по этой теме см. в разделе 8.6.5, "Автоматическая верификация кластера".

Путь верификации Problem Determination Tools (Инструменты определения проблем)

При использовании этого пути верификации активизация функции автоматического исправления ошибок невозможна.

Автоматическая верификация кластера

HACMP выполняет автоматическую верификацию в следующих случаях:

  • при каждом запуске служб кластера на узле;
  • при каждой реинтеграции узла в кластер;
  • каждые 24 ч.

Во время автоматической верификации и синхронизации HACMP выполняет обнаружение и исправление некоторых общих ошибок конфигурации. При таком автоматическом исправлении ошибок, если в кластере не была выполнена верификация и синхронизация вручную перед запуском служб кластера, HACMP выполнит это автоматически. Автоматическую верификацию и синхронизацию часто называют просто верификацией.

Через меню SMIT можно установить параметры периодического выполнения утилиты Automatic cluster verification checking1, выполнив smit hacmp > Problem Determination Tools (Инструменты определения проблем) > HACMP Verification (Верификация HACMP) > Automatic Cluster Configuration Monitoring (Автоматический мониторинг конфигурации кластера). Экран SMIT содержит следующие поля:

  • Automatic cluster configuration verification (Автоматическая верификация конфигурации кластера). Здесь можно включить или отключить утилиту, выбрав Disable или Enable.
  • Node name (Имя узла). Здесь можно выбрать узлы, на которых должна выполняться утилита. Можно выбрать либо опцию default, которая обозначает выбор всех узлов, либо определенный узел.
  • HOUR (00–23). Здесь определяется время запуска утилиты. По умолчанию установлено значение 00:00 (полночь), которое можно изменить на любое другое значение времени.
Automatic Cluster  Configuration Monitoringt (Автоматический мониторинг конфигурации кластера

Рис. 8.25. Automatic Cluster Configuration Monitoringt (Автоматический мониторинг конфигурации кластера

На рис. 8.25 показан экран Automatic Cluster Configuration Monitoring (Автоматический мониторинг конфигурации кластера).

smit clautover.dialog

Результат автоматической верификации кластера можно просмотреть в файлах журналов верификации. По умолчанию они находятся в каталоге /var/hacmp/clverify/. Дополнительные сведения о файлах журналов верификации см. в разделе "Файлы журналов верификации".

Мониторинг HACMP

HACMP обеспечивает высокую доступность среды приложений путем преднамеренного маскирования или устранения отказов аппаратного и программного обеспечения в среде высокой доступности. Маскирование отказов означает перемещение активных ресурсов с отказавшего компонента на резервный компонент. Таким образом, все приложения высокой доступности продолжают работать и клиенты осуществляют к ним доступ и используют их, несмотря на отказ.

В результате вы можете даже и не знать об отказе компонента кластера. Опасность такой ситуации заключается в том, что, хотя HACMP может продолжать работу после одного или даже нескольких отказов, каждый отказ, ускользающий от вашего внимания, неблагоприятно влияет на способность кластера обеспечивать среду высокой доступности, так как сокращается избыточность компонентов кластера.

Во избежание такой ситуации мы рекомендуем выполнять регулярные проверки и мониторинг кластера. Кроме того, HACMP содержит различные средства, помогающие осуществлять мониторинг кластера, в частности следующие:

  • Автоматическая верификация кластера.
  • Утилиты проверки состояния кластера.
  • Команды информации о группах ресурсов.
  • Команды информации о топологии.
  • Файлы журналов.
  • Уведомления об ошибках.
  • Мониторинг приложений.
  • Измерение доступности приложений.
  • Мониторинг кластеров с использованием инструментов системного администрирования и мониторинга на уровне предприятия (Tivoli, NetView®).

Для конфигурирования и управления кластером можно использовать либо ASCII SMIT, либо WebSMIT.

Утилиты проверки состояния кластера clstat

/usr/es/sbin/cluster/clstat – очень полезный инструмент, который можно использовать для мониторинга состояния кластера. Он применяет процедуры библиотеки clinfo для вывода различной информации о кластере, включая имя и состояние узлов, интерфейсов и групп ресурсов.

Эта утилита требует, чтобы подсистема clinfoES была активна на всех узлах, на которых инициируется команда clstat.

Утилита clstat имеет два режима работы: режим ASCII и режим X Window. Режим ASCII может выполняться на любом физическом или виртуальном ASCII-терминале, включая xterm или aixterm. Если узел кластера работает в графическом режиме, clstat выводит выходные данные в графическом окне. Перед выполнением команды необходимо убедиться в том, что переменная DISPLAY была экспортирована на Xсервер и что разрешен доступ X-клиентов.

Синтаксис команды clstat представлен на рис. 8.26.

Синтаксис команды clstat

Рис. 8.26. Синтаксис команды clstat

clstat -a //запускает программу в режиме ASCII.

clstat -o //запускает программу в режиме ASCII и выполняет выход (полезно для получения выходных данных из shell-скрипта или задания cron).

clstat -s //выводит включенные и отключенные сервисные метки; в противном случае выводит только активные сервисные метки.

clstat - HACMP Cluster Status Monitor
------------------------------------Cluster: migr1 (1120388255)
Wed Jul 6 14:13:15 CDT 2005
State: UP Nodes: 3
SubState: STABLE
Node: panther State: UP
Interface: panther1_base (0) Address: 10.10.31.36
State: UP
Interface: panther2_base (0) Address: 10.10.32.36
State: DOWN
Interface: tty1_patnh (1) Address: 0.0.0.0
State: UP
Interface: tty2_panth (2) Address: 0.0.0.0
State: UP
Interface: c1app1svc (0) Address: 192.168.100.86
State: UP
Resource Group: C10RG1 State: On line
Node: puma State: UP
Interface: puma1_base (0) Address: 10.10.31.35
State: UP
Interface: puma2_base (0) Address: 10.10.32.35
State: DOWN
Interface: tty1_puma (1) Address: 0.0.0.0
State: UP
Interface: tty_puma (3) Address: 0.0.0.0
State: UP
Interface: c1app2svc (0) Address: 192.168.100.85
State: UP
Resource Group: C10RG2 State: On line
Node: tiger State: UP
Interface: tiger1_base (0) Address: 10.10.31.34
State: UP
Interface: tiger2_base (0) Address: 10.10.32.34
State: DOWN
Interface: tty2_tiger (2) Address: 0.0.0.0
State: UP
Interface: tty_tiger (3) Address: 0.0.0.0
State: UP
Interface: c1app3svc (0) Address: 192.168.100.84
State: UP
Resource Group: C10RG3 State: On line
Пример 8.14. Выходные данные команды clstat -o

Пример 8.14 показывает выходные данные команды clstat -o на нашем тестовом кластере.

cldump

Еще одной полезной утилитой является утилита cldump (/usr/es/sbin/cluster/ utilities/cldump). Она создает снимки основных компонентов кластера: самого кластера, узлов в кластере, сетевых интерфейсов, подключенных к узлам, а также состояние групп ресурсов на каждом узле.

Утилита cldump не имеет каких-либо опций, так что нужно просто запустить cldump из командной строки.