Компания IBM
Опубликован: 01.02.2008 | Доступ: свободный | Студентов: 616 / 22 | Оценка: 4.60 / 4.40 | Длительность: 43:55:00
Специальности: Разработчик аппаратуры
Лекция 1:

Введение в HACMP

Лекция 1: 123456 || Лекция 2 >
Аннотация: Эта лекция представляет собой введение в концепцию высокой доступности и, в частности, содержит описание IBM HACMP: что такое HACMP (High Availability Cluster Multi-Processing), решения по обеспечению доступности, история и эволюция, терминология и понятия высокой, доступностиТермин "high availability" переводят как "высокая надежность" или "высокая доступность". В данной публикации мы используем, как более точный на наш взгляд, перевод "высокая доступность", так как основной целью HA-решения является именно обеспечение доступности приложений (сервисов) конечным пользователям. Примеч. науч. ред. , высокая доступность и отказоустойчивость (fault tolerance), планирование установки программного обеспечения, аспекты установки HACMP.

Что такое HACMP

HACMP является сокращением от "High Availability Cluster Multi-Processing". Главными составляющими здесь являются высокая доступность и мультиобработка в кластерной (многоузловой) среде.

Высокая доступность

В современных сложных средах обеспечение непрерывности работы приложений является основным компонентом эффективной реализации IT-системы. Высокая доступность – одна из составляющих, способствующих обеспечению непрерывности обслуживания клиентов приложения путем маскирования (скрытия) или устранения как запланированных, так и незапланированных простоев (остановок) в работе систем и приложений. Это достигается путем устранения единых точек отказа (Single Point Of Failure, SPOF1Здесь и далее мы будем упоминать в скобках оригинальные названия терминов (на английском языке), чтобы читателю было проще соотнести термины, используемые в этом руководстве, с теми терминами, которые он встретит в англоязычной документации и при непосредственной работе с HACMP. ) в аппаратном и программном обеспечении. Решение высокой доступности гарантирует, что отказ любого компонента решения (аппаратного обеспечения, программного обеспечения или управления системой) не вызовет длительной недоступности приложения и его данных для конечного пользователя.

Решения высокой доступности должны устранять единые точки отказа посредством соответствующего проектирования, планирования, выбора оборудования, конфигурирования программного обеспечения, управления приложениями, тщательного управления средой и дисциплин управления изменениями.

Вкратце высокую доступность можно определить как процесс обеспечения доступности приложения для использования посредством дублирования и/или реализации общего доступа к аппаратным ресурсам, управляемым специализированным программным компонентом.

Кластерная мультиобработка

Помимо высокой доступности, HACMP также содержит компонент, обеспечивающий мультиобработку. В основе функции мультиобработки лежит тот факт, что кластер содержит множество аппаратных и программных ресурсов, управляемых HACMP и обеспечивающих сложную функциональность приложений и более эффективное использование ресурсов.

Краткое определение кластерной мультиобработки может иметь такой вид: множество приложений, выполняющихся на нескольких узлах с общим или одновременным доступом к данным.

Хотя компонент кластерной мультиобработки и является желательным, эффективное использование им всех доступных в многоузловой (кластерной) среде ресурсов зависит от возможностей приложения и реализации системы. Их реализация должна начинаться на этапе планирования и проектирования кластеров.

HACMP – всего лишь одна из технологий высокой доступности, построенная на все более надежных операционных системах, более надежном оборудовании с возможностью выполнения "горячей замены", все более устойчивых приложениях и предлагающая функции мониторинга и автоматического реагирования.

Решение высокой доступности на основе HACMP обеспечивает автоматическое обнаружение сбоев, диагностику, восстановление приложений и реинтеграцию узлов. При использовании соответствующего приложения HACMP также может обеспечивать одновременный доступ к данным для приложений параллельной обработки, предлагая таким образом отличную горизонтальную и вертикальную масштабируемость (с добавлением возможностей управления динамическим LPAR).

IBM также разработала расширенную версию HACMP, содержащую функции аварийного восстановления, интегрированные в решение под названием HACMP Extended Distance (HACMP/XD), которое поддерживает функциональность HACMP между двумя географически распределенными сайтами. HACMP/XD поддерживает множество различных методов репликации данных и подробно обсуждается в "Концепции и планирование HACMP Extended Distance" , "Понятия и планирование HACMP Extended Distance".

Решения по обеспечению доступности: обзор

Существует множество решений, обеспечивающих широкий диапазон опций доступности. В таблице 1.1 описаны различные типы решений обеспечения доступности и их характеристики.

Таблица 1.1. Типы решений обеспечения доступности
Решение Время простоя (отключения) Доступность данных Стоимость
Автономное (Standalone) Дни С последней резервной копии Базовые затраты на аппаратное и программное обеспечение ($)
Улучшенное автономное (Enhanced standalone) Часы До последней транзакции Двойные затраты на аппаратное обеспечение ($$)
Кластеры высокой доступности (High availability clusters) Минуты До последней транзакции Двойные затраты на аппаратное обеспечение и дополнительное обслуживание ($$+)
Отказоустойчивые вычислительные системы (fault-tolerant computing) Никогда не отключаются Без потери данных Специализированное аппаратное и программное обеспечение, очень дорогостоящее ($$$$$$)
HACMP/XD Минуты До последней транзакции Двойная или тройная стоимость аппаратного обеспечения + дополнительные затраты на связь ($$$$)

Решения по обеспечению высокой доступности в целом предлагают следующие преимущества:

  • стандартные аппаратные и сетевые компоненты (могут использоваться с существующим оборудованием);
  • работают практически со всеми приложениями (зависит только от умения того, кто осуществляет внедрение);
  • работают с широким диапазоном типов дисков и сетей;
  • отличная доступность при приемлемой стоимости.

Решение высокой доступности от компании IBM для IBM eserver® pSeries предлагает различные преимущества, включая следующие:

  • решение является проверенным (результат более чем 15 лет разработки);
  • гибкость (практически любое приложение, выполняющееся на автономной системе AIX, может быть защищено с использованием HACMP);
  • использование доступных аппаратных компонентов (pSeries);
  • проверенное качество поддержки наших клиентов.

При планировании внедрения решения HACMP следует учитывать следующие аспекты:

  • тщательное проектирование и подробное планирование;
  • устранение единых точек отказа;
  • выбор соответствующего оборудования;
  • надлежащее внедрение (без использования упрощенных подходов);
  • упорядоченные методы системного администрирования и управление изменениями;
  • документированные процедуры эксплуатации;
  • всесторонний тестовый план и тщательное тестирование. Пример среды HACMP представлен на рис. 1.1
Кластер HACMP

увеличить изображение
Рис. 1.1. Кластер HACMP

Время отключения (простоя)

Время отключения (простоя) означает период, когда приложение недоступно для обслуживания своих клиентов. Можно разделить отключения на две категории:

  • запланированные:
    • замена оборудования;
    • обслуживание;
    • обновление программного обеспечения;
    • резервное копирование (автономное резервное копирование);
    • тестирование (периодическое тестирование необходимо для проверки кластеров);
    • разработка;
  • незапланированные:
    • ошибки администратора;
    • отказы приложений;
    • отказы оборудования;
    • ошибки операционной системы;
    • стихийные бедствия.

Таким образом, роль HACMP состоит в том, чтобы обеспечивать доступность приложения как при незапланированных отказах, так и при выполнении обычных повседневных административных задач. HACMP обеспечивает мониторинг и автоматическое восстановление ресурсов, от которых зависит приложение.

Единая точка отказа

Единой точкой отказа (single point of failure, SPOF) является любой отдельно взятый компонент в составе кластера, который в случае сбоя делает приложение недоступным для конечных пользователей.

Хорошее проектирование позволяет устранить единые точки отказа (узлы, устройства хранения, сети) в кластере. HACMP осуществляет управление этими компонентами, а также управление ресурсами, необходимыми для приложения (включая скрипты запуска-перезапуска приложений).

В конечном счете цель любого информационного решения в критической среде состоит в том, чтобы обеспечить непрерывную доступность приложения и защиту данных. Высокая доступность – только один из элементов в обеспечении непрерывной работы. В основе высокой доступности лежит доступность оборудования, программного обеспечения (операционной системы и ее компонентов), приложения и сетевых компонентов.

Во избежание возникновения единых точек отказа необходимы:

  • избыточные (резервные) серверы;
  • избыточные сетевые пути;
  • избыточные пути хранения (данных);
  • избыточное хранение (зеркальное отображение/RAID);
  • мониторинг;
  • обнаружение и диагностика отказов;
  • автоматическое перемещение (failover) приложения при сбое;
  • автоматическая реинтеграция ресурсов.

Как говорилось выше, хорошее проектирование позволяет устранить единые точки отказа, и HACMP осуществляет управление доступностью приложения во время отключений. В табл. 1.2 перечислены все объекты кластеров, сбой которых может вызвать недоступность приложения. Каждый объект кластера может представлять собой физический или логический компонент.

Таблица 1.2. Единая точка отказа
Объекты кластера Способ устранения единой точки отказа
Узел (серверы) Использование нескольких узлов
Электропитание Использование нескольких цепей или источников питания и/или ИБП
Сетевой адаптер Избыточность сетевых адаптеров
Сеть Несколько сетей, подключенных ко всем узлам, избыточные сетевые пути с независимым оборудованием между каждым узлом и клиентами
Подсистема TCP/IP Использование сетей "точка-точка" для подключения каждого узла к соседнему узлу в кольце
Адаптер ввода-вывода Избыточность адаптеров ввода-вывода
Контроллеры Избыточность контроллеров
Хранение Избыточность оборудования, дисковые стойки, зеркальное отображение/технология RAID, избыточность путей данных
Приложение Конфигурирование мониторинга приложения и резервных узлов для "подхвата" приложения и его данных
Сайты Использование более одного сайта для аварийного восстановления
Группы ресурсов Использование групп ресурсов для управления всеми ресурсами, требуемыми приложению

HACMP также обеспечивает оптимизацию доступности, допуская динамическое реконфигурирование работающих кластеров. Задачи обслуживания, такие, как добавление или удаление узлов, можно выполнять без остановки и перезапуска кластера.

Кроме того, на работающем кластере можно выполнять другие задачи управления, такие, как изменение конфигурации системы хранения, управление пользователями с применением eдиной точки управления кластером (Cluster Single Point of Control, C-SPOC), не прерывая доступ пользователя к приложению, выполняющемуся на узлах кластера (cluster nodes). C-SPOC также обеспечивает репликацию изменений, выполненных на одном узле, по всему кластеру последовательным образом.

Лекция 1: 123456 || Лекция 2 >