Поставка, монтаж и первичное тестирование кластера
Определившись с архитектурой кластерной системы, нужно решить еще один, казалось бы, формальный и не столь существенный вопрос: кто будет выполнять поставку кластерной системы? Предвидим, что первая реакция может быть примерно такой: железо - оно и есть железо, если цена устраивает, то какая разница, что за фирма нам его привезет? Не все так просто. Кроме стоимости есть немало вопросов, которые нужно принимать в расчет. Каковы сроки поставки? Входит ли в стоимость контракта монтаж кластера, его тестирование и настройка? Над этим стоит задуматься, если нет собственного опыта работы с подобного рода оборудованием или уверенности в качественном выполнении всех перечисленных этапов своими силами. И над этим стоит особо серьезно задуматься, если будут использоваться нестандартные устройства или комбинации компонентов. В одном из проектов Московского университета поставщик после оплаты и отгрузки нам коробок с оборудованием свое общение с нами фактически прекратил. Все наши настойчивые указания на то, что в материнских платах есть явный дефект, не позволяющий получать больше 30% от заявленной скорости передачи данных по интерфейсу SCI, оставались без внимания. Поставщик полностью устранился от решения проблем. То, что в такой ситуации принципиально снижается эффективность решения задач, для чего и создавался кластер с дорогой высокопроизводительной сетью SCI, в расчет не принималось. Осознав бессмысленность общения с этими людьми, мы стали работать с фирмой-производителем данных плат напрямую, которая к ее чести признала обнаруженный нами дефект собственной ошибкой и за свой счет заменила неисправное оборудование. На поиски проблем, осознание несостоятельности возлагавшихся изначально на поставщика надежд и урегулирование всех вопросов потребовался примерно год. Естественно, что "услугами" того поставщика мы больше не пользовались, и всем советовали держаться от него подальше.
Влияет ли поставщик оборудования на качество решения прикладных задач? Как мы только что увидели, да, может повлиять самым непосредственным образом. Другая компания в недавнем проекте в конфигурацию кластера заложила интересную модель многовходового коммутатора InfiniBand: параметры превосходные, однако сильно смущало отсутствие практики ее использования. Решились, поскольку поставщик, будучи со своей стороны заинтересованным в освоении новой модели, взял решение потенциальных проблем на себя. Предчувствия не обманули, вопросы посыпались как из рога изобилия, но все они были решены на удивление быстро. Поставщик заранее установил необходимые контакты, быстро наладил линию общения с инженерами в режиме on-line, а затем для устранения найденной в оборудовании ошибки привез специалиста компании-производителя данного коммутатора на место установки кластерной системы. Все было сделано в кратчайшие сроки, никаких попыток переложить ответственность на кого-то еще не было. Выбор надежного партнера по поставке оборудования - это один из ключевых моментов, определяющих успех кластерного проекта в целом.
Других вопросов, о которых нужно также подумать при выборе поставщика, набирается немало. Входит ли в указанную стоимость гарантийное и сервисное обслуживание? Каковы сроки гарантийной замены вышедшего из строя оборудования? Выполняет ли поставщик настройку программного обеспечения или просто привозит ящики с аппаратурой? Компания может поставить только кластер или она в состоянии спроектировать весь вычислительный комплекс "под ключ", включая системы хранения данных, энергоснабжения, климатического контроля, мониторинга, выполнить интеграцию всего комплекса в инфраструктуру организации? Немаловажный вопрос - наличие у компании опыта выполнения подобных проектов и наличие в штате собственных квалифицированных инженеров. Не так сложно начать дело, гораздо сложнее постоянно поддерживать его выполнение на достойном уровне. С первичной настройкой поставщику смогут помочь сторонние специалисты, а кто поможет оперативно разобраться с нестандартными вопросами в последующие годы работы кластера? Хорошей проверкой основательности подхода к делу служит состав документации, которую поставщик дает вместе с кластерной системой: руководство оператора, администратора, пользователя, описание программно-аппаратной среды, параметров аппаратуры и настроек операционной системы, состав базового и специализированного программного обеспечения. Во всяком случае, при заключении контрактов и проведении конкурсных торгов ставьте это обязательным условием, тогда есть надежда получить, быть может, и не безупречный, но все же вариант документации.
А в целом, выстраивая общение с поставщиком, не забывайте время от времени задавать себе вопрос: "Что мне хочется больше: заниматься своими задачами или переквалифицироваться в системного программиста с инженерным уклоном?". Действуйте далее, исходя из честного ответа.
Если принято решение собирать кластерное оборудование в комплекс самостоятельно, то продумайте и заранее опишите четкий план работы и последовательность всех действий. Начните с более общих вопросов и постепенно детализируйте их до тех пор, пока не получите для себя предельно ясную картину. Чтобы не запутаться в процессе сборки и настройки, используйте составленную на предыдущем этапе схему кластера, дополняя ее по ходу работ новой информацией.
Чтобы не запутаться в проводке, а ее будет много, проведите предварительную маркировку кабелей (рис. 4.1). Обратите внимание, что это необходимо сделать перед (!) коммутацией узлов. Сами узлы также полезно промаркировать. Для маркировки кабелей можно использовать обычные маркеры либо пластиковые стяжки с площадками и наклейки.
Очень удобным может оказаться специальный маркировочный принтер (например, DYMO Letratag или аналогичный). Такой принтер печатает наклейки на самоклеящейся ленте и имеет размер чуть больше калькулятора. Полученные наклейки можно использовать как для маркировки кабелей (на площадках стяжек), так и для маркировки оборудования.
Большую помощь в креплении кабелей могут оказать пластиковые стяжки, не пренебрегайте ими (рис. 4.2). Это не только выглядит опрятно, но и намного удобнее в эксплуатации. Попробуйте разобраться с проблемами, которые возникли где-то в кабельном хозяйстве, показанном на рис. 4.3.
Установите и подключите источники бесперебойного питания. Как правило, подключение должен выполнять квалифицированный специалист. Обязательно тщательно изучите инструкцию по установке и подключению UPS. Ни в коем случае не подключайте UPS через сетевые фильтры ("пилоты" и т.п.), поскольку подобные фильтры крайне негативно влияют на работу источников. Не стоит включать UPS и в обычную бытовую сеть, так как частые перепады напряжения не прибавят им срока службы. Если инженерные возможности помещения позволяют, то оптимально включить их в специально выделенную компьютерную сеть через собственный автоматический выключатель.
После этого можно устанавливать вычислительные узлы и коммутаторы. Заранее продумайте, как будут проведены все кабели: питание, коммуникационная, транспортная и сервисная сети. Возможно, стоит заранее провести все или часть кабелей, а уже потом устанавливать узлы. Иногда некоторые проблемы при монтаже создают большие устройства, занимающие по 8-10 U и перекрывающие после своей установки доступ к некоторым гнездам, разъемам или же мешающие прокладке кабелей. Если такие устройства в конфигурации кластера есть, то их монтаж спланируйте особо тщательно, чтобы не пришлось подобные тяжести снимать и монтировать много раз.
После установки оборудования убедитесь, что источники бесперебойного питания находятся в рабочем состоянии. Подключите питание ко всем компонентам. Теперь можно провести пробный запуск оборудования. Проследите, все ли узлы стартовали нормально.
Специально проверьте, что источники бесперебойного питания выполняют свою роль и в состоянии обеспечить нормальное функционирование необходимого оборудования при исчезновении питания. Это и в самом деле важный шаг, который сделать нужно именно сейчас до перевода кластера в режим эксплуатации. Реальный случай. В представительстве крупной европейской компании все критически важное оборудование подключили через мощный UPS, желая подстраховаться на случай возможного отключения питания. Такой случай возник один раз за пять лет работы, причем первым отключился тот самый UPS...
Для многих монтаж и интеграция кластера из россыпи оборудования в стойки является вполне выполнимым делом. Главное - это правильно оценить свои силы и возможности. И целесообразность. Стоит ли изучать особенности сборки, если даже не понятно, когда еще понадобится полученный в результате всего этого опыт. Может быть стоит обратиться за помощью к профессионалам, которые знают про подводные камни, да и гарантию дадут? Над этим выбором имеет смысл подумать.
Чтобы дать некоторое представление о трудоемкости сборки узлов кластера в стойку, опишем пример из нашей практики. Рассмотрим сборку кластера, состоящего из 80 узлов размера 1 U, четырех стандартных стоек с UPS на 12 кВт в каждой стойке, коммутатора InfiniBand, коммутатора Ethernet. В каждый узел нужно было дополнительно вставить второй процессор и сетевую карту InfiniBand, поставляемые отдельно от узлов.