Сетевой журнал: галерея ИТ-проектов

“Белмонт груп”: отказоустойчивые кластеры на производстве

Поставив перед собой цель в перспективе ближайших двух лет в несколько раз увеличить объем производства и при этом расширить ассортимент выпускаемой продукции, руководство одного из российских заводов по производству упаковки для напитков и продуктов питания, запланировало модернизацию заводской производственной базы. При этом акцент был сделан на увеличение производственных мощностей. Одновременно с производственным парком следовало существенно модернизировать ИТ­инфраструктуру завода. дело заключалось в том, что после планируемой модернизации производства архитектура поддерживающего производственные процессы ИТ­решения переставала соответствовать новым, более высоким требованиям к надежности и к непрерывности процесса производства

Каждый отдельный технологический процесс на предприятии контролировался своим собственным сервером – одним из пяти. Вся пятерка серверов была собрана отечественным производителем на базе процессора Intel Pentium. Управлялись они специально разработанным под узкоспециализированные задачи производства заказчика программным обеспечением, работающим под управлением операционной системы MS Windows. Большая часть компонентов каждого из серверов была продублирована. Дублировались блоки питания. Для жестких дисков и оперативной памяти серверов была задействована технология Raid. Сетевые интерфейсы дублировались с применением технологии Load Balancing. Однако и при соблюдении таких условий необходимый уровень надежности все равно не обеспечивался, поскольку выход из строя системной платы или процессора любого из пяти серверов приводил к полной остановке сервера и, соответственно, к полной остановке того производственного процесса, который управлялся данным сервером. Это делало невозможным управление технологическими линиями, конвейерами и всеми другими элементами производственного оборудования. Используемое ИТ­решение также не защищало производственный комплекс от программных сбоев в операционной системе или в прикладном программном обеспечении. Последствия этого были столь же критичны, как и отказ любого из серверов.

Перед предприятием остро встала задача построения отказоустойчивой системы, которая бы обеспечила круглосуточное надежное управление производственным процессом. Выбор поставщика требуемого решения осуществлялся на тендерной основе. Конкурентами в состязании за заказ на выполнение проекта стали несколько московских системных интеграторов. Из них руководством заказчика была выбрана компания “Белмонт груп”, которая сумела предложить предприятию подходящее решение, оптимальное по соотношению “цена–качество”. Заказчика также устраивали предлагаемые будущим исполнителем проекта сроки реализации и условия гарантийного и постгарантийного технического обслуживания внедряемого решения.

Между заводом и компанией “Белмонт груп” был заключен контракт, предусматривающий материальную ответственность исполнителя проекта за несоблюдение сроков, а также за качество выполнения работ. Для определения соответствия качества результирующего решения тому уровню, который требовался заказчику, было запланировано итоговое тестирование функционирования комплекса в ситуациях, имитирующих выход из строя серверов и сбоев в работе программного обеспечения. Условия тестирования были согласны в техническом задании и утверждены в рамках договора.

Одним из наиболее подходящих вариантов для построения нового решения был выбор серверного оборудования с максимально возможным числом продублированных компонентов. Такие серверы относятся к высокопроизводительным комплексам на базе RISС­процессоров. Системы этого класса производятся компаниями Hewlett­Packard, IBM, Fujitsu­Siemens Computers, Sun Microsystems. Конструкция подобных серверов предусматривает возможность замены большинства компонентов (в том числе системных плат, процессоров и оперативной памяти) без остановки работы сервера. Но даже такое дорогостоящее оборудование не позволяет защитить всю систему от программных сбоев. Поэтому окончательный выбор был сделан в пользу кластерного решения, состоящего из двух серверов Hewlett­Packard Proliant DL 380 и Proliant DL 580, каждый из которых может содержать от двух до четырех процессоров Intel Xeon, оперативную память объемом 4–12 Гбайт, а также от четырех до шести жестких дисков. Внешняя дисковая система хранения данных Hewlett­Packard MSA 1000 в выбранном решении располагает двумя Raid­контроллерами и может поддерживать до сорока двух жестких дисков. Связь между серверами и системой хранения осуществляется через продублированные каналы по интерфейсу Fibre Channel. В качестве операционной системы для управления серверами была выбрана MS Windows 2003.
Одним из наиболее подходящих вариантов для построения нового решения был выбор серверного оборудования с максимально возможным числом продублированных компонентов. Конструкция подобных серверов предусматривает возможность замены большинства компонентов без остановки работы сервера. Но даже такое дорогостоящее оборудование не позволяет защитить всю систему от программных сбоев. Поэтому окончательный выбор был сделан в пользу кластерного решения

Причин того, что выбор был сделан в пользу оборудования Hewlett­Packard, несколько: одна из основных – соответствие данного оборудования требуемому заказчиком соотношению “цена–качество”. Наряду с этим, заказчика устраивала надежность этого оборудования и простота его эксплуатации, а также, что немаловажно, качественная сервисная и техническая поддержка, как со стороны интегратора, так непосредственно и производителя. Следует отметить, что компания “Белмонт груп” с 1998 года является официальным партнером корпорации Hewlett­Packard и имеет статус “HP Business Partner”. Условия партнерства и заработанный статус позволяют “Белмонт груп” предлагать своим заказчикам продукты и решения Hewlett­Packard на выгодных для них условиях.

Работа над проектом модернизации ИТ­системы поддержки производства началась с обследования бизнес­процессов заказчика. В ходе этого этапа были выяснены требования к надежности будущего ИТ­комплекса. Учтя нагрузки, приходящиеся на прежнее серверное оборудование, и рассчитав увеличение нагрузок на систему вследствие планируемого роста объемов производства, специалисты “Белмонт груп” определили требования к мощностям нового компьютерного оборудования. На основании проведенного анализа и расчетов также была сделана оценка стоимости материальной части проекта и программного обеспечения.

Отсутствие у заказчика практического опыта в построении кластерных систем вызывало у его специалистов сомнения в достаточной функциональности и работоспособности предложенного интегратором решения. Заказчик не был уверен, что новая система позволит в полной мере реализовать требуемую надежность и отказоустойчивость. Поэтому на начальном этапе перед внедренцами из компании “Белмонт груп” стояла задача объяснить специалистам компании­заказчика функциональные возможностями системы и убедить их в том, что с ее помощью возможно решить поставленные в рамках проекта перед производством предприятия задачи. Чтобы подтвердить техническую состоятельность предлагаемого решения, специалисты “Белмонт груп” смоделировали и продемонстрировали представителям заказчика на имеющемся в его распоряжении демонстрационном оборудовании работу кластера, а так же функциональные преимущества предполагаемого оборудования.

На следующем этапе проекта была разработана и предложена на совместное с заказчиком обсуждение концепция архитектуры отказоустойчивого решения, предназначенного для управления производственным циклом завода. И концепция архитектуры системы, и выбор конкретного серверного оборудования базировались на данных, полученных в ходе обследования, проведенного на первом этапе проекта.

Суть третьего этапа проекта состояла в непосредственном внедрении решения: фактической установке оборудования, его подключении, обновлении версий программных микрокодов, создании Raid­массивов на дисковой системе хранения данных и предоставлении доступа к ним с серверов.

На заключительном этапе внедрения интегратор сосредоточился на настройке операционных систем и прикладного ПО, обеспечивающих работу двух серверов в кластере, а так же на создании общей кластерно­файловой системы. Завершили проект комплексные испытания с имитацией выхода из строя серверов и программных сбоев.

При реализации интеграционных проектов опытный интегратор всегда отталкивается в первую очередь от первостепенных конкретных потребностей заказчика, от тех бизнес­задач, которые критичны для заказчика. Однако это не исключает использования в процессе внедрения индустриальных стандартов ведения проектов, строгое соблюдение которых способствует экономии проектных ресурсов. В своей проектной практике специалисты “Белмонт груп” в большинстве случаев руководствуются стандартами управления проектами PMI (Project Management Institute), которые, по их отзывам, наиболее распространены в России. Следование стандартам, в свою очередь, не исключает учета конкретных условий разных проектов. Например, в рассматриваемом случае можно было бы сначала развернуть один сервер и систему хранения данных, а потом уже, добавив второй, построить из двух серверов единый кластер. Однако, по мнению интегратора, в условиях данного проекта предпочтительным был другой вариант. Было решено развернуть кластер за один этап, поскольку основным требованием заказчика была высокая отказоустойчивость работающего комплекса, а не минимальные сроки его запуска в эксплуатацию (что возможно оказалось бы актуально в какой­нибудь иной ситуации).

Рисунок 1. Схема отказоустойчивого кластерного решения в управлении производством


Каждый из серверов был подключен с помощью двух адаптеров соответственно к двум коммутаторам Fibre Channel. Такая схема подключения позволяет обеспечить непрерывность работы в случае отказа одного адаптера Fibre Channel или коммутатора, либо выхода из строя одного из двух кабелей подключения. Между собой серверы соединены кроссоверным пач­кабелем (patch­cord), который поддерживает межсерверное соединение (heartbeat) и благодаря которому в случае отсутствия отклика от основного сервера в работу включается резервный. В системе хранения данных также применено дублирование: в нее были включены два Raid контроллера, каждый из которых с одной стороны подключается к коммутатору Fibre Channel, а с другой – к каждому из дисков системы хранения.

Архитектура построения кластеров в принципе стандартна, и поэтому предлагается различными вендорами как единый комплекс, включающий серверы, системы хранения данных, программное обеспечение, набор всех необходимых соединительных кабелей, инструкции по настройке и эксплуатации. Основная задача интегратора, реализующего проект, заключается в выборе такой конфигурации оборудования, которая в полной мере отвечала бы задачам заказчика. В данном проекте интегратор столкнулся с задачи адаптации установленного у заказчика программного обеспечения, от которого в модернизированной системе требовалась поддержка функционирования кластера. Интегратору пришлось прибегнуть к программированию и написать несколько дополнительных скриптов и сервисов для запуска, мониторинга и остановки работы системы.

Проблемы, которые побудили заказчика начать описанный проект, представляются весьма типичными для любой развивающейся компании. Предложенное “Белмонт груп” решение, которое помогло эти проблемы преодолеть, опирается на стандартную ИТ­схему. Поэтому график работ, выполненных интегратором в этом проекте, поможет компаниям, которым пришла пора решать аналогичные задачи, оценить предстоящие временные затраты. Ниже приведены перечень и продолжительность основных этапов реализации проекта:

  • предпроектное обследование заказчика – 2 недели;
  • развертывание и создание макета, демонстрация функционирования системы – 4 недели;
  • поставка оборудования – 6 недель;
  • инсталляционные работы аппаратной части – 1 неделя;
  • настройка функционирования кластера – 2 недели;
  • демонстрация и тестирование функционирования кластерного комплекса – 1 неделя.
    После завершения внедрения и запуска системы специалисты “Белмонт груп” продолжают консультировать сотрудников заказчика по вопросам, возникающим в связи с ее эксплуатацией. При необходимости по запросу заказчика интегратор готов провести для него дополнительные технические работы, связанные, например, с установкой и настройкой дополнительного программного обеспечения, предназначенного для функционирования на кластере, увеличения объема дискового массива, миграция данных.

    Предложенная “Белмонт груп” концепция построения отказоустойчивого комплекса и ее реализация позволили создать для заказчика систему управления производством, полностью соответствующую выдвинутым им требованиям по надежности. Интегратору удалось добиться бесперебойной работы развернутого серверного оборудования и снизить максимальное время простоя с нескольких часов в год до требуемого одного часа в год. Стоимость системы и ее работ по ее внедрению обошлись заказчику примерно в 160 тыс. долл.

    Как уже было отмечено, основная задача внедренного решения заключалась в обеспечении надежности и бесперебойности работы производственных мощностей при нарастающих нагрузках, связанных с увеличением объемов производства предприятия­закзчика. По оценкам специалистов “Белмонт груп” и заказчика, построенная на кластерной архитектуре система будет отвечать потребностям бизнеса последнего как минимум на протяжении ближайших двух лет. В дальнейшем ее наращивание не должно вызывать затруднений благодаря заложенной в ней масштабируемости.

  • сетевой форум
    поиск
    подписка на журнал
    о сетевом