Содержание
- 1 Краткая информация о клиенте и начало сотрудничества
- 2 Переезд в другой ЦОД или построение ИТ-инфраструктуры с высокой отказоустойчивостью – что выбрать?
- 3 Проект построения инфраструктуры с распределением на 3 дата-центра для повышения отказоустойчивости
- 4 Как происходила реализация проекта по созданию ИТ-инфраструктуры с высокой степенью отказоустойчивости
- 5 Сложности, с которыми мы столкнулись в проекте
- 6 Результаты и профиты для клиента
- 7 Продолжение сотрудничества после реализации проекта по созданию ИТ-инфраструктуры с высокой отказоустойчивостью
- 8 Резюме
За время сотрудничества с нефтегазовой компанией (далее – клиент) нам пришлось решать много разных задач, в числе которых была и настройка серверов, и переезд в новый ЦОД, и работа над отказоустойчивостью ИТ-инфраструктуры, и создание DDoS-защиты. В этом материале – о реализации самого крупного проекта в рамках наших партнерских отношений, об уникальной схеме ИТ-системы, преодолении сложностей, причинах выбора такого решения и результатах.
Краткая информация о клиенте и начало сотрудничества
Основное направление – нефтегазовая отрасль. Бизнес начинался с нескольких АЗС. За 20+ лет на рынке небольшая компания выросла в крупный холдинг, в состав которого, помимо сети автозаправочных станций и комплексов, расположенных по всей Европе, входят рестораны, кафе, магазины, лаборатории контроля качества топлива. Активно участвует в благотворительных и социальных проектах (инициативах), уделяет внимание экологии, вкладывают средства в построение экосистем, заботится о людях с ограниченными возможностями здоровья (ОВЗ).
Изначально клиент размещал ИТ-инфраструктуру в одном из дата-центров (ДЦ) Франкфурта-на-Майне. В дата-центре стояло 2 стойки, в которых располагалось оборудование EMC (Dell), Cisco, а также серверы HP (в дальнейшем полностью перешли на HP). Пока компания была небольшой, ресурсов вполне хватало для поддержания нормального функционирования бизнеса. Однако структуру необходимо было обслуживать. А так как головной офис предприятия и все департаменты, включая IT, находятся в другой стране, клиент нуждался в доверенном исполнителе, который мог бы качественно и оперативно решать текущие проблемы на месте, во Франкфурте. Именно таким исполнителем стала наша компания.
Началось сотрудничество с небольших поручений. Нас привлекали как «удаленные руки», заказывая различные работы, связанные с работоспособностью «железа» и сетей в дата-центре, где располагалась клиентская ИТ-инфраструктура: что-то подключить, переключить, создать новое соединение, выполнить какие-то другие точечные манипуляции. На первых порах инженеры компании приезжали лично, чтобы познакомиться с нами и посмотреть на нашу техническую команду в деле.
Мы хорошо сработались, клиент убедился в качестве наших услуг и стал обращаться к нам все чаще и чаще, поручая все более ответственные задания. И когда через несколько лет сотрудничества, в 2016 году, потребовалось перевести стойки внутри ЦОД, для осуществления переезда сразу пригласили наших специалистов.
Переезд внутри ЦОД: работы и команда
Rack-сервер EMC был крупным и нестандартным, поэтому в remote hands уже вошел серьезный объем работ:
- перенос шкафов на новое место;
- разборка, упаковка, вывоз и отправка старого оборудования в офис компании (для транспортировки мы заказывали услуги перевозчика);
- помощь в установке новых машин и коммутации сетевых соединений.
Как правило, на стандартных заявках у нас работает 2 специалиста – этого достаточно для выполнения типовых операций. Места у стойки мало, и нет смысла привлекать большее количество людей – они просто будут друг другу мешать. Однако в масштабных работах, таких как переезд в ЦОД, когда необходимо подключать серверы или вывозить «железо», участвует как минимум 3 человека.
Переезд в другой ЦОД или построение ИТ-инфраструктуры с высокой отказоустойчивостью – что выбрать?
Несмотря на то что в целом система работала надежно, точечное расположение оборудования в одном ЦОД создавало уязвимость. Если произойдет сбой из-за аварии или стихийного бедствия, это скажется на работе ЦОД, приведет к простою всей системы и значительным потерям, включая ущерб для репутации.
Компания бурно развивалась, появились новые направления деятельности, вскоре ограниченность ИТ-ресурсов стала насущной проблемой. АЗС работают круглосуточно, прием оплаты и другие трансакции осуществляются в режиме 24/7. Согласно бизнес-концепции холдинга все сотрудники в любой точке мира должны иметь постоянный доступ к корпоративным информационным ресурсам. Соответственно, критическая точка бизнеса – безопасность и любые нарушения в работе ИТ-инфраструктуры, которые напрямую влияют на имидж и доходы предприятия.
Кроме того, несколько лет назад был взят курс на полную цифровизацию бизнес-процессов. Появилась необходимость в создании надежной, устойчивой к сбоям системы, защищенной от аварий и кибернападений. Перед ИТ-отделом и департаментом, отвечающим за безопасность, была поставлена цель: максимально повысить отказоустойчивость инфраструктуры, при необходимости – организовать переезд в другой ЦОД.
Зачем строить распределенную инфраструктуру
Как показывает практика, даже у самых надежных ДЦ, показывающих SLA 99,99%, бывают непредвиденные ситуации с потерей связи, перебоями в подаче электричества и т. д. При этом даже короткий перерыв в работе вызывает длительный простой клиентской структуры, поскольку ей нужно время на полное восстановление: подняться, проверить базы данных (пройти чек баз данных), запуститься. В результате 10-минутная недоступность, которую показывает ЦОД, у клиента выливается в 3-4 часа. Иногда на запуск уходит и полдня, и даже целый день – если, например, нужно приглашать специалиста по конкретному оборудованию.
Для увеличения отказоустойчивости предприятия, которые стабильно стоят на ногах, имеют необходимые средства, обычно стараются распределить ИТ-инфраструктуру на несколько дата-центров, находящихся в разных локациях.
Распределенная структура в первую очередь минимизирует риски. В частности, при проблемах с электричеством в одном ДЦ, можно поднять ее в другом и продолжить работу в обычном режиме. Или, если потребуется, – развернуть сервисы и данные из бэкапа, хранящегося отдельно, в третьем ДЦ. Повлиять на стабильность системы, которая физически разнесена по разным дата-центрам, практически невозможно.
Некоторые компании при возникновении перебоев с доступностью выбирают переезд в другой ЦОД, но распределение оборудования решает проблему надежности гораздо эффективнее. Не случайно стратегию с «плавающими» ресурсами применяют известные клауд-провайдеры и крупномасштабные международные холдинги, предъявляющие повышенные требования к отказоустойчивости ИТ-инфраструктуры. Наш клиент тоже остановился на этой стратегии.
Проект построения инфраструктуры с распределением на 3 дата-центра для повышения отказоустойчивости
В процессе анализа вариантов принимается решение выстраивать ее по принципу треугольника с использованием трех дата-центров (один действующий и два дополнительных). ДЦ должны быть объединены между собой физическими оптическими линиями.
Разработкой проекта ИТ-инфраструктуры занимались специалисты компании. Нас попросили помочь организовать размещение оборудования (сервис колокейшн) в двух дополнительных ДЦ, в которых мы имеем ресурсы.
Когда был готов предварительный вариант внедрения, технические специалисты, отвечающие за проект, лично приезжали во Франкфурт, чтобы обсудить нюансы. Кроме того, к нам обращались за консультациями по способам связки дата-центров, выбору резервных линий, ряду других вопросов.
Также мы предоставляли расчет оборудования по предоставленному списку. Но из-за внутренней специфики для компании оказалось выгоднее самостоятельно закупить оборудование в своей стране и затем отправить его на адрес нашего ЦОД во Франкфурте. Сыграла роль финансовая сторона вопроса, хотя с точки зрения логистики это было неудобно: оборудование дорогостоящее – пришлось выстраивать сложную логистическую цепочку, выбирать надежных перевозчиков.
Почему было принято решение строить распределенную ИТ-структуру во Франкфурте
По мнению клиента, просто переезд в другой ЦОД с целью повышения отказоустойчивости ИТ-инфраструктуры не имел смысла. А вот распределение ресурсов на три ДЦ во Франкфурте он считал целесообразным с точки зрения надежности и сервиса по нескольким причинам:
- Франкфурт-на-Майне является одним из крупнейших городов Европы по количеству ЦОД и центральным телекоммуникационным узлом – здесь сосредоточены практически все операторы и интернет-провайдеры, поэтому обеспечивается наибольшая сетевая устойчивость;
- вся IT-инфраструктура будет обслуживаться в одном месте.
Как происходила реализация проекта по созданию ИТ-инфраструктуры с высокой степенью отказоустойчивости
Переезд, распределение ресурсов на разные ЦОД: организационные моменты
По нашим стандартам мы всегда предварительно перед началом любого проекта проводим личные, если это возможно, или онлайн-встречи с клиентами. Используем для этого мессенджеры: Telegram, WhatsApp или Skype. Также создаем группу, добавляем туда всех участников проекта. И в дальнейшем при возникновении каких-то вопросов решаем их в интерактивном режиме.
В данном кейсе мы не отступали от регламента – сначала в общих чертах обсудили проект по конференц-связи, выяснили нюансы и пожелания. Затем запросили технические документы. Инженеры компании подготовили и предоставили нам диаграмму построения сети, таблицу коммуникации, схемы размещения и подключения оборудования. Когда документация была изучена специалистами нашей фирмы, составлен план реализации и расписаны операции на каждом этапе, оставалось только согласовать дату и время проведения работ.
В чате информировали клиента о завершении каждого этапа, чтобы он со своей стороны мог проверить соединение, увидеть доступность узлов и т. д. После подтверждения мы переходили на следующий этап. Если техническим специалистам компании требовалось дополнительное время на тестирование или какие-то доработки, они сообщали нам об этом в том же чате.
Работы, выполненные нами в рамках создания распределенной инфраструктуры
Инженеры клиента подготовили и передали нам схемы установки/подключения необходимого оборудования в двух ЦОД, в которых мы имеем ресурсы. Также нас попросили организовать линии для соединения первого дата-центра с новыми двумя. Наши инженеры провели все работы по размещению и подключению оборудования: от распаковки до запуска.
Таким образом, по сути мы должны были реализовать проект под ключ, выполнив комплекс работ по трем направлениям: логистика, запуск структуры, административные вопросы.
Круг задач:
- Обеспечить доставку. Оборудование отправляется к нам, затем мы организуем его переезд в тот ЦОД, где планируется установка и подключение. Соответственно, приемка у перевозчика, транспортировка к месту установки, распаковка, при необходимости переупаковка – все это легло на нас.
- Подготовить оборудование, то есть провести инвентаризацию, установить в стойку, соединить, подключить, настроить, запустить, протестировать. Кроме того, мы должны синхронизировать между собой все три ДЦ с помощью оптических линий, а в конце – подключить удаленное управление.
- Выполнять административные функции – искать подрядчиков, договариваться, согласовывать мероприятия, координировать, контролировать и т. д.
С нашей стороны в реализации проекта принимали участие координатор и три инженера. Со стороны заказчика – четыре человека (по специалисту от каждого IT-департамента и технический директор).
Стоит также добавить, что наша фирма является партнером HP, Dell, Cisco, Juniper и Huawei, и клиент постоянно заказывает через нас поддержку оборудования, изготовленного этими производителями. Здесь мы также приглашали специалиста от вендора.
Сложности, с которыми мы столкнулись в проекте
У нас уже был опыт переезда и распределения клиентских ИТ-инфраструктур на разные ЦОД (один из примеров мы описывали в кейсе про гемблинговый бизнес. Поэтому поставленная клиентом задача не являлась технически сложной. Тем не менее проект имел свою специфику, которую важно было учитывать при реализации. Главная особенность заключалась в том, что было решено сосредоточиться на трех ДЦ именно во Франкфурте. Это уникальный случай, поскольку обычно выбирают один-два ЦОД недалеко друг от друга, но в разных локациях.
Незначительные сложности были при запуске линий. Когда заказывается линия, дата-центр просто сообщает о ее готовности: вывели в рэк, предоставили порт, можно соединять кабелем. Выдав линию, ДЦ считает, что она по умолчанию в рабочем состоянии. Однако иногда оказывается, что она не работает. Вариантов, на каком участке ошибка, много: внутри Meet-me room, где оптические кабели физически соединяются друг с другом, на пути в кейдж, в месте подключения к Rack-серверу.
По регламенту ЦОД техники должны проводить проверку и восстанавливать линию. И они это делают, но не всегда успешно. Как правило, вмешивается человеческий фактор: что-то техник «недовоткнул», где-то не заметил разрыва и т. д. В итоге – большие затухания, отсутствует электричество, связь не устанавливается. Подобные ситуации после переезда в другой ЦОД происходят довольно часто, и многие новые арендаторы просто не знают, что делать в таких случаях. Нередко даже идут на лишние траты и заказывают еще одну линию, чтобы не разбираться с поставщиком услуг, надеясь, что вторую сделают правильно.
В этом проекте мы тоже столкнулись с такой проблемой: после проверки линия не включилась. Клиенту решать такие вопросы очень неудобно и тяжело. Во-первых, потому, что находится далеко, во-вторых, возникают трудности из-за языкового барьера, ведь ошибку нужно подробно описать на чужом языке. Чтобы он этим не занимался, пришлось нам связываться с техниками и координировать два ЦОД. Мы параллельно открывали тикеты в обоих и искали ошибку, а когда нашли и устранили, еще раз все перепроверили. В итоге проблема была решена, и линия связала все дата-центры.
Основная сложность, с которой сталкиваются при запуске проектов, связанных с переездом и объединением ЦОД, – проблемы на этапе первичной настройки. Случается, мы собрали стойку по схеме, выданной клиентом, все соединили и настроили, а у него что-то не запускается. В таких ситуациях мы даем консольный доступ с нашего оборудования и отслеживаем сигналы с двух сторон. А технические специалисты заказчика через консоль-доступ получают возможность конфигурировать оборудование у себя.
Результаты и профиты для клиента
В итоге проведенных нами работ клиент получил распределенную на три дата-центра ИТ-инфраструктуру с достаточной для бизнеса степенью отказоустойчивости. К ЦОД, которым предприятие пользовалось изначально, подключили два новых:
- наш ДЦ – используется как один из основных узлов;
- резервный ДЦ – предназначен по большей части для бэкапов.
Все три располагаются во Франкфурте.
Клиент остался очень доволен результатами переезда части ресурсов в дополнительные ЦОД и возможностью сэкономить. Дело в том, что организация ИТ-инфраструктуры (особенно когда речь идет о повышении отказоустойчивости) – процесс трудоемкий и длительный. За один-два дня выполнить все мероприятия невозможно, и вот почему.
- Нужно получить оборудование в дата-центре, распаковать, установить к определенному времени – долго оно в ДЦ храниться не может. Затем все соединить, подключить, настроить. Только эти процедуры могут занять больше двух-трех недель.
- Необходимо наладить коммуникацию со всеми участниками и скоординировать этапы работ, потому что они производятся в разное время. Найти надежных поставщиков услуг, согласовать с ними операции. Договориться с ДЦ, чтобы были подключены каналы связи, проведено электричество к стойке. Если требуется специалист от вендора, с ним тоже нужно договариваться о встрече и присутствовать на месте, когда он приедет.
Чтобы в срок и качественно реализовать проект переезда в новые ЦОД и формирования распределенной информационной структуры, помимо решения технических задач, необходимо постоянно вести коммуникацию и согласовывать действия участников. Соответственно, если компания, находящаяся в другой стране, будет заниматься созданием ИТ-инфраструктуры, да еще и в трех дата-центрах, ей придется направить в командировку целую команду из 3-4 специалистов как минимум на месяц. Оплачивать жилье, питание, платить командировочные, нести другие сопутствующие расходы. Мы выполнили полный комплекс работ удаленно, что избавило клиента от дополнительных затрат, помогло сэкономить не только деньги, но и время.
Важным аспектом проекта были сроки запуска ИТ-инфраструктуры. Грамотное планирование этапов реализации техническими специалистами нашей фирмы позволило выполнить все работы в течение одного месяца.
Продолжение сотрудничества после реализации проекта по созданию ИТ-инфраструктуры с высокой отказоустойчивостью
Поскольку у нас сложились доверительные партнерские отношения, после переезда в наш ЦОД клиент поручает нам не только обслуживание ИТ-инфраструктуры, но и другие ответственные операции. В частности, когда производилась замена серверного оборудования на HP, мы занимались его подключением. По контракту с производителем первоначальную настройку и инициализацию системы должен выполнять представитель вендора, потому что процедура включения СХД имеет свои особенности. Мы общались с производителем, приглашали специалиста, принимали участие в подготовке, а инженерам холдинга передавали уже установленное и полностью готовое к работе оборудование.
Удаленные работы
Надо сказать, что после реализации проекта по повышению отказоустойчивости ИТ-инфраструктуры клиент возложил на нашу фирму практически все вопросы, связанные с удаленными работами во всех точках присутствия во Франкфурте: технические, логистические, организационные.
Мы выступаем контактным лицом компании, а также на постоянной основе занимаемся приемкой и установкой серверов, модулей, сетей, обновлением системы. Демонтаж и отправка старого «железа» в офис компании – тоже наша задача.
Все новое оборудование, включая уникальное и дорогостоящее, высылают на адрес нашего ЦОД и просят нас провести инвентаризацию. Мы распаковываем, проверяем комплектность по списку, делаем фотографии, направляем эту информацию в ИТ-департамент клиента. Затем нам сообщают схему распределения, подключения, замены, и мы выполняем модернизацию. Делать это приходится регулярно, потому что инфраструктура регулярно расширяется – сначала применялись гигабитные решения, потом перешли на 10 Гб, последний апгрейд был уже на 25 Гб.
DDoS-решение
В 2018 году, через 2 года после создания распределенной инфраструктуры, отдел безопасности клиента поставил перед нами еще одну сложную задачу. Для определенных сервисов необходимо было реализовать DDoS-решения, то есть создать защищенный от кибернападений канал.
Как раз в этот период мы сами переходили на новые методы DDoS-защиты и прорабатывали у себя один из вариантов – сетевую защиту уровня L3. Решение было хорошим и грамотным. С технической точки зрения оно подходило клиенту, поэтому мы предложили запустить и протестировать его. Для тестирования и проверки узлов компания даже заказала атаку на свои сайты, и DDoS-защита отлично себя показала.
Резюме
Очевидно, что предприятие, которое имеет сеть автозаправок по всей Европе и занимается многими другими видами деятельности, очень чувствительно к любым нарушениям в работе информационной структуры. Многопрофильному бизнесу крайне важно иметь бесперебойную доступность 24/7. Если связь теряется хоть на минуту, это сразу влечет колоссальные потери – и финансовые, и репутационные. К примеру, клиент заправил машину на АЗС или заказал еду в ресторане – и не может расплатиться: касса не принимает оплату, так как из-за отсутствия интернета не проходят трансакции. Подобные ситуации критичны для бизнеса. Поэтому очень важно выстроить ИТ-инфраструктуру с повышенным уровнем отказоустойчивости и защитой от кибератак. Именно такую задачу поставил перед нами клиент, и она была выполнена в полном объеме руками и силами технического персонала нашей фирмы.
Сотрудничество, начавшееся с типовых удаленных работ, постепенно переросло в крепкое и доверительное партнерство. Мы помогли реализовать масштабный проект, подобрали надежное DDoS-решение. Сейчас предоставляем клиенту сервисы размещения оборудования в виде уже двух стоек вместо одной, обеспечиваем сервисное обслуживание через наших партнеров Cisco и Huawei, являемся контактным лицом компании во Франкфурте.
или
Как провайдер может помочь вам с миграцией на новый сервер и созданием распределенной инфраструктуры.
Загрузите контрольный список с описанием услуг и ценами от пяти крупнейших провайдеров в Европе.
Если вам нужна консультация по переезду в ЦОД во Франкфурте, по DDoS-защите или ваша компания нуждается в создании распределенной ИТ-инфраструктуры – обращайтесь. Поможем подобрать оптимальное решение, учитывая потребности бизнеса и бюджет проекта.
Автор статьи
Ольга Буянова
Консультант по серверному оборудованию и организации центров обработки данных