Пандемия COVID-19 повлияла на все сферы жизни в 2020 году. Компаниям пришлось оперативно подстраиваться под изменяющиеся требования, чтобы сохранить эффективность, уменьшить простои и финансовые потери. Дата-центры, как и другие объекты, не стали исключением.
Во время пандемии COVID-19 объекты инфраструктуры сталкиваются с особыми трудностями, которые влияют на их непрерывную доступность. Из-за распространения вируса все больше организаций корректируют планы по развитию собственных ЦОД, следуя при этом рекомендациям правительства, учреждений здравоохранения, и делают все возможное, чтобы поддержать здоровье своих сотрудников. Условия, в которых бизнес находится уже почти год, заставляют быстро и гибко отвечать на вызовы времени.
Эксперты Uptime Institute разработали ряд рекомендаций, который поможет операторам дата-центров противостоять воздействию коронавируса, а также реализовать стратегии и процедуры на случай подобных эпидемиологических ситуаций в будущем.
В первую очередь бизнесу важно в кратчайшие сроки разработать алгоритм действий. Понятно, что плана на случай мировой пандемии не было предусмотрено, поэтому компании использовали подготовленные ранее стратегии на случай чрезвычайных ситуаций (ЧС).
Они предусматривали ряд мер в зависимости от степени угрозы — от принятия целесообразных мер до полного закрытия ЦОД с передачей критических приложений и операций на резервные площадки. Сейчас стало ясно, что план должен был включать многоуровневое реагирование, четко определять действия, которые необходимо предпринять на каждом уровне. Однако тогда в ход пошли заранее подготовленные для других ЧС стратегии, что негативно отразилось на некоторых компаниях в самом начале кризиса. По телевидению, в интернете, на экранах в метро мы видели:
«Мойте руки, носите маску и соблюдайте социальную дистанцию».
Дата-центры не стали исключением — помещения могли накапливать вирусы, так как они маленькие, изолированные и плохо проветриваемые. Более того, поддерживаемые температура и влажность благоприятны для сохранения вируса в жизнеспособном состоянии. Защита самой площадки и персонала — первоочередная задача оператора ЦОД, повысить ее помогут следующие шаги:
- Более тщательная уборка объектов.
- Наличие защитной экипировки для специалистов.
- Размещение дезинфицирующих средств для рук.
- Ограничение применения тамбур-шлюзов и их дезинфекционная обработка после каждого использования.
- Пересмотр сроков плановой замены воздушных фильтров в системе отопления, вентиляции и кондиционирования (ОВК).
Кроме того, все сотрудники должны быть оперативно информированы о ситуации и необходимых действиях по поддержанию безопасной и здоровой рабочей среды. Персоналу необходимо иметь четкий план поведения при проявлении симптомов заболевания (в том числе у членов семьи), порядка и продолжительности самостоятельного карантина, предоставления больничного и т.п.
Для бизнеса было важно готовиться к длительным нарушениям в цепочке поставок. В дополнение к обеспечению основными ресурсами требовалось проверить наличие средств защиты: дезинфицирующих салфеток, средств для мытья рук, масок, перчаток, бесконтактных термометров и т.д.
И если здесь серьезных проблем не возникало, то с критическими запчастями и оборудованием ситуация обстояла хуже. Компоненты, производимые в Китае или других регионах, сильно пострадавших от эпидемии, оказались малодоступными в течение многих месяцев. Китай стал не единственной страной, откуда с трудом доходили поставки для бизнеса по всему миру. Ряд крупнейших заводов по производству климатического оборудования ОВК располагается в Италии, которая серьезно пострадала в период первой волны коронавируса. Чтобы гарантировать поддержание высокого уровня доступности ЦОД в части эксплуатационных процессов, компании обратились к ряду практик:
- Разбили задачи на критические и некритические для облегчения расстановки приоритетов.
- Отложили все несущественное техническое обслуживание, насколько было возможно.
- Пересмотрели планы аварийного восстановления, стандартные и эксплуатационные процедуры, методики их исполнения, приоритеты и т.д. , а также обновляли их по мере необходимости с учетом текущих условий и прогноза их изменения.
- Отложили тестирования, связанные с высокими рисками. Например, проведение «холодных» пусков и имитацию отключения внешнего питания.
- Проводили удаленные тренинги для поставщиков, чтобы они могли выполнить основные эксплуатационные процедуры в случае невыхода на работу основного персонала ЦОД.
Для обеспечения непрерывной работы и доступности дата-центров в период пандемии (или других чрезвычайных ситуаций) их владельцам необходимо задуматься о создании риск-моделей и сценариев действий, что минимизирует негативные последствия. Если такие регламенты и инструкции есть, важно доработать их с учетом опыта 2020 года. При этом стоит учесть меры по компенсации рисков, связанных с различными аспектами пандемии:
- Административный риск — возможные ограничения органов власти и муниципалитетов, принимаемые во время пандемии.
- Возможный уход персонала на больничный.
- Из-за вероятной недоступности сервисных услуг со стороны внешних компаний требуется ввести понятия резервного поставщика.
- Трудности с оперативным реагированием на инциденты, а также ограничения по выполнению требований SLA в случае введения карантинных мер при допуске на объект.
- Дефицит ЗИП и расходных материалов из-за проблем с логистикой и их доступностью в странах-производителях из-за возможных ограничений. Целесообразно создание собственных складов ЗИП или превентивная замена узлов и деталей с приближающимся предельным износом.
Имеет смысл подумать над процедурами и механизмом «удаленного сервиса, диагностики и консультирования» по аналогии с телемедициной, когда работы выполняются персоналом дата-центра под наблюдением и контролем квалифицированного сотрудника сервисной организации в режиме видео-, аудиоконференции.
Многие правила, которые были введены в условиях пандемии, вероятно, будут навсегда включены в принципы управления критически важными объектами. Это может увеличить общие расходы. Использование автоматизации процессов и удаленного мониторинга позволит объектам работать эффективнее, дольше и с меньшей численностью персонала. Пандемия усилит долгосрочную тенденцию широкого внедрения таких средств. То же относится к инструментам удаленной совместной работы.
Есть предположение, что в дальнейшем вирус COVID-19, как грипп, будет повторяться ежегодно. Планы по обеспечению непрерывности бизнес-процессов должны постоянно обновляться, включать новые профилактические меры и действия по созданию устойчивых цифровых сред, резервированию площадок и т.д.