Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
Информационные технологии стали неотъемлемой частью бизнеса XXI века. Они являются мощным двигателем экономики, однако источником рисков. Без бесперебойной работы ИТ-сервисов прерываются бизнес-процессы, что может привести к финансовым потерям и катастрофическим последствиям. Как обеспечить информационную безопасность и непрерывность бизнеса? Об этом мы подробно расскажем в этой статье.
Когда дело касается использования информационных технологий в бизнесе, обеспечение бесперебойности процессов становится еще более важным. Предприятия, занятые в кредитно-финансовой, телекоммуникационной, высокотехнологичной и производственной отраслях, особенно нуждаются в продуманной системе кризис-менеджмента. Однако, это также актуально для ритейла, электронной коммерции, государственного сектора и любой другой отрасли, где поставлены задачи по обеспечению непрерывности деятельности компании.
Существуют специальные регламенты, которые соблюдаются для лицензирования деятельности в ряде отраслей и указывают на необходимость непрерывности бизнеса. Риск сбоя в работе информационно-технических сервисов может иметь колоссальные материальные потери для банков и жизнь людей - если инцидент произойдет, например, в авиакомпании или на предприятии топливно-энергетического комплекса.
Риски могут возникнуть из-за природных бедствий, аварий в энергосистемах или киберпреступлений. При этом, уровень риска определяется последствиями инцидента для деловых процессов и функций. В связи с многообразием рисков, обеспечение информационной безопасности (ИБ) является актуальной и несомненно необходимой задачей.
В 2019 году компания DEAC провела опрос и выяснила, что решения по обеспечению бесперебойности процессов наиболее востребованы в финансовой и информационной сферах. Риск непрерывности бизнеса связанных с ИБ и изменениями в законодательстве страны является наиболее серьезным согласно данному опросу. Почти половина респондентов считает, что в ближайшее время эти риски будут только расти.
BCM (Business Continuity Management), BCP (Business Continuity Planning) и DRP (Disaster Recovery Planning) являются инструментами кризис-менеджмента, которые обеспечивают безопасность бизнеса в целом. Они вытекают из системы ИБ и следуют основным принципам анализа рисков появления и влияния чрезвычайных ситуаций на деловые процессы, контроля и управления инцидентами, а также стратегического и тактического планирования непрерывности информационно-коммуникационных технологий (ИКТ). BCM (BCP & DRP) широко применяются и регулируются международными, национальными и отраслевыми стандартами, такими как ISO/IEC 27001 и ISO 22301:2012. Обеспечение соответствия требованиям данных стандартов при выборе дата-центра для хранения информации или при внедрении их на предприятии, гарантирует безопасность данных и непрерывность бизнес-процессов.
Тем не менее, BCM, BCP и DRP не являются тождественными управлению ИБ, которое является лишь основой для данных дисциплин. BCM начинался с резервного копирования информации, но постепенно охватил вопросы ИБ и стал целостной структурой, взглядов на методы обеспечения непрерывности бизнеса, устойчивости организации к различным сбоям, разрушениям и потерям.
Управление непрерывностью бизнеса (BCM) является важным аспектом для любой организации. Приоритетные цели и задачи BCM зависят от масштаба и сферы деятельности, и во главу угла ставится управление определенным типом или классом взаимосвязанных инцидентов.
Один из основных комплексов происшествий, рассмотриваемых в рамках BCM, это управление инцидентами или Incident management (IM). Данный уровень охватывает целый комплекс происшествий высокой и средней вероятности возникновения. Задачи и цели IM — обеспечить сохранность, доступность и целостность информации, а также отказоустойчивость оборудования.
Другим важным комплексом в рамках BCM является управление непрерывностью бизнеса и аварийным восстановлением, или Business continuity & disaster recovery management. Он направлен на предотвращение инцидентов, которые могут привести к приостановке работы всей организации или ее важнейших бизнес-процессов. По исследованию, проведенному компанией Veeam Software в 2019 году, ежегодные мировые потери от простоев приложений превышают 20 млн долларов, а по России эта цифра немного ниже — 19,8 млн долларов.
Еще одним комплексом BCM является управление чрезвычайными (кризисными) ситуациями, или Crisis & emergency management. Он ставит своей задачей предупреждение крайне редких, но катастрофических по последствиям инцидентов, таких как экологические и гуманитарные катаклизмы или инфраструктурные разрушения в границах целого региона. В подобных случаях, высокий уровень обеспечения непрерывности деятельности предприятий необходим.
Ключевым понятием в управлении непрерывностью бизнеса (BCM) выступает «инцидент», под которым понимается любое незапланированное, внезапное происшествие, событие, ведущее к остановке ключевых и критичных процессов и функций, полной потере контроля над оборудованием. Недооценка влияния инцидентов на непрерывность бизнеса может привести к драматическим последствиям.
Примером тому служит компьютерная атака на мировом уровне, случившаяся 12 мая 2017 года, когда компьютеры по всему миру были атакованы вирусом-вымогателем WannaCry. Он шифровал файлы на устройствах, а для восстановления доступа к ним требовал выкуп. Параллельно с тем, WannaCry атаковал более 200 стран, сильнее всего пострадали Россия, Украина, Индия и Тайвань, и привел к остановке работы больниц, аэропортов, заводов и банков. Экономические потери, нанесенные данной кибератакой, составили около 4 млрд долларов.
Полтора месяца спустя, инцидент повторился, но уже с другой вредоносной программой – вирусом Petya. Российские и украинские компании понесли самые масштабные потери от него, исходя из данных исследований. Внедрение и применение программ BCM позволило бы значительно сократить размеры потерь, а возможно, и вовсе избежать катастрофических происшествий.
The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty) показывает, что кумулятивный доход сверх нормы компаний, успешно восстановивших деятельность после крупномасштабной аварии, через год составляет в среднем 10%. Корпорации, не внедрившие BCM, получают те же 10% и даже 15%, но уже со знаком минус. Управление непрерывностью бизнеса является залогом сохранности вложенных владельцами и акционерами средств, а также возможности и продолжительности работы предприятия.
Внедрение системы управления непрерывностью бизнеса (BCM) начинается со стратегических этапов, связанных с планированием и определением целей. При этом используются средства риск-менеджмента (Risk Management, RM), что позволяет оценить и управлять возможными рисками на предстоящих этапах.
Внедрение системы BCM - это комплексный подход, который включает в себя освоение технических и программных средств, регламентацию действий, распределение ответственности, а также обучение персонала. Однако, самостоятельное внедрение системы BCM может быть проблематично для компании. Поэтому, наиболее эффективным решением является обращение к ИТ-экспертам, которые грамотно разработают план мероприятий и помогут воплотить проект системы в жизнь.
В итоге, внедрение BCM позволяет компаниям минимизировать риски и сохранять непрерывность бизнеса в условиях кризиса или аварийных ситуациях. Кроме того, использование BCM способствует повышению эффективности работы компании в целом.
Анализ и управление рисками
Каждая компания сталкивается со своими уникальными рисками, в зависимости от сферы деятельности и масштабов бизнес-процессов. Например, сбой в системе учета пациентов в медицинском учреждении не критичен, в то время как неполадки в работе высокотехнологичного реанимационного оборудования могут стать серьезной проблемой. Авария в приложении для автоматизации совместной деятельности рабочих групп телекоммуникационной компании, скорее всего, не приведет к кризису, но сбой в системе биллинга наверняка вызовет серьезные финансовые потери. В связи с этим, важно проводить анализ бизнес-процессов, чтобы выявить точки критичности и ранжировать их по степени влияния на непрерывность деловой активности компании.
Анализ рисков позволяет выделить две группы: зависимые от ИТ (ИКТ) и независимые. После выделения и градации бизнес-процессов по важности, необходимо выделить группу ИТ-зависимых процессов и провести оценку их влияния на бизнес. Для этого следует проверить работу технических и организационных механизмов, направленных на предотвращение прерываний процессов, выделить и оценить уязвимые места и угрозы. В результате можно сформировать группы рисков, связанных с ИТ, и разделить их по степени важности.
Оценка воздействия на бизнес базируется на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. Затем строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть количественно и качественно оценены. К группам потерь могут относиться общественное мнение, рыночная стоимость, уровень операционных расходов, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и т.д.
Обеспечение точности информации о финансах представляет существенный интерес для аналитиков, особенно если была заполучена возможность оценить IT-бизнес компании и перспективы его расширения.
Рекомендуется тщательно изучить информационные сервисы, которые используются в бизнес-процессах и информационных потоках. Несомненным результатом анализа будет представлена полная картина бизнеса в целом, включая оценку критичных бизнес-процессов, которые были столкнуты с нарушениями в работе, полученными в результате их функционирования в соотношении с величиной потерь.
Перед началом сотрудничества важно провести аудит, который позволит аналитикам определить все уязвимые места в системе защиты информации клиента и подобрать наилучшие меры для их укрепления.
Для подсчета экономического эффекта (стоимости простоя бизнес-процессов) следует использовать объективные оценки вероятности возникновения разных инцидентов в рассматриваемый период времени и выбрать наиболее приемлемую стратегию на основе этих данных.
Совладельцы компании и ее руководство, совместно с аналитиками, должны определить установку так называемых тайм-аутов и производительной мощности для отдельных бизнес-процессов на случай чрезвычайных ситуаций. Эти тайм-ауты включают в себя:
- Допустимое время восстановления (Recovery Time Objective, RTO) - время простоя, которое технически может быть сведен к секундам, но из-за дороговизны не всегда оправдан экономически.
- Целевая точка восстановления (Recovery Point Objective, RPO) - это временной диапазон перед наступлением чрезвычайной ситуации, за который все данные могут быть утрачены. Сегодня он может быть сведен к нулю, так как все зависит от частоты и технологии резервного копирования информации.
- Уровень непрерывности бизнеса (Level of Business Continuity, LBC) - это допустимый уровень производительности в чрезвычайных ситуациях в процентах от режима штатной работы.
Планирование является процессом, который не является единоразовым и должен постоянно поддерживаться в актуальном и соответствующем состоянии. Для этого планы регулярно тестируются и обновляются новыми данными.
Ключевым аспектом по определению стратегии непрерывности бизнеса являются безопасность сотрудников, обеспечение рабочих помещений, технических средств и необходимых материалов, доступ к критически важной информации, беспрепятственные коммуникации с партнерами, клиентами, поставщиками и подрядчиками. Каждое направление требует отдельной подстратегии с определенными параметрами анализа рисков. Обеспечение непрерывности включает три стадии: реагирование, продолжение критичных процессов при условиях ЧС и восстановление штатной работы.
Выбор организационных и технических решений определяется стратегией BCM. Определяются приоритетные цели и задачи для поддержания непрерывности бизнеса, процедуры реагирования, области распространения системы BCM, кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения.
Технические и организационные системы BCM включают использование «облачных» услуг. DRaaS (Disaster-Recovery-as-a-Service) используется для защиты информации, предоставляя услугу аварийного восстановления данных в облачных корпоративных средах. Это позволяет снизить расходы при сохранении уровня безопасности на уровне стандартов индустрии. Существуют различные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или критических ее элементов.
Резервные копии ИТ-инфраструктуры создаются по расписанию, заданному в соответствии с нужными RTO и RPO, и помещаются в хранилище. Такая схема подходит для малых организаций, где непрерывность не является критичной, но важны экономия и сохранность данных.
Инфраструктура копируется полностью, изменения в непрерывном режиме переносятся в облако, извлечение и восстановление информации происходит за минуты.
Резервная облачная инфраструктура полностью идентична основной и обновления в них происходят синхронно. Восстановление возможно за несколько секунд, что делает это решение актуальным для крупных финансовых и ИТ-компаний, госсектора, а также любых организаций, где нельзя терять ни минуты на простой.
Построение отказоустойчивых ЦОДов является важным аспектом для различных бизнесов. В случае необходимости, можно провести оптимизацию существующих центров обработки данных или построить новые, более энергоэффективные и отказоустойчивые. Реализация данной задачи включает в себя комплекс мероприятий, таких как: строительство специализированных зданий, организация инженерной, телекоммуникационной и ИТ-инфраструктуры, их автоматизация, сервисное сопровождение подсистем ЦОДов или создание мобильного ЦОДа. Также, есть более простой путь - доверить организацию ИТ-инфраструктуры надежному провайдеру.
При росте бизнеса и усложнении ИТ-систем компании, вычислительные центры могут стать фактором угрозы непрерывности деловой активности. Поэтому необходимо разработать план восстановления системы после инцидента (DRP), который является составной частью более крупного плана обеспечения непрерывности бизнеса (BCP). DRP помогает быстро восстановить работоспособность критичных ИТ-систем и обычных операций, в то время как BCP обеспечивает восстановление бизнес-процессов в целом.
Для обеспечения нормального функционирования системы BCM необходимо формировать программу сопровождения и эксплуатации, определять периодичность проверок и разрабатывать меры реагирования обслуживающего персонала на возникновение инцидентов. Также важным аспектом является интеграция процессов в корпоративную культуру, которая включает разработку мер и осведомление персонала о мерах, предпринимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. Компетентный персонал является важным фактором для успешного планирования восстановления после происшествия.
Как известно, внедрение системы ВСМ на предприятии может значительно повлиять на его дальнейшую работу. Однако, какие именно параметры могут свидетельствовать об эффективности такого внедрения?
В первую очередь, важно отметить готовность организации к дальнейшей работе в случае возникновения аварий в ИТ-системах. Если в систему была внедрена ВСМ, это достаточно показательный момент, ведь организация приняла меры для сохранения своих данных и возможности продолжения работы в случае сбоев.
Кроме того, стоит оценить вероятность простоя (недоступности) информационных систем в случае возникновения внештатной ситуации и потенциальные убытки, которые могут быть связаны с такой ситуацией.
Также важным показателем является соответствие требованиям регулирующих органов и прохождение аудита.
Однако, само по себе создание и внедрение системы ВСМ может стать непростой задачей для предприятия, требующей значительных финансовых, кадровых и временных ресурсов. Не каждая компания готова на это пойти и поэтому речь идет об эффективности внедрения системы с учетом возможностей организации.
Фото: freepik.com