Как аэропорт Домодедово избегает последствий крупных сбоев

business
мобильная версия

В одной из главных воздушных гаваней России озаботились качеством и бесперебойностью предоставления услуг пассажирам, бизнес-партнерам и авиакомпаниям. Новые идеи позволили улучшить уровень обслуживания клиентов и репутацию аэропорта, а также добиться непрерывности работы ключевых систем. Последствия любых сбоев теперь устраняются за десятки секунд, ощутимо сократились трудозатраты персонала.

«Мы несем ответственность перед клиентами…»

«24 на 7» – мантра современного бизнеса. Во многих компаниях думают о том, как сделать работу непрерывной. Порой небольшой минутный сбой или остановка чреваты потерей клиентов, а значит и прибыли. Это особенно актуально в сфере обслуживания.

Когда речь идет о крупных стратегических объектах ненадежность систем грозит обернуться настоящей катастрофой. Такой случай произошел в аэропорту «Домодедово» в сентябре 2012 г., когда из-за глобального сбоя системы регистрации были задержаны на многие часы десятки рейсов с тысячами пассажиров. После этого встал вопрос обеспечения безотказности ИТ-инфраструктуры. На сегодняшний день ею пользуются, среди прочих, 83 авиакомпании, совершающие рейсы по 239 направлениям. А еще — все «население» воздушной гавани, включая точки продажи авиабилетов, зону беспошлинной торговли и простых пассажиров.

«Сбой ИТ-систем, обсуживающих внешние сервисы, может затронуть всех заказчиков аэропорта — авиакомпании, пассажиров и арендаторов. И если для последних это не столь критично, то авиакомпаниям любой сбой приносит комплекс проблем, от потери багажа, простоя судна, нарушения полетного расписания до штрафных санкций и репутационных рисков. В конечном счете, огромные финансовые потери несет сам аэропорт, который в итоге обязан возместить убытки всех своих заказчиков», — поясняет заместитель руководителя коммерческой дирекции группы «Астерос» Дмитрий Трофимов.

Эксперты отмечают, что системы аэропорта должны функционировать в соответствии с высшими требованиями к уровню надежности. Вся ИТ-инфраструктура должна быть максимально защищена, а возможность сбоев сведена к нулю.

«Мы несем ответственность перед предприятиями и клиентами аэропорта за качество предоставляемых ИТ-услуг в соответствии с заключенными соглашениями об уровне сервиса. Сложность и специфика работы производственных подразделений требуют обеспечения непрерывности и устойчивости используемых ИТ-сервисов», — говорит управляющий директор компании-провайдера «Домодедово АйТи Сервисиз» Денис Ярыгин.

Как AlwaysOn защищает систему и ее клиентов

AlwaysOn— общее название комплекса решений, служащих для поддержания высокого уровня доступности и аварийного восстановления, интегрированных в Microsoft SQL Server, начиная еще с 2012 версии. В этот комплекс входят группы обеспечения доступности (Availibility Groups) и отказоустойчивые кластерные экземпляры (Failover Cluster Instance). Первые поддерживают интегрированный набор параметров, включая автоматическую и ручную отработку отказа группы баз данных, поддержку до 8 дополнительных реплик, быструю отбработку отказов приложений и автоматическое исправление страниц. Вторые поддерживают многосайтовую кластеризацию в разных подсетях, что обеспечивает переход при отработке отказа на другие экземпляры SQL Server, расположенные в другом центре обработки данных. Благодаря их совместной работе достигается нулевая потеря данных в любых экстремальных ситуациях.

Защита многоуровневая и достигается реализацией сразу нескольких технологий. В том числе ведутся постоянный мониторинг узлов кластера Windows Server и координация действий при отказе. Параллельно формируются резервные группы баз данных, которые в сложной ситуации переводятся на резервный экземпляр SQL Server. В это время клиенты могут подключаться к резервному серверу как напрямую, так и с использованием виртуального сетевого имени.

Задача обеспечить отказоустойчивость ИТ-систем была поставлена в 2012 г. Использовать для этой цели имевшееся ПО было невозможно. Во-первых, пришлось бы настраивать каждую информационную систему в отдельности, что достаточно сложно, занимает много времени и требует инвестиций. Во-вторых, не удалось бы организовать единую точку входа на стоящие в разных помещениях серверы, да еще и с автоматическим переключением с основного на резервный.

«Мы рассматривали альтернативные решения других вендоров, однако остановили свой выбор на Microsoft SQL Server 2012, который привлек нас большей простотой технической реализации и был более выгоден с экономической точки зрения», — рассказывает начальник отдела сопровождения корпоративных информационных систем «Домодедово АйТи Сервисиз» Павел Сальников.

Специалистов привлекла технология AlwaysOn. Она отказо- и катастрофоустойчива, при этом полностью автоматизирована и повышает показатели доступности. Одним из основных плюсов заявленного ПО стала возможность устранять сбои во многих базах данных одновременно.

Обучение не потребовалось

Внедрение Microsoft SQL Server 2012 началось в 2012 г. Сроки миграции рассчитали, исходя из параметров имевшегося оборудования и установленного на нем ПО. Для каждой информационной системы был создан распределенный двухузловой кластер на базе операционной системы Windows Server 2008 R2 с использованием технологии AlwaysOn. Таким образом, была создана единая точка входа для всех клиентов. К концу года на платформе SQL Server 2012 функционировали две системы.

«Инженеры Microsoft помогали нам с тестированием и настройкой AlwaysOn только на первых порах. Интерфейс Microsoft SQL Server Management Studio 2012 интуитивно понятен, в нем легко ориентироваться даже тем, кто не обладает большим опытом использования предыдущих версий SQL Server. Поэтому дополнительного обучения администраторам СУБД не потребовалось», — рассказывает Павел Сальников.

Многие ключевые ИТ-системы были перенесены на эту платформу после первого успешного опыта. Сейчас осуществляют миграцию системы управления технической документацией. Процесс продолжится и дальше.

Время ожидания — десять секунд

После завершения проекта специалисты обслуживающей Домодедово компании заметили важные перемены. Главное достижение в том, что сократилось время простоя приложений при нештатных ситуациях. Восстановление доступа к базе данных с помощью единой точки входа в систему отнимает совсем немного времени.

Какие системы аэропорта Домодедово затронул проект:


— все веб-сайты, обслуживающие ежедневный поток в 30-50 тыс. посетителей;
— систему управления производством фабрики бортового питания на базе «1С: Предприятие 8», в которой в дневное время пользуются до 200 сотрудников и ежемесячно регистрируются до 100 тыс. накладных;
— другие системы на базе «1С: Предприятие 8», связанные с управлением персоналом, зарплатными проектами и архивами данных — их одновременно используют до тысячи человек;
— круглосуточную систему управления перевозками грузового терминала: 300 пользователей и 80 тыс. накладных ежемесячно;
— корпоративную геоинформационную систему.

Это объясняется тем, что раньше переключение на резервный сервер осуществляли в ручном режиме. В компании признаются, что иногда на скорость восстановления работоспособности ключевых бизнес-процессов влиял человеческий фактор. Ответственный сотрудник мог быть занят или допустить ошибку. Как правило, система «висела» 10 минут, но бывали случаи, когда простои продолжались более получаса. Аэропорт терпел убытки.

«Сейчас переключение на резервный сервер происходит полностью в автоматическом режиме, а время простоев не превышает 10-60 сек. Кроме того, стабильная работа информационных систем означает повышение качества предоставляемых услуг и улучшение репутации аэропорта Домодедово», — объясняет Павел Сальников.

Простая настройка и интуитивно понятная работа в системе обеспечили сокращение затрат. Администрирование систем теперь требует в десять раз меньше трудовых затрат. Это в свою очередь позволит оставить прежней численность ИТ-подразделения даже при росте потребностей самого аэропорта. Ближайшая задача — создание для всех систем управления базами данных Microsoft SQL Server единого кластера под управлением Windows Server.