Статья

«Лаборатория Касперского» спасает мир с помощью больших данных

business
мобильная версия

Личная информация, медиафайлы, переписка, важные корпоративные документы — защиту ценных данных люди доверяют компаниям, производящим антивирусное ПО. Тенденции в мире вредоносных программ меняются каждый день. Отследить их с помощью примитивных решений почти невозможно. В «Лаборатории Касперского» создали уникальный защитный механизм. В его основе лежит быстрая продуктивная работа с большими объемами данных.

Рынок программного обеспечения подвержен динамичным изменениям. Конкуренцию здесь можно проиграть, опоздав с обновлением всего на несколько часов. Упущенные возможности для усовершенствования того или иного продукта оборачиваются потерей клиентов. Для производителей антивирусного софта умение работать с большими объемами данных стало бизнес-определяющим.

«Лаборатория Касперского» входит в четверку лидеров мирового рынка ПО для защиты персональных компьютеров и других конечных устройств. Задачу обеспечения информационной безопасности клиентов компания решает более чем в 200 странах мира. В 32 из них открыты представительства, в которых работают свыше 3 тысяч человек. По мере роста количества и качества киберугроз увеличивались потоки информации о вредоносном ПО, инструментах спама и фишинга, которые используют злоумышленники. Обработка этих сведений, а значит, и создание пакетов обновлений антивирусных баз стали занимать все больше времени. На рубеже десятилетий потребовалось внедрение нового инструмента для обеспечения максимального уровня защиты пользователей.

Высокая производительность при простой архитектуре

Решением стала облачная инфраструктура Kaspersky Security Network (KSN). Туда от клиентов со всего мира, давших на это свое согласие, начала стекаться деперсонализированная информация обо всех угрозах и попытках заражения. Однако быстрое функционирование системы требовало столь же быстрого анализа получаемых данных. Ключевым механизмом KSN стала экспертная система Astraea.

Эксперт: Сейчас у каждого крупного игрока рынка есть свое «облако»


«С каждым годом все больше киберугроз наносят компаниям прямой ущерб. И речь идет даже не о репутационных потерях, — утверждает начальник отдела систем управления рисками компании «Информзащита» Роман Назаров. — Очевиден тренд коммерциализации вредоносных программ. Их приобретают третьи лица, не обладающие необходимыми знаниями для создания собственного эксплойта, но при этом успешно использующие готовые. С одной стороны, этот процесс понижает общий IQ злоумышленников, но в то же время повышает количество угроз и область охвата. Все эти факторы ускоряют ежегодную динамику роста киберугроз. Аналитика больших данных для защиты пользователей антивирусного ПО, с одной стороны, предоставляет новые алгоритмы обработки данных, которые можно использовать для выявления вредоносных программ, а с другой — выступает инструментом адаптации для обработки больших объемов данных, привычных для алгоритмов антивирусов. Сейчас у каждого крупного игрока рынка есть свое «облако», в котором собирается информация с клиентских машин — пользователей антивирусного ПО. Плотность покрытия достаточно велика, так как антивирусная защита все еще остается самым популярным средством защиты данных. А потому собирается огромное количество сведений, для анализа которых привычные методики уже не масштабируются. Новые решения в области аналитики больших данных позволяют работать со всей имеющейся информацией в комплексе. Это дает представление об общей ситуации и о глобальных трендах».

«С самого начала было понятно, что для создания подобной системы необходимо реализовать высокоскоростную обработку больших объемов данных, в том числе при выполнении сложных алгоритмов и расчетов. Microsoft SQL Server с его набором инновационных возможностей стал для нас идеальным выбором», — признается руководитель команды разработки проекта Astraea Сергей Гавриленко.

Проект был запущен в 2010 году. Основой Astraea стал актуальный на тот момент SQL Server 2008. Высокую производительность платформа сочетает с простой архитектурой. Встроенная технология секционирования данных позволила разработчикам продукта автоматизировать выгрузку устаревших данных в специальную базу. Параллельно происходит сжатие информации и ее резервных копий. Это приводит к серьезной экономии дискового пространства.

«Нехватка дисковых ресурсов может стать препятствием для развития системы даже с большей вероятностью, чем недостаточная процессорная мощность. У нас около 60% данных находится в сжатых таблицах, а компрессия резервных копий позволяет сделать полное резервирование базы данных всего за 6 часов, — рассказывает Сергей Гавриленко. — В 2014 году мы осуществили переход на SQL Server 2012. Сейчас активно присматриваемся как к уже представленной версии 2014, так и к еще не вышедшей 2016, и возлагаем большие надежды на in-memory технологии».

«Нет права пропустить угрозу»

К основным преимуществам решения добавились приятные бонусы. Они серьезно упростили жизнь сотрудникам «Лаборатории Касперского». Во-первых, встроенные ETL-инструменты (SQL Integration Services) помогли обеспечить пакетный обмен данными с другими системами компании. Во-вторых, пришлись кстати службы отчетности Reporting Services. Они формируют удобные отчеты, которые нужны для работы различным подразделениям.

Третья важная разработка — технология «управляемого кода» (SQL CLR). Она позволяет создавать собственные типы данных, функции, процедуры и триггеры на других языках программирования и импортировать код в среду SQL Server.

Теперь большое число сотрудников, плохо знакомых с языком запросов SQL, используют при их составлении различные специально разработанные специалистами инструменты. Увеличение производительности в отдельных случаях достигается еще и тем, что все инструкции управляемого кода «переводятся» на машинный язык.

«С момента получения информации о подозрительном объекте до принятия решения проходит менее минуты. При этом непрерывно рассчитываются десятки параметров для каждого из известных объектов. У нас нет права пропустить угрозу и не защитить своих пользователей. Доступность сервиса в режиме 24/7 обеспечивается в числе прочего и благодаря возможностям Microsoft SQL Server», — уверен архитектор-исследователь проекта Astraea Александр Валеев.

Приоритет — экономить на «железе»

Ежедневно Kaspersky Security Network обрабатывает сотни миллионов событий от пользователей со всего мира. В этом объеме обнаруживается в среднем более 310 тыс. новых вредоносных объектов. Система Astraea с ее высокоскоростной обработкой данных защищает миллионы компьютеров по всему миру. Обновления защитных алгоритмов и облачных антивирусных баз выпускаются очень быстро и практически без ошибок. Статистика, которую получают профильные отделы «Лаборатории Касперского», помогает отслеживать основные тенденции в мире вредоносного ПО и уже сегодня понимать, какие продукты понадобятся потребителю завтра.

«Заступив на «боевое» дежурство в 2010 году, сервис Astraea успешно справляется с задачей обнаружения киберзла в мировом интернет-пространстве. Доказательство тому — сохраненные «жизнь» и «здоровье» многих и многих компьютеров наших пользователей. И в этом контексте можно смело утверждать, что Microsoft SQL Server помогает нам в деле спасения мира», — резюмирует руководитель отдела развития инфраструктуры и менеджер проекта Astraea Сергей Уласень.

Помимо системы Astraea, в компании реализован целый ряд проектов на базе Microsoft SQL Server. В их числе система классификации и категоризации файлов Whitelisting, система публикации данных в KSN и централизованная система хранения и обработки файлов.

База знаний KSN на сегодняшний день содержит данные о десятках миллиардов объектов. Ежегодно она увеличивается в среднем на 5 Тбайт. В 2014 году «Лаборатория Касперского» перешла на более новую версию Microsoft SQL Server 2012. Это позволило еще больше повысить доступность данных и упростило управление ими. Основным нововведением для этого стала технология AlwaysOn. Она ускорила обработку больших потоков информации за счет балансировки нагрузки на чтение. Продолжительность плановых и неплановых простоев сократилась, а 10-процентное увеличение объема обрабатываемых данных стало возможным без дополнительных инвестиций в «железо».

Все это вывело на более высокий уровень бесперебойную работу с большими массивами в режиме реального времени. Что критически важно, когда речь идет о защите миллионов пользователей по всему миру.