Слава Лазебников:
Big Data нельзя
внедрять исключительно как технологию
Слава Лазебников, вице-президент и руководитель центра компетенции по технологиям Big Data компании Epam Systems, рассказал в интервью CNews о сфере Big Data: приемлемой скорости обработки больших данных; новой профессии, появление которой она стимулировала; решениях наиболее популярных вендоров.
CNews: С какого объема данных начинается Big Data? Что в вашем понимании означает этот термин?
Слава Лазебников: Здесь важно подчеркнуть, что большие данные в нашем мире были всегда. Крылатым этот термин стал в 2012-ом, когда появились новые и очень привлекательные возможности по получению ключевой для бизнеса информации из источников с постоянно растущими объемами данных. Часто считают, что Big Data начинается с нескольких сотен терабайт. Но на самом деле здесь не стоит говорить о конкретных цифрах — огромный объем данных для одной компании может быть «мелочевкой» для другой. Когда я думаю про Big Data, для меня важно не насколько велики данные, а сколько полезной информации из них можно извлечь. При работе с большими данными компаниям приходится решать целый ряд очень сложных и разнообразных научных и технологических задач. Поэтому мне ближе всего определение, которое дает Роджер Магулас: «Данные становятся большими тогда, когда их размер превращается в самостоятельную проблему».
Объемы структурированных и неструктурированных данных сегодня растут быстро и постоянно. В результате компании вынуждены менять подходы к их сбору, хранению и обработке. Поэтому когда мы говорим о Big Data, мы говорим о системах, которые позволяют загружать, преобразовывать, обслуживать, обрабатывать данные и – самое важное – извлекать из них значимую и критически важную бизнес-информацию. Причем все это делать с приемлемой для бизнеса скоростью.
И я бы хотел упомянуть еще один момент. Сложность и разнообразие задач по Big Data сделали очень востребованными специалистов с относительно новой, но уже весьма популярной профессией – data scientist. Это талантливые инженеры с компетенциями в самых разных областях знаний. Кстати, наличие таких специалистов всегда было сильной стороной Epam Systems и нашим преимуществом как поставщика услуг по разработке заказного программного обеспечения.
CNews: А что значит «приемлемая скорость» обработки для Big Data?
Слава Лазебников: Сейчас в Big Data речь идет о минутах и часах. Например, на передачу 1ТБ данных по сети с пропускной способностью 10ГБ в секунду тратится в среднем 17 минут. Поэтому лучше запускать задачи обработки данных там, где находятся эти данные. Twitter, Google и другие лидеры применяют технологии обработки данных в процессе получения и непосредственно на серверах, где они записаны. В результате время обработки сокращается на порядок. Мы работаем на таких проектах у наших заказчиков – разработчиков программных продуктов, но для компаний из корпоративного сектора это пока завтрашний день.
CNews: Тогда оцените, пожалуйста, рынок Big Data с точки зрения технологий. Решения каких вендоров наиболее востребованы?
Слава Лазебников: Сейчас синонимом Big Data является экосистема Hadoop. Большая часть ее компонентов — это открытое программное обеспечение. В экосистему входят, в частности, решения Sqoop, Flume и Pig, которые используются для переноса данных в Hadoop-кластеры или из них. MapRedice берет на себя обработку данных. Cascading и WebHDFS применяются для разработки приложений, Hive – для организации доступа к данным через SQL. В числе поставщиков не SQL-решений для исследования и выявления новой информации отмечу MongoDB, Cassandra, HBase, Mahoot, Rhadoop. Кроме того, практически все основные разработчики BI-продуктов включают в их функциональность возможности для доступа к данным, которые постоянно содержатся в Hadoop-кластерах. Этот перечень компонентов можно расширять еще и еще, поскольку все больше компаний выходит на рынок со своими предложениями, так или иначе связанными с Hadoop.
Поверх компонентов Hadoop нередко устанавливаются коммерческие приложения, например, для интеграции с базами данных или формирования аналитической отчетности. Зачастую Hadoop используется в связке со стандартными технологиями хранения и обработки данных, а иногда дополняется такими инновационными решениями, как Storm, Dremel, Drill.
Но большие данные – это все-таки не только Hadoop. На рынке есть достаточно много мощных, легко масштабируемых решений для организации хранилищ данных и работы с ними. Выделю Greenplum, Netezza и Teradata, которые предлагают отличную производительность при обработке информации благодаря использованию массивно-параллельной архитектуры (massive parallel processing, MPP). Кроме того, я бы отметил комплекс SAP HANA.
CNews: Если посмотреть на рынок Big Data со стороны заказчиков - какие компании вы считаете сегодня основными потребителями этих технологий?
Слава Лазебников: Потребители Big Data разделяются на 2 большие категории – это технологические компании и корпоративный рынок. В корпоративном сегменте в первую очередь это финансовые организации: банки, страховщики, инвестиционные компании. Активный спрос мы видим со стороны компаний, ориентированных на массового клиента, - розничные банки, розничная торговля, в том числе электронная, туристический сектор. Отдельный блок клиентов составляют организации, чей бизнес традиционно связан с обработкой большого объема данных. Например, поставщики бизнес- и финансовой информации. Кроме того, средства Big Data нужны крупным веб-порталам различной направленности с миллионами посетителей и огромным трафиком. На самом деле я бы сказал, что в современном бизнесе нет отрасли, где так или иначе не стояли бы задачи по Big Data.
Тем не менее на большие данные не стоит смотреть исключительно «технологическим» взглядом, как на способ более инновационно организовать работу с информацией. Есть сферы деятельности, где можно использовать только средства Big Data, так как данных слишком много. Но в целом для таких технологий приоритетная задача – дать бизнесу правильное понимание ситуации на рынке, текущих трендов, потребностей, поведения и мотивации клиентов или других важных для компании вопросов.
CNews: С какими задачами к вам чаще всего обращаются потенциальные клиенты?
Слава Лазебников: Задачи самые разные – как четко ориентированные на бизнес, так и более технические. Примером бизнес-задач может быть мониторинг и анализ поведения посетителей на интернет-ресурсах с целью их профилирования, построения более адресного маркетинга и более точной работы с ними. Мы стараемся разобраться, что делает посетитель нашего веб-сайта, что ему интересно, что ему потенциально было бы интересно и что мы можем ему предложить. Такого рода проект Epam делала, в частности, для Expedia - это ведущая туристическая компания, работающая в онлайне, владелец портала Hotels.com. Схожая задача решалась в проекте для одного из крупнейших порталов для онлайн-знакомств, пользователями которого являются свыше 30 млн человек по всему миру и где ежедневно порядка 20 тыс. человек заполняют анкеты – и эти данные надо оперативно обрабатывать.
Для финансовых компаний актуальная задача — анализ различных рисков. К примеру, анализ всех транзакций, выполненных с использованием кредитных карточек, – в режиме реального времени или более глубокий, когда выявляются случаи мошенничества. Кроме того, есть ряд проектов, где технологии Big Data используются при формировании ежемесячной, квартальной или другой официальной отчетности, когда нужно агрегировать очень большое количество данных по сотням тысяч клиентов.
Более технические вещи – это, например, выявление страниц или блоков веб-портала, где происходят задержки с предоставлением информации, из-за чего клиенты уходят. Или для той же Expedia у нас был проект по миграции корпоративного хранилища с IBM DB2 на open sourсe-технологии Hadoop. В рамках проекта удалось сохранить существовавшие и разработать новые инструменты для эффективной обработки данных и построения отчетности, обеспечить бесперебойную работу пользователей. Сейчас хранилище – это порядка 2ПБ информации (объем ежедневного пополнения исчисляется в терабайтах) и несколько Hadoop-кластеров. По результатам проекта стоимость хранения данных удалось снизить почти в 10 раз. Аналогичный проект мы выполняли внутри самой Epam: речь шла о миграции хранилища SAP BW (на его базе готовится отчетность по широкому спектру направлений) с серверов Oracle на SAP HANA. Еще один пример – мы помогли PayPal серьезно увеличить скорость обработки данных и их передачи в аналитические приложения.
CNews: Клиенты сами понимают, что для решения вот этой конкретной задачи им нужны именно технологии Big Data, или об этом им говорите вы?
Слава Лазебников: В большинстве случаев - да, клиенты приходят с пониманием, что им нужен, например, Hadoop, поскольку тема Big Data обсуждается очень активно в ИТ-сообществе, на страницах изданий, в интернете, и она не является terra incognita для многих компаний. Тем не менее, бывают случаи, когда клиент, прочитав ряд статей и посетив пару конференций, так впечатляется темой Big Data, что пытается притянуть ее за уши к своим задачам, не особенно понимая для чего и зачем. Такой подход неверен и опасен. Hadoop или любую другую технологию из области Big Data нельзя имплементировать как технологию – всегда должен быть бизнес-драйвер. За проектом должны стоять требования и потребности бизнеса, которые явно покажут, что компании действительно необходимы подобные технологии. Безусловно, есть и заказчики, которые традиционно привыкли опираться на классические базы данных. В этом случае уже мы можем порекомендовать использовать вместо них Hadoop или какое-то другое решение.
CNews: Насколько производственным предприятиям интересны большие данные?
Слава Лазебников: В России пока мы с такими запросами не сталкивались. На Западе проекты есть, например, в нефтяных и горнодобывающих компаниях. Здесь обрабатываются большие потоки данных, которые поступают с приборов, установленных на оборудовании, трубопроводах, транспорте и др. И если какие-то параметры меняются, реакция должна последовать незамедлительно. Качество добываемого сырья стало другим? По правилам компании нужно везти его на другой перерабатывающий завод. Резко повысилось давление в газопроводе? Необходимо быстро запустить комплекс мер, чтобы разобраться в ситуации и устранить проблему. Во всех подобных случаях от скорости принятия решения зависит очень много. В лучшем случае – бизнес понесет чисто экономические потери, в худшем – есть риск аварий и чрезвычайных ситуаций с целым рядом тяжелых последствий. Однако обеспечить приемлемую скорость без технологий Big Data крайне сложно.
CNews: В начале интервью вы сказали, что впереди всех в плане Big Data идут технологические компании. Известно, что Epam в качестве разработчика сотрудничает со многими производителями ПО. А в сфере больших данных вы работаете с кем-либо из технологического сектора?
Слава Лазебников: Epam Systems участвует в разработке глобальных сервисов одной из ведущих технологических компаний мира, которые охватывают миллионы пользователей. Я не могу раскрывать детали, поскольку мы работаем в рамках соглашения о конфиденциальности. Проекты связаны, в частности, с обработкой и анализом информации о статистике и поведении пользователей на различных веб-ресурсах, поддержки их действий в социальных сетях. Для этой же компании мы организовали службу поддержки внутренних пользователей – а это обработка более миллиона заявок в день, работа с почти 20 терабайтами данных. Кроме того, есть проекты на SAP HANA, которые мы делаем для SAP AG.
На партнерском уровне мы тесно сотрудничаем с такими компаниями, как Hortonworks и Cloudera, чья деятельность связана с дистрибутивами Hadoop, а также с GigaSpaces, которая занимается разработкой технологий in-memory data grid (IMDG).
CNews: По вашему опыту, какие результаты получают компании от проектов в области Big Data? К примеру, удается ли снизить стоимость хранения или обработки информации?
Слава Лазебников: Здесь, скорее, стоит говорить о том, что на выполнение такой-то задачи раньше уходило 2 месяца, а сейчас всего 2 часа. С точки зрения бизнеса результат - это реальные деньги, которые компания экономит или зарабатывает за счет того, что управленческие решения принимаются на основе обработки всего объема реальных данных, даже если их очень много. Ценность таких решений не соразмерна ценности решений, которые появились благодаря интуиции, анализу отдельного «куска» информации или каких-то вторичных признаков. Качество данных возрастает прямо пропорционально их количеству: чем больше информации – тем правильнее будет финальное решение. А технологии Big Data помогут его найти еще и быстро.
CNews: Насколько дороги подобные проекты?
Слава Лазебников: Это вопрос из серии «сколько стоит самолет». Если это небольшой пропеллерный частный самолетик, то его стоимость где-то $50 тыс. Для покупки Dreamliner понадобится $200-300 млн. А если вам нужен военный истребитель пятого поколения, то цена вопроса вполне возможно превысит $1 млрд. Более низкая стоимость не значит, что самолет менее качественно сделан – он просто предназначен для задач другого уровня. Так и в случае с большими данными: стоимость проекта может быть различной и зависит от ряда факторов – это объемы данных, технологии обработки, поставленные задачи и так далее. Почти всегда можно найти вариант реализации проекта, который будет отвечать потребностям компаний даже с небольшим объемом ресурсов.
CNews: Использование «облаков» помогает снизить стоимость?
Слава Лазебников: Опять же все зависит от проекта. Если нужно создать большое хранилище данных и при этом на небольшой промежуток времени, то «облака» помогут это сделать быстро и относительно недорого. Во всяком случае, дешевле, чем закупать «железо». Но для долгосрочных проектов именно финансовая экономия под вопросом. А вот преимущество скорости есть всегда. Поэтому многие проекты по Big Data делаются именно в «облаках». Есть технологии, например, Amazon S3 Elastic MapReduce, которые позволяют выстроить всю цепочку – сбор, хранение и обработка данных.
CNews: У Epam были такие проекты?
Слава Лазебников: Да, мы делали такие проекты. К примеру, мы используем технологии S3 Elastic MapReduce для поддержки работы продуктов линейки EPAM InfoNgen. Это решения, которые предназначены для поиска, сбора и анализа неструктурированных данных в режиме реального времени. Информация агрегируется из различных источников – веб-порталы, электронная почта, внутренние информационные ресурсы заказчика, а затем обрабатывается и анализируется с учетом потребностей пользователя. Стандартный пакет включает в себя веб-интерфейс и не требует никакой инсталляции на стороне клиента. Вся работа с данными ведется в «облаках».
CNews: На ваш взгляд, какие сейчас есть основные направления развития Big Data?
Слава Лазебников: В основном, это аналитика на больших объемах данных в режиме реального времени. Десятки, если не сотни тысяч стартапов ведут огромное количество различных разработок. Но по-настоящему серьезных решений пока нет. Вернее, они есть у технологических лидеров: все тех же Google, Twitter, Facebook и других. Но пока они не подходят для внедрения в корпоративном секторе – для этого слишком «сырые».
CNews: А какой прогноз вы можете дать – через какой промежуток времени такие решения станут внедряться и в корпоративном секторе? Год, два, 10 лет?
Слава Лазебников: В течение года. Это направление сейчас развивается очень быстро. Объемы инвестиций и количество компаний и людей, которые участвует в таких разработках, впечатляет, поэтому результаты будут очень быстро. Тем более, что задача решается в нескольких направлениях. Идет оптимизация Hadoop, чтобы на нем можно было выполнять быструю обработку данных. Сейчас Hadoop «разбрасывает» задачи на большое количество компьютеров, и вот только это «разбрасывание» занимает до 5 минут. А есть еще и сама обработка, на которую в зависимости от объема данных, полученных результатов и необходимости повторной обработки, тратится большое количество времени. Пробуем как-то это процесс оптимизировать. Еще одна часть разработок связана с развитием технологий Storm, которые как раз предназначены для real-time аналитики, и их совместном применении с Hadoop. Все это идет очень активно, так что результаты и всплеск проектов Big Data в корпоративном секторе не за горами – как на Западе, так и в России.