Почему компании переносят обработку данных в облако?

Рано или поздно облачной станет любая инфраструктура для анализа данных. Для этого достаточно экономических причин, не говоря уже о технологических.

Когда компании принимают решение о переносе своей инфраструктуры в публичное или частное облако или о ее расширении за счет публичных мощностей, они зачастую выбирают «легкий путь». Он заключается в перемещении отработанных годами подходов в новую технологическую среду без каких-либо заметных преобразований. Просто, понятно и не требует больших бюджетов на разработку.

Такой сценарий имеет право на жизнь, но часто приводит к тому, что компании не могут в полной мере ощутить преимущества от перехода. Они продолжают использовать те же файловые системы, те же СУБД, те же серверы, объединенные в те же кластеры. И прежние подходы к работе. Прямая трансляция унаследованных монолитных решений в новую среду может дать некоторую выгоду в плане надежности и утилизации. Но все же ее следует рассматривать только как переходный этап по переезду в облако, за которым следует модернизация уже самой архитектуры системы. Современные облака предоставляют принципиально иные и куда более эффективные возможности по организации вычислений и хранения данных.

Традиционный подход предполагает, что клиент разворачивает привычные системы для работы с данными «над» инфраструктурой, используя облако в режиме «инфраструктура-как-услуга» (IaaS). В роли таких систем могут выступать Hadoop, Greenplum, Vertica и другие средства, и после развертывания их требуется постоянно поддерживать, начиная от обновлений и заканчивая патчами для закрытия уязвимостей.

Когда развернуть полноценную работу требуется в сжатые сроки, гораздо целесообразнее приобретать те же самые сервисы, включая Hadoop и Greenplum, у облачного провайдера уже в формате «платформа-как-услуга» (PaaS). Это минимизирует расходы на разработку и время вывода продукта на рынок. В конце концов, облако тем и ценно, что позволяет существенную часть задач, связанных с администрированием и поддержкой, переложить на плечи провайдера. И здесь в облако уходит уже не просто обслуживание серверов, дисков и сетей, то есть уровня инфраструктуры, но обслуживание самих инструментов для работы с данными. Кроме того, самостоятельно разворачивая кластер Hadoop поверх IaaS, мы теряем гибкость, которую облако дает в плане масштабирования нагрузки. Получив Hadoop как готовую услугу, мы можем в любой момент эластично расширить или сжать возможности кластера по хранению и обработке данных, платя за эту нагрузку, только когда она действительно нужна.

Эффективная обработка данных

В традиционных инфраструктурах слои хранения и вычисления объединены. Каждая нода в Hadoop одновременно выполняет и функцию вычисления, и функцию хранения. Такая же ситуация, к примеру, и с нодой Vertica: когда система требует расширения, мы можем добавить только ноду целиком, но не увеличить или уменьшить возможности вычислений и хранения по отдельности.

Современная архитектура требует разделять слои, и облака идеально для этого приспособлены. Их масштабируемость – одно из ключевых свойств, поэтому можно бесконечно наращивать любой из слоев.

Дополнительно оптимизировать расходы на инфраструктуру можно путем частичного переноса данных из кластера Hadoop в более дешевое объектное хранилище S3, тем самым разделив между собой слои хранения и обработки данных. Сам же кластер можно арендовать лишь на время обработки, после чего данные останется лишь разложить по целевым системам, а кластер – остановить.

Почему компании переносят обработку данных в облако?. Рис. 1

Может ли традиционный Hadoop-кластер работать настолько эффективно, что перевод этой вычислительной нагрузки на новые рельсы и разделение данных на слои не оправдывали бы себя? В редких случаях такое возможно. Например, когда рабочие нагрузки предполагают максимальное использование локальности данных (Data locality). Таким образом между нодами пересылаются не данные, а код, что ускоряет обработку и снижает нагрузку на сеть.

Бывает, что перевод такого кластера с уровня инфраструктуры на уровень платформы вызывает падение скорости обработки в несколько раз. Точнее, это происходит при выделении слоев данных и вынесении их в хранилище S3, в результате чего для обработки данных придется сначала выгрузить их из S3. Впрочем, такие ситуации не слишком распространены, а владельцы подобного оптимизированного кластера наверняка отлично знают, что и зачем они делают.

Экономичное хранение данных

Прошли времена, когда любые потребности бизнеса в аналитике покрывались классическими или даже колоночными СУБД. Количество источников информации, ценной для принятия тех или иных решений, выросло на порядки. И, чтобы сохранить возможность сбора и обработки столь огромного потока, облачные платформы обзавелись инструментами для построения «озер данных» (Data lake). Основанные на распределенных файловых системах HDFS, S3 или иных, они позволяют хранить практически безграничные объемы неструктурированных данных, загружаемых как есть, без какой-либо обработки. В озерах формирование схемы данных происходит только при их чтении (Schema-on-read).

Почему компании переносят обработку данных в облако?. Рис. 2

К достоинствам озер данных можно отнести простоту загрузки в них информации из множества разнородных источников. Минусы вытекают из этих же плюсов. Простота загрузки часто приводит к тому, что разные специалисты или департаменты вносят туда одни и те же данные по нескольку раз, а подчас еще и в разных форматах, и всегда есть опасность превращения такого озера в болото. Пользуясь инструментами обработки больших данных и каталогами метаданных, любой дата-сайентист всегда сможет не только извлечь необходимое, но и сопоставить его с другими данными, получив на выходе новую ценность для бизнеса. Это помогает справиться с угрозой «заболачивания».

Альтернативой озерам данных может стать организация хранилища по принципу предметно-ориентированных баз данных (Data warehouse). Вне зависимости от технологической основы (это может быть тот же Hadoop), в предметно-ориентированных базах содержатся предварительно обработанные и очищенные данные, готовые к использованию в целях бизнес-аналитики или для других задач. Информация отсюда уже может напрямую применяться бизнес-пользователями без помощи дата-сайентиста. В этом и заключается главный плюс такого подхода. А к его минусам можно отнести сложность внесения и извлечения информации. Сначала она должна быть предварительно обработана и отфильтрована, приведена к единому виду. А позже, по мере использования, извлекать приходится не одну конкретную таблицу, а множество, так как для получения нужного результата потребуется их многократное сопоставление.

Отдельным интересным применением облаков является сбор данных с устройств «Интернета вещей». Огромные сети, порой состоящие из десятков или сотен тысяч датчиков, производят колоссальные объемы информации. При этом периодически необходимо проводить сравнения текущих показателей с историческими, а значит, хранить надо буквально весь собранный объем. Делать это на традиционной инфраструктуре непозволительно дорого.

Облака обладают сразу несколькими преимуществами. Во-первых, систему хранения можно плавно наращивать по мере поступления данных. Следовательно, и платить придется только за использованный объем. Во-вторых, данные в облаке можно разделить на «горячие», «теплые» и «холодные». Последние логично отправить на архивное хранение, что окажется существенно дешевле, чем держать их в непрерывной доступности, когда в этом нет необходимости.

Почему компании переносят обработку данных в облако?. Рис. 3

Самостоятельная работа с данными

Мало собрать данные. Необходимо предоставить к ним удобный доступ для дата-сайентистов, которые будут извлекать из них ценные для компании выводы. Современный бизнес, хорошо понимающий важность этого процесса, все шире внедряет концепцию управления данными (Data governance). Одним из основных ее элементов является самообслуживание (Self service). Если в компании не реализованы подходы самообслуживания, то дата-сайентист или бизнес-пользователь должен обратиться к аналитику, а зачастую еще и в ИТ-сервис только для того, чтобы узнать, где лежат нужные данные.

Делать этого не нужно, когда в распоряжении специалиста есть соответствующие права и инструменты, главный из которых – каталог метаданных. Где бы в облаке ни располагалась необходимая таблица, ее всегда можно отыскать при помощи этого каталога, играющего роль поисковой системы. Классическим примером подобного инструмента является Amundsen. С его помощью можно и найти нужную информацию, и получить к ней доступ.

А теперь ее нужно обработать. В прошлом специалист пошел бы в службу ИТ, заказал сервер соответствующей производительности и неделями ждал, пока его соберут и доставят. Сейчас достаточно воспользоваться графическим интерфейсом, чтобы в несколько кликов «накидать» себе нужное количество процессорных ядер или графических чипов из пула облачного провайдера. Получив в свое распоряжение виртуальную машину (или даже кластер), специалист может за короткое время произвести обработку, после чего сразу остановить и освободить арендованные ресурсы.

В заключение можно с уверенностью сказать, что рано или поздно облачной станет любая инфраструктура для анализа данных. Для этого достаточно экономических причин, не говоря уже о технологических. И в этом процессе в выигрыше окажется тот, кто совершит переход раньше других и сумеет правильно использовать уникальные преимущества облаков.

В сущности, выбор лишь в том, как совершить переезд. И даже если сначала вы выполните простой перенос в виртуальную среду своей локальной архитектуры как она есть, более правильно ставить конечной целью пересборку бизнес-логики с учетом современных архитектурных подходов и использованием платформенных сервисов провайдера. Это потребует запустить рефакторинг приложений под новые платформы и микросервисные архитектуры, разделить слои хранения и вычислений, а также внедрить лучшие практики работы с данными.

Журнал IT Expert

Опубликовано 12.11.2021

Об авторах

Виталий Ранн

Менеджер продукта VK Cloud Solutions

Облачные технологии Облачный сервис

Предыдущая
Какие инструменты нужны для удаленной работы

Следующая
Энергоэффективность центров обработки данных

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30