Защита Big Data: проблемы и решения
узнать всё о клиентах, конкурентах и тенденциях рынка.
Новые технологии породили огромные массивы данных и возможность их обрабатывать. Появление Big Data стало воплощением давней мечты бизнеса — узнать всё о клиентах, конкурентах и тенденциях рынка. В следующем году, по данным исследователей Forrester, 100 % компаний, которые используют для принятия решений аналитику данных, внедрят у себя и обработку Big Data.
Среди главных преимуществ больших данных для бизнеса, по информации, полученной в результате опроса исследовательской компания The Economist Intelligence Unit и консалтинговой компании Accenture, можно выделить:
- поиск новых источников дохода (56 %);- улучшение опыта клиентов (51 %);
- новые продукты и услуги (50 %);
- приток новых клиентов и сохранение лояльности старых (47 %).
Google, IBM, VISA, «Мегафон», ВТБ -24 — сложно найти крупную компанию, которая бы так или иначе не использовала технологии больших данных. Сбербанк — не исключение. Принимая во внимание перспективность этого направления, Big Data активно изучается и используется в Сбербанке. Технология помогает управлять рисками, бороться с мошенничеством, сегментировать и оценивать клиентскую кредитную способность, управлять персоналом, прогнозировать очереди в отделениях, рассчитывать бонусы для сотрудников и т. д.
В ноябре 2016 года Сбербанк запустил проект «Открытые данные», в рамках которого выложил в открытый доступ агрегированные обезличенные данные о финансовой активности своих клиентов: средние суммы и количество заявок на потребительские и ипотечные кредиты, средний размер и количество новых депозитов, суммы зарплат и пенсий и др. Подобная информация может быть полезна бизнес-аналитикам и маркетологам, кредитным аналитикам и риск-менеджерам, экономистам и социологам, а также другим группам исследователей. На её основе можно строить прогнозные и статистические модели. Они помогают понять, где лучше строить торговые точки, какие товары и услуги будут востребованы, как лучше обслуживать клиентов и т. д.
Безопасность обработки и хранения данных
По мнению специалистов службы кибербезопасности Сбербанка, безопасность обработки, хранения и передачи — важнейший аспект изучения Big Data: информация имеет цену, а ее утечки могут принести ощутимый ущерб бизнесу. Так, по данным европейской комиссии, опубликованным в докладе 2016 года The EU Data Protection Reform and Big Data: Factsheet, персональные данные европейских граждан (450 млн человек) к 2020 году будут оцениваться в один трлн евро. Как показывает исследование, доверие клиентов к компании напрямую зависит от надежности защиты их данных. При утечке бизнес может потерять доверие и деньги клиентов и приобрести проблемы с регуляторами. А это штрафы, приостановка деятельности и судебные преследования.
За последних три года в топ компаний, пострадавших от утечек информации, вошли Yahoo (утечка данных — более 500 млн клиентов), The Home Depot (50 млн владельцев пластиковых карт), Target (70 млн владельцев кредитных и дебетовых карт).
Hadoop
Существует несколько дистрибутивов Hadoop: Hortoworks, Cloudera, MapR, IBM BigInsights и т. д. Hadoop пользуется огромной популярностью, в том числе у таких IT-гигантов, как Facebook, Alibaba, Amazon, Linkedin, eBay. Причина кроется в первую очередь в способности Hadoop без подготовки принять и проанализировать огромные массивы данных разной структуры из множества источников, а также в её производительности и доступности. Кроме того, в состав Hadoop входит файловая система HDFS, которая позволяет значительно снизить стоимость терабайта хранения данных. По сведениям журнала Readwrite, стоимость хранения терабайта в Hadoop в 2,5 раза ниже, чем в базах Oracle. Подсчёты экспертов Сбербанка показывают, что общая стоимость владения терабайтом информации в Hadoop в десятки раз ниже, чем у коммерческих производителей баз данных.
Проблемы
В процессе организации системы защиты больших данных специалисты службы кибербезопасности Сбербанка выделяют ряд проблем. Они связаны, во-первых, с особенностями Hadoop, которая, по сути, является не обычной классической базой данных, а файловой системой, организованной в так называемое «озеро данных», где хранятся данные из различных источников. При этом информация в таком озере физически распределена по кластеру серверов и доступна через различные интерфейсы (API) или прикладные слои, каждый из которых необходимо защищать. Во-вторых, с отсутствием регулирования больших данных в целом. И, в-третьих, с индивидуальными процессами по обработке больших данных и предоставлению доступа к ним.
Проблема № 1. Отсутствие практики по работе с Big Data и её защите
Big Data — это новая парадигма хранения и обработки данных. IT-службам может не хватить компетенций поддерживать и обслуживать новые технологии, так как на рынке нет достаточного количества готовых специалистов. Курсов и учебников по изучению технологии Big Data не существует. Для получения необходимых знаний нужно один-два года ежедневной работы с технологией, что несовместимо с текущей деятельностью специалистов. Службам ИБ также не всегда легко защищать новые технологии. Они не всегда понимают, что именно происходит внутри кластера с большими данными, каковы угрозы и уязвимости новых технологий. Методологии по защите ИС классической трёхзвенной архитектуры оказываются не применимы к новым технологиям. Возникает потребность в создании и подготовке нового класса IT- и ИБ-специалистов по работе с Big Data, что само по себе — достаточно дорогой и ресурсоёмкий процесс.
Специалисты по кибербезопасности Сбербанка рекомендуют:
· выделить в IT- и ИБ-службах отдельные подразделения, которые будут заниматься технологиями Big Data на постоянной основе;
· вовлекать специалистов всех уровней IT- и ИБ-служб с первого дня создания систем класса Big Data: разработчиков, администраторов, ИБ-специалистов, тестировщиков и т. д., чтобы опыт работы постепенно накапливался вместе с ростом системы;
· отправлять персонал на соответствующие курсы не реже одного раза в два года.
Проблема № 2. Отсутствие методологий по защите Big Data
Единой, принятой индустрией методологии обеспечения безопасности больших данных, которая могла бы помочь разработать и внедрить систему управления безопасностью больших данных, пока не существует. Различные организации публикуют свои методологии и рекомендации, однако уровня ISO пока ни одна из них не достигла. Специалисты по кибербезопасности Сбербанка рекомендуют обратить внимание на следующие из них:
· IBM: Top tips for Big Data Security;
· Oracle: Enterprise Security for Big Data Environments;
· Forrester: Big Data Security Strategies For Hadoop Enterprise Data Lakes;
· ENISA: Big Data Security: Good Practices and Recommendations on the Security of Big Data Systems;
· Сloud Security Alliance: Big Data Security and Privacy Handbook;
· Securosis: Securing Hadoop: Security Recommendations for Hadoop Environment
· Cloudera: Cloudera Security.
Во всех перечисленных методологиях есть свои недостатки. Общепринятых критериев выбора методологии не существует, т. к. в каждой организации свои индивидуальные процессы хранения и обработки данных, а методология описывает в том числе безопасность процессов работы с данными и т. д.
Проблема № 3. Отсутствие стандартов по защите Big Data
Кроме методологий по обеспечению защиты, отсутствуют стандарты, которые описывали бы полный перечень норм и правил по безопасности Big Data, что считается нормальной практикой в индустрии кибербезопасности. На сегодняшний момент над созданием стандартов работает несколько рабочих групп, например, WG9 под эгидой комитета ISO JTC 1 и Big Data Working group от сообщества Cloud Security Alliance. В США, помимо участия в международных сообществах, существует своя рабочая группа по безопасности Big Data — NIST SP1500-4: Big Data Security and Privacy.
Однако никто из них пока не опубликовал ни одного стандарта.
В своих исследованиях рабочие группы пришли к выводу, что меры обеспечения безопасности и конфиденциальности должны быть заложены в дизайн систем Big Data, а не появляться по мере их развития. Описания самих мер пока не существует.
Проблема № 4. Большая экосистема Big Data
Причина отсутствия стандартов кроется в огромных размерах экосистемы больших данных и скорости развития этого направления. Иными словами, экосистема Big Data чересчур активно развивается и слишком быстро растёт, что усложняет её стандартизацию.
Так, Apache Software Foundation ведёт десятки проектов по направлению Big Data. Кроме того, ПО для инфраструктуры, аналитики и приложений Big Data разрабатывают коммерческие производители.
Проблема № 5. Отсутствие регулирования Big Data
Есть законы о защите персональных данных, о банковской тайне,
о государственной тайне, о коммерческой тайне и т. д., но отсутствует государственное регулирование в области защиты больших данных. Эту проблему проанализировал старший научный сотрудник научно-учебной лаборатории по информационному праву Национального исследовательского университета «Высшая школа экономики»
А. И. Савельев в своей статье «Проблемы применения законодательства о персональных данных в эпоху Big Data». Автор пишет, что «Большие данные несовместимы
с принципом ограничения обработки персональных данных заранее определенными целями».
Сейчас отсутствуют какие-либо штрафы, которые могли бы заставить операторов Big Data внедрять меры безопасности. Как результат, отсутствует мотивация вкладывать средства в исследования и разработку по направлению безопасности. Некоторые государства только начинают задумываться о написании законов по регулированию больших данных. Пока не ясно, как законы по защите персональных данных и других видов тайны будут влиять на законы по регулированию хранения и обработки Big Data. Например, Президент России В. В. Путин по результатам форума «Интернет и экономика» в 2016 году поручил начать разработку закона о больших пользовательских данных. Рабочую группу по этому вопросу возглавляет глава компании InfoWatch Наталья Касперская.
Решения
Из-за существующих проблем компании вынуждены самостоятельно разрабатывать подходы к обеспечению безопасности Big Data, и Сбербанк не является исключением. Изучив все возможные решения, существующие на рынке, специалисты по кибербезопасности банка выработали свои методы и подходы к решению этой задачи. Так, разумно разделить безопасность больших данных на две фазы:
· идентификация и классификация информации (что защищать).
Задачи, которые нужно решить в ходе этой фазы — выявить, классифицировать объекты защиты и проставить метки конфиденциальности данных. Критерии конфиденциальности данных компания должна разработать самостоятельно. Например, пароль или данные пластиковой карты можно считать конфиденциальными данными и удалить их из кластера. Чем больше конфиденциальных данных будет размещено в озере данных, тем сложнее будет разграничивать доступ к нему;
· безопасность (как защищать).
Задача, которая решается в этой фазе — применить меры обеспечения безопасности к объектам защиты. Например, административные, физические и технические меры обеспечения защиты. Требования к мерам защиты можно найти в различных сборниках стандартов, например, в ISO 27001.
Рис. 1. Методология защиты больших данных
Фаза «идентификация и классификация»
Идентификация и классификация информации. Идентификация и классификация должны производиться на постоянной основе с помощью автоматизированных средств. Необходимо организовать автоматизированную систему «паспорт данных» (или реестр данных), которая была бы централизованным хранилищем метаданных, об информации в кластере, уровне её конфиденциальности, политиках доступа и входа/выхода информации из кластера. Если в озере данных оказываются персональные данные, об этом нужно обязательно знать.
Составление «паспорта данных». После идентификации данных их следует классифицировать, то есть составить некий «паспорт данных», в котором будет в том числе метка о конфиденциальности.
Паспорт данных |
|
Наименование актива |
Наименование базы данных, набора данных, файл, таблица или любой доверенный источник |
Конфиденциальность |
Метка о конфиденциальности |
Тип актива |
Oracle, SAS, DB2, MSSQL, XML, CSV, JSON, Hive, XLS или flat-файл |
Тип данных и их длина, размерность |
Т. е. число, char, дата, char (20), и т. д. |
Владелец данных |
ФИО или подразделение в компании, которое владеет данным в источнике |
Описание контекста использования |
Заказчики, проекты, описание ролей, использующие данные |
Содержание тайны |
Персональные данные, PCI DSS и т. д. |
Юрисдикция данных |
RU, UA, KZ и т. д. |
Частота обновления |
Частота составления данных или аналитики на основе данных |
Все данные должны иметь метку о конфиденциальности. Чем больше конфиденциальных данных попадает в озеро данных, тем больше мер по обеспечению безопасности доступа к нему нужно применять. Высококонфиденциальные данные, такие как пароли, разумно удалить из озера данных или не допускать туда их попадания. Именно для того чтобы навести порядок в данных и дисциплинировать персонал, применяется «паспорт данных».
Реакция на метки о конфиденциальности:
· высокая конфиденциальность.
Следует предотвращать попадание данных высокой конфиденциальности в озеро данных и удалять те из них, которые туда уже попали;
· средняя конфиденциальность.
Следует контролировать доступ к данным. Конкретный набор мер каждая компания определяет исходя из своих задач;
· конфиденциальность отсутствует.
Доступ можно не контролировать.
Фаза «защита»
После того как данные обнаружены и составлен их паспорт, то есть объект защиты известен и потребность в защите понятна, можно принимать меры к обеспечению его безопасности. Для этого компания может применять любую практику, исходя из своих задач. Однако специалисты по кибербезопасности Сбербанка рекомендуют обратить внимание на следующие аспекты:
Доступ. Одно из основных правил безопасности — это ограничение доступа до уровня, которого достаточно для выполнения своих рабочих задач. Контроль доступа подразумевает, что конкретный пользователь получает доступ к конкретным данным в определённое время. Для этого требуется внедрение механизмов аутентификации и проведение периодических проверок привилегий сотрудников. Например, Hadoop поддерживает специальный протокол Kerberos, который контролирует доступ к ресурсам Hadoop. Однако Kerberos не работает по умолчанию, и на его внедрение потребуется время и средства. Можно подключить и другие программные продукты, которые реализуют функциональность ролевого доступа, — Sentry, Apache Accumulo и др. При необходимости «точность» или гранулярность доступа к данным можно ограничить до уровня колонки или даже ячейки.
Инфраструктура. Сетевая изоляция кластера Hadoop
Кластер Hadoop, как правило, построен на базе ПО с открытым исходным кодом (open source). Традиционно в дизайн таких программных продуктов не заложена безопасность. Более того, в экосистему Big Data входит масса ПО с открытым исходным кодом, и такое ПО постоянно обновляется. Принимая во внимание эту динамику, качество open source и ценность данных, разумно изолировать кластер Hadoop на сетевом уровне, чтобы исключить несанкционированное сетевое взаимодействие.
Инфраструктура. Защищённое рабочее место
При работе в озере данных стоит создать «защищённое рабочее место» для аналитика данных с целью:
1) исключить возможность копирования данных из озера данных. В этом случае возможно применить виртуальные АРМ с соответствующими настройками;
2) протоколирование действий с данными, которые выполнял аналитик. Для этого можно интегрировать виртуальный АРМ аналитика со средствами протоколирования событий.
Мониторинг и аудит. Аудит подразумевает, что любая активность, происходящая в Hadoop, протоколируется. Для обеспечения безопасности данных необходимо протоколировать определённые события: трафик, активность пользователей и т. д., чтобы по событиям можно было восстановить картину инцидента. Нельзя защититься от атаки, если её не видно, поэтому мониторинг следует проводить централизованно, например, в SIEM-системе, чтобы в ней получить видимость работы приложений и паттерна трафика.
Устранение ценности данных. Если данные обесценить, то пропадёт их привлекательность — красть их станет неинтересно. Для «обесценивания» данных применяют различные методы абстракции, то есть шифрование, токенизацию, маскирование данных и даже их удаление. Методы и рекомендации по устранению ценности данных, но с сохранением их полезных свойств описаны в различных методологиях, например, в ISO 29100 Privacy Framework.
Заключение
Проблема обеспечения безопасности хранения и обработки больших данных заключается именно в огромных массивах неструктурированных, разрозненных данных.
В условиях отсутствия методологии, стандартов и регуляторных мер по защите больших данных при разработке мер защиты больших данных специалисты службы кибербезопасности Сбербанка рекомендуют ответить на главный вопрос: «Как обеспечить защиту, если в кластер Hadoop ежедневно будет добавляться несколько гигабайт или терабайт информации?». При таких объёмах, скорости их добавления и разрозненности данных «ручные» меры защиты перестают работать. Поэтому следует разрабатывать и внедрять средства полной автоматизации процессов обеспечения и управления кибербезопасности.
Компаниям необходимо разработать процессный подход к анализу и обработке данных, а также автоматизировать процессы, касающиеся обеспечения безопасности больших данных в рамках устоявшихся практик. Автоматизация может включать в себя в том числе элементы машинного обучения (искусственный интеллект, ИИ). С помощью ИИ возможно извлекать из добавляемых в кластер данных признаки «конфиденциальности», выявлять паттерны, не характерные для нормальной работы с данными, составлять профили пользователей и фиксировать отклонения в работе пользователей от их нормального профиля поведения, то есть выявлять мотивы пользователей при работе с данными.
Опираясь на свой опыт в изучении вопросов обеспечения безопасной обработки и хранения больших данных, специалисты службы кибербезопасности Сбербанка считают автоматизацию процессов, касающихся обеспечения безопасности больших данных, наиболее перспективным направлением для решения этой задачи. Учитывая тот факт, что готовых решений на рынке не существует, то разумным выходом из этой ситуации становится собственная разработка такого решения, которую в настоящее время активно ведёт Сбербанк.
Дмитрий Смирнов,
бизнес-партнер по ИБ Сбербанка
Опубликовано 28.03.2017