Маскирование данных в 2024 году: как выбрать подрядчика и какие вопросы ему задать

Маскирование данных в 2024 году: как выбрать подрядчика и какие вопросы ему задать

Изображение: fran_kie/Shutterstock.com

Решения по маскированию данных в прошлом году буквально взлетели — ими начали интересоваться и банки, и производственные компании, и крупные ретейлеры. Одна из причин такой популярности — массовые утечки данных, грозящие и репутационными потерями, и штрафами, и пристальным вниманием регуляторов. Так на российском рынке окончательно сформировался новый класс решений. Расскажу, какие подходы к маскированию персональных данных сегодня существуют и какие основные вопросы нужно задать вендору до старта проекта.

Зачем нужно маскирование?

Данные — сердце почти любой автоматизированной системы, которая стоит в контуре организации, работающей с физическими и юридическими лицами. Чтобы протестировать систему, работающую с данными клиентов, необходимо наполнить ее информацией так, чтобы, с одной стороны, процесс тестирования был выполнен корректно, а с другой стороны, тестовые среды не пришлось бы защищать также серьезно, как боевые, где фигурируют реальные данные клиентов организации.

Доступ к тестовым средам часто получают подрядчики, и, как недавно признался один из банков, именно по причине их действий происходит более половины всех инцидентов, связанных с утечками. Второй повод задуматься о маскировании — работа с аналитическими моделями, где также требуются данные, максимально похожие на настоящие.

Есть три основных подхода к маскированию данных. Первый из них предлагает замену части букв в словах на «звездочки». В этом случае запись «Иванов Иван Иванович, 1952 года рождения» трансформируется в комбинацию И****в И**н И******ч, 1**2.

Особенности подхода:

  • меняется тип данных, так что для чисел и дат такой алгоритм не пригоден;
  • популярные имена, отчества и города не так сложно расшифровать;
  • теряется смысл данных: они лишаются семантики, валидности, социально-демографических характеристик. По ним невозможно проследить связи по домохозяйствам, которые могут оказаться важными для аналитиков.

Второй подход заключается в замене букв на буквы, а цифр на цифры. Например, Еременко Наталья Сергеевна может превратиться в Нонингел Гпьпдбч Мношннагп, а дата рождения 21.07.1961 в 11.02.1973.

Особенности подхода:

  • если алгоритм замены простой, обезличенные данные могут быть восстановлены;
  • при замене имен, городов и дат на случайные буквы и цифры теряется та самая валидность, информация по соцдему и связи по домохозяйствам. С такими данными невозможно провести соцдем-исследование или построить правдоподобную модель. При тестировании данные не пройдут форматно-логические проверки.

Третий подход к маскированию предполагает сохранение контекста, но при этом связи между данными и их владельцем теряются. На практике это означает, что номера телефонов сохраняют привязку к оператору или региону, но при этом никто не узнает, кому они принадлежат. Не теряются родственные связи, качество данных, соцдем и географическое распределение.

Особенности подхода, который условно называют «умным» маскированием:

  • дата рождения меняется в пределах небольшого интервала (например, 1981 год на 1982). Это позволяет не потерять социально-демографические признаки клиента;
  • сохраняется валидность паспортов, ИНН и СНИЛС. Они маскируются с сохранением особенностей типа документа;
  • ФИО заменяется с учетом его популярности и пола клиента. Так распространенное имя Наталья не превратится в Епифанию, а Иван не станет Екатериной;
  • в результате маскированные данные невозможно отличить от настоящих. Все аналитические признаки и распределения, взаимосвязи и контекст в них сохранены.

Сегодня на рынке представлены решения по обезличиванию данных такого рода, например, «Маскировщик» (HFLabs), «Сфера» (T1), «Гарда Маскирование» («Гарда Технологии») и другие.

Частые вопросы о маскировании

Один из вопросов, который чаще всего задают заказчики, можно ли расшифровать замаскированные данные? Если использовано «умное» маскирование, то нет. Дело в том, что во время сессии файл замен хранится в зашифрованном виде. Проследить связь между данными в реальной и замаскированной базе невозможно.

Что касается скорости маскирования, которая также многих волнует, то на нее влияют сразу несколько факторов:

  • тип и состав данных. Например, на обезличивание адресов с сохранением их смысла и валидности, потребуется больше времени, чем на ФИО и номера телефонов;
  • выбор алгоритма маскирования. Алгоритмами с упрощенной бизнес-логикой можно маскировать быстрее;
  • конфигурация серверов и их количество.

Третий популярный вопрос — можно ли маскировать консистентно? Напомню, что при консистентном маскировании Семены из всех систем-источников превращаются в Степанов, а Татьяны — в Екатерин. То же самое происходит и с телефонами, адресами и остальными типами данных. Да, современные решения по маскированию позволяют сохранить кэш замен и использовать его для для консистентности нескольких маскировок, в том числе последовательно на разных стендах. Это важно для тестирования интеграций между несколькими базами данных.

Какие вопросы задать подрядчику?

Перед тем, как выбрать поставщика решений по маскированию данных, задайте ему такие вопросы.

  • Сколько будет стоить программа и ее внедрение?
  • Кто будет производить внедрение и есть ли поддержка? Если поддержка предоставляется, то что она включает?
  • Можно ли после маскирования запустить проверку по качеству маскирования? Предоставляете ли что-то, кроме логов? Поинтересуйтесь сверкой “частоток” — какое имя встречалось часто и стало ли оно таким же частым после маскирования?
  • Делаете ли профилирование данных?
  • Какие справочники используются, чтобы сохранить семантику, качество и полноту данных?
  • Какая скорость обработки данных? За сколько будет обрабатываться база размером 2, 10, 100 тыс. человек?
  • Можно ли будет после внедрения самим, без привлечения вендора, добавлять новые объекты и поля?

Перед тем, как сделать окончательный выбор, стоит провести пилотный проект. Как правило, для него подбираются наиболее показательные объекты по набору данных. Можно взять несколько систем, чтобы проверить консистентность маскирования между базами данных (если для вас это важно).

На старте внедрения согласуйте с вендором модель маскирования. Обсудите, какие поля и каким способом лучше обезличить — обычно тут принимаются во внимание бизнес-сценарии организаторов и рекомендации вендора.

Опубликовано 05.04.2024

Похожие статьи