Возможна ли анонимизация данных сегодня?

Логотип компании
Возможна ли анонимизация данных сегодня?
Читая документ, лежащий перед вами на столе, или переписку в социальных сетях, часто ли вы задумываетесь, насколько правомерно размещение там сведений, касающихся определенных лиц? Соблюдены ли какие-либо ограничения? Да и есть ли они?

Читая документ, лежащий перед вами на столе, или переписку в социальных сетях, часто ли вы задумываетесь, насколько правомерно размещение там сведений, касающихся определенных лиц? «Ну раз это напечатано и выложено в Сеть, значит уже стало всеобщим достоянием и удалить невозможно», – ответит большинство. А теперь представьте, что эти данные касаются вас, вашей личной жизни. Тоже останетесь равнодушны? Или же будете возмущены, что какой-то, порой даже неизвестный вам человек приводит историю, которой вы поделились, рассчитывая только на близких друзей?

Ниже мы расскажем о том, как менялась концепция персональных данных (ПДн) и возможна ли их анонимизация, чтобы сохранить содержательность информации, но не позволить персональным данным бесконтрольно распространяться по Сети.

Раскрывать секреты никто не хочет, но анонимные данные никому не нужны

На первый взгляд, все просто: если нельзя распространять какие-то данные – так удали их, и нет проблем! Но, оказывается, чем больше ограничений, тем меньше остается областей, где можно применить полученные сведения.

Возможна ли анонимизация данных сегодня?. Рис. 1

Компромисс между защищенностью частной информации и возможностями ее применения. Источник: https://www.kdnuggets.com/

Так возникает потребность в анонимизации данных. Пока эти данные относятся к определенному лицу или небольшой группе лиц, можно получить от них разрешения на публикацию и даже договориться, нужно ли скрывать их персоны. Хотя и это непросто, особенно в свете последнего решения по защите ПДн (GDPR), которое требует соблюдения права на забвение: то есть предусматривает возможность изъятия таких данных из обращения, если их владелец поторопился с разрешением на публикацию или первоначально был введен в заблуждение.

Но главная проблема возникает, когда начинают собирать статистику по большой группе людей и теряется контроль над тем, где и как эти данные используются. Это действительно непросто, поскольку с учетом последних достижений ИИ и машинного обучения появились возможности выявления частной информации о конкретных лицах по статистическим отчетам, где их данные «растворены» среди аналогичной информации, собранной от тысяч, а иногда и миллионов людей. А ведь в этом случае пострадавший тоже имеет право на «забвение»!

Чтобы избежать нецелевого использования собранных данных, применяется механизм так называемой анонимизации. Суть его состоит в использовании различных приемов для удаления ПДн из общего набора и их «растворении», не допускающем возможности восстановления. Это делается с целью защиты частной жизни лица или компании, от которых данные были получены.

С развитием аналитических методов и технологий больших данных применение подобных технологий стало особенно важным.

Возможна ли анонимизация данных сегодня?. Рис. 2

Динамика интереса пользователей к вопросу защиты ПДн. Источник: Google

Большие данные: истоки

Возможно, для многих будет неожиданным, но впервые сбор больших данных и решение задачи анонимизации информации были осуществлены в конце XVIII века. Зарождение таких систем связывают с проведения общенациональной переписи населения в США, которая в соответствии с Конституцией страны (ст. 1) проводится каждые 10 лет начиная с 1790 года. Учет численности жителей – как в целом по стране, так и по штатам – был необходим для пропорционального распределения между ними 435 мест в палате представителей Конгресса.

Первые 50 лет истории переписи населения прошли безо всякого интереса к вопросам защиты данных. Однако постепенно информации стало собираться все больше и по самым разным темам. Так, в переписи 1850 года отражены сведения по домовладениям, налогообложению, принадлежности к религиозным объединениям. Было известно, сколько бедных в стране, каково состояние преступности и т. д.

Разнообразие собираемых данных породило интерес к ним со стороны многих организаций, причем не только правительственных, но и общественных, а также предпринимателей, финансистов и даже частных лиц. Например, статистика об уровне доходов стала использоваться для изучения потребительского спроса, выбора мест для строительства магазинов, организации общественных работ для безработных. Это и породило риски, связанные с неправомерным использованием данных. Но самое главное – это привлекло внимание к этим рискам со стороны государства. Поэтому начиная с 1850 года из объема данных Статистического бюро США, предоставляемых в публичное пользование, стали удалять персональные данные.

Просто удалить ПДн было невозможно, потому что они составляли важную часть статистики. В результате нашли широкое применение такие методы, как округление, добавление случайных отклонений в реальную выборку при расчете итогов, агрегация родственных данных с общими признаками, публикация производных вместо оригинальных данных (например, полученных путем вычитания или сложения), и другие, многие из которых применяются и поныне.

Эра компьютеров и анонимизация

Однако расцвет практики анонимизации данных связывают с появлением в 1950-х годах компьютеров. Одним из них стал условно коммерческий UNIVAC: проектные работы по его созданию проводились в Eckert–Mauchly Computer Corporation на средства федерального бюджета. Первый UNIVAC был официально продан Бюро переписи населения США 31 марта 1951 года. Но самое главное, что к этому времени уже не только научились анонимизировать данные, но и применять их для других статистических расчетов. Так, пятый экземпляр UNIVAC попал в распоряжение вещательной компании CBS, которая использовала его для прогнозирования результатов выборов президента США в 1952 году. Основываясь на данных опроса, в котором участвовал всего 1% населения с правом голоса, эта машина с точностью 98% предсказала победу Эйзенхауэра.

Возможна ли анонимизация данных сегодня?. Рис. 3

Один из первых компьютеров, который использовался в Бюро статистики США для анонимизации данных. Источник: Wikipedia

Итоги переписи населения, содержащие анонимизированные данные, учитывались тогда при строительстве дорог и школ, использовались в системе здравоохранения и социального страхования, в работе административных органов, в рекламных и страховых компаниях. Все проводимые манипуляции с ними признавались как легитимные.

Читайте также
Для удобства восприятия и передачи информации можно пользоваться схемами и диаграммами, благодаря чему удается красиво и лаконично отразить связность объектов и их свойства. Для создания подобных визуализаций существуют специальные программные приложения, о которых рассказывает IT-World.

Регулирование персональных данных

Защита персональных данных и связанная с ней анонимизация больше не могли оставаться под колпаком профессиональных госведомств. Поэтому к рубежу 1960-х пришло понимание, что процесс обращения с персональными данными необходимо регулировать на правовом уровне.

 

Германия

Несмотря на то, что большинство новшеств в сфере статистики до сих пор исходит из США, авангардом регулирования ПДн стала совсем другая страна. В 1970 году власти федеральной земли Гессен в Германии приняли первый в мире законодательный акт в данной области. Местная юридическая служба предложила регулировать электронную обработку данных по сбору налогов, оплате услуг ЖКХ и в отношении других муниципальных сервисов.

Однако закон распространялся только на местные власти – частный бизнес оказался а вне сферы его действия. Но процесс пошел: инициативу поддержали власти земли Рейнланд-Пфальц, и в 1977 году появился единый Federal Data Protection Act, который уже распространялся на всю страну.

Швеция

Пока немцы раскачивались, вперед вырвалась Швеция: ее Datalgen, принятый в 1973 году, сразу же приобрел государственный статус. Особенность документа состояла в том, что для получения права на обработку ПДн требовалась лицензия от Инспекции по защите данных (Swedish Data Protection).

Первенство досталось Швеции неслучайно. Широко используемая здесь еще с 1960-х годов компьютерная обработка данных, поступающих в муниципальные органы, вызвала интерес в обществе к проблемам прозрачности данных, обеспечению их открытости и публичного доступа. При этом в правительстве страны осознавали, что грядет автоматическая обработка уже очень больших объемов данных, а это подталкивало к созданию централизованной системы контроля и принятию акта, регулирующего правила использования таких данных не только в государственной сфере, но и в бизнесе и в частном секторе.

В то же время шведский закон имел свои ограничения. Например, не предусматривал единых правил обработки ПДн, а выдача каждой лицензии была связана с подготовкой индивидуального списка условий ее применения. В случае нарушений предусматривались серьезные штрафы, конфискация данных и даже тюремный срок. Не упоминалось в правилах и о трансграничной передаче ПДн, что стало крайне актуальным вследствие развития компьютерных сетей.

США

Несмотря на отставание в правообразующей деятельности, американцы оставались инициаторами многих мер по защите персональных данных. Так, в 1966 году был принят Федеральный закон «О свободе информации» (Freedom of Information Act), предусматривающий условия и процедуру полного или частичного обнародования данных и документов, хранящихся в соответствующих службах правительства США. И хотя действие этого закона распространялось только на документы органов исполнительной власти, он стал заметным вкладом в развитие информационного общества.

Так, главное положение состояло в том, что гражданин США имеет право на получение любых документов, находящихся в распоряжении любого федерального ведомства страны, если они содержат персональную информацию. Государственное учреждение было обязано удовлетворить такой запрос, в том числе если запрашивающий, не получив нужного ответа, инициировал судебное разбирательство. Суд в этом случае принимал сторону истца. С распространением Интернета и электронных средств передачи данных в 1996 году были приняты соответствующие поправки к этому закону.

Но основным по защите персональных данных в США считается Федеральный закон «О праве на неприкосновенность частной жизни» (Privacy Act) от 1974 года, ужесточаюший требования для обработки персональных данных со стороны федеральных министерств. В то же время с его помощью был введен кодекс добросовестной информационной практики – набор правил, регулирущих сбор, использование и распространение личной информации о частных лицах.

Кроме того, Privacy Act предоставил гражданам право знакомиться, делать копии и вносить исправления в свои личные дела, которые хранятся в архивах государственных учреждений а также право разрешать (или запрещать) обмен данными о себе между госведомствами.

Однако законодательство о защите персональных данных в США до сих пор остается пестрым. Это не отдельный свод законов, а ряд разрозненных актов для регулирования работы с ПДн в различных отраслях – банковских организациях, медицинских учреждениях, телекоме и т. д.

Евросоюз

Несмотря на активность Старого света в сфере защиты данных, распространение этого процесса на всю Европу растянулось на 10 лет. Принятая только в 1981 году «Европейская конвенция о защите физических лиц при автоматизированной обработке персональных данных», предоставив гарантии по их сбору и обработке, ввела запрет на обработку «чувствительной» информации (расовая принадлежность, политические взгляды, здоровье, отношение к религии, сексуальная ориентация, уголовное преследование и т. п.), если национальное право не обеспечивает надлежащих гарантий. Конвенция также предоставила гражданам право знать, что ведется сбор таких данных, и в случае несогласия или необходимости вносить исправления.

Но в Европе вновь всё оказалось не так просто: выявились многочисленные препятствия на пути свободного обмена ПДн в рамках ЕС. В результате позднее был выпущен ряд поправок. Наиболее значимой оказалась «Директива 95 EC», принятая в 1995 году и действовавшая до вступления в силу в 2018 году «Общего регламента защиты персональных данных», где расширено само понятие ПДн, введены понятия «трансграничной передачи данных», «псевдоанонимизации», установлено «право на забвение» и пр.

Россия

Обработка персональных данных на территории России регламентируется Федеральным законом № 152-ФЗ, принятым в 2006 году. Помимо прочего, в нем закреплены основные понятия и условия, касающиеся трансграничной передачи ПДн, обеспечения безопасности при их обработке, взаимоотношений между оператором ПДн и субъектом. Ответственным за организационные меры по реализации закона назначен Роскомнадзор, а техническая часть по защите возложена на ФСТЭК и ФСБ.

Большое влияние на содержание ФЗ-252 оказало и то, что в годы его подготовки (1993– 2011) Россия вела переговоры о вступлении в ВТО и, в частности, в 2001 году подписала Конвенцию Совета Европы 1995 года. Вступив в силу в РФ в 2013 году, этот документ стал основой для формирования многих российских норм в данной области.

Читайте также
Как руководителю развить эмпатию и построить доверительную коммуникацию в коллективе, разбирался IT-World.

Опубликовано 05.12.2019