Машинное обучение и информационная безопасность

Мы боремся с тем, что уже кого-то задело, заразило, вывело из строя, украло деньги

На IDC Security Roadshow 2018 мне довелось провести опрос среди специалистов по кибербезопасности и спросить их о том, обращаются ли они в своей деятельности к искусственному интеллекту или, если быть более конкретным, к машинному обучению. Интересно, что примерно схожее распределение, по данным Gartner, существует и в отношении иных сфер применения искусственного интеллекта (ИИ), что показывает определенное недоверие к этой технологии или непонимание даруемых ею преимуществ. В статье мне хотелось бы посмотреть на то, как может использоваться ИИ и машинное обучение в кибербезопасности.

Машинное обучение и информационная безопасность. Рис. 1

Традиционная кибербезопасность

К сожалению, надо признать, что сегодня безопасность в массе своей реактивна. Мы боремся с тем, что уже кого-то задело, заразило, вывело из строя, украло деньги. И эффективность системы защиты зависит от того, насколько быстро мы будем узнавать об атаках, с которыми кто-то уже столкнулся.

Вы знаете адрес домена «kill switch», который проверялся нашумевшей вредоносной программой WannaCry и в случае его отсутствия заражал компьютер? Это iuqerfsodp9ifjaposdfjhgosurijfaewrwergwea[.]com, и информацию вы получили от компаний, которые смогли исследовать данную атаку и своевременно предоставить вам соответствующую информацию. А когда стало известно о вредоносной программе Olympic Destroyer, атаковавшей инфраструктуру зимних Олимпийских игр в Южной Корее, то бороться с ней вам позволило знание соответствующего хэша (сигнатуры) db1ff2521fb4bf748111f92786d260d40407a2e8463dcd24bb09f908ee13eb9. А теперь усложним пример. Существует такой вирус-шифровальщик Locky, который заражал в день около 90 тысяч жертв, требуя с них выкуп за возврат доступа к файлам в размере 0,5-1 биткойна. Один из доменов, откуда распространялся Locky, был *.7asel7[.]top. Если мы внесем его в черные списки, то можно ли быть уверенным, что мы защитились от этой угрозы? Увы. Указанный домен был ассоциирован с IP-адресом 185.101.218.206, на котором, в свою очередь, «висело» еще около 1000 вредоносных доменов, например, ccerberhhyed5frqa[.]8211fr[.]top и другие. Самое неприятное, что такие домены могут создаваться тысячами и использоваться не более одного-двух раз. Как защититься от них? Вносить в черный список? Они будут распухать с неимоверной скоростью. Кстати, та же проблема и у антивирусов или систем обнаружения атак, использующих в основе сигнатурные методы обнаружения. У современных антивирусов огромные базы сигнатур, насчитывающие миллиарды записей. При этом ежедневно обнаруживается более миллиона вредоносных программ, и во многих атаках используются уникальные вредоносные программы, с которыми ранее никто не сталкивался.

Что такое машинное обучение

В отличие от традиционных методов обнаружения чего-то плохого, опирающихся на борьбу с чем-то знакомым, машинное обучение позволяет нам распознать то, что еще неизвестно. Чтобы сделать это, на вход модели/алгоритма необходимо подать входные данные (много данных), на которых модель будет обучаться. После обучения модели можно подавать на вход новые данные, и она начнет обнаруживать в них искомое.

Машинное обучение базируется на трех ключевых элементах:

Датасет. Чтобы научить модель распознавать что-то (плохое или хорошее), ей на вход надо подать большие объемы данных, называемых датасетом. Это может быть интернет-трафик, сетевые потоки, логи, почтовые сообщения, активность пользователя и многое другое. Чем больше и разнообразнее обучающие данные, тем точнее будет результат предсказания. Чтобы научиться определять спам, нам нужны сотни тысяч и миллионы электронных сообщений для анализа. Чтобы научиться предсказывать поведение пользователя, нужно отслеживать все его действия в течение нескольких недель. Чтобы обнаруживать вредоносные домены, надо изучать сотни миллиардов и триллионы DNS-запросов. От качества датасета зависит эффективность машинного обучения – если данных мало, они неполны или некачественны (а то и вовсе в них могут быть специально внесены некорректные данные), то никакая, даже самая лучшая модель машинного обучения помочь будет не в состоянии.
Признаки. Это то, что мы ищем в датасетах. Например, доменное имя, отправитель e-mail, IP-адреc, длительность сетевой сессии, используемый протокол, время дня и т. д. В зависимости от решаемой задачи могут быть сотни различных признаков. Например, у некоторых систем защиты оконечных устройств может быть свыше 400 признаков – это метаданные, ассоциированные с анализируемым файлом: имя, дата создания, размер, наличие сетевых подключений, нестандартные протоколы, использование определенных вызовов, внесение изменений в файловую систему, разработка под определенную архитектуру, обращения к реестру и т. д.
Алгоритмы/модели. Найти по определенным признакам искомое в датасете можно различными способами, выбор которых зависит от множества параметров. Правильный выбор алгоритма или модели – это всегда баланс между скоростью работы, аккуратностью предсказания и сложностью модели. А потому обычно на практике экспериментируют с моделями, выбирая из них наиболее подходящую для конкретной задачи.

Виды машинного обучения

Не существует универсального алгоритма машинного обучения (хотя говорят, что нейросеть может претендовать на это звание, но даже типов нейросетей существует два десятка) – разные модели применяются для разных задач. Их принято классифицировать либо по типу обучения, либо по функции, например:

по типу обучения:

с учителем,
без учителя,
с подкреплением;

по функции:

регрессия,
деревья решений,
байесовские,
кластеризация,
нейросети.

Алгоритмы классического машинного обучения (с учителем или без него) используются в тех случаях, когда у вас простые данные и понятные признаки. К примеру, блокирование платежной карты после снятия наличных за границей. Тут все просто. Обычно все ваши транзакции проходят в домашнем регионе, а тут аномалия – внезапное (если вы не предупредили заранее свой банк о поездке) снятие наличных за пределами страны. Наверное, до 50% всех алгоритмов машинного обучения, используемые в том числе и в ИБ, – нестареющая классика. С ее помощью можно быстро решить нужную задачу.

До 75% всех классических алгоритмов – обучение с учителем, то есть работа с уже размеченными или маркированными данными. Например, модели надо сказать: это спам, а это нет; это DDoS, а это нет; это мошенничество (фрод), а это нет. С помощью обучения с учителем вы сможете легко классифицировать новые данные, выявляя в них нечто аномальное. Посредством таких алгоритмов можно обнаруживать загрузку ранее неизвестного вредоносного кода, спам- и фишинговые атаки, DGA-домены (автоматически создаваемые вредоносные домены), коммуникации с командными серверами и ботнетами. Самыми популярными алгоритмами с учителем можно назвать классификацию и регрессию. Классификация позволяет предсказать категорию, а регрессия – предсказать значение. И если вам нужно предсказать, когда у вас будет рост атак, то вам нужна регрессия, а если вы хотите понять, каких атак у вас будет больше через полгода, понадобится классификация. Каждый из обоих типов может подразделяться на подмножества алгоритмов машинного обучения с учителем. Скажем, к классификации относятся деревья решений, random forest или SVM. С их помощью можно детектировать, в частности, атаки SQL Injection или подозрительный HTTP-трафик.

Но что делать, когда входные данные не размечены? Представим себе, что наша система защиты фиксирует четыре неудачных попытки входа под одной учетной записью. Это явное нарушение, поскольку у нас в политике предусмотрено ограничение в три попытки. Для обнаружения четырех и более неудачных попыток не требуется машинное обучение. Активность одной учетной записи из разных географических точек в течение одних суток может означать вредоносную активность. А может и нет, если вы, например, полетели в командировку и заходили в защищаемую систему, скажем, из аэропортов Москвы, Лондона, Нью-Йорка и Чикаго. Такие сценарии банки часто считают мошенничеством, блокируя соответствующие карточные транзакции. Для обнаружения подобной активности также не требуется машинное обучение. А вот для доступа из непривычного места уже понадобится. Потому что мы заранее не знаем, какое место является привычным, а какое – нет. Здесь и поможет обучение без учителя и один из его алгоритмов – кластеризация, которая позволяет объединять схожие события кластеры. Появление нестандартного места входа (не попадающего в кластеры) является аномалией и может служить сигналом кражи учетной записи. Данный подход бывает менее точен, чем обучение с учителем. Так, в вышеприведенном случае может оказаться, что это даже не кража учетной записи, а пользователь дал добро какому-то приложению через OAuth подключаться к защищаемой системе (в частности, к облачному хранилищу) и благополучно забыл об этом.

Другой сценарий, где хорошо срабатывает обучение без учителя, – обнаружение утечек информации или саботаж администратора. Вы не можете сказать, где провести грань между нормальным и аномальным числом удаляемых из облака или скачиваемых по локальной сети на один компьютер файлов. У вас есть возможность только сравнивать между собой этот признак у разных пользователей и групп пользователей, объединяя их в кластеры и выявляя тем самым нормальное и аномальное поведение. Допустим, обычно пользователи в день выгружают в Интернет около 100 Мбит данных, но в один из дней, какой-то пользователь выкачал более 10 Гбит. Это явная аномалия, определяемая и без машинного обучения. Однако машинное обучение нам поможет объединить несколько признаков (например, объем данных, время, протокол, тип данных, адрес получателя) и отделить выгрузку дистрибутива новой версии приложения для удаленных офисов от кражи данных.

Нейросети – это тоже один из видов алгоритмов машинного обучения без учителя, которые в последнее время получают все большую популярность. Обычно они применяются там, где достаточно сложные датасеты (изображения лиц в биометрии, а также голос или изображения документов) или трудно выделить признаки, которые будут выбирать модель в датасете. Ключевая идея нейросети – возможность внутренним ее слоям делать собственные суждения о том, что важно в датасете и что должно быть извлечено из него в процессе обучения. Все вышеописанные примеры могут быть обнаружены нейросетями, но обычно их используют в более сложных сценариях – распознавание фальшивых документов, борьба с угрозами для биометрии, поиск утечек информации в голосовых коммуникациях, распознавание текстов по безопасности и т. п. Одним из серьезных недостатков нейросетей можно назвать отсутствие обратной связи, то есть невозможность объяснить, почему из входных данных получился именно такой результат.

Заключение

Современная информационная безопасность сталкивается с рядом сложностей, среди которых следует назвать огромные потоки событий, снижение экспертизы и нехватку персонала. При этом число атак растет, несмотря на принимаемые меры защиты. В настоящее время средний период необнаружения угроз составляет около 200 дней, что становится результатом реактивности используемых защитных средств. Поэтому сегодня, как никогда, важно применять новые методы борьбы с вредоносной активностью, самым перспективным из которых представляется машинное обучение.

Да, пока мы не достигли того уровня, чтобы полностью отказаться от участия человека в принятии решений в области кибербезопасности. Абсолютное большинство разработанных сегодня моделей позволяет нам детектировать новые угрозы, аномалии и подозрительные действия, отвечая на вопросы «что случилось?» и «почему это случилось?». Пока мы почти не умеем предсказывать будущее в ИБ (исключая некоторые узкие сферы), а потому вопрос «что случится?» остается без ответа. И уж тем более мы не знаем, как ответить на вопрос «что я должен сделать?» (предписывающая аналитика, которая является уделом будущего).

Машинное обучение и информационная безопасность. Рис. 2

За последние шесть лет на рынке кибербезопасности было зафиксировано свыше 220 поглощений, связанных с искусственным интеллектом. Это направление в настоящий момент входит в пятерку самых распространенных сделок, а многие игроки (исключая, пожалуй, отечественных) рынка ИБ активно инвестируют в технологии машинного обучения, интегрируемые в свои продукты. Но конечный потребитель в массе своей пока не может активно воспользоваться всеми преимуществами искусственного интеллекта – у него нет для этого ни правильно обработанных датасетов, ни, что самое важное, квалифицированных аналитиков данных, способных самостоятельно разработать или применить существующие модели анализа. Однако даже для того, чтобы пользоваться моделями машинного обучения в приобретаемых или эксплуатируемых решениях, необходимо понимать, что представляет собой данная технология.

Однако следует помнить, что машинное обучение не панацея. Во-первых, существует целый класс атак на него, направленных как на датасеты, так и на сами алгоритмы, что может привести к неверным решениям, пропущенным атакам или ложным срабатываниям. А во-вторых, злоумышленники тоже начинают применять методы машинного обучения в своей криминальной деятельности – создании вредоносных программ, анализе поведения пользователей, разработке ботов-сборщиков персональных данных, поиске уязвимостей, фишинге, подборе паролей, подмене личности, обходе систем защиты и т. п. И противопоставить таким злоумышленникам можно только искусственный интеллект. Поэтому применение машинного обучения в информационной безопасности – необходимость, без которой современную систему кибербезопасности представить невозможно.

Журнал IT Manager

Опубликовано 31.10.2018

Об авторах

Алексей Лукацкий

Бизнес-консультант по безопасности Positive Technologies

Искусственный интеллект AI Безопасность

Предыдущая
Сайты российских вузов уязвимы для кибератак

Следующая
Банковские трояны проникли в Google Play

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30