Машинное обучение против мошенничества в банковской сфере

Один из первых вопросов, возникающих при решении задачи создания модели выявления мошенничества, — как создать выборки для обучения и оценки нашей модели

При разработке новых цифровых сервисов Сбербанк ставит безопасность транзакций и средств своих клиентов во главу угла. В банке работает эшелонированная защита всех онлайн-услуг. Она включает ряд защитных механизмов: подтверждение операций с помощью одноразовых паролей, шифрование трафика, использование встроенных антивирусных решений в приложениях и т. д.

Одним из элементов такой защиты выступает система выявления и предотвращения мошеннических транзакций. О том, что собой представляет такая система и какие вызовы возникают при ее реализации, мы и поговорим.

Исторический подход

На заре появления кибермошенничества в России в Сбербанке для выявления мошеннических транзакций использовался набор правил. Его создавали эксперты банка, регулярно анализирующие и работающие с кейсами мошенничества. Обычно каждое из правил представляло собой совокупность жестких условий, при выполнении которых транзакция считалась подозрительной:

ЕСЛИ (интернет-провайдер, новый для клиента) И (сумма транзакции > 20 000) И (получатель платежа, новый для клиента) ? доп. проверка.

Жесткие условия, при несоблюдении которых правила не срабатывали, были их существенным недостатком.

Следующим этапом развития системы выявления мошенничества в Сбербанке было построение алгоритмов-правил с большим количеством гибких условий и использованием клиентозависимых величин. В таких правилах выполнение каждого из условий увеличивает оценку риска на некоторую величину, и если итоговая оценка превышает порог, транзакция считается подозрительной и отправляется на дополнительную проверку.

В вымышленном примере, изображенном на рисунке, наличие двух любых условий приведет к тому, что оценка риска станет равна 25 и транзакция будет отправлена на дополнительную проверку.

Правила, построенные по такому принципу, не только усложняют их обход, но и позволяют снизить число ложных срабатываний, так как учитывают индивидуальные особенности и характер транзакций клиентов.

Машинное обучение против мошенничества в банковской сфере. Рис. 1

Однако ключевой недостаток систем, построенных на наборах правил, оставался и в этом случае. Эксперты должны были постоянно актуализировать и донастраивать такие системы вручную, потому что мошенники подстраиваются под защитные механизмы и ищут пути их обхода. К другим недостаткам систем выявления мошенничества, построенных на основе правил, можно отнести: ·

небольшое число используемых параметров (редко аналитики используют в правилах более 10 бизнес-параметров в одном правиле и, как следствие, выявляют только очевидные корреляции между параметрами и фродом);
они субъективны (у каждого эксперта из приведенного примера может быть своя оценка веса риска условий, и это не дает вероятностные оценки — такая особенность не позволяет ранжировать сработки);
позволяют обнаруживать только уже известные кейсы фрода;
число правил постоянно растет, и процесс их поддержки в актуальном состоянии — отдельная сложная задача.

Data Driven

Растущие объемы транзакций в удаленных каналах обслуживания, появление новых платежных инструментов, усложнение мошеннических схем — эти факторы сыграли решающую роль при реализации Сбербанком системы выявления мошенничества (далее по тексту — СВМ). Во-первых, она должна была быть масштабируемой, во-вторых, проактивной и, наконец, в ней не должно было быть описанных выше недостатков. Для решения данной задачи специалисты по кибербезопасности Сбербанка при создании СВМ использовали методы машинного обучения.

Можно сказать, что машинное обучение является ничем иным, как Data Driven-подходом к решению задачи, то есть на основании данных компьютер сам определяет мошеннические паттерны и строит модель для их выявления.

Этот подход имеет следующие преимущества по сравнению с системой экспертных правил:

может выявлять сложные паттерны фрода, используя все доступные параметры и данные;
адаптироваться к изменяющимся и появляющимся схемам мошенничества без необходимости постоянно дописывать новые правила;
результатом работы является вероятность мошенничества — число, которое можно ранжировать;
обрабатывать и обучаться на очень больших объемах данных;
выявлять ранее не известные типы фрода (аномалии в транзакциях).

Однако этот подход не лишен и недостатков:

для обучения таких систем зачастую требуется большое количество прецедентов (примеров)
многие модели представляют собой «черные ящики», не позволяющие определить, почему та или иная транзакция была определена как подозрительная

В качестве примера рассмотрим задачу выявления мошеннических транзакций по картам, но описанные подходы актуальны и для других каналов, например интернет-банка. Процесс проведения транзакции можно представить в виде следующих шагов:

автоматизированная система при проведении операции отправляет ее на оценку в СВМ;
СВМ, используя доступные данные по транзакции и дополнительные источники, проводит оценку риска транзакции;
если оценка риска ниже установленного порога, то операция отправляется на исполнение;
если оценка риска выше установленного порога, то операция отправляется на дополнительную проверку валидаторам;
валидаторы по результатам проверки (например, обратной связи от клиента) либо разрешают, либо отклоняют операцию;
результат проверки события фиксируется и возвращается в качестве обратной связи в СВМ;
дополнительно фиксируется информация о мошенничестве, которая поступает от клиентов и не была выявлена системой. Эти данные также используются для обучения.

Главным компонентом СВМ является модель, реализующая скоринг транзакций. Отметим, что для решения данной задачи мы будем рассматривать наиболее распространенный supervised-подход (обучение с учителем).

Недостаточность данных из транзакции

Один из первых вопросов, возникающих при решении задачи создания модели выявления мошенничества, — как создать выборки для обучения и оценки нашей модели.

Разделение транзакций на мошеннические и легитимные происходит в результате дополнительных проверок сработок текущей системы выявления случаев мошенничества или обращений по проблемам с мошенничеством от клиентов. Однако с пространством признаков, описывающих события, не все так однозначно.

В СВМ приходят следующие сведения о транзакциях: номер карты/идентификатор клиента, сумма, дата, время, тип операции, наименование поставщика услуг, способ подтверждения и несколько других. Информации о поведении клиента в них не содержится.

Практика службы кибербезопасности Сбербанка показывает, что для построения эффективной СВМ в дополнение к имеющимся данным о транзакциях следует создать дополнительные признаки, описывающие поведение клиента.

При создании признаков используется широкий набор различного рода агрегаций, математических функций: перцентили, средние и отклонения, скользящие окна и многое другое. Примеры возможных признаков:

среднее расходов клиента в разрезе типов операций со скользящим недельным окном за последние три месяца, его среднеквадратичное отклонение;
среднее/перцентили расходов клиента в разрезе типов операций с дневным скользящим окном за последний месяц;
число предыдущих транзакций по данному мерчанту всего/за последние 30 дней;
время текущей транзакции относительно распределения времени проведения операций клиентом за последние три месяца;
наличие жалоб на поставщика услуг за последний месяц и т. д.

Помимо признаков, основанных только на количественных/частотных показателях предыдущих транзакций клиента, специалисты Службы кибербезопасности Сбербанка используют также графовые представления операций. Таким образом можно получить дополнительные признаки, релевантные для выявления мошеннических операций.

На данный момент у нас есть свыше 50 различных базовых критериев, которые при комбинациях и объединениях дают больше 200 итоговых признаков, использующихся в моделях.

Метрики оценки эффективности

Прежде чем перейти к обучению модели, нужно понять, как оценивать ее качество. Без этого невозможно сравнивать разные решения и фиксировать улучшения. Выбор метрик для оценки эффективности модели — нетривиальная задача по ряду причин:

1) сильная несбалансированность классов;

2) сложность определения стоимости правильной и неправильной классификации фрода;

3) ограничение на число обрабатываемых событий (выделенные ресурсы на разбор), генерируемых СВМ.

Традиционные метрики, такие как точность (accuracy) или уровень ошибки (error rate), не подходят из-за сильной несбалансированности классов. Например, при доле фрода 0,1 %, предсказывая все транзакции как легитимные, мы получаем точность 99,9 %.

Более релевантными метриками в подобных задачах являются F-мера (гармоническое среднее) и G-мера (геометрическое среднее). Обе величины при своем расчете учитывают и точность, и полноту модели. В частности, F-мера в описанном случае (предсказывать все транзакции как легитимные) равна 0. F-мера идеального классификатора равна 1. Однако обе они зависят от выбранного порога срабатывания классификатора, вот почему важно оценивать эти величины на различных порогах.

Другая метрика, часто используемая в задачах с несбалансированными классами, — AUC, оценивающая интегральный показатель качества модели независимо от выбора порога

Вместе с тем AUC выражает эффективность классификатора на всем множестве, тогда как нас зачастую интересует эффективность только до определенной зоны порогов отсечек. В таком случае следует воспользоваться partialAUC.

Представленные метрики характеризуют качество классификации модели. Но для задачи выявления мошенничества пригодны и метрики из области ранжирования — фродовые кейсы ранжируют максимально высоко, что особенно важно в условиях ограниченного объема обрабатываемых валидаторами событий.

Лучше всего подходят такие метрики, как Average Precision (AP) и Average Pricison at K (AP@k). AP аналогично AUC оценивает модель на всем множестве значений, тогда как AP@k определяет качество ранжирования на топ-k-элементах. Обе метрики тем больше, чем выше модель ранжирует кейсы мошенничества относительно легитимных транзакций. Модель, которая все фродовые события классифицирует выше легитимных, будет иметь показатели, равные 1.

Выбор метрик в каждом конкретном случае зависит от поставленной задачи, ограничений и доступности данных.

Проблему выявления мошеннических транзакций по картам мы в своей практике решаем с помощью метрик AP@k, precision/recall и partialAUC в пределах порога модели, соответствующего допустимому объему срабатываний.

Методы out-of-box не работают

Объемы карточных транзакций составляют сотни миллионов штук. А доля мошенничества в них не превышает сотых или даже тысячных долей процента — это очень сильная несбалансированность классов транзакций, так называемая unbalanced problem. Кроме того, их распределение сильно пересекается (class overlaping) — мошенники стараются проводить транзакции таким образом, чтобы они максимально походили на легитимные.

В результате большинство алгоритмов, обученных на подобных несбалансированных данных, демонстрируют плохие результаты, поскольку оптимизируют такие величины, как уровень ошибки (error rate) без учета распределений между классами. В худшем случае получается тривиальный классификатор, который всегда определяет транзакцию как легитимную.

В решении данной проблемы (unbalance + overlapping) можно выделить две группы: методы, работающие на уровне данных (data level) и на уровне алгоритмов (algorithm level).

При использовании первой группы методов данные преобразуются на этапе препроцессинга (до начала обучения алгоритма) так, чтобы в результате получить более сбалансированный и очищенный набор сведений. Методы на уровне данных можно разделить на следующие группы:

сэмплирование (under- и oversampling), в результате которого происходит или прореживание основного класса, или же дублирование/искусственная генерация (SMOTE) примеров минорного класса;
методы, основанные на вычислении расстояний (distance-based), в которых обычно происходит прореживание основного класса, но с учетом расстояний до границ классов и/или удаление шумовых/граничных примеров каждого из классов. Примеры таких алгоритмов — Tomek link, One Sided Selection, Neighborhood Cleaning Rule.

Методы на уровне алгоритмов заключаются в модификации существующих и разработке новых алгоритмов с учетом неравномерного распределения транзакций и минорного класса. Примеры таких алгоритмов — HDDT, Box Drawnings. В ряде алгоритмов присутствуют и параметры, позволяющие изменять стоимость ошибки классификации разных классов (cost-sensitive learning). Увеличивая стоимость ошибки минорного класса, мы тем самым повышаем приоритет правильной классификации алгоритмов именно мошеннических транзакций по сравнению с легитимными.

В Сбербанке мы используем подход, который хорошо зарекомендовал себя во многих практических задачах, — комбинацию undersampling-метода и обучения ансамбля классификаторов. Например, BalanceCascade, в котором последовательно обучается серия классификаторов (random forest). При этом на каждом этапе сначала посредством undersampling формируется более сбалансированная выборка и обучается классификатор, а затем из исходного набора данных удаляются корректно классифицированные сэмплы основного класс,а и операция повторяется вновь. Итоговая модель представляет собой набор таких классификаторов.

Еще один часто используемый нами метод — EasyEnsemble. Заметим, что оптимальный уровень сэмплирования (отношение минорного класса к основному) не обязательно должен быть один к одному. Он зависит от данных, а также используемого алгоритма. У нас в некоторых задачах оптимальный параметр получался по-прежнему несбалансированным, но уже не столь экстремальным — один к десяти. Поэтому уровень сэмплирования нужно рассматривать как один из параметров модели и наряду с другими параметрами постоянно его оптимизировать (поиск оптимального значения).

При использовании сэмплирования следует иметь в виду, что оно искривляет апостериорную вероятность, возвращаемую моделью. Это происходит потому, что при подготовке обучающих выборок изменяется соотношение классов по сравнению с реальным распределением в данных. Соответственно, если эту вероятность планируется использовать помимо ранжирования кейсов (например, при блендинге/стэкинге нескольких моделей), то прежде необходимо провести ее калибрацию.

Заключение

К настоящему времени в Сбербанке разработан и внедрен целый ряд моделей для противодействия различным аспектам кибермошенничества (выявления мошеннических транзакций в разных каналах, мошеннических групп и их связей и др.), а также ансамбли из этих моделей.

Переход от статических правил к моделям, построенным с помощью машинного обучения, оказал колоссальное положительное влияние:

уровень фрода удалось сократить в несколько раз при постоянном росте транзакционной активности и появлении новых продуктов и услуг;
автоматизирован процесс реагирования на модификации и появления новых схем мошенничества, увеличена скорость реакции;
улучшен клиентский опыт за счет снижения ложных срабатываний системы, а также повышены лимиты проведения операций;
процессы оценки эффективности работы стали прозрачнее.

Кибербезопасность Сбербанка и дальше будет развиваться в направлении применения передовых исследований и разработок в области BigData, Machine Learning, Artificial Intelligence для обеспечения безопасности наших клиентов и банка в целом. Применение таких технологий для противодействия мошенничеству уже не конкурентное преимущество, а жизненная необходимость для адекватного ответа на современные вызовы киберпреступности.

Журнал IT Manager

Опубликовано 19.05.2017

Безопасность Машинное обучение

Предыдущая
Защита себя от своих

Следующая
АПКИТ инициировала Хартию по информационной безопасности

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30