Максим Коновалихин: «Data fusion — единственное направление, куда можно бежать без особой опаски»

Руководитель департамента анализа данных и моделирования банка ВТБ

Как объединить цифровые следы с помощью геоаналитики, сохранив целостность данных для моделирования? Как сделать работу с данными понятной для бизнеса? И почему роботы и голосовые помощники — это сложно?

На вопросы журнала IT Manager отвечает cтарший вице-президент, руководитель департамента анализа данных и моделирования банка ВТБ, участник премии CIO Awards в номинации «Инновационный подход» Максим Коновалихин.

Расскажите, пожалуйста, об инновационных подходах в обработке данных в ВТБ.

Коротко расскажу о той структуре, что была создана с приходом новой команды в 2019 году. В банке действительно стартовала глобальная цифровая трансформация, частью которой являемся и мы департамент анализа данных и моделирования. Наверное, из названия примерно понятно, чем мы занимаемся. Единственное, что, используя предыдущий опыт, мы решили немного изменить принцип организации работы с данными и моделированием.

Моделирование как процесс требует ресурсов. Естественно, с ростом бизнеса потребность в моделях тоже повышается. Обычно это приводит к линейному наращиванию ресурсов, что проблематично с точки зрения управления и распределения общих функций. Поэтому мы решили выбрать другой путь, а именно «модель как сервис», то есть охватить все этапы производства: получение данных, создание витрин, саму математику и внедрение модели в промышленное использование, затем дальнейшая поддержка и мониторинг. По сути, получается некий замкнутый цикл, из которого можно по необходимости выходить, для полной переработки модели.

За рубежом это называют MLOps. Мы говорим проще: «Система управления моделями». Инновационность в том то, что мы фактически сконцентрировали в одном месте всю функцию. Другими словами, она не разбросана по банку. Таким образом, мы контролируем все модели, которые сами разрабатываем и внедряем. С точки зрения управления действительно получается эффективно.

Вот один из свежих примеров. За полтора года мы создали достаточно много моделей. Когда к нам приходят коллеги из бизнес-подразделений, нам нужно время для понимания, какая модель требуется. В какой-то момент стало ясно, что большая часть необходимых моделей фактически уже есть. Когда мы рассказали коллегам о существовании реестра моделей, куда можно зайти, посмотреть и выбрать то, что нужно, результат, скажу честно, даже мне самому понравился. Оказалось, что люди тоже были приятно удивлены наличию сервиса, из которого можно взять все необходимое и выйти на пилот с какими-то «косметическими» изменениями. В моем понимании, мы за год добились цели. Элемент «модель как сервис» заработал.

Реестр моделей объединяет информациюпо целой инфраструктуре платформ: геоплатформа, графовая платформа, AutoML-платформа, NLP-платформа и пр. На мой взгляд, для data-scientist -специалистов это благодатная почва для работы. Понятно, что банк большой и многое еще работает децентрализованно, но наша цель — соединить все в одном месте.

Хотелось бы уточнить, кто отвечает за данные организационно? Бизнес или вы? И второе: пока еще не все в ваших руках, но вы, видимо, намерены сконцентрировать все моделирование, анализ данных и data scientist в своем подразделении?

По поводу первого вопроса: за данные действительно отвечает бизнес, поскольку владеет ими. Это достаточно тонкая, болезненная тема. Мы сейчас много над этим думаем.

Отвечая на второй вопрос, отмечу, data scientist-специалистыдействительно сконцентрированы у нас. В начале нашей работы небольшие подразделения существовали в других блоках.Теперь структурно эти специалисты относятся к нам. В банке есть множество давно функционирующих процессов, поэтому поменять все сразу, «повытаскивать» все модели из этих линеек и перенести в централизованную систему, конечно, сложно. Вот почему и сделали даже некую дорожную карту по переходу в целевые системы. Эта процедура, увы, занимает не один год. Пока внедряться в чужие системы и контролировать все модели физически просто невозможно.

Но цель такая стоит? То есть целевое положение — это централизованное управление моделированием?

Да, и для этого у нас есть хорошие программы миграции платформ данных, когда все данные из разных систем централизуются и сливаются в единое хранилище.

Хранилище все-таки будет одно?

Да, там тоже сейчас идет большая программа, но, естественно, под эгидой ИТ. Мы скорее потребители: делаем фактически витрины данных из того, что необходимо для моделирования. Этот мостик на самом деле достаточно тонкий. Бизнес часто приходит и просит: «Ребята, вот вы data scientist, нам нужна такая модель, поищите данные для нее в хранилище». А что такое «поискать» в десятках тысячах таблиц? Можно специалиста впустить и никогда обратно уже не вернуть. Поэтому сейчас мы — связка бизнес с ИТ — начинаем вместе работать над этими описаниями, их действительно не хватает. Это тоже дорога, которую только предстоит осилить. Пока наша работа начинается от витрин данных — мы их разрабатываем сами, над этим трудится целое управление.

Давайте тогда про «модели как сервис». Как вы справляетесь с ситуацией, когда ИТ или data scientist создали множество витрин, моделей и отчетов, но никто в этом не ориентируется? Как у вас организовано управление уже имеющимися инструментами для работы с данными и как вы учите бизнес всем этим пользоваться? Подозреваю, что это непростой процесс.

Вы абсолютно правы, это не самый простой процесс. У нас был, есть и продолжает развиваться проект «система управления моделями» — набор дэшбордов, которые позволяют отслеживать модель на всех этапах ее производства. Первая фаза закончилась в декабре, и мы очень довольны, что проект пошел в пром — бизнес потихоньку заходит в эту тему и начинает понимать, как все происходит.

Также мы наладили систему заявок на разработку модели с чек-листами для бизнеса. У нас ведется полная документация и, соответственно, артефактом модели является полновесный отчет о разработке: какие данные использовались и их локация, какие модельные подходы были применены, какие результаты получены. То есть все доступно в любой момент. Как мы и раньше говорили, модель — она тогда модель, когда любой scientist, который не был вовлечен в процесс ее разработки, может прийти и полностью ее восстановить. Мысли на бумажке или куски кода в компе невосстановимы, и все этого «наелись» так, что никто больше не хочет.

К этим моделям есть какой-то интерфейс? Как с ними может работать бизнес? Как это выглядит?

Бизнес, конечно, напрямую модель не запускает. В большинстве случаев факт приемки — это проведение пилота. Мы показываем результат отработки моделей, и уже на цифрах люди говорят: «Да, окей, нас это устраивает. То, что вы обещали, мы получили, модель принимается». И только потом идет внедрение в пром.

То есть бизнес может в любой момент сделать запрос в ваш департамент, и вы по уже готовым моделям выдаете им некие результаты?

Да, внутренние клиенты имеют доступ к результатам, к тому, где и как данные используются. Они постоянно получают их и, естественно, работают с ними. Опять-таки, причиной доработки модели могут стать жалобы или какой-то запрос от бизнеса, если качество перестало удовлетворять.

Расскажите, пожалуйста, про геоплатформу и связанные с этим результаты.

Геоплатформа — тоже наша гордость. Мы начали целенаправленно этим заниматься достаточно давно, теперь у нас внутри банка порядка двух сотен хороших слоев. Понятно, что данные в ней не только банковские — часть мы закупаем, и это весьма серьезная инвестиция. Вместе с тем, чтобы упаковать все слои в квадратики 500 на 500 метров в 80 крупнейших городах страны, а затем привязать к этому все полученные данные, сотрудники проделали серьезную работу с точки зрения математики и программирования. Вернее, она продолжается, потому что мы все время находимся в поиске новых слоев интересных данных.

Мы уже сделали на основе этих данных модель по размещению банкоматов, точек продаж и так далее. Честно скажу, скепсиса было очень много, но результаты превзошли ожидания. Команда международных консультантов, которая ознакомилась с проектом, сказала, что такого в России пока не видели. Уровень управления, понятности и удобства этой модели очень высок. Бизнес-эффект тоже оказался достаточно мощным — все инвестиции хорошо окупились.

Мы работаем по этому направлению в рамках СП ВТБ и Ростелекома – Platforma («Платформа больших данных»). Количество заказчиков возросло, рекламные компании серьезно ею заинтересовались: анонс проекта с Russ Outdoor один из наших первых пилотных проектов. Сейчас мы работаем с довольно крупными заказчиками, в том числе ведем переговоры с ДИТ Москвы. Проще говоря, год назад эта тема получила импульс, который теперь дает хорошее ускорение. Сами направления работы начали меняться с того момента, как мы начали широко применять глубокое обучение в геоаналитике. Мы создали принципиально новый продукт на рынке - управляемые векторные представления геоданных geo-embeddings, которые совершенно безопасны с точки зрения восстановления первоначальных данных, при этом полностью сохраняют свою ценность для задач моделирования.

Продажи geo-embedding становятся интересными для рынка. Мы первые заговорили о том, что они нужны для улучшения бизнеса. Разумеется, для нас это тоже бизнес, но одновременно мы предоставляем людям, не имеющим возможности инвестировать такие средства в производство геоплатформ, элементы геоаналитики, которые они успешно встраивают в свои модели и получают желаемый эффект. Так что, на мой взгляд, продукт получился весьма интересным, как и data fusion. Народ явно заинтересовался именно обезличенным слиянием данных. Это очень перспективная вещь. Наверное, единственное направление, куда можно бежать без особой опаски, что сейчас все закроют.

История с геоплатформой показала, насколько это может быть интересно, что инвестиции в данные – это сам по себе бизнес. Можете привести примеры оценки эффективности? Что с чем сопоставляют?

Бизнес-эффекты внутри банка можно посчитать, допустим, по оптимальному распределению банкоматов в банкоматной сети. Эффективное расположение банкоматов позволяет оптимизировать расходы на них и их содержание.

Планируется ли дальнейшее развитие геоплатформы и появление новых слоев и embedded-наборов?

Однозначно там множество разных технологий. Помимо обезличенного обучения моделей, у нас есть система, позволяющая обучать их федеративно: одна часть модели обучается в одном месте, другая — в другом. Это сложнее, но есть и свои плюсы. Мы сейчас много тестируем такие методы, потому что у банка достаточно амбициозные планы по партнерству разного рода. А где партнерства — там и данные. Как с этим работать без нарушений — тоже вопрос, и нарушать, конечно, совершенно хочется.

Если у вас есть подход, связанный с обезличиванием, который вы называете fusion, то, видимо, это решает проблему?

Решает, но это не самое простое решение.

Используете ли вы RPA для обработки данных и анализа? И если да, то насколько плодотворно?

Активно используем. Запросы на программных роботов начали поступать сразу, с момента, как мы пришли. Особенно из операционного блока поскольку люди там просто завалены бумагой. Десяток этих роботов в каком-то смысле облегчил им жизнь но, честно скажу, меня сейчас больше всего интересует наша AutoML-платформа. Не секрет, что у нас идет работа над голосовым помощником: по факту он уже появился, но эта забава явно не на один год. Сейчас мы почти в самом начале пути и много работаем с МФТИ в рамках лаборатории, которую открыли в апреле. Однако еще в начале года стало ясно: эти роботы, или голосовые помощники, сложны тем, что появляется необходимость генерировать сотни, если не тысячи моделей. Такая вариативность требует чуть ли не армию специалистов. Причем модели сами по себе несложные, но их очень много. И мы поняли, что это путь в никуда — руками поддерживать невозможно.

К счастью, мы сразу пошли в этот проект, так что есть надежда, что к концу третьего квартала генерация заработает. Пока делали голосового помощника, геоплатформенные запросы появились под AutoML-платформу и другие задачи. Моделей очень много, поэтому их конструированием занимается программа, чтобы не делать все руками.

Журнал IT Manager

Опубликовано 05.10.2021

ВТБ ГИС (геоинформационные системы)Аналитика Цифровизация Robotic process automation (RPA)

Предыдущая
MERLION IT Summit 2021: повод идти вперед

Следующая
Финское качество

Новостная лента

Главное за неделю

Нажимая на кнопку, я принимаю условия соглашения.

Соглашение об использовании сайта

Внимательно прочитайте настоящее Соглашение, прежде чем начать пользоваться Сайтом. Вы обязаны соблюдать условия настоящего Соглашения, заходя на Сайт и используя сервисы, предлагаемые на Сайте. В случае, если Вы не согласны с условиями Соглашения, Вы не можете пользоваться Сайтом или использовать любые сервисы, предлагаемые на Сайте, а также посещать страницы, размещенные в доменной зоне Сайта. Начало использования Сайта означает надлежащее заключение настоящего Соглашения и Ваше полное согласие со всеми его условиями.

1. Термины и определения

1.1. Компания - Общество с ограниченной ответственностью «ИТ Медиа» (ООО «ИТ Медиа»).

1.2. Пользователь - лицо, получающее доступ к сервисам и информации, размещенным на Сайте.

1.3. Сайт – веб-сайт Компании, размещенный в сети Интернет по адресу https://www.it-world.ru.

1.4. Соглашение - настоящее Соглашение между Пользователем и Компанией, устанавливающее правила использования Сайта, включая графические изображения, элементы дизайна и средства индивидуализации, текстовую информацию и документацию, программы для ЭВМ и файлы для скачивания, любые иные произведения, объекты и материалы Сайта, а также условия и правила размещения Пользователем информации и материалов в соответствующих открытых разделах Сайта.

2. Общие положения и условия

2.1. Любые материалы, файлы и сервисы, содержащиеся на Сайте, не могут быть воспроизведены в какой-либо форме, каким-либо способом, полностью или частично без предварительного письменного разрешения Компании, за исключением случаев, указанных в настоящем Соглашении. При воспроизведении Пользователем материалов Сайта ссылка на Сайт обязательна, при этом текст указанной ссылки не должен содержать ложную, вводящую в заблуждение, уничижительную или оскорбительную информацию. Перевод, переработка (модификация), любое изменение материалов Сайта, а также любые иные действия, в том числе удаление, изменение малозаметной информации и сведений об авторских правах и правообладателях, не допускается.

2.2. Действующая редакция настоящего Соглашения размещена в сети Интернет на Сайте по адресу: https://www.it-world.ru/about/agreement.php. Компания вправе в любое время в одностороннем порядке изменять условия настоящего Соглашения. Такие изменения вступают в силу по истечении 2 (двух) дней с момента размещения новой версии Соглашения в сети Интернет на Сайте. При несогласии Пользователя с внесенными изменениями он обязан удалить все имеющиеся у него материалы Сайта, после чего прекратить использование материалов и сервисов Сайта. Ваше регулярное посещение данного Сайта считается вашим убедительным принятием измененного соглашения, поэтому Вы обязаны регулярно просматривать настоящее Соглашение и дополнительные условия или уведомления, размещенные на Сайте.

3. Обязательства Пользователя

3.1. Пользователь обязуется не предпринимать действий, которые могут рассматриваться как нарушающие российское законодательство или нормы международного права, в том числе в сфере интеллектуальной собственности, авторских и/или смежных правах, а также любых действий, которые приводят или могут привести к нарушению нормальной работы Сайта и сервисов Сайта.

3.2. Любые средства индивидуализации, в том числе товарные знаки и знаки обслуживания, а равно логотипы и эмблемы, содержащиеся на страницах Сайта, являются интеллектуальной собственностью их правообладателей. Пользователю Сайта запрещено воспроизводить или иным способом использовать указанные средства индивидуализации и/или их элементы без предварительного письменного разрешения соответствующих правообладателей.

3.3. Компания стремится обеспечить, однако не контролирует и не гарантирует конфиденциальность и охрану любой информации, размещенной на Сайте или полученной с Сайта. Компания принимает разумные меры в целях недопущения несанкционированного разглашения размещенной Пользователем на Сайте информации третьим лицам, однако не несет ответственность в случае, если такое разглашение было допущено. В этой связи, передача информации на Сайт означает согласие Пользователя на любое воспроизведение, распространение, раскрытие и иное использование такой информации. Размещая информацию и материалы, включая, фотографии и изображения, Пользователь также гарантирует, что обладает всеми правами и полномочиями, необходимыми для этого, с учетом условий настоящего Соглашения и что такое размещение не нарушает охраняемые законом права и интересы третьих лиц, международные договоры и действующее законодательство Российской Федерации.

3.4. Пользователь самостоятельно несет ответственность за любую информацию и материалы, размещенные им на Сайте. Компания не инициирует размещение указанной информации, не выбирает получателей информации, не влияет на содержание и целостность размещаемой информации, а также в момент размещения Пользователем информации на Сайте не знает и не может знать, нарушает ли такое размещение действующее законодательство Российской Федерации, однако Компания вправе отслеживать, просматривать и/или удалять любую информацию и материалы, размещенные Пользователем на Сайте. При размещении любой информации и материалов Пользователь не становится соавтором Сайта и отказывается от каких-либо претензий на такое авторство в будущем. Компания не выплачивает Пользователю авторского или любого иного вознаграждения, как в период, так и по истечении срока действия настоящего Соглашения.

3.5. В случае предъявления третьими лицами претензий Компании, связанных с нарушением Пользователем условий настоящего Соглашения, а равно с размещенной Пользователем информацией на Сайте, указанный Пользователь обязуется самостоятельно урегулировать такие претензии, а также возместить Компании все понесенные убытки и потери, включая возмещение штрафов, судебных расходов, издержек и компенсаций.

3.6. Компания не несет ответственности за посещение Пользователем, а также любое использование им внешних ресурсов (сайтов третьих лиц), ссылки на которые могут содержаться на Сайте. Компания не несет ответственности за точность, надежность, достоверность и безопасность любой информации, материалов, рекомендаций и сервисов, размещенных на внешних ресурсах. Использование внешних ресурсов осуществляется Пользователем добровольно, исключительно по собственному усмотрению и на свой риск.

3.7. Компания стремится к обеспечению достоверности информации, размещенной на Сайте, однако не несет ответственности за любые неточности и/или недостоверность информации, а равно сбои в работе предоставляемых через Сайт сервисов. Пользователь согласен с тем, что Компания не несет ответственность и не имеет прямых или косвенных обязательств перед Пользователем в связи с любыми возможными или возникшими потерями, или убытками, связанными с любым содержанием Сайта, интеллектуальной собственностью, товарами или услугами, доступными на нем или полученными через внешние сайты или ресурсы либо иные ожидания Пользователя, которые возникли в связи с использованием размещенной на Сайте информации или ссылки на внешние ресурсы. Ни при каких условиях, включая, но не ограничиваясь невнимательностью или небрежностью Пользователя, Компания не несет ответственности за любой ущерб (прямой или косвенный, случайный или закономерный), включая, но не ограничиваясь потерей данных или прибылей, связанной с использованием или невозможностью использования Сайта, информации, файлов или материалов на нем, даже если Компания или ее представители были предупреждены о возможности такой потери. В случае, если использование Сайта приведёт к необходимости дополнительного обслуживания, исправления или ремонта любого оборудования, а равно восстановления данных, все связанные с этим затраты оплачиваются Пользователем самостоятельно.

3.8. Вся представленная на Сайте информация предоставляется «как есть», без каких-либо гарантий, явных или подразумеваемых. Компания полностью, в той мере, в какой это разрешено законом, отказывается от какой-либо ответственности, явной или подразумеваемой, включая, но не ограничиваясь неявными гарантиями пригодности к использованию, а также гарантиями законности любой информации, продукта или услуги, полученной или приобретенной с помощью этого Сайта.

3.9. Пользователь согласен, что все материалы и сервисы Сайта или любая их часть могут сопровождаться рекламой. Пользователь согласен с тем, что Компания не несет какой-либо ответственности и не имеет каких-либо обязательств в связи с такой рекламой.

4. Условия обработки и использования персональных данных. Принимая условия настоящего Соглашения Пользователь выражает свое согласие на:

4.1. Предоставление своих персональных данных, включающих имя, номера контактных телефонов; адреса электронной почты; место работы и занимаемая должность; пользовательские данные (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) своей волей и в своем интересе.

4.2. Цель обработки персональных данных:

предоставление Пользователю услуг Сайта;
направление уведомлений, касающихся услуг Сайта;
подготовка и направление ответов на запросы Пользователя;
выполнение регулярной информационной рассылки;
направление информации о продуктах и услугах Компании, а также рекламно-информационных сообщений, касающихся продукции и услуг Компании и ее партнеров.

4.3. Перечень действий с персональными данными, на которые Пользователь выражает свое согласие:

сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, передача третьим лицам для указанных выше целей, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.

4.4. Компания обязуется принимать все необходимые меры для защиты персональных данных Пользователя от неправомерного доступа или раскрытия.

4.5. Настоящее согласие действует до момента его отзыва Пользователем путем направления соответствующего уведомления заказным письмо с уведомлением на адрес Компании.

5. Прочие положения

5.1. Использование материалов и сервисов Сайта, а равно размещение на нем материалов Пользователя, регулируется нормами действующего законодательства Российской Федерации. Все возможные споры, вытекающие из настоящего Соглашения или связанные с ним, подлежат разрешению в соответствии с действующим законодательством Российской Федерации по месту нахождения Компании.

5.2. Признание судом какого-либо положения Соглашения недействительным или не подлежащим принудительному исполнению не влечет недействительности иных положений Соглашения.

5.4. Бездействие со стороны Компании в случае нарушения кем-либо из Пользователей положений Соглашения не лишает Компанию права предпринять соответствующие действия в защиту своих интересов и защиту авторских прав на охраняемые в соответствии с законодательством материалы Сайта позднее.

Пользователь подтверждает, что ознакомлен со всеми пунктами настоящего Соглашения и безоговорочно принимает их.

По всем вопросам, связанным с нарушением авторских прав Компании, незаконного использования материалов Сайта или размещением ложной, вводящей в заблуждение информации о Компании, просим обращаться по  следующим контактным данным:

ООО «ИТ Медиа» ИНН 7802426999, КПП 781301001,
Санкт-Петербург, ул Большая монетная, 16 / К. 30 литера А, пом. 14-Н №30