Максим Маркеев: история профессионального успеха

Логотип компании
Интернет-предприниматель, специалист по работе с данными и эксперт по конкурсам машинного обучения с международными наградами Маркеев Максим Валерьевич рассказал, как он освоил профессию Data Scientist абсолютно бесплатно, нашел работу и познакомился с интересными людьми.

В статье он поделился личным опытом и дал практические рекомендации, которые будут полезны не только новичкам, но и опытным специалистам. Главное отличие от классического обучения: обучение не на курсах, а на конкурсах.

Как у вас возникла идея освоить профессию Data Scientist?

В 2020 году я продал свой интернет-бизнес, и возник вопрос, чем заняться далее. А потом еще и пандемия, нужно было сидеть дома, так что недостатка в свободном времени не было. Мне всегда была интересна тема искусственного интеллекта (ИИ) и всего, что с этим связано. Я часто читал в журналах про то, как та или иная нейросеть научилась распознавать изображения, предсказывать погоду, генерировать тексты, предсказывать цены акций и так далее. Все это казалось волшебством.

Я знал, что все это связано с профессией дата-саентиста. Тогда, как и сейчас, из каждого утюга звучала реклама типа «Пройдите наши курсы за пару месяцев и получайте зарплату от 180 тысяч рублей». Действительно, звучит классно: прошел курсы, и жизнь удалась, всему научился и получил работу с высокой зарплатой. Я посмотрел варианты: все плюс-минус одинаковые. Но мне не хотелось идти стандартным путем. Действительно, поставьте себя на место работодателя. Сейчас в стране куча людей прошли одинаковые платные курсы с одной целью – получать высокую зарплату. Но вам, как работодателю, хотелось бы нанимать специалистов с реальным опытом или какими-то достижениями, а не с дипломом об окончании однотипных курсов.

Я искал другие варианты и желательно бесплатно. И нашел!

Какой же в итоге путь вы выбрали?

Есть такой интернет-портал “kaggle.com”, принадлежит компании Google. Это самое большое в мире сообщество дата-саентистов. Есть только один минус: так как ресурс иностранный, там всё на английском языке. Но если вы хотите работать в этой профессии, то язык все равно придется изучать. В остальном только плюсы. Здесь есть просто все, что душе дата-саентиста угодно:

  • Бесплатные онлайн-курсы, по окончании которых вы получаете дипломы, которые можно указывать в резюме и добавлять в свой профайл на LinkedIn.com. Как пример, пара из моих сертификатов. Согласитесь, это отличное дополнение к резюме, да и еще бесплатно.

Максим Маркеев: история профессионального успеха. Рис. 1
Максим Маркеев: история профессионального успеха. Рис. 2

  • Огромная база знаний в виде статей и программного кода. В основном на языке Python. Особенность здесь в том, что этот программный код вы можете запускать прямо на серверах Kaggle и смотреть за его выполнением. Формат Jupiter Notebook очень удобный. Сейчас это стандарт для дата-саентистов. Вы можете создавать свой код или брать и править чужой. Любой участник может написать свой код решения задачи и выложить в открытый доступ. Другие могут брать этот код, модифицировать и запускать.

  • Бесплатные вычислительные ресурсы:

- Процессор, CPU (Central Processing Unit). Вам предоставляется возможность почти безлимитно запускать ваши программы без ускорителей (только использование CPU). Такой мощности вполне хватит для запуска большинства моделей машинного обучения на небольших объемах данных.

- Видеокарта, GPU (Graphical Processing Unit). Можно также запускать код с ускорителями (GPU Tesla P-100) от 30 до 40 часов в неделю. Ускорители нужны для работы с большими объемами информации (например, изображениями). Особенно это актуально, когда цены на видеокарты зашкаливали из-за майнинга криптовалют. А тут можно делать эксперименты с нейросетями и не иметь дома видеокарту.

- Ускоритель для ИИ, TPU (Tensor Processing Unit). Это примерно равно мощности 8 видеокарт. Kaggle позволяет использовать до 20 часов в неделю. Этого хватит для обучения нейросетей для работы с изображениями даже на 1024×1024 или для моделей обработки естественного языка Natural language processing (NLP), где требуется огромное количество оперативной памяти.

  • Сообщество. Можно задать любой вопрос в соответствующей ветке и получить ответ. На иностранных форумах люди обычно гораздо вежливее и дружелюбнее. Отвечают даже на глупые и некорректные вопросы. Практически отсутствует хамство.

  • Соревнования по машинному обучению. На мой взгляд, это самое интересное.

На этом пункте хотелось бы остановиться подробнее.

Соревнования по машинному обучению на Kaggle устроены следующим образом:

  • Компания, которая устраивает конкурс на платформе Kaggle, собирает и предоставляет данные. Данные делятся на 3 части:

- Публичные открытые, размеченные данные, на которых ваши модели будут обучаться во время конкурса.

- Публичные закрытые, данные на которых ваши модели получают предварительную оценку во время конкурса.

- Непубличные закрытые, на которых ваши модели получают итоговую оценку в конце конкурса.

  • Описывает свою проблему и предлагает всем, кто участвует в конкурсе, найти алгоритм (алгоритмы), как можно, используя эти данные, получить лучший результат (обычно какой-то алгоритм у компании уже есть, и они хотят получить лучший).

  • Компания задает метрику. То есть что именно должна предсказывать модель.

Конкурсы обычно длятся 2-3 месяца. За это время можно перепробовать огромное количество методик и идей.

Какие вообще бывают конкурсы?

Приведу примеры:

  • Компания PetFinder.my, которая специализируется на нахождении хозяев для животных (собак и кошек), устроила конкурс, где по фотографии животного ваша модель должна предсказать, за какое время это животное заберут из приюта. Призовой фонд за первые 3 места составил $25 000. В соревновании приняли участие 4334 участника, составив 3537 команд.

Максим Маркеев: история профессионального успеха. Рис. 3

  • Конкурс по идентификации дельфинов и китов. Суть: на сайт компании – организатора конкурса простые люди загружают фотографии китов и дельфинов. Задача: находить фотографии одинаковых особей. Раньше специалисты компании вручную находили одинаковых особей, теперь же нейросети делают эту работу. Что интересно, фотографии сделаны в разное время и в разных местах. У некоторых особей появились новые отметины или шрамы. Это усложняло задачу.

Максим Маркеев: история профессионального успеха. Рис. 4

  • Конкурс, где по отрывку текста нужно определить сложность этого текста для восприятия школьниками. Это нужно организаторам, чтобы корректировать школьную программу, определяя, в каком классе лучше изучать то или иное произведение. Призовой фонд: $60 000.

Максим Маркеев: история профессионального успеха. Рис. 5

Зачем компании проводят конкурсы и что участники получают по итогам?

В конце конкурса компания получает новые алгоритмы решения проблемы, а победители получают денежное вознаграждение. Очень часто победителей компания нанимает на работу. Выиграть деньги невероятно сложно (занять 1–3 места из 3500 команд). Но не стоит расстраиваться. Вошедшие по итогам конкурса в 10% лучших получают бронзовые медали. Вошедшие в 5% лучших – серебряные медали, а первые 10-15 мест (в зависимости от конкурса) получают золотые. Накопив несколько медалей, вы получаете титулы: Эксперт, Мастер и ГрандМастер. Медали и титулы – это очень почетно, можно смело указывать в резюме. Это будет выгодно отличать вас от остальных. Есть информация, что HR-службы компаний из Big Tech учитывают титулы Мастер и ГрандМастер на Kaggle. А самое главное, многие победители выкладывают свои решения. Это делает Kaggle просто уникальным местом для обучения. Ведь есть и другие площадки проведения конкурсов, но там обычно не делятся знаниями и кодом. Главный приз – это новые знания.

Чем обучение на конкурсах отличается от стандартного обучения, например, на курсах?

Самое главное, что это обучение нового типа. В классической системе (например, на тех же курсах) вам объясняют кучу всяких тем в надежде на то, что когда-то эта информация вам может пригодиться. И если вы ею не пользуетесь, то она забывается. Здесь же вам сразу дается конкретная задача конкретной компании с конкретными данными, а вот методы решения – ищите какие хотите. Как бы заставляя вас самостоятельно думать и искать. В процессе можно читать, что делают другие участники, и делиться своими идеями и наработками. Задачи не виртуальные, они действительно нужны бизнесу. Возникает элемент геймификации обучения: придумал идею, реализовал и видишь, как в таблице конкурса поднимаешься выше. Это очень затягивает. Просто хочется изучить что-то новое, чтобы сразу это применить на конкурсе и получить более высокую оценку. Скорость обучения, таким образом, многократно возрастает. Дополнительно Kaggle позволяет участникам объединяться в команды (обычно до 5 человек). Это позволит вам завести полезные знакомства, даже может дружбу с другими участниками и даст вам уникальный опыт работы в команде над проектом, что также может украсить ваше резюме.

Но если человек – новичок, наверное, трудно будет сразу соревноваться с профессионалами?

Если вы совсем новичок, то для вас есть специальные учебные конкурсы. Они вечные (нет сроков), там не дают призов и медалей, но накоплена огромная база статей и кода. Изучение этого даст вам понимание, какие методы используют другие участники, возможность попробовать свои идеи, также можно объединяться в команды – так изучать Data Science еще веселее, можно спросить, если что непонятно, – там обычно охотнее отвечают, чем в реальных конкурсах.

Какие конкурсы порекомендуете для старта?

Для старта я рекомендую участвовать в конкурсе про «Титаник»: Titanic – Machine Learning from Disaster. Там нужно по данным пассажиров «Титаника», таким как пол, возраст, фамилия, класс, цена билета и другим, определить, выжил этот человек на корабле или нет. В данный момент в этом конкурсе участвуют более 14 000 команд. Лично я начинал с этого конкурса.

Максим Маркеев: история профессионального успеха. Рис. 6

Если вы сразу хотите осваивать нейросети, то для вас есть классический конкурс по распознаванию рукописных цифр. Здесь вам может пригодиться видеокарта. Хорошо, что Kaggle предоставляет вам использовать ее бесплатно 30-40 часов в неделю, чего вполне хватит для обучения.

Максим Маркеев: история профессионального успеха. Рис. 7

А как найти работу, участвуя в конкурсах?

Когда я участвовал в конкурсах, то много общался на форуме. Задавал вопросы и отвечал другим, если была возможность. Со временем стал общаться с участниками не только там, но и в мессенджерах. Так меня пригласили в один проект. Сейчас я сотрудничаю с одним стартапом в области ИИ. Думаю, что такой путь может помочь и другим в поиске работы. Ведь работодатели тоже ищут себе специалистов.

Резюме:

Чтобы весело и бесплатно стать дата-саентистом и выгодно отличаться от других, нужно:

  • Пройти бесплатные курсы и получить сертификаты иностранной компании. Мало у кого они есть. Это вас выделит.

  • Участвовать в тренировочных конкурсах и весело получать знания, заводить интересные знакомства.

  • Участвовать в реальных конкурсах и получать медали и титулы, которые также украсят ваше резюме и помогут найти работу, так как все работодатели хотят людей с опытом. А тут у вас опыт работы на иностранную компанию в конкретных проектах и определенные достижения.

Опубликовано 19.12.2022

Похожие статьи