Data Science: точного определения нет, но привлекает сильно

Логотип компании
Data Science: точного определения нет, но привлекает сильно
Википедия определяет “науку о данных” как “раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме”...

Юристы, не обладающие знаниями в области науки о данных (Data Science, DS) скоро будут никому не нужны. Такое мнение высказал один из спикеров международной конференции Sberbank Data Science Day, собравшей в одну из суббот ноября в московском кинотеатре “Октябрь” около 3000 специалистов. По оценкам HeadHunter, в нашей стране только за этот год cпрос на DS-специалистов увеличился в 2,5 раза.

Любопытный момент: во время вопросов-ответов один из слушателей обвинил спикеров пленарной сессии в том, что они, видимо, не совсем хорошо понимают взаимосвязи между понятиями ИИ, машинное обучение, нейросеть и Data Science. Поэтому, прежде чем употреблять эти термины в своих докладах, следовало бы дать им определения. На что один из спикеров отреагировал так: “Нет точных определений этих терминов. И любое из существующих толкований может быть раскритиковано”. Тем не менее, было обещано, что на следующем DS-мероприятии Сбербанка, определения этих терминов будут висеть на большом экране.

А как сейчас выглядят наиболее популярные определения этих терминов? Джоэл Грас (Joel Grus), инженер-программист Google и автор книги “Data Science. Наука о данных c нуля” (Data Science from Scratch) утверждает, что “наука о данных” находится на пересечении:


· навыков алгоритмизации и программирования;

· знаний математики и статистики;

· профессионального опыта в предметной области.

Википедия определяет “науку о данных” как “раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме”. Поясняя при этом, что она объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных. А “с начала 2010-х годов считается одной из самых привлекательных, высокооплачиваемых и перспективных профессий”.

Примерно такое же определение Data Science дается и в “Большом англо-русском толковом словаре по вычислительной технике и информационным технологиям” Эдуарда Пройдакова и Леонида Теплицкого. При этом обращается внимание на связь этого термина с такими понятиями как Big Data, data analysis и Data Mining.

Взаимосвязь термина Data Science c другими понятиями из области информатики часто иллюстрируют с помощью диаграмм Венна. В случае “науки о данных” лично мне больше всего нравится диаграмма такого рода из доклада Леонида Жукова (НИУ Высшая школа экономики) “Профессия Data Scientist”, прочитанного им в рамках конференции “Большие данные в национальной экономике”. В этом докладе, среди прочего, отмечается, что Data Scientist (аналитик данных) имеет исследовательский склад ума, но является практиком, а не теоретиком; является экспертом в той или иной прикладной области, но всегда работает в команде; а целью его работы является нахождение закономерностей в данных.

Немало статей о том, какими знаниями должны обладать DS-cпециалисты, опубликовано на сайте Rusbase. А названия наиболее известных компаний, разрабатывающих инструментарий для дата-сайентистов, можно найти в магическом квадранте “Gartner Magic Quadrants for Data Science and Machine Learning Platform”.

Во время Sberbank Data Science Day Герман Греф, президент и председатель правления Сбербанка, отметил, что экспансия ИИ увеличивается, а потому востребованность DS-специалистов будет стремительно расти: если сейчас по всему миру специалистов такого рода насчитывается около 2 млн., то через 10 лет потребность в них будет достигать, скорее всего, десятков миллионов. Глава Сбербанка также отметил, что сегодня искусственным интеллектом занимаются все, однако драйвером развития данной технологии являются крупные компании, которые инвестируют большой объем ресурсов.

Кроме того, Герман Греф, ссылаясь на исследования PwC и других аналитических компаний, обратил внимание на то, что если сегодня вклад искусственного интеллекта в мировой ВВП составляет около $1 трлн., то в ближайшие 12 лет он вырастет в 16 раз.

Детальное перечисление факторов, за счет которых может быть достигнут рост ВВП, можно найти в недавнем (июль 2018 г.) отчете McKinsey “Инновации в России – неисчерпаемый источник роста”. Правда, среди этих факторов термины, относящиеся к области информатики, не упоминаются. В то же время, как отмечают эксперты Deloitte, “умные” машины и искусственный интеллект — основа Индустрии 4.0. Однако, чтобы успешно применить ИИ для решения конкретных задач, требуются квалифицированные дата-сайентисты, работающие в тесном контакте с другими специалистами.

Опубликовано 22.11.2018