Компаниям, сосредоточенным на данных, нужно ценить тех, кто с ними работает

20.08.2021Автор Дмитрий Зимнев
Компаниям, сосредоточенным на данных, нужно ценить тех, кто с ними работает
Правило Парето, также известное как правило 80–20, утверждает, что 80% последствий происходят из-за 20% причин.

Те, кто работает с данными, возможно, слышали другую формулировку правила 80–20: специалист по обработке данных тратит 80% своего времени на работу, очищая беспорядочные данные, вместо того, чтобы проводить фактический анализ или генерировать идеи. Представьте себе 30-минутную поездку, расширенную до двух с половиной часов из-за пробок, и вы получите реальную картину.

Как бы ни было заманчиво представлять себе будущее, в котором будет использоваться модель машинного обучения для каждого бизнес-процесса, нам не нужно заходить так далеко прямо сейчас, считает Асаф Коэн, соучредитель и генеральный директор Metrolink.ai, платформы для операций с данными.

Хотя большинство специалистов по данным тратят более 20% своего времени на фактический анализ, им все же приходится часами превращать массу беспорядочных данных в аккуратный набор, пригодный для анализа. Этот процесс может включать удаление повторяющихся данных, проверку правильности форматирования записей и выполнение другой подготовительной работы.

Согласно недавнему опросу Anaconda, в среднем этот этап рабочего процесса занимает около 45% от общего времени . Более ранний опрос CrowdFlower дал оценку 60%, и во многих других опросах приводятся цифры в этом диапазоне.

Ничего из этого не означает, что подготовка данных не важна. «Мусор на входе, мусор на выходе» - хорошо известное правило в кругах информатики, и оно применимо и к науке о данных. В лучшем случае сценарий просто вернет ошибку, предупреждая, что он не может рассчитать средние расходы на одного клиента, потому что запись для клиента № 1527 отформатирована как текст, а не как число. В худшем случае компания будет действовать на основе идей, которые имеют мало общего с реальностью.

Настоящий вопрос, который следует здесь задать, заключается в том, действительно ли переформатирование данных для клиента № 1527 является лучшим способом использовать время хорошо оплачиваемого эксперта. По разным оценкам, средний специалист по обработке данных получает от $95 000 до $120 000 в год. Сосредоточение внимания высокооплачиваемого сотрудника на отупляющих, неспециализированных задачах - пустая трата его времени и денег компании. Кроме того, у реальных данных есть срок службы, и если набор данных для проекта, чувствительного ко времени, занимает слишком много времени для сбора и обработки, он может устареть до того, как будет проведен какой-либо анализ.

Более того, поиски данных часто включают в себя напрасную трату времени персонала, когда сотрудников просят помочь получить или произвести данные вместо выполнения своих обычных обязанностей. Более половины данных, собираемых компаниями, часто вообще не используются, что позволяет предположить, что время всех участников сбора было потрачено впустую.

С другой стороны, собранные данные часто используются только командой специалистов по анализу данных, которая слишком перегружена работой, чтобы изучить все, что доступно.

Все для данных и данные для всех

Все изложенные здесь проблемы играют роль в том, что за исключением пионеров данных, таких как Google и Facebook, компании все еще ломают голову над тем, как заново реализовать себя в эпоху, основанную на данных. Данные втягиваются в огромные базы и специалистам по данным остается много работы по очистке, в то время как другие, чье время было потрачено на помощь в извлечении данных, не часто извлекают из этого пользу.

По правде говоря, мы все еще находимся на раннем этапе, когда дело доходит до преобразования данных. Успех технологических гигантов, которые ставят данные в основу своих бизнес-моделей, зажег искру, из которой только предстоит разгореться пламени.

Данные имеют большую ценность, о чем свидетельствует аппетит к экспертам в области ИИ в нетехнологических компаниях. Компании просто должны делать это правильно, и одна из ключевых задач в этом отношении - сосредоточиться на людях так же, как на ИИ.

Данные могут улучшить работу практически любого компонента организационной структуры любого бизнеса. Как бы ни было заманчиво думать о будущем, в котором будет использоваться модель машинного обучения для каждого бизнес-процесса, нам не нужно прямо сейчас заходить так далеко. Задача любой компании, которая хочет получить данные сегодня, сводится к тому, чтобы доставить их из точки А в точку Б. Точка А — это часть рабочего процесса, где собираются данные, а точка Б – это человек, которому эти данные нужны для принятия решений. .

Важно отметить, что точка B не обязательно должна быть специалистом по данным. Это может быть менеджер, пытающийся выяснить оптимальную схему рабочего процесса, инженер, ищущий недостатки в производстве, или дизайнер пользовательского интерфейса, выполняющий A/B-тестирование определенной функции. Все эти люди должны постоянно иметь под рукой нужные данные, готовые к обработке и анализу.

Скептики могут утверждать, что большие данные - не что иное, как чрезмерно используемое корпоративное модное словечко, но расширенные аналитические возможности могут улучшить чистую прибыль любой компании, если они имеют четкий план и соответствующие ожидания. Первый шаг - сосредоточиться на том, чтобы сделать данные доступными и простыми в использовании, а не на извлечении как можно большего количества данных.

Другими словами, всесторонняя культура данных так же важна для предприятия, как и инфраструктура данных.

Похожие статьи