И снова о больших данных

24.09.2021Автор Дмитрий Зимнев
И снова о больших данных
Корпоративные ИТ периодически переживают волны модных течений. Некоторые оправдывают ожидания. Другие в итоге разочаровывают многих, кто в них инвестировал.

Так модные «большие данные» стали исключительными по величине: исключительные инвестиции, исключительные ожидания и - для многих - исключительное разочарование, считает Чак Холлис, автор ресурса MarkLogic. 

Несмотря на огромные коллективные инвестиции, эта жажда лучшего понимания данных нисколько не утолена. И сегодня люди хотят получить больше, чем когда-либо.

Там, где первоначальные усилия по созданию больших данных были успешными, они превратились в надежные озера данных, используемые специалистами, создающими потоки процессов с помощью богатых инструментальных средств. Очевидно, данные приносят пользу для бизнеса, иначе не было бы инвестиций.

Но как обстоят дела там, где эти усилия не оправдали ожиданий? Что известно об этом?

В нужное время в нужном месте

В некоторых случаях новые идеи привели к новым способам принятия решений. Методология HIPPO была вытеснена бесспорными выводами, основанными на данных, которые указывали на другой путь. Напомним, что HIPPO означает «Мнение самого высокооплачиваемого сотрудника» - аббревиатура от highest paid person's opinion. Эффект проявляется при обсуждении сложных вопросов и принятии решений, а мнение руководителя ставится выше, чем мнение остальных членов команды. Объясняется это более высоким положением в корпоративной иерархии, наличием у руководителя большего опыта, исторически сложившимися традициями. Объективные данные при этом не учитываются или их значимость ставится на второй план.

Страх и жадность также могут быть мощными мотиваторами. Волна FOMO (страха упустить) привела к тому, что очень большое количество сред «больших данных» превратилось в лаборатории для экспериментов. Многие из них не оправдали ожиданий. Почему?

Работать с большими данными непросто. Самое сложное — это настройка среды, набор специалистов, поиск и перемещение данных. Нужно придумывать идеи, которые могут заинтересовать людей. Это большой вызов для любой ИТ-группы, даже с преданной командой.

Для тех, кто преодолел эти шаги, ценность новых идей со временем снижается. После нескольких крупных, с точки зрения бизнеса, успехов, происходит спад. Кроме того, тип полученной информации часто не соответствует ожиданиям.

Подводя итог, можно сказать, что те, кто преуспел в восхождении на гору больших данных, обычно добивались некоторого первоначального успеха, за которым следовал длительный период возрастающей нерелевантности с большим количеством запросов и ожиданий, чем раньше.

Analyzing Vs. Connecting

IDC заявляет, что в 2021 году отрасль потратит 250 миллиардов долларов на большие данные и технологии аналитики.

Аналитика и машинное обучение уже давно всем знакомы. Если вы когда-либо занимались математикой, то это выглядит довольно просто. Значительную часть математических данных можно автоматизировать, например, определить наиболее релевантные переменные, лучшую прогностическую модель и т. д.

Но сформировать действительно полезные данные может быть намного сложнее. Почему в мире, где есть большие данные, хранилища данных, озера и витрины данных, многим бизнесменам все еще их не хватает?

Потому что во многих случаях бизнес хочет точнее устанавливать связи между различными источниками данных, а это пока сложно. Как только компании смогут лучше использовать эти связи, весь процесс более эффективного использования данных, включая аналитику, станет намного проще.

Множество простых примеров-запросов. Что я знаю о клиентах из разных источников? Как я могу лучше использовать эту информацию, чтобы придумать новые идеи? Нужно ли создавать новые приложения? Что я могу сделать с помощью аналитики и машинного обучения?

Основная идея состоит в том, что большие данные пытаются вычленить неинтуитивные связи из упрощенных данных. Многие бизнес-пользователи хотят чего-то совершенно другого: возможности лучше использовать уже известные им связи, обычно с помощью сложных данных.

Этот паттерн проявляется во множестве ситуаций. Биология хочет связать все, что они знают о терапии или заболевании. Страхование хочет сделать отличный продукт и при этом свести к минимуму мошенничество. Финансовые службы хотят получить всю релевантную для клиентов информацию по множеству продуктовых линеек. И так далее, и так далее.

Все наши инвестиции в аналитику, машинное обучение, большие данные, хранилища, витрины и озера данных, а также в действительно умных людей — это здорово. До определенного момента, а потом отдача может уменьшиться.

Но мы можем многому научиться используя простые формы данных. А если мы хотим получить профит от работы с более сложными формами данных, нам придется переформатировать мышление.

Похожие статьи