Too big data: Когда данные станут слишком большими

Логотип компании
Too big data: Когда данные станут слишком большими
Для работы с огромными объемами данных необходимы существенные преобразования в инфраструктуре, технологиях, стандартах и протоколах передачи и обработки информации.

Введение

ATLAS (A Toroidal LHC ApparatuS) – главный детектор Большого адронного коллайдера (БАК). Его вес – 7000 тонн, длина – 46, а диаметр – 28 метров. Он регистрирует события, возникающие при столкновении протонов, разогнанных в гигантском тоннеле, который проходит по территориям трех стран – Италии, Франции, Швейцарии. Описание каждого события – это 25 Мбайт информации. Таких событий каждую секунду происходит 40 млн. ATLAS ежесекундно генерирует 1 Пбайт информации. ATLAS – один из семи основных детекторов на БАК.

Современные технологии не позволяют обрабатывать такие объемы информации, поэтому не вся она попадает в грид-систему БАК (LHC Computing Grid) – одну из крупнейших баз данных, которую когда-либо создавало человечество.

На уровне детектора отбирается 100 тыс. событий в секунду. Всю остальную собранную информацию можно считать потерянной, несмотря на средства, затраченные на ее получение.

Представьте, что ваш бизнес начал генерировать сопоставимые либо большие объемы информации. Какие подходы и технологии понадобятся для ее обработки, хранения, анализа? Как они изменят бизнес? Как изменятся государства? А что будет на переднем крае развития – в науке?

Общество

Согласно данными Международной организации труда (МОТ), на конец 2018 года, 5,6% от общего числа мировой рабочей силы – безработные. Есть страны, где их практически нет, а где-то безработные составляют существенную часть населения – это Венесуэла (38%), ЮАР (28%), Македония (20%).

Новые технологии приведут к появлению новых профессий, а значит, и новых рабочих мест, не привязанных территориально к потребителю услуг. Даже сейчас размечать датасеты можно удаленно, хоть из деревни в Замбии или Лаосе. Все, что нужно, – компьютер с доступом в Интернет. Увы, но даже это не везде доступно сейчас.

В будущем работа по разметке датасетов также будет распределена неравномерно. Развитым странам достанутся направления, требующие высокой квалификации (например, определение опухолей на томограмме предполагает не только наличие медицинского образования, но и опыт использования современной техники). А также владение математическим аппаратом и средствами автоматизации разметки. Ведь если представить, что технологии позволяют работать с гигантскими массивами данных, то классификацию образцов выполнит компьютер, а выяснять, что есть что, все равно придется человеку. От определения котиков на картинках перейдем к определению датасетов с заранее размеченными котиками.

Даже такую работу можно автоматизировать, если имеются вычислительные ресурсы и накопленные данные. Те, у кого нет подобных инструментов, соответственно, будут зарабатывать меньше. В очередной раз богатые станут богаче, а бедные – беднее. Возникает новая концепция – «технологичный = богатый».

Но для того, чтобы датасет разметить, сначала его нужно собрать. А это приведет к необходимости хранить в облаке все – ваши фотографии, данные о перемещении, видеопоток с ваших видеорегистраторов, данные, генерируемые вашей бытовой техникой и «умными» устройствами (хотя граница между ними сотрется – все устройства, всё, что вас окружает, станет «умным»), домами, автомобилями, а также данные вашего бизнеса. Что-то из этого уже сейчас находится в облаке или в соцсетях и обрабатывается. Например, ваш голос, записанный «умной» колонкой.

Бизнес

Сталкивается ли современный бизнес с подобными ситуациями? Отчасти да.

И если терять финансовые проводки нельзя, то на производстве и в ряде других бизнес-процессов ситуация потери данных проявляется регулярно.

Вот, скажем, многопередельное производство. Даже если на каждом этапе рассматривать два варианта – делать самим либо покупать на стороне, то количество допустимых способов изготовления растет экспоненциально. А если предусмотреть возможность выполнения работы на разных станках, то сложность повышается еще больше. Как среди этих вариантов выбрать лучший? Какой из них позволит оптимально загрузить работой оборудование и людей? А если учесть и необходимость проведения плановых ремонтов? А если на это наложить поломки, задержки с поставкой запасных частей, нарушенные регламенты сроков обслуживания? Возможно ли в принципе описать эту сложность?

Сейчас обычно отбрасывают большинство вариантов, выбирают один-два, предпочитая опираться на прошлый опыт, интуицию, а чаще – делают случайным образом. Учетные системы просто не в состоянии обсчитать все дерево возможностей. А уж тем более сформировать оптимальную загрузку мощностей.

Получить данные не проблематично, а вот механизмы их использования пока не выстроены. И необходимо накопить некую критическую массу источников таких данных, ведь единичные датчики не меняют общую картину, а встраиваются в текущую парадигму. Количество должно перейти в качество.

В случае, когда есть достаточное количество сведений по состоянию оборудования и способы их обработки, прогнозирование поломок оборудования становится тривиальной ситуацией, и внеплановые простои исчезают как явление. Разумеется, если исключить человеческий фактор. Человек становится слабым звеном.

Управлять целями, а не процессами – новая парадигма

Проанализировать и оптимизировать процесс можно автоматизированно даже сейчас (Process Mining), если есть достаточно данных в информационных системах предприятия. Следующий этап – управление сведется к указанию целей, которые необходимо достичь, и автоматическому формированию процессов для их достижения. А значит, владелец компании получит больший контроль за компанией. В пределе, вслед за исчезновением прослойки менеджеров среднего звена, станет исчезать и топ-менеджмент. Управлять бизнесом сможет даже один человек при помощи ИИ, а вот менеджеров и руководителей разного уровня (кроме разве что линейных менеджеров в ограниченных случаях) заменит ИИ.

Наука и технологии

Наука всегда была источником новых идей, новых разработок. Компьютеры, Интернет, передача данных, распределенные вычисления (кто сказал blockchain?), гигантские массивы данных… Все это впервые было использовано для обеспечения научной деятельности.

Как же будет выглядеть наука, когда начнет оперировать еще большими объемами данных? Тут сложно загадывать, но основополагающие изменения произойдут в материаловедении, криптографии, естественных науках и, разумеется, в медицине.

Для работы с огромными объемами данных необходимы существенные преобразования в инфраструктуре, технологиях, стандартах и протоколах передачи и обработки информации.

Когда станет сложно улучшать техпроцессы, придется заняться оптимизацией архитектуры чипов. Это происходит уже сейчас: появляются специализированные решения для ускорения типовых операций – например, тензорные процессоры Google, видеоускорители для вычислений, нейроморфные чипы.

Но недостаток вычислительной мощности не позволяет еще полноценно использовать ИИ, то есть автоматизировать рутину, оставляя для человека только творчество. Писать обзорные статьи и создавать произвольные тексты можно и сейчас, но генерировать новые научные знания с помощью ИИ – это даже не ближайшие десятилетия.

Новые материалы

Не секрет, что в настоящее время материаловедение одна из основных сфер применения суперкомпьютеров. Соответственно, ресурсы доступны прежде всего государству (и в довольно специфической области – моделирование испытаний термоядерного оружия, боеголовок, процессов их старения). Приведет ли доступность вычислительных ресурсов и накопленных данных для маргинальных сообществ (государства – изгои, террористы, криминал) к построению ими термоядерной бомбы? Вопрос хороший. Надеюсь, он так и не перейдет из теоретической плоскости в практическую.

Использование многих технологий ограничено отсутствием пригодных для их реализации материалов. А если материал теоретически известен, то нет технологии для его изготовления.

Авиация, космос, вооружения, медицина – вот где проблема создания материалов с заранее заданными свойствами стоит очень остро. Стоимость больших вычислений сейчас довольно велика, и приоритет отдается тем направлениям, в которых есть большие деньги. Прежде всего, военным.

Медицина и биология

Не так давно был полностью секвенирован геном человека. Что будет с медициной и молекулярной биологией, если мы сможем в разумное время получать результаты секвенирования наследственной информации (как ДНК, так и РНК, а возможно, и протеома) КАЖДОЙ клетки в макроскопическом организме? Узнаем, чем клетки отличаются друг от друга. Узнаем, какая клетка где будет находиться в организме и почему. И сможем управлять этим. А если сможем получать эти данные в реальном времени и без вмешательства в работу организма? Какие открытия это принесет в диагностику, онкологию или решение проблемы продления жизни?

Увы, пока недостижимо само получение такой информации. Нет ни технологий, ни данных. Нам еще есть к чему стремиться.

Государство: Госплан версия 2.0

Самые интересные преобразования можно ожидать на уровне от государства и выше.

В Советском Союзе, как мы знаем, была плановая экономика. Да, она была несовершенна, основывалась на недостоверных и недостаточных данных и ограниченных возможностях их обработки.

Получая данные в реальном времени as is, государство может как планировать развитие в долгосрочной перспективе, так и получать оперативную информацию. Государство становится суперкорпорацией. И это уже в какой-то степени реальность. Обороты крупнейших корпораций сопоставимы с ВВП далеко не самых маленьких государств. А демократические государства, в свою очередь, можно представить как акционерные общества, где каждый акционер гражданин обладает одной акцией одним голосом, и раз в несколько лет участвует в выборе председателя совета директоров президента. В других – контрольный пакет полностью принадлежит монарху и его семье.

В таком государстве общество становится прозрачным.

Не нужно вести бухгалтерский учет – налоги и отчетность будут автоматически посчитаны и списаны, ведь у фискальных органов есть все необходимые для этого сведения. Нет транзакционных издержек – все компании живут в едином информационном пространстве, в интегрированных структурах данных. Можно легко проверить наличие на складах нужного количества товара и при необходимости оптимально распределить заказ между поставщиками, которые, в свою очередь, предусмотрели необходимость отгрузки заранее. Невозможно утаить доходы, полученные преступным путем, – все аномалии видны и предсказуемы. А значит, практически весь бизнес в принципе может управляться государством. И понятие государства, его границ, роли и функций расплывается. Достаточно крупные корпорации становятся неотличимы от государств, а государства – от корпораций.

Отомрет целый спектр информационных систем; их функции перейдут в государственное облако.

Наличность станет первой жертвой, как источник внесистемных транзакций.

Если тебя нет в Сети, значит ты не существуешь, значит ты не сможешь жить в обществе, основанном на данных. Подделать бумажные документы стоит не так дорого. При должном уровне технологий можно подделать и цифровые, хотя обойдется существенно дороже. Подделать цифровой след человека – это совсем иной уровень затрат. Человек, не имеющий цифрового следа, виден сразу и становится первой мишенью для спецслужб. И те контрразведчики, которые смогут лучше выявлять искусственных цифровых двойников, будут иметь серьезные преимущества.

Криминал

Оборотная сторона любого государства – криминал и теневая экономика.

К счастью для нас, многие виды преступлений практически исчезнут. К сожалению для нас, появятся новые.

В сетевых преступлениях будет та же проблема – разрыв между начальным уровнем и профессионалами.

«Играя» с этим разрывом, можно будет за несколько поколений свести преступность к минимуму. И хотя в антиутопиях «тотальный контроль» рассматривают как «зло по умолчанию», тотальная цифровизация приведет к обществу более свободному, чем когда-либо в истории человечества.

Быть преступником станет слишком дорого.


Новые вызовы нового мира:

  • Разрыв в профессиональном опыте: чтобы выдавать лучшие результаты, чем ИИ, человек должен обладать огромным опытом и уметь им пользоваться. Но чтобы этот опыт набрать, необходимо начинать с тех должностей, на которых он не требуется, а эти должности – первые на вылет при замене белковых сотрудников на кремниевых.
  • Остается три пути: либо тотальный технологический регресс, либо законодательные запреты (что будет весьма популярным у некоторых политиков и необразованной части электората), либо обучение в течение всей жизни. И менять работу станет практически нереально – начинать набирать опыт придется даже не с вуза – с начальной школы, а то и с детского сада.
  • В случае законодательных запретов – не станем ли мы новой Вакандой (вымышленная страна из комиксов Marvel), где с помощью высоких технологий производят наконечники для копий и сверхтехнологичные доспехи для рукопашного боя? Все прекрасно помнят, как в реальном мире доспехи, мечи и копья проигрывали пулеметам.


Заключение

Развитие технологий приведет к масштабным преобразованиям на рынке труда. Многие профессии исчезнут либо станут малораспространенными, но появятся новые. И большая часть новых профессий будет связана с работой с данными.

ИИ не сможет заменить человека полностью. Автоматизация множества задач приведет к повышению производительности труда высококвалифицированных сотрудников, но полностью вымоет с рынка труда необходимость в низкоквалифицированных. И вот тут нас поджидает очень большая проблема. Если человек не умеет решать простые задачи, то и сложные не сможет. Опыта нет. А где его взять, если низкоквалифицированных рабочих мест не осталось?

Соответственно, систему образования ждут не меньшие по масштабу преобразования.

Людям придется учиться всю жизнь. Иначе – добро пожаловать на работу по разметке котиков на картинках. Самое слабое звено в этой картине мира вы видите в зеркале. 

Смотреть все статьи по теме "Большие данные (Big data)"

Опубликовано 26.09.2019

Похожие статьи