Стриминг данных для бизнеса
Во многих странах значительная доля всей используемой необработанной цифровой информации сегодня приходится на потоковую передачу данных, и, согласно Visual Networking Index, к 2022 году на видео будет приходиться 82% всего трафика Интернета.
В 2019 году пользователи Интернета просмотрели 1,1 млрд часов прямых видеотрансляций, а к 2027 году, как прогнозируют в Grand View Research, ежегодный объем потоковой передачи видео достигнет 184,3 млрд часов. Прямые потоковые трансляции используются все шире в связи с ростом популярности сервисов Netflix, Disney+, HBO Max и им подобных, а также стриминга на YouTube и TikTok. Резко выросло использование конференций Zoom, онлайн-магазинов и новых интерактивных сервисов. К последним относятся видеоигры, внутриигровые лайв-мероприятия и турниры по киберспорту.
Потоковые передачи видео можно поделить на две широкие категории: прямые трансляции и нелинейная потоковая передача. Прямые трансляции подразумевают передачу контента в режиме реального времени. Характерный пример — стриминговый сервис для любителей видеоигр Twitch. Нелинейный же стриминг предусматривает возможность просмотра по запросу, когда зрители могут записать или загрузить видео на устройство и посмотреть в любое время. Кроме того, в числе преимуществ такого стриминга возможность сохранить большой объем данных (например, целиком записать сериал для просмотра). Типичный пример данного сервиса — Netflix.
Обратимся к цифрам: 1,1 млрд часов лайв-видео с разрешением 1080P — это 1,65 эксабайта, а при разрешении 4K объем достигает 7,92 эксабайта.
При трансляции видео HD-качества с разрешением 720p в час передается примерно 0,9 Гб. Видео с разрешением 1080p требует передачи 1,5 Гб/ч, а видео 2K — 3 Гб/ч. При трансляции видео UHD-качества (4K) трафик достигает 6 Гб за час, а для видео с качеством 8K аналогичный показатель — 12 Гб/ч.
Сервисы потоковой трансляции создают большую нагрузку на сетевую инфраструктуру, из-за чего может страдать качество видео. Особенно ощутимо это проявляется в условиях пандемии COVID-19, когда многие активно пользуются потоковой передачей, работая из дома. Чтобы избежать перегрузки инфраструктуры, провайдеры и предприятия могут прибегать к кэшированию контента на периферийных системах. Кэширование часто используемых данных вблизи конечного потребителя позволяет ускорить их доставку.
Работа периферийных систем в связке с облаком
Аналитики компании IDC считают целесообразным кэширование потоковых данных на системах хранения до завершения аналитической обработки серверами. Объемы данных, хранимых на периферии, растут сегодня быстрее, чем объемы данных в ядре сети.
Ожидается, что на периферии будут размещаться важнейшие данные и аналитическая информация для выполнения критичных к задержке запросов, отправляемых конечными точками и различными сервисами. Кроме того, на периферии можно организовать распределенную аналитическую обработку потоковых данных.
Компаниям, которые рассматривают возможность более активного применения прямых трансляций в рамках бизнес-операций, придется задуматься о модернизации ИТ-систем. Особенно это касается процессов работы с клиентами — в частности, электронной коммерции и клиентской поддержки, а также повседневной работы в условиях пандемии, когда конференции Zoom стали привычной частью трудовой деятельности.
Для обработки потоковых данных требуется наличие двух технических уровней — хранения и собственно обработки. На первом необходима поддержка упорядочивания и строгой согласованности записей — для быстрых малозатратных воспроизводимых операций считывания и записи больших потоков данных. Уровень же обработки, в свою очередь, отвечает за прием данных с уровня хранения, выполнение вычислений и уведомление уровня хранения о необходимости уничтожения данных, которые больше не нужны.
Что касается реализации бизнес-служб, опирающихся на прямые трансляции, существует требование, предъявляемое как к периферийным, так и облачным вычислениям: такие данные нужно обрабатывать последовательно и инкрементально по одной записи или в скользящие окна. При этом данные подвергаются аналитической обработке различных типов, включая выявление корреляций, агрегирование, фильтрацию и формирование выборок.
Согласно отчету Rethink Data Report компании Seagate, в организациях в среднем около 36% данных переносится от периферии к ядру. Но, по прогнозу, всего за два года этот показатель вырастет до 57%, а объем данных, которые перемещаются от периферии к центру сразу после их создания, увеличится с 8 до 16%. Учитывая такой рост, в планах по управлению данными следует предусмотреть гораздо больший объем их переноса — от конечных точек через периферию в публичные, частные или корпоративные облака.
Рассмотрим уровень хранения подробнее. Крупные компании, сделавшие бизнес на контенте, такие как Netflix или Facebook, решая задачи управления долговременным хранением данных и обеспечения мгновенного доступа к ним, широко применяют объектные хранилища. Такое хранилище не ограничивается функциями хранения данных — его можно рассматривать как гибрид веб-сервера, сети доставки содержимого и решения по управлению ресурсами.
Объектные хранилища быстро становятся стандартом хранилища большой емкости, дополняя файловые хранилища и вытесняя их ввиду большей экономической эффективности и масштабируемости. Современным приложениям необходима более интеллектуальная обработка наборов данных, а объектные хранилища как раз и предоставляют средства для ее выполнения. Существуют три типа хранилищ: блочные, файловые и объектные. Блочные необходимы для многих критически важных приложений, которым требуется высокая производительность. Файловые применяют для традиционных приложений, уже много лет обеспечивая надежную архитектуру хранения. Объектные хранилища в сочетании с блочными активно применяют при разработке новых приложений. Многие традиционные файловые приложения переводят на объектное хранилище, чтобы использовать достигаемый экономический эффект масштаба.
При потоковой доставке Netflix в час передается от 250 Мб до 1 Гб в зависимости от настройки качества. При стриминге Netflix с наименьшим качеством скорость передачи по Cети составляет около 5 Мб/мин (или 300 Мб/ч). Для видео среднего качества аналогичный показатель составляет 9 Мб/мин (540 Мб/ч), а для высокого — 17 Мб/мин (1 Гб/ч). Длительность большинства видеопрограмм — около часа, то есть каждая серия «Звездного пути: Дискавери» или «Бортпроводницы» требует пересылки 250 Мб — 1 Гб.
Для FaceTime и Zoom необходима передача приблизительно 90 Мб в час. При видеозвонке FaceTime скорость составляет около 3 Мб/мин, то есть за час разговора передается примерно 180 Мб. По мере роста популярности видеоконференций в качестве способа связи с близкими и коллегами по работе потребности в данных будут увеличиваться.
Между тем на периферии растет число генерирующих данные устройств, которые применяются совместно с хранилищами и системами вычислений и аналитики. Что касается последних, то в их качестве могут выступать различные решения — от процессора цифровых потоков Splunk до моделей глубоких нейронных сетей. Однако в любом случае основная рабочая нагрузка удаленных периферийных систем — это обработка данных (в том числе их извлечение, трансформация и загрузка), а также получение аналитических сведений. Периферийные вычислительные экземпляры размещаются в контейнерах и управляются в качестве конвейеров данных с помощью Kubernetes.
При этом периферийные системы хранения данных должны базироваться на легко заменяемой физической инфраструктуре. В случае отказа (например, из-за прерывания подачи питания или других неполадок) потерь данных быть не должно. Критически важную информацию следует хранить в общедоступном облаке, чтобы аппаратные компоненты на периферии можно было рассматривать как «расходный материал», учитывая их подверженность воздействию неблагоприятных условий окружающей среды. К счастью, благодаря росту производства и снижению цен, развертывание подобных конечных точек становится более легким и дешевым, так что в случае отказа заменить неисправный компонент можно будет просто и быстро.
Одним из таких примеров может служить развертывание системы периферийных вычислений на нефтедобывающей платформе в Северном море, где крайне неблагоприятные погодные условия: сильный ветер, мощные волны и штормы. При работе периферийных систем непосредственно на платформе данные, поступающие от всевозможных датчиков на буровом оборудовании, можно собирать и обрабатывать на месте, что позволит оптимизировать операции. К тому же передавать данные в облако нужно будет лишь время от времени. Если модуль периферийных вычислений окажется поврежденным, его можно быстро заменить.
В условиях жаркого и сухого климата Западной Австралии, где тоже ведется добыча полезных ископаемых, системы периферийных вычислений можно использовать для мониторинга железнодорожного сообщения с шахтами — в частности, для контроля состояния вагонеток, перевозящих железную руду, и предотвращения опасности их схода с рельсов. Прямые трансляции съемки колесных пар вагонеток можно «просматривать» и обрабатывать с помощью системы машинного обучения, работающей на самом составе, — она могла бы следить за соблюдением рабочих режимов и помогать в проведении профилактического техобслуживания. Данные также можно было бы передавать властям, чтобы контролировать соблюдение регламентов техники безопасности и охраны здоровья персонала.
По прогнозу IDC, объемы данных, передаваемых в рамках прямых трансляций и подвергаемых анализу на периферии для выбора дальнейших действий, будут постоянно расти. Параллельно станут увеличиваться потребности в объектных хранилищах, применяемых для соответствующих целей. Смещение центра тяжести от ядра к периферии происходит под влиянием новых технологий: искусственного интеллекта, «Интернета вещей», мобильной связи 5G. Соответственно, в планах предприятий любых отраслей, где внедряют сервисы на основе прямых трансляций, нужно предусматривать потребности в масштабировании, обеспечении долговечности информации и отказоустойчивости для уровней хранения и обработки потоковых данных.
Опубликовано 09.04.2021