Стриминг данных для бизнеса

Логотип компании
Стриминг данных для бизнеса
В 2019 году пользователи Интернета просмотрели 1,1 млрд часов прямых видеотрансляций, а к 2027 году, как прогнозируют в Grand View Research, ежегодный объем потоковой передачи видео достигнет 184,3 млрд часов.

Во многих странах значительная доля всей используемой необработанной цифровой информации сегодня приходится на потоковую передачу данных, и, согласно Visual Networking Index, к 2022 году на видео будет приходиться 82% всего трафика Интернета.

В 2019 году пользователи Интернета просмотрели 1,1 млрд часов прямых видеотрансляций, а к 2027 году, как прогнозируют в Grand View Research, ежегодный объем потоковой передачи видео достигнет 184,3 млрд часов. Прямые потоковые трансляции используются все шире в связи с ростом популярности сервисов Netflix, Disney+, HBO Max и им подобных, а также стриминга на YouTube и TikTok. Резко выросло использование конференций Zoom, онлайн-магазинов и новых интерактивных сервисов. К последним относятся видеоигры, внутриигровые лайв-мероприятия и турниры по киберспорту.

Потоковые передачи видео можно поделить на две широкие категории: прямые трансляции и нелинейная потоковая передача. Прямые трансляции подразумевают передачу контента в режиме реального времени. Характерный пример — стриминговый сервис для любителей видеоигр Twitch. Нелинейный же стриминг предусматривает возможность просмотра по запросу, когда зрители могут записать или загрузить видео на устройство и посмотреть в любое время. Кроме того, в числе преимуществ такого стриминга возможность сохранить большой объем данных (например, целиком записать сериал для просмотра). Типичный пример данного сервиса — Netflix.

Обратимся к цифрам: 1,1 млрд часов лайв-видео с разрешением 1080P — это 1,65 эксабайта, а при разрешении 4K объем достигает 7,92 эксабайта. 

При трансляции видео HD-качества с разрешением 720p в час передается примерно 0,9 Гб. Видео с разрешением 1080p требует передачи 1,5 Гб/ч, а видео 2K — 3 Гб/ч. При трансляции видео UHD-качества (4K) трафик достигает 6 Гб за час, а для видео с качеством 8K аналогичный показатель — 12 Гб/ч.

Сервисы потоковой трансляции создают большую нагрузку на сетевую инфраструктуру, из-за чего может страдать качество видео. Особенно ощутимо это проявляется в условиях пандемии COVID-19, когда многие активно пользуются потоковой передачей, работая из дома. Чтобы избежать перегрузки инфраструктуры, провайдеры и предприятия могут прибегать к кэшированию контента на периферийных системах. Кэширование часто используемых данных вблизи конечного потребителя позволяет ускорить их доставку.

 

Стриминг данных для бизнеса. Рис. 1

Работа периферийных систем в связке с облаком

Аналитики компании IDC считают целесообразным кэширование потоковых данных на системах хранения до завершения аналитической обработки серверами. Объемы данных, хранимых на периферии, растут сегодня быстрее, чем объемы данных в ядре сети.

Ожидается, что на периферии будут размещаться важнейшие данные и аналитическая информация для выполнения критичных к задержке запросов, отправляемых конечными точками и различными сервисами. Кроме того, на периферии можно организовать распределенную аналитическую обработку потоковых данных.

Компаниям, которые рассматривают возможность более активного применения прямых трансляций в рамках бизнес-операций, придется задуматься о модернизации ИТ-систем. Особенно это касается процессов работы с клиентами — в частности, электронной коммерции и клиентской поддержки, а также повседневной работы в условиях пандемии, когда конференции Zoom стали привычной частью трудовой деятельности.

Стриминг данных для бизнеса. Рис. 2

Для обработки потоковых данных требуется наличие двух технических уровней — хранения и собственно обработки. На первом необходима поддержка упорядочивания и строгой согласованности записей — для быстрых малозатратных воспроизводимых операций считывания и записи больших потоков данных. Уровень же обработки, в свою очередь, отвечает за прием данных с уровня хранения, выполнение вычислений и уведомление уровня хранения о необходимости уничтожения данных, которые больше не нужны.

Что касается реализации бизнес-служб, опирающихся на прямые трансляции, существует требование, предъявляемое как к периферийным, так и облачным вычислениям: такие данные нужно обрабатывать последовательно и инкрементально по одной записи или в скользящие окна. При этом данные подвергаются аналитической обработке различных типов, включая выявление корреляций, агрегирование, фильтрацию и формирование выборок.

Согласно отчету Rethink Data Report компании Seagate, в организациях в среднем около 36% данных переносится от периферии к ядру. Но, по прогнозу, всего за два года этот показатель вырастет до 57%, а объем данных, которые перемещаются от периферии к центру сразу после их создания, увеличится с 8 до 16%. Учитывая такой рост, в планах по управлению данными следует предусмотреть гораздо больший объем их переноса — от конечных точек через периферию в публичные, частные или корпоративные облака.

Рассмотрим уровень хранения подробнее. Крупные компании, сделавшие бизнес на контенте, такие как Netflix или Facebook, решая задачи управления долговременным хранением данных и обеспечения мгновенного доступа к ним, широко применяют объектные хранилища. Такое хранилище не ограничивается функциями хранения данных — его можно рассматривать как гибрид веб-сервера, сети доставки содержимого и решения по управлению ресурсами.

Объектные хранилища быстро становятся стандартом хранилища большой емкости, дополняя файловые хранилища и вытесняя их ввиду большей экономической эффективности и масштабируемости. Современным приложениям необходима более интеллектуальная обработка наборов данных, а объектные хранилища как раз и предоставляют средства для ее выполнения. Существуют три типа хранилищ: блочные, файловые и объектные. Блочные необходимы для многих критически важных приложений, которым требуется высокая производительность. Файловые применяют для традиционных приложений, уже много лет обеспечивая надежную архитектуру хранения. Объектные хранилища в сочетании с блочными активно применяют при разработке новых приложений. Многие традиционные файловые приложения переводят на объектное хранилище, чтобы использовать достигаемый экономический эффект масштаба.

При потоковой доставке Netflix в час передается от 250 Мб до 1 Гб в зависимости от настройки качества. При стриминге Netflix с наименьшим качеством скорость передачи по Cети составляет около 5 Мб/мин (или 300 Мб/ч). Для видео среднего качества аналогичный показатель составляет 9 Мб/мин (540 Мб/ч), а для высокого — 17 Мб/мин (1 Гб/ч). Длительность большинства видеопрограмм — около часа, то есть каждая серия «Звездного пути: Дискавери» или «Бортпроводницы» требует пересылки 250 Мб — 1 Гб.

Читайте также
Андрей Никонов, CEO Riverstart, рассказывает IT-World, как система на основе технологии машинного зрения (Machine Vision, MV) помогает в решении задач онкологической медицины, которые еще недавно казались невыполнимыми, и рассуждает о том, почему перспективные решения годами не могут дойти до применения в повседневной медицинской практике.

Для FaceTime и Zoom необходима передача приблизительно 90 Мб в час. При видеозвонке FaceTime скорость составляет около 3 Мб/мин, то есть за час разговора передается примерно 180 Мб. По мере роста популярности видеоконференций в качестве способа связи с близкими и коллегами по работе потребности в данных будут увеличиваться.

Между тем на периферии растет число генерирующих данные устройств, которые применяются совместно с хранилищами и системами вычислений и аналитики. Что касается последних, то в их качестве могут выступать различные решения — от процессора цифровых потоков Splunk до моделей глубоких нейронных сетей. Однако в любом случае основная рабочая нагрузка удаленных периферийных систем — это обработка данных (в том числе их извлечение, трансформация и загрузка), а также получение аналитических сведений. Периферийные вычислительные экземпляры размещаются в контейнерах и управляются в качестве конвейеров данных с помощью Kubernetes.

Стриминг данных для бизнеса. Рис. 3

При этом периферийные системы хранения данных должны базироваться на легко заменяемой физической инфраструктуре. В случае отказа (например, из-за прерывания подачи питания или других неполадок) потерь данных быть не должно. Критически важную информацию следует хранить в общедоступном облаке, чтобы аппаратные компоненты на периферии можно было рассматривать как «расходный материал», учитывая их подверженность воздействию неблагоприятных условий окружающей среды. К счастью, благодаря росту производства и снижению цен, развертывание подобных конечных точек становится более легким и дешевым, так что в случае отказа заменить неисправный компонент можно будет просто и быстро.

Одним из таких примеров может служить развертывание системы периферийных вычислений на нефтедобывающей платформе в Северном море, где крайне неблагоприятные погодные условия: сильный ветер, мощные волны и штормы. При работе периферийных систем непосредственно на платформе данные, поступающие от всевозможных датчиков на буровом оборудовании, можно собирать и обрабатывать на месте, что позволит оптимизировать операции. К тому же передавать данные в облако нужно будет лишь время от времени. Если модуль периферийных вычислений окажется поврежденным, его можно быстро заменить.

В условиях жаркого и сухого климата Западной Австралии, где тоже ведется добыча полезных ископаемых, системы периферийных вычислений можно использовать для мониторинга железнодорожного сообщения с шахтами — в частности, для контроля состояния вагонеток, перевозящих железную руду, и предотвращения опасности их схода с рельсов. Прямые трансляции съемки колесных пар вагонеток можно «просматривать» и обрабатывать с помощью системы машинного обучения, работающей на самом составе, — она могла бы следить за соблюдением рабочих режимов и помогать в проведении профилактического техобслуживания. Данные также можно было бы передавать властям, чтобы контролировать соблюдение регламентов техники безопасности и охраны здоровья персонала.

По прогнозу IDC, объемы данных, передаваемых в рамках прямых трансляций и подвергаемых анализу на периферии для выбора дальнейших действий, будут постоянно расти. Параллельно станут увеличиваться потребности в объектных хранилищах, применяемых для соответствующих целей. Смещение центра тяжести от ядра к периферии происходит под влиянием новых технологий: искусственного интеллекта, «Интернета вещей», мобильной связи 5G. Соответственно, в планах предприятий любых отраслей, где внедряют сервисы на основе прямых трансляций, нужно предусматривать потребности в масштабировании, обеспечении долговечности информации и отказоустойчивости для уровней хранения и обработки потоковых данных.

Опубликовано 09.04.2021