Тренды 2021 года в сфере систем хранения данных: взгляд Seagate
«Данные правят миром. Как ожидается, рост суммарного количества создаваемых данных будет экспоненциально ускоряться и к 2025 году их объем достигнет 175 зеттабайт. Сегодня мы создаем больше данных за час, чем 20 лет назад создавали за целый год. И, когда объемы измеряются зеттабайтами, нам требуется простой, безопасный и недорогой способ сбора, хранения и применения этих данных», — говорит Дейв Мосли (Dave Mosley), генеральный директор Seagate Technology.
В эпоху цифровой трансформации количество цифровых данных в мире измеряется миллиардами терабайт. Форсированный переход в онлайн на фоне пандемии еще больше подхлестнул их беспрецедентный рост, и это уже дает свои плоды в виде усложнения и повышения разнообразия экосистемы данных, которая сегодня включает в себя многооблачные и периферийные среды. Применение IoT, AI, смарт-технологий набирает обороты, соответственно растет и потребность в вычислительных ресурсах. Предпринимателям приходится признать, что управлять данными стало гораздо сложнее.
Эксперты Seagate проанализировали глобальный рынок данных, выделив пять ключевых тенденций, которые ярко проявят себя в наступившем 2021 году, и сформулировали рекомендации для бизнеса в новых условиях.
Рост применения иерархической схемы обеспечения безопасности
В настоящее время продолжается рост внедрения гипермасштабных программных экосистем, которые позволяют разрабатывать и развертывать приложения на меньших «атомарных единицах» в организациях и на объектах, не имеющих необходимой инфраструктуры связи. Все больше облачных приложений работают непосредственно в точках присутствия или центрах колокации в различных странах мира, и, поскольку такая модель совместного использования ресурсов становится все более распространенной, обостряется необходимость усиления систем безопасности. Защита пользовательских данных при их хранении и передаче в условиях распределенной схемы развертывания критически важна.
Рекомендация
Во многих отраслях шифрование неактивных данных для защиты от внешних и внутренних угроз становится обязательным. Даже если в вашей конкретной отрасли требование такого шифрования еще не введено, в ближайшее время ситуация может измениться, и есть смысл задуматься об оперативном переходе на накопители с шифрованием, дабы в дальнейшем избежать сбоев из-за ввода в действие соответствующих норм.
Более широкое применение объектных хранилищ на предприятиях
Взрывной рост объемов полезных данных привел к тому, что именно объектное хранилище становится предпочтительным для их размещения. Одно из главных преимуществ такого решения — возможность использования директивных метаданных, масштабируемость и отсутствие иерархической структуры. Современным системам необходима более интеллектуальная обработка наборов данных, а объектные хранилища как раз и дают соответствующие средства для этого.
Существуют три типа хранилищ: блочные, файловые и объектные. Блочные необходимы для критически важных приложений, которым требуется высокая производительность. Файловые применяются для устаревших приложений, обеспечивая надежную архитектуру хранения. А объектные хранилища используются при разработке новых приложений и применяются в сочетании с блочными хранилищами, что обеспечивает и масштаб, и высокое быстродействие. Многие устаревшие файловые приложения переводят на инфраструктуру объектного хранилища, которая позволяет им использовать эффект масштаба.
Рекомендация
Объектное хранилище становится фактическим стандартом хранилища большой емкости, одновременно дополняя файловые хранилища и вытесняя их благодаря более высокой экономической эффективности и масштабируемости. Кроме того, нынешние выпускники-программисты чаще всего выстраивают рабочие процессы с расчетом на использование интерфейсов объектного хранения, и на работу лучше нанимать именно таких специалистов. Если вы еще не внедрили объектное хранилище в центре обработки данных, сейчас самое время сделать это.
Идея разделения систем на независимые модули, которые можно комбинировать друг с другом, не нова, однако в настоящее время происходит более широкое освоение концепции компонуемости на основе ПО с открытым кодом. Стержнем этой тенденции является Kubernetes — система с открытым кодом, предназначенная для автоматизации развертывания, масштабирования контейнеризованных приложений и управления ими. За открытым кодом будущее разработки приложений, так как использование соответствующих принципов позволяет гораздо более широкому сообществу работать над решением задач, стоящих перед многими отраслями, и создавать узкоспециализированные решения на базе открытых архитектур. Сегодня будет логичнее перейти на принцип компоновки оборудования для оптимального обеспечения потребностей программных систем и бизнеса.
Рекомендация
В настоящий момент центры обработки данных переводят на компонуемые системы. Это обеспечивает более простое внедрение и перераспределение ресурсов и в то же время не требует необходимости предварительно задавать конфигурации и статично выбирать соотношения между ресурсами вычислений, памяти и хранения. Фундаментом компонуемости становятся контейнеры и система Kubernetes, и сегодня эти технологии необходимо внедрять во всех центрах обработки данных.
Разделение архитектуры хранения больших объемов данных на уровни
«Горячие» данные размещаются на флеш-накопителях, а все остальные — на дисковых устройствах. Например, конструкция графических процессоров NVIDIA предусматривает разделение памяти на уровни – регистры, общая память и глобальная память. У каждого уровня свои характеристики. Например, у регистров минимальная задержка доступа, но объем памяти этого типа небольшой. А объем глобальной памяти обширный, но и задержка больше.
В NVIDIA предусмотрели программный интерфейс для использования преимуществ многоуровневой памяти и программирования систем, оптимизированных для такой архитектуры. По аналогии твердотельные накопители и жесткие диски можно применять на разных уровнях хранилища. Сегодня, когда генерируются очень большие объемы полезных данных, использовать для них однородное хранилище было бы неэффективно.
Почему это важно? СХД, выполненная исключительно на высокопроизводительных накопителях, скорее всего, будет отличаться слишком высокой стоимостью, а состоящая только из накопителей большой емкости характеризовалась бы недостаточной производительностью. Именно поэтому развивается нынешняя тенденция разделения на уровни, ведь такая схема обеспечивает самый эффективный баланс стоимости и производительности. С появлением новых технологий (например, памяти класса хранилища) становятся остро актуальными архитектуры, позволяющие извлекать максимальную пользу из хранилищ всех уровней.
Рекомендация
Если бы компании располагали безграничными бюджетами, в центрах обработки данных использовались бы только дорогостоящие носители, такие как Intel 3D XPoint. Однако реалии диктуют иерархическое разделение на уровни, когда «горячие» данные размещают на дорогостоящих высокоскоростных носителях, а те, обращение к которым происходит редко, хранят на доступных по цене носителях большой емкости. Преимущество в том, что ПО центров обработки данных все более эффективно определяет «горячие» и «холодные» данные и автоматически переносит их на соответствующие уровни. Если в вашем ЦОДе еще не применяются накопители разных типов для этой цели, то вы либо проигрываете в производительности, либо платите за хранилище больше, чем нужно.
Формативный AI увеличивает пользу данных
На фоне взрывного роста данных увеличивается и количество полезной информации. Сегодня даже архивные данные восстанавливают, чтобы обрабатывать их средствами искусственного интеллекта и машинного обучения и получать дополнительные сведения. Руководителям предприятий нужно подготовиться к хранению еще большего объема данных для обучения моделей и извлечения критически важных сведений, а также к увеличению размеров архивов с учетом того, что срок их службы становится более длительным. Благодаря формативному AI из данных удается извлекать больше полезных сведений.
Аналитики Gartner определяют формативный AI как искусственный интеллект, способный динамически меняться в зависимости от ситуации. В IDC, в свою очередь, к формативному AI относят целый ряд новых технологий в сфере ИИ и смежных областях. Отличительная черта таких технологий — способность динамически меняться, реагируя на изменения ситуации.
Формативный AI имеет отношение и к тенденции разделения хранилищ на уровни, поскольку для этого необходима гибкая архитектура, способная интеллектуально реагировать на изменения.
Допустим, при мониторинге модели AI наблюдаются отклонения сигнала. В этом случае с помощью другой модели можно выполнить поиск соответствующих учебных данных на дисковом уровне и автоматически перенести их на флеш-уровень, чтобы обучение проходило быстрее. При этом дисковый уровень, скорее всего, будет организован по схеме объектного хранилища, то есть соответствующая тенденция тоже играет здесь свою роль. В этом случае преимуществами станут скорость (так как данные автоматически перемещаются на быстрый уровень) и уменьшение затрат (данные можно хранить на недорогих дисках в легкодоступном формате до момента, когда они понадобятся).
Рекомендация
Прогресс в области машинного обучения за последнее время позволяет по-настоящему раскрывать потенциал искусственного интеллекта. Вместе с тем системам машинного обучения необходимы наборы данных все большего размера, чтобы извлекать из них более точные сведения. Будущие возможности машинного обучения предсказать сложно, однако компаниям необходимо уже сегодня сохранять как можно больше данных. Ведь только так можно позаботиться о том, чтобы будущие аналитические системы работали с использованием лучших учебных выборок.
По прогнозам Seagate и IDC, до 2022 года объем генерируемых предприятиями данных продолжит увеличиваться приблизительно на 42,2% в год. При этом лишь 32% доступных бизнес-данных используются организациями эффективно, а остальные 68% остаются без внимания. Более того, во многих организациях собирается лишь половина данных, которые потенциально могут быть получены в результате их деятельности. Данные таят в себе огромные возможности извлечения ценности, но эти возможности часто упускают.
«Чем больше фрагментов вы составите вместе, тем более полное представление о реальности получите. Обмениваясь данными и создавая перекрестные ссылки на разные потоки информации для их анализа, можно решить проблему более высокого порядка. Вот почему перемещение данных так важно. Данные должны находиться в движении, чтобы было возможно выявлять связи между ними и, как следствие, составлять точную и подробную картину происходящего», — отмечает Рави Наик (Ravi Naik), старший вице-президент и главный директор по информационным технологиям Seagate Technology.
Ожидается, что к 2025 году 44% всех данных, созданных в центре и на периферии, будут использоваться для аналитики, искусственного интеллекта и глубокого обучения, а данные с растущего числа IoT-устройств будут передаваться на периферию корпоративной сети. Центр тяжести данных смещается и в направлении центра, и в направлении периферии. К тому же 2025 году почти 80% всех данных в мире будут храниться в центре и на периферии и, как предполагает IDC, емкость запоминающих устройств (жестких и оптических дисков, твердотельных и ленточных накопителей), используемых предприятиями, составит 12,6 зеттабайт. Поставщики облачных услуг будут управлять 51% этой емкости.
Одним из оптимальных вариантов управления данными в нынешних условиях видится применение DataOps — методологии, которую IDC называет «сводящей вместе создателей данных и их потребителей». DataOps позволяет использовать ИИ и МО для поиска взаимосвязей между данными из центра, облака и с источников на периферии. Кроме того, в DataOps для получения данных используется процесс, построенный по принципу ELT (Extract, Load, Transform — «извлечение, загрузка, преобразование»): то есть он извлекает данные из нескольких разных источников и загружает в единую структуру. ИИ способен преобразовать эту массу необработанных данных в четкую полезную информацию, на основании которой можно принимать взвешенные решения.
Опубликовано 02.02.2021