Не так давно мы писали о новой платформе HPE Alletra Storage MP, где рассказывали про архитектуру системы хранения для блочного доступа. Теперь настало время рассказать о файловом доступе этой платформы.
Компания НРЕ не стала писать заново ОС для системы хранения нового поколения с файловым доступом, а просто создала стратегический альянс с компанией VAST Data и на базе файловой системы Universal Storage предложила свое решение. Почему был выбран именно этот продукт? Ответ очевиден: это решение полностью вписывается в концепт платформы HPE Alletra Storage MP с ее дезагрегацией. Второй фактор — это очень мощная и надежная архитектура самого решения, дающая неограниченную производительность и уже сейчас использующаяся в таких решениях, как приложения для ИИ (Pixar, NVIDIA, Zoom и другие), не так давно было анонсировано замену существующей распределённой системы хранения с доступом по протоколу NFS для суперкомпьютера Stampede3 в университете Texas Advanced Computing Center (TACC). Объем данных в этом хранилище 13PB, а пропускная способность чтения 450 Гбит/с. Данное хранилище проектировалось также с возможностью дальнейшего масштабирования.
Что из себя представляет компания VAST Data и откуда они появилась? Компания основана в 2016 году выходцами из таких компаний как XtremIO, Kaminario, CTERA. Первый продукт появился в 2019 году (VAST DataStore). Среди акционеров были такие компании как Goldman Sachs, Mellanox Capital и Dell Technologies Capital. Офисы компании расположены в США (штаб-квартира в Нью-Йорке), Великобритании, Франции, Германии, Австралии.
Из чего состоит решение HPE Alletra Storage MP для файлового доступа?
В системе VAST Data используется файловая система Universal Storage. Механизм VAST DASE (Disaggregated Shared Everything Architecture) отделяет носители данных (Storage Node) от вычислений (Compute Node), которые управляют этими носителями и предоставляют услуги хранения. Это дезагрегированное хранилище, включая все системные метаданные, совместно используется всеми серверами VAST в кластере. DASE позволяет пользователям масштабировать емкость кластера VAST независимо от вычислительных ресурсов кластера, добавляя новые вычислительные узлы (Storage Node) для увеличения емкости и серверы вычислений (Compute Node) для повышения производительности.
Вычислительные узлы (Storage Node) отвечают за так называемые хранилища элементов (element stores). В этих хранилищах элементов используются структуры метаданных V-дерева (7-уровневые), каждый слой в 512 раз больше, чем тот, что над ним. Эта структура V-дерева способна поддерживать 100 триллионов объектов! Структуры данных являются само-описываемыми в отношении состояний блокировки и привязки, а также каталогов. Поскольку V-деревья неглубокие, поиск конкретного элемента метаданных занимает 7 или меньше шагов перенаправления через V-дерево. Это означает отсутствие постоянного состояния в вычислительном узле/Compute Node (небольшая хэш-таблица, созданная при загрузке) и добавление емкости добавляет V-деревья для масштабирования.
Цветовое колесо на «Server» — это согласованная хэш-таблица в вычислительном узле (Compute Node), которая предоставляет первый набор указателей (pointers) на синее, бирюзовое и пурпурное V-деревья в узлах данных (Storage Node). В каждом вычислительном узле существует согласованный хэш, который сообщает этому вычислительному узлу, какое V-дерево использовать для поиска объекта данных. V-деревья являются общими. Глобальный доступ к деревьям и структурам транзакционных данных обеспечивает глобальное пространство имен без необходимости когерентности кэша на серверах. Так безопаснее, дешевле и проще. Также нет необходимости в диспетчере блокировок, так как состояние блокировки считывается из дисков 3D XPoint (SCM/Storage Class Memory для очень быстрого кеширования).
Глобальная система SSD дисков оптимизирована для SSD дисков типа QLC (для хранения данных) с четырьмя атрибутами:
- Система с косвенной записью (Indirect-on-write), записывающая полные блоки стирания QLC, что позволяет избежать запуска сборки мусора (garbage collection) на уровне устройства.
- Буферизация на 3D XPoint (диски с SCM) обеспечивает запись с полным чередованием (full-stripe), чтобы исключить износ флэш-памяти, вызванный операциями чтения-изменения-записи.
- Универсальное выравнивание износа (wear levelling) амортизирует/увеличивает срок службы записи, чтобы работать в соответствии со средним значением перезаписей при объединении долгосрочных (long-term) и краткосрочных (short-term) данных.
- Предиктивное размещение данных (predictive data placement), чтобы избежать увеличения записи после того, как приложение сохранило данные.
Идея долгосрочных и краткосрочных данных позволяет записывать долгосрочные данные (с низким потенциалом перезаписи) в блоки стирания с ограниченным оставшимся сроком службы. Краткосрочные данные с более высоким потенциалом перезаписи могут быть помещены в блоки с большим количеством оставшихся циклов записи. Компания VAST может использовать самые дешевые твердотельные накопители QLC, поскольку ему не нужна «сборка мусора» (garbage collection) на уровне устройства и выравнивание износа (wear levelling), выполняя эти функции самостоятельно. Компания VAST и HPE гарантирует, что их накопители QLC будут работать в течение 10 лет благодаря этим способам уменьшения увеличения записи.
Если в системе HPE Alletra Storage MP нужен как блочный, так и файловый доступ, то это будут фактически 2 различные независимые системы, которые внешне очень похожи и которые обе дезагрегируемые. Так же данная подсистема с файловым доступом — это только SSD решение (All-flash NVMe).
Физически решение состоит из одного или нескольких шасси контроллера высотой 2 юнита (внутри 2 узла/сервера вычислений/Compute Node), которые соединяются через 100-гигабитную фабрику/коммутатор (HPE Aruba CX8325-32C) с одним или несколькими узлами для хранения данных (Storage Node) также высотой 2 юнита (JBOF). Storage Node поставляется в минимальной конфигурации и состоит из 20 твердотельных накопителей NVMe (объемом 7,68 ТБ или 15,36 ТБ тип QLC) и 4-х накопителей 3D XPoint (SCM). Данная система расширяется линейно, добавляя при необходимости отдельно (дезагрегировано) или Storage Node либо Compute Node.
Так выглядит минимальная конфигурация данного решения:
HPE предлагает использовать HPE Alletra Storage MP для файлового хранилища для облачных рабочих нагрузок (Kubernetes, OpenShift, Anthos), сред бизнес-аналитики и машинного обучения (TensorFlow, PyTorch, H20.ai и Caffe2) и быстрого петабайтного масштабируемого хранилища (Spark, Spark Streaming, Hadoop и Python). И это далеко не все области применения.
Данное решение поддерживает следующие протоколы и плагины:
- NFS v3.0, v4.1 (w/ RDMA*, GPUDirect*, byte-range locks, w/ POSIX ACLs, Kerberos).
- SMB 2.1 и SMB 3 (Multi-Channel).
- Multi-protocol namespace (Простой переход между NFS и SMB).
- Automation plugins (Kubernetes CSI, OpenStack Driver).
- S3*.
*-в будущих релизах.
Компании НРЕ и VAST Data очень ответственно подходят к хранению данных. Поэтому они в рамках данного решения гарантируют и предлагают:
- Используя технологию «erasure encoding» и схему N+4 допускается одновременный отказ 4 дисков, а также дополнительная защита за счет контроля четности внутри диска.
- Шифрование, сертифицированное по стандарту FIPS.
- Собственные моментальные снимки и репликацию, согласованные с различными приложениями.
- Избыточные компоненты с возможностью «горячей» замены, включая контроллеры, блоки питания, твердотельные накопители и адаптеры ввода-вывода, которые в совокупности обеспечивают высокую доступность корпоративного уровня со временем безотказной работы 99,9999% (6 девяток).
Выбор VAST Data компанией HPE — это огромная победа. По сути, HPE заявляет, что компания VAST Data является крупным поставщиком файловых сервисов корпоративного класса. HPE становится более серьезным игроком на рынке хранения файловых систем, а VAST становится основным поставщиком для этого решения. Этот союз делает из VAST, относительно нового стартапа поставщика того же корпоративного класса, что и HPE, и, следовательно, достойного конкурировать за корпоративные, критически важные рабочие нагрузки на основе файлов с Dell, IBM, NetApp и Pure Storage, при этом имея больше преимуществ и само по себе более производительнее, чем конкуренты.