Нещодавно ми писали про нову платформу HPE Alletra Storage MP, де розповідали про архітектуру системи зберігання для блочного доступу. Тепер настав час розповісти про файловий доступ цієї платформи.
Компанія НРЕ не стала писати наново ОС для системи зберігання нового покоління з файловим доступом, а просто створила стратегічний альянс із компанією VAST Data і на базі файлової системи Universal Storage запропонувала своє рішення. Чому саме цей продукт був обраний? Відповідь очевидна: це рішення повністю вписується в концепт платформи HPE Alletra Storage MP із її дезагрегацією. Другий фактор - це дуже потужна і надійна архітектура самого рішення, що дає необмежену продуктивність і вже зараз використовується в таких рішеннях, як додатки для ШІ (Pixar, NVIDIA, Zoom та інші), нещодавно було анонсовано заміну існуючої розподіленої системи зберігання з доступом по протоколу NFS для суперкомп'ютера Stampede3 в університеті Texas Advanced Computing Center (TACC). Об'єм даних у цьому сховищі 13PB, а пропускна здатність читання 450 Гбіт/с. Це сховище проєктувалося також з можливістю подальшого масштабування.
Що являє собою компанія VAST Data і звідки вони з'явилися? Компанія заснована у 2016 році вихідцями з таких компаній, як XtremIO, Kaminario, CTERA. Перший продукт з'явився у 2019 році (VAST DataStore). Серед акціонерів були такі компанії, як Goldman Sachs, Mellanox Capital та Dell Technologies Capital. Офіси компанії розташовані у США (штаб-квартира в Нью-Йорку), Великій Британії, Франції, Німеччині, Австралії.
З чого складається рішення HPE Alletra Storage MP для файлового доступу?
У системі VAST Data використовується файлова система Universal Storage. Механізм VAST DASE (Disaggregated Shared Everything Architecture) відокремлює носії даних (Storage Node) від обчислень (Compute Node), які керують цими носіями та надають послуги зберігання. Це дезагреговане сховище, включаючи всі системні метадані, спільно використовує всі сервери VAST в кластері. DASE дозволяє користувачам масштабувати ємність кластера VAST незалежно від обчислювальних ресурсів кластера, додаючи нові обчислювальні вузли (Storage Node) для збільшення ємності та сервери обчислень (Compute Node) для підвищення продуктивності.
Обчислювальні вузли (Storage Node) відповідають за так звані сховища елементів (element stores). У цих сховищах елементів використовуються структури метаданих V-дерева (7-рівневі), кожен шар у 512 разів більший, ніж той, що над ним. Ця структура V-дерева здатна підтримувати 100 трлн об'єктів! Структури даних є самоописуваними щодо станів блокування та прив'язки, а також каталогів. Оскільки V-дерева неглибокі, пошук конкретного метаданих елемента займає 7 або менше кроків перенаправлення через V-дерево. Це означає відсутність постійного стану обчислювального вузла/Compute Node (невелика хеш-таблиця, створена при завантаженні) і додавання ємності додає V-дерева для масштабування.
Колірне колесо на "Server" - це узгоджена хеш-таблиця в обчислювальному вузлі (Compute Node), яка надає перший набір покажчиків (pointers) на синє, бірюзове та пурпурне V-дерева у вузлах даних (Storage Node). У кожному обчислювальному вузлі існує узгоджений хеш, який повідомляє цьому обчислювальному вузлу, яке V-дерево використовуватиме пошуку об'єкта даних. V-дерева є загальними. Глобальний доступ до дерев та структур транзакційних даних забезпечує глобальний простір імен без необхідності когерентності кешу на серверах. Так безпечніше, дешевше та простіше. Також немає потреби в диспетчері блокувань, оскільки стан блокування зчитується з дисків 3D XPoint (SCM/Storage Class Memory для швидкого кешування).
Глобальна система дисків SSD оптимізована для SSD дисків типу QLC (для зберігання даних) з чотирма атрибутами:
- Система з непрямим записом (Indirect-on-write), що записує повні блоки стирання QLC, що дозволяє уникнути запуску складання сміття (garbage collection) на рівні пристрою.
- Буферизація на 3D XPoint (диски з SCM) забезпечує запис з повним чергуванням (full-stripe), щоб унеможливити знос флеш-пам'яті, викликаний операціями читання-зміни-запису.
- Універсальне вирівнювання зносу (wear levelling) амортизує/збільшує термін служби запису, щоб працювати відповідно до середнього значення перезаписів при об'єднанні довгострокових (long-term) та короткострокових (short-term) даних.
- Передиктивне розміщення даних (predictive data placement), щоб уникнути збільшення запису після того, як програма зберегла дані.
Ідея довгострокових і короткострокових даних дозволяє записувати довгострокові дані (з низьким потенціалом перезапису) в блоки стирання з обмеженим терміном служби, що залишився. Короткострокові дані з більш високим потенціалом перезапису можуть бути поміщені в блоки з великою кількістю циклів запису, що залишилися. Компанія VAST може використовувати найдешевші твердотільні накопичувачі QLC, оскільки йому не потрібна складання сміття (garbage collection) на рівні пристрою і вирівнювання зносу (wear levelling), виконуючи ці функції самостійно. Компанія VAST та HPE гарантує, що їх накопичувачі QLC працюватимуть протягом 10 років завдяки цим способам зменшення збільшення запису.
Якщо в системі HPE Alletra Storage MP потрібен як блоковий, так і файловий доступ, то це будуть фактично дві різні незалежні системи, які зовні дуже схожі і які обидві дезагреговані. Також ця підсистема з файловим доступом — це лише SSD рішення (All-flash NVMe).
Фізично рішення складається з одного або декількох шасі контролера висотою 2 юніти (всередині 2 вузла/сервера обчислень/Compute Node), які з'єднуються через 100-гігабітну фабрику/комутатор (HPE Aruba CX8325-32C) з одним або декількома вузлами для зберігання Node) також висотою 2 юніти (JBOF). Storage Node поставляється в мінімальній конфігурації та складається з 20 твердотільних накопичувачів NVMe (обсягом 7,68 ТБ або 15,36 ТБ тип QLC) та 4-х накопичувачів 3D XPoint (SCM). Ця система розширюється лінійно, додаючи при необхідності окремо (дезагреговано) або Storage Node або Compute Node.
Так виглядає мінімальна конфігурація цього рішення:
HPE пропонує використовувати HPE Alletra Storage MP для файлового сховища для хмарних робочих навантажень (Kubernetes, OpenShift, Anthos), серед бізнес-аналітики та машинного навчання (TensorFlow, PyTorch, H20.ai та Caffe2) та швидкого петабайтного масштабованого сховища (Spark, Spark , Hadoop та Python). І це далеко не всі сфери застосування.
Це рішення підтримує такі протоколи та плагіни:
- NFS v3.0, v4.1 (w/ RDMA*, GPUDirect*, byte-range locks, w/ POSIX ACLs, Kerberos).
- SMB 2.1 и SMB 3 (Multi-Channel).
- Multi-protocol namespace (Простий перехід між NFS и SMB).
- Automation plugins (Kubernetes CSI, OpenStack Driver).
- S3*.
*- в майбутніх релізах.
Компанії НРЕ та VAST Data дуже відповідально підходять до зберігання даних. Тому у рамках цього рішення гарантують та пропонують:
- Використовуючи технологію "erasure encoding" та схему N+4 допускається одночасна відмова 4 дисків, а також додатковий захист за рахунок контролю парності всередині диска.
- Шифрування сертифіковане за стандартом FIPS.
- Власні моментальні знімки та реплікацію, узгоджені з різними програмами.
- Надлишкові компоненти з можливістю «гарячої» заміни, включаючи контролери, блоки живлення, твердотільні накопичувачі та адаптери вводу-виводу, які разом забезпечують високу доступність корпоративного рівня з часом безвідмовної роботи 99,9999% (6 дев'яток).
Вибір VAST Data компанією HPE – це величезна перемога. По суті HPE заявляє, що компанія VAST Data є великим постачальником файлових сервісів корпоративного класу. HPE стає серйознішим гравцем на ринку зберігання файлових систем, а VAST стає основним постачальником для цього рішення. Цей союз робить з VAST, відносно нового стартапу, постачальника того ж корпоративного класу, що і HPE, і, отже, гідного конкурувати за корпоративні, критично важливі робочі навантаження на основі файлів з Dell, IBM, NetApp і Pure Storage, маючи більше переваг, а саме продуктивніше, ніж конкуренти.