Промислові тенденції у сфері масових систем зберігання даних

Сьогодні поговоримо про те, як краще зберігати дані у світі, де мережі п'ятого покоління, сканери геномів та безпілотні автомобілі виробляють за день більше даних, ніж усе людство породило у період до промислової революції.

Промислові тенденції у сфері масових систем зберігання даних

Наш світ генерує дедалі більше інформації. Якась її частина скороминуща і втрачається так само швидко, як і збирається. Інша повинна зберігатися довше, а інша взагалі розрахована «на віки» — принаймні, так нам бачиться з сьогодення. Інформаційні потоки осідають у дата-центрах з такою швидкістю, що будь-який новий підхід, будь-яка технологія, покликані задовольнити цей нескінченний «попит», стрімко старіють.

Промислові тенденції у сфері масових систем зберігання даних

40 років розвитку розподілених СГД

Перші мережеві сховища у звичному нам вигляді з'явилися у 1980-х. Багато хто з вас стикався з NFS (Network File System), AFS (Andrew File System) або Coda. Через десятиліття мода та технології змінилися, а розподілені файлові системи поступилися місцем кластерним СХД на основі GPFS (General Parallel File System), CFS (Clustered File Systems) і StorNext. Як базис використовувалися блокові сховища класичної архітектури, поверх яких за допомогою програмного шару створювалася єдина файлова система. Ці та подібні рішення досі застосовуються, займають свою нішу та цілком затребувані.

На рубежі тисячоліть парадигма розподілених сховищ дещо змінилася, і на лідируючі позиції вийшли системи з архітектурою SN (Shared-Nothing). Відбувся перехід від кластерного зберігання до зберігання на окремих вузлах, якими, як правило, виступали класичні сервери з забезпечує надійне зберігання ПЗ; на таких принципах побудовані, скажімо, HDFS (Hadoop Distributed File System) та GFS (Global File System).

Ближче до 2010-х закладені в основу розподілених систем зберігання концепції все частіше стали відбивати у повноцінних комерційних продуктах, таких як VMware vSAN, Dell EMC Isilon та наша Huawei OceanStor. За згаданими платформами стоїть вже не спільнота ентузіастів, а конкретні вендори, які відповідають за функціональність, підтримку, сервісне обслуговування продукту та гарантують його подальший розвиток. Такі рішення найбільш затребувані у кількох сферах.

Промислові тенденції у сфері масових систем зберігання даних

Оператори зв'язку

Мабуть, одним із найстаріших споживачів розподілених систем зберігання є оператори зв'язку. На схемі видно, які групи додатків виробляють основний обсяг даних. OSS (Operations Support Systems), MSS (Management Support Services) і BSS (Business Support Systems) є три доповнюють один одного програмні шари, необхідні для надання сервісу абонентам, фінансової звітності провайдеру та експлуатаційної підтримки інженерам оператора.

Найчастіше дані цих шарів сильно перемішані між собою, і щоб уникнути накопичення непотрібних копій, якраз і використовуються розподілені сховища, які акумулюють весь обсяг інформації, що надходить від працюючої мережі. Сховища об'єднуються в загальний пул, до якого звертаються всі послуги.

Наші розрахунки показують, що перехід від класичних СГД до блокових дозволяє заощадити до 70% бюджету лише за рахунок відмови від виділених СГД класу hi-end та використання звичайних серверів класичної архітектури (зазвичай x86), що працюють у зв'язці зі спеціалізованим ПЗ. Стільникові оператори вже досить давно почали набувати подібних рішень у серйозних обсягах. Зокрема, російські оператори використовують такі продукти від Huawei більше шести років.

Так, ряд завдань за допомогою розподілених систем виконати не вдасться. Наприклад, при підвищених вимогах до продуктивності або сумісності зі старими протоколами. Але не менше 70% даних, які обробляє оператор, цілком можна розташувати у розподіленому пулі.

Промислові тенденції у сфері масових систем зберігання даних

Банківська сфера

У будь-якому банку є багато різношерстих IT-систем, починаючи з процесингу і закінчуючи автоматизованою банківською системою. Ця інфраструктура теж працює з величезним обсягом інформації, при цьому велика частина завдань не вимагає підвищеної продуктивності та надійності систем зберігання, наприклад, розробка, тестування, автоматизація офісних процесів та ін. Тут застосування класичних СГД можливе, але з кожним роком все менш вигідно. До того ж, у цьому випадку відсутня гнучкість витрачання ресурсів СГД, продуктивність якої розраховується з пікового навантаження.

При використанні розподілених систем зберігання їх вузли, які є звичайними серверами, можуть бути в будь-який момент конвертовані, наприклад, в серверну ферму і використані як обчислювальна платформа.

Промислові тенденції у сфері масових систем зберігання даних

Озера даних

На схемі вище наведено перелік типових споживачів сервісів озеро даних. Це можуть бути служби електронного уряду (припустимо, «Держпослуги»), що пройшли цифровізацію підприємства, фінансові структури та ін. Всім їм необхідно працювати з більшими обсягами різноманітної інформації.

p align="justify"> Експлуатація класичних СГД для вирішення таких завдань неефективна, так як потрібен і високопродуктивний доступ до блокових баз даних, і звичайний доступ до бібліотек сканованих документів, що зберігаються у вигляді об'єктів. Сюди може бути прив'язана, припустимо, система замовлень через веб-портал. Щоб все це реалізувати на платформі класичної СГД, знадобиться великий комплект обладнання під різні завдання. Одна горизонтальна універсальна система зберігання може закривати всі раніше перелічені завдання: знадобиться лише створити у ній кілька пулів з різними характеристиками зберігання.

Промислові тенденції у сфері масових систем зберігання даних

Генератори нової інформації

Кількість інформації, що зберігається у світі, зростає приблизно на 30% на рік. Це хороші новини для постачальників систем зберігання, але що є і буде основним джерелом цих даних?

Десять років тому такими генераторами стали соціальні мережі, це зажадало створення великої кількості нових алгоритмів, апаратних рішень і т. д. Зараз виділяються три головні драйвери зростання обсягів зберігання. Перший – cloud computing. В даний час приблизно 70% компаній так чи інакше використовують хмарні послуги. Це можуть бути електронні поштові системи, резервні копії та інші віртуалізовані сутності.
Другим драйвером стають мережі п'ятого покоління. Це нові швидкості та нові обсяги передачі даних. За нашими прогнозами, широке поширення 5G призведе до падіння попиту на картки флеш-пам'яті. Скільки б не було пам'яті в телефоні, вона все одно закінчується, а за наявності в гаджеті 100-мегабітного каналу немає необхідності зберігати фотографії локально.

До третьої групи причин, через які зростає попит на системи зберігання, відносяться бурхливий розвиток штучного інтелекту, перехід на аналітику великих даних і тренд на загальну автоматизацію всього, що тільки можна.

Особливістю «нового трафіку» є його неструктурованість. Нам треба зберігати ці дані, не визначаючи їх формат. Він потрібний лише при наступному читанні. Наприклад, банківська система скорингу для визначення доступного розміру кредиту буде дивитися викладені вами в соцмережах фотографії, визначаючи, чи часто ви буваєте на морі та ресторанах, і одночасно вивчати доступні їй виписки з ваших медичних документів. Ці дані, з одного боку, всеосяжні, з другого — позбавлені однорідності.

Промислові тенденції у сфері масових систем зберігання даних

Океан неструктурованих даних

Які ж проблеми спричиняє появу «нових даних»? Найперша серед них, звичайно, сам обсяг інформації та розрахункові терміни її зберігання. Один тільки сучасний автономний автомобіль без водія щодня генерує до 60 Тбайт даних, що надходять з усіх датчиків і механізмів. Для розробки нових алгоритмів руху цю інформацію необхідно обробити за ту саму добу, інакше вона почне накопичуватися. При цьому вона повинна зберігатися дуже довго — десятки років. Лише тоді у майбутньому можна буде робити висновки на основі високих аналітичних вибірок.

Один пристрій для розшифрування генетичних послідовностей виробляє близько 6 Тбайт на день. А зібрані з його допомогою дані взагалі не мають на увазі видалення, тобто гіпотетично повинні зберігатися вічно.

Нарешті, ті самі мережі п'ятого покоління. Крім власне переданої інформації, така мережа і сама є величезним генератором даних: журналів дій, записів дзвінків, проміжних результатів міжмашинних взаємодій та ін.

Все це вимагає вироблення нових підходів та алгоритмів зберігання та обробки інформації. І такі підходи з'являються.

Промислові тенденції у сфері масових систем зберігання даних

Технології нової доби

Можна виділити три групи рішень, покликаних впоратися з новими вимогами до систем зберігання інформації: використання штучного інтелекту, технічна еволюція носіїв даних та інновації в галузі системної архітектури. Почнемо з ІІ.

Промислові тенденції у сфері масових систем зберігання даних

У нових рішеннях Huawei штучний інтелект використовується вже на рівні самого сховища, яке обладнане ІІ-процесором, що дозволяє системі самостійно аналізувати свій стан та передбачати відмови. Якщо СГД підключити до сервісної хмари, яка має значні обчислювальні здібності, штучний інтелект зможе обробити більше інформації та підвищити точність своїх гіпотез.

Крім відмов, такий ІІ вміє прогнозувати майбутнє пікове навантаження та час, що залишається до вичерпання ємності. Це дозволяє оптимізувати продуктивність і масштабувати систему ще до настання будь-яких небажаних подій.

Промислові тенденції у сфері масових систем зберігання даних

Тепер про еволюцію носіїв даних. Перші флеш-накопичувачі були виконані за технологією SLC (Single-Level Cell). Засновані на ній пристрої були швидкими, надійними, стабільними, але мали невелику ємність і коштували дуже дорого. Зростання обсягу та зниження ціни вдалося досягти шляхом певних технічних поступок, через які швидкість, надійність та термін служби накопичувачів скоротилися. Тим не менш, тренд не вплинув на самі СГД, які за рахунок різних архітектурних хитрощів в цілому стали і більш продуктивними, і надійнішими.

Але чому знадобилися СГД класу All-Flash? Хіба недостатньо було просто замінити в системі, що вже експлуатується, старі HDD на нові SSD того ж форм-фактора? Потрібно було це для того, щоб ефективно використовувати всі ресурси нових твердотільних накопичувачів, що у старих системах було просто неможливо.

Компанія Huawei, наприклад, для вирішення цього завдання розробила цілу низку технологій, однією з яких стала FlashLink, що дозволило максимально оптимізувати взаємодії "диск - контролер".

Інтелектуальна ідентифікація дала можливість розкласти дані на кілька потоків і впоратися з багатьма небажаними явищами, такими як WA (Write amplification). Водночас нові алгоритми відновлення, зокрема RAID 2.0+, Підвищили швидкість ребілда, скоротивши його час до зовсім незначних величин.

Відмова, переповненість, «складання сміття» — ці фактори також більше не впливають на продуктивність системи зберігання завдяки спеціальному доопрацюванню контролерів.

Промислові тенденції у сфері масових систем зберігання даних

А ще блокові сховища даних готуються зустріти NVMe. Нагадаємо, що класична схема організації доступу до даних працювала так: процесор звертався до RAID-контролера по шині PCI Express. Той, у свою чергу, взаємодіяв з механічними дисками SCSI або SAS. Застосування NVMe на бекенді помітно прискорило весь процес, проте несло в собі один недолік: накопичувачі повинні були мати безпосереднє підключення до процесора, щоб забезпечити прямий доступ в пам'ять.

Наступною фазою розвитку технології, що ми спостерігаємо зараз, стало застосування NVMe-oF (NVMe over Fabrics). Що стосується блокових технологій Huawei, вони вже зараз підтримують FC-NVMe (NVMe over Fibre Channel) і на підході NVMe over RoCE (RDMA over Converged Ethernet). Тестові моделі цілком функціональні, до їх офіційної презентації залишилося кілька місяців. Зауважимо, що все це з'явиться і в розподілених системах, де Ethernet без втрат буде дуже затребуваний.

Промислові тенденції у сфері масових систем зберігання даних

Додатковим способом оптимізації роботи саме розподілених сховищ стала повна відмова від дзеркалювання даних. Рішення Huawei більше не використовують n копій, як у звичному RAID 1, і повністю переходять на механізм EC (Erasure coding). Спеціальний математичний пакет з певною періодичністю обчислює контрольні блоки, які дозволяють відновити проміжні дані у разі втрати.

Механізми дедуплікації та стиску стають обов'язковими. Якщо в класичних СХД ми обмежені кількістю встановлених в контролери процесорів, то в розподілених системах зберігання, що горизонтально масштабуються, кожен вузол містить все необхідне: диски, пам'ять, процесори та інтерконнект. Цих ресурсів достатньо, щоб дедуплікація та компресія мали на продуктивність мінімальний вплив.

І про апаратні методи оптимізації. Тут знизити навантаження на центральні процесори вдалося за допомогою додаткових виділених мікросхем (або виділених блоків у самому процесорі), які відіграють роль TOE (TCP/IP Offload Engine) або беруть на себе математичні завдання EC, дедуплікації та компресії.

Промислові тенденції у сфері масових систем зберігання даних

Нові підходи до зберігання даних знайшли втілення у дезагрегованій (розподіленій) архітектурі. У системах централізованого зберігання є фабрика серверів, Fibre Channel підключена до SAN з великою кількістю масивів. Недоліками такого підходу є труднощі із масштабуванням та забезпеченням гарантованого рівня послуги (за продуктивністю чи затримками). Гіперконвергентні системи використовують одні й самі хости — як зберігання, так обробки інформації. Це дає практично необмежений простір масштабування, але спричиняє високі витрати на підтримку цілісності даних.

На відміну від обох перерахованих вище, дезагрегована архітектура має на увазі поділ системи на обчислювальну фабрику та горизонтальну систему зберігання. Це забезпечує переваги обох архітектур та дозволяє практично необмежено масштабувати лише той елемент, продуктивності якого не вистачає.

Промислові тенденції у сфері масових систем зберігання даних

Від інтеграції до конвергенції

Класичним завданням, актуальність якої останні 15 років лише зростала, є необхідність одночасно забезпечити блокове зберігання, файловий доступ, доступ до об'єктів, роботу ферми для великих даних і т.д.

На першому етапі уніфікувати вдавалося лише керування цими послугами. Різнорідні системи зберігання даних замикалися на спеціалізоване ПЗ, за допомогою якого адміністратор розподіляв ресурси з доступних пулів. Але оскільки апаратно ці пули були різні, міграція навантаження між ними була неможлива. На вищому рівні інтеграції об'єднання відбувалося лише на рівні шлюзу. За наявності загального файлового доступу можна було віддавати через різні протоколи.

Найдосконаліший з доступних нам зараз методів конвергенції передбачає створення універсальної гібридної системи. Саме такою, якою має стати наша OceanStor 100D. Універсальний доступ використовує самі апаратні ресурси, логічно розділені на різні пули, але допускають міграцію навантаження. Все це можна зробити через єдину консоль керування. У такий спосіб нам вдалося реалізувати концепцію «один ЦОД — одна СГД».

Промислові тенденції у сфері масових систем зберігання даних

Вартість зберігання інформації зараз визначає багато архітектурних рішень. І хоча її можна сміливо ставити на чільне місце, ми сьогодні обговорюємо «живе» зберігання з активним доступом, так що продуктивність теж необхідно враховувати. Ще однією важливою властивістю розподілених систем наступного покоління є уніфікація. Адже ніхто не хоче мати кілька розрізнених систем, керованих із різних консолей. Всі ці якості знайшли втілення у новій серії продуктів Huawei OceanStor Pacific.

Масова СГД нового покоління

OceanStor Pacific відповідає вимогам надійності на рівні "шість дев'яток" (99,9999%) і може використовуватися для створення ЦОД класу HyperMetro. На відстані між двома дата-центрами до 100 км системи демонструють додаткову затримку на рівні 2 мс, що дозволяє будувати на їх основі будь-які катастрофостійкі рішення, у тому числі і з кворум-серверами.

Промислові тенденції у сфері масових систем зберігання даних

Продукти нової серії демонструють універсальність за протоколами. Вже зараз OceanStor 100D підтримує блоковий доступ, об'єктовий доступ та доступ Hadoop. Найближчим часом буде реалізовано і файловий доступ. Не потрібно зберігати кілька копій даних, якщо їх можна видавати через різні протоколи.

Промислові тенденції у сфері масових систем зберігання даних

Здавалося б, яке відношення концепція «мережа без втрат» має до СГД? Справа в тому, що розподілені системи зберігання даних будуються на основі швидкої мережі, що підтримує відповідні алгоритми та механізм RoCE. Додатково збільшити швидкість мережі та знизити затримки допомагає система штучного інтелекту, що підтримується нашими комутаторами. AI Fabric. Виграш продуктивності СГД при активації AI Fabric може досягати 20%.

Промислові тенденції у сфері масових систем зберігання даних

Що ж є новий вузол розподіленої СГД OceanStor Pacific? Рішення форм-фактора 5U включає 120 накопичувачів і може замінити три класичних вузла, що дає більш ніж дворазову економію місця в стійці. За рахунок відмови від зберігання копій ККД накопичувачів відчутно зростає (до +92%).

Ми звикли до того, що програмно-визначена СГД — це спеціальне програмне забезпечення, яке встановлюється на класичний сервер. Але для досягнення оптимальних параметрів це архітектурне рішення вимагає і спеціальних вузлів. До його складу входять два сервери на базі ARM-процесорів, що управляють масивом тридюймових накопичувачів.

Промислові тенденції у сфері масових систем зберігання даних

Ці сервери мало підходять для гіперконвергентних рішень. По-перше, додатків для ARM досить мало, а по-друге, важко дотриматися балансу навантаження. Ми пропонуємо перейти до роздільного зберігання: обчислювальний кластер, представлений класичними або rack-серверами, функціонує окремо, але підключається до вузлів зберігання OceanStor Pacific, які виконують свої прямі завдання. І це себе виправдовує.

Наприклад візьмемо класичне рішення для зберігання великих даних із гіперконвергентною системою, що займає 15 серверних стійок. Якщо розподілити навантаження між окремими обчислювальними серверами та вузлами СГД OceanStor Pacific, відокремивши їх один від одного, кількість необхідних стійок скоротиться вдвічі! Це знижує витрати на експлуатацію дата-центру та зменшує сукупну вартість володіння. У світі, де обсяг інформації, що зберігається, зростає на 30% на рік, подібними перевагами не розкидаються.

***

Більше інформації про рішення Huawei та сценарії їх застосування ви можете отримати на нашому сайті або звернувшись безпосередньо до представників компанії.

Джерело: habr.com

Додати коментар або відгук