Индустриални тенденции в системите за масово съхранение

Днес ще говорим за това как най-добре да съхраняваме данни в свят, в който мрежи от пето поколение, скенери за геном и самоуправляващи се автомобили произвеждат повече данни за един ден, отколкото цялото човечество е генерирало преди индустриалната революция.

Индустриални тенденции в системите за масово съхранение

Нашият свят генерира все повече и повече информация. Някои от тях са мимолетни и се губят толкова бързо, колкото се събират. Другото трябва да се съхранява по-дълго, а другото е напълно проектирано "за векове" - поне така го виждаме от настоящето. Информационните потоци се установяват в центровете за данни с такава скорост, че всеки нов подход, всяка технология, предназначена да отговори на това безкрайно „търсене“, бързо остарява.

Индустриални тенденции в системите за масово съхранение

40 години развитие на разпределено съхранение

Първите мрежови хранилища в познатата ни форма се появяват през 1980-те години на миналия век. Много от вас са се сблъсквали с NFS (Network File System), AFS (Andrew File System) или Coda. Десетилетие по-късно модата и технологиите се промениха и разпределените файлови системи отстъпиха място на клъстерни системи за съхранение, базирани на GPFS (Обща паралелна файлова система), CFS (Клъстерни файлови системи) и StorNext. Като основа бяха използвани блокови хранилища на класическа архитектура, върху които беше създадена единна файлова система с помощта на софтуерния слой. Тези и подобни решения все още се използват, заемат своята ниша и са доста търсени.

В началото на хилядолетието парадигмата за разпределено съхранение се промени донякъде и системите с архитектурата SN (Shared-Nothing) поеха водеща роля. Имаше преход от клъстерно съхранение към съхранение на отделни възли, които като правило бяха класически сървъри със софтуер, който осигурява надеждно съхранение; такива принципи са изградени, да речем, HDFS (Hadoop Distributed File System) и GFS (Global File System).

По-близо до 2010 г. концепциите, залегнали в основата на разпределените системи за съхранение, все повече започват да се отразяват в пълноценни търговски продукти, като VMware vSAN, Dell EMC Isilon и нашите Huawei OceanStor. Зад споменатите платформи вече не стои общност от ентусиасти, а конкретни доставчици, които отговарят за функционалността, поддръжката, сервизната поддръжка на продукта и гарантират по-нататъшното му развитие. Такива решения са най-търсени в няколко области.

Индустриални тенденции в системите за масово съхранение

Телеком оператори

Може би един от най-старите потребители на разпределени системи за съхранение са телеком операторите. Диаграмата показва кои групи приложения произвеждат по-голямата част от данните. OSS (Системи за поддръжка на операциите), MSS (Услуги за поддръжка на управление) и BSS (Системи за поддръжка на бизнеса) са три допълващи се софтуерни слоя, необходими за предоставяне на услуги на абонатите, финансови отчети на доставчика и оперативна поддръжка на инженерите на оператора.

Често данните на тези слоеве са силно смесени помежду си и за да се избегне натрупването на ненужни копия, се използват разпределени хранилища, които натрупват цялото количество информация, идваща от работеща мрежа. Хранилищата са обединени в общ пул, до който имат достъп всички услуги.

Нашите изчисления показват, че преходът от класически към блокови системи за съхранение ви позволява да спестите до 70% от бюджета само чрез изоставяне на специализирани системи за съхранение от висок клас и използване на конвенционални сървъри с класическа архитектура (обикновено x86), работещи във връзка със специализиран софтуер. Клетъчните оператори придобиват такива решения в значителни обеми от доста дълго време. По-специално, руските оператори използват такива продукти от Huawei повече от шест години.

Да, редица задачи не могат да бъдат изпълнени с помощта на разпределени системи. Например с повишени изисквания за производителност или съвместимост с по-стари протоколи. Но поне 70% от данните, които операторът обработва, могат да бъдат поставени в разпределен пул.

Индустриални тенденции в системите за масово съхранение

Банков сектор

Във всяка банка има много различни ИТ системи, вариращи от обработка до автоматизирана банкова система. Тази инфраструктура работи и с огромно количество информация, докато повечето от задачите не изискват повишена производителност и надеждност на системите за съхранение, като разработка, тестване, автоматизация на офис процеси и др. Тук е възможно използването на класически системи за съхранение , но всяка година е все по-малко печеливша. Освен това в този случай няма гъвкавост при изразходването на ресурси за съхранение, чиято производителност се изчислява от пиковото натоварване.

Когато се използват разпределени системи за съхранение, техните възли, които всъщност са обикновени сървъри, могат да бъдат преобразувани по всяко време, например в сървърна ферма и използвани като изчислителна платформа.

Индустриални тенденции в системите за масово съхранение

Езера с данни

Диаграмата по-горе показва списък с типични потребители на услуги. езеро с данни. Това могат да бъдат услуги на електронното правителство (например „Gosuslugi“), предприятия, които са преминали през цифровизация, финансови структури и т.н. Всички те трябва да работят с големи обеми разнородна информация.

Работата на класическите системи за съхранение за решаване на такива проблеми е неефективна, тъй като се изисква както високопроизводителен достъп до блокови бази данни, така и редовен достъп до библиотеки от сканирани документи, съхранявани като обекти. Тук например може да се върже система за поръчки през уеб портал. За да приложите всичко това на класическа платформа за съхранение, ще ви е необходим голям набор от оборудване за различни задачи. Една хоризонтална универсална система за съхранение може лесно да покрие всички изброени по-горе задачи: просто трябва да създадете няколко пула в нея с различни характеристики за съхранение.

Индустриални тенденции в системите за масово съхранение

Генератори на нова информация

Количеството информация, съхранявана в света, нараства с около 30% годишно. Това е добра новина за доставчиците на хранилища, но какъв е и ще бъде основният източник на тези данни?

Преди десет години социалните мрежи се превърнаха в такива генератори, което изискваше създаването на голям брой нови алгоритми, хардуерни решения и т.н. Сега има три основни двигатели на растежа на съхранението. Първият е облачните изчисления. В момента приблизително 70% от компаниите използват облачни услуги по един или друг начин. Това могат да бъдат имейл системи, резервни копия и други виртуализирани обекти.
Мрежите от пето поколение се превръщат във втория двигател. Това са нови скорости и нови обеми на пренос на данни. Според нашите прогнози широкото навлизане на 5G ще доведе до спад в търсенето на флаш карти с памет. Без значение колко памет има в телефона, тя все още свършва и ако притурката има 100-мегабитов канал, няма нужда да съхранявате снимки локално.

Третата група причини, поради които търсенето на системи за съхранение нараства, включва бързото развитие на изкуствения интелект, прехода към анализ на големи данни и тенденцията към универсална автоматизация на всичко, което е възможно.

Характеристика на "новия трафик" е неговата неструктуриран. Трябва да съхраняваме тези данни, без да дефинираме формата им по никакъв начин. Изисква се само за последващо четене. Например, банкова скоринг система за определяне на наличния размер на кредита ще разглежда снимките, които сте публикували в социалните мрежи, определяйки колко често ходите на море и ресторанти, и в същото време ще изучава извлечения от медицинските ви документи, с които разполага. Тези данни, от една страна, са изчерпателни, а от друга, им липсва хомогенност.

Индустриални тенденции в системите за масово съхранение

Океан от неструктурирани данни

Какви са проблемите, които поражда появата на „нови данни“? Първият сред тях, разбира се, е количеството на самата информация и очакваният период на нейното съхранение. Една модерна автономна кола без водач сама генерира до 60TB данни всеки ден от всички свои сензори и механизми. За да се разработят нови алгоритми за движение, тази информация трябва да бъде обработена в рамките на същия ден, в противен случай тя ще започне да се натрупва. В същото време трябва да се съхранява много дълго време - десетилетия. Само тогава ще могат да се правят заключения на базата на големи аналитични проби в бъдеще.

Едно устройство за дешифриране на генетични последователности произвежда около 6 терабайта на ден. И данните, събрани с негова помощ, изобщо не предполагат изтриване, тоест хипотетично те трябва да се съхраняват завинаги.

И накрая, всички същите мрежи от пето поколение. В допълнение към самата предавана информация, такава мрежа сама по себе си е огромен генератор на данни: регистрационни файлове на активността, записи на обаждания, междинни резултати от взаимодействията машина-машина и т.н.

Всичко това налага разработването на нови подходи и алгоритми за съхранение и обработка на информация. И такива подходи се появяват.

Индустриални тенденции в системите за масово съхранение

Технологии на новата ера

Могат да бъдат разграничени три групи решения, предназначени да се справят с новите изисквания към системите за съхранение на информация: въвеждането на изкуствен интелект, техническата еволюция на медиите за съхранение и иновациите в областта на системната архитектура. Да започнем с AI.

Индустриални тенденции в системите за масово съхранение

В новите решения на Huawei вече се използва изкуствен интелект на нивото на самото хранилище, което е оборудвано с AI процесор, който позволява на системата самостоятелно да анализира състоянието си и да прогнозира повреди. Ако системата за съхранение е свързана към сервизен облак, който има значителни изчислителни възможности, изкуственият интелект може да обработва повече информация и да подобри точността на своите хипотези.

В допълнение към отказите, такъв AI е в състояние да предвиди бъдещото пиково натоварване и оставащото време до изчерпване на капацитета. Това ви позволява да оптимизирате производителността и да мащабирате системата, преди да възникнат нежелани събития.

Индустриални тенденции в системите за масово съхранение

Сега за еволюцията на носителите на данни. Първите флашки са направени по технологията SLC (Single-Level Cell). Устройствата, базирани на него, бяха бързи, надеждни, стабилни, но имаха малък капацитет и бяха много скъпи. Увеличаването на обема и намаляването на цената беше постигнато чрез определени технически отстъпки, поради което скоростта, надеждността и животът на задвижванията бяха намалени. Въпреки това тенденцията не засегна самите системи за съхранение, които, поради различни архитектурни трикове, като цяло станаха по-продуктивни и по-надеждни.

Но защо се нуждаехте от системи за съхранение от клас All-Flash? Не беше ли достатъчно просто да смените старите твърди дискове във вече работеща система с нови SSD дискове със същия форм фактор? Това беше необходимо, за да се използват ефективно всички ресурси на новите SSD дискове, което беше просто невъзможно в по-старите системи.

Huawei например разработи редица технологии за решаване на този проблем, една от които е FlashLink, което направи възможно оптимизирането на взаимодействието диск-контролер, доколкото е възможно.

Интелигентната идентификация направи възможно разлагането на данните в няколко потока и справянето с редица нежелани явления, като напр. WA (усилване на записа). В същото време, по-специално нови алгоритми за възстановяване RAID 2.0+, увеличи скоростта на възстановяването, намалявайки времето му до напълно незначителни стойности.

Повреда, пренаселеност, събиране на боклука - тези фактори също вече не влияят на производителността на системата за съхранение благодарение на специалното усъвършенстване на контролерите.

Индустриални тенденции в системите за масово съхранение

И блоковите хранилища за данни се готвят да се срещнат NVMe. Спомнете си, че класическата схема за организиране на достъпа до данни работи така: процесорът има достъп до RAID контролера чрез PCI Express шината. Това от своя страна взаимодейства с механични дискове чрез SCSI или SAS. Използването на NVMe в задната част значително ускори целия процес, но имаше един недостатък: устройствата трябваше да бъдат директно свързани към процесора, за да му осигурят директен достъп до паметта.

Следващата фаза от развитието на технологиите, която виждаме сега, е използването на NVMe-oF (NVMe over Fabrics). Що се отнася до блоковите технологии на Huawei, те вече поддържат FC-NVMe (NVMe през Fibre Channel), а NVMe през RoCE (RDMA през Converged Ethernet) е на път. Тестовите модели са доста функционални, остават няколко месеца до официалното им представяне. Имайте предвид, че всичко това ще се появи и в разпределени системи, където "Ethernet без загуба" ще бъде много търсен.

Индустриални тенденции в системите за масово съхранение

Допълнителен начин за оптимизиране на работата на разпределените хранилища беше пълното отхвърляне на дублирането на данни. Решенията на Huawei вече не използват n копия, както в обичайния RAID 1, и напълно преминават към механизма EC (Кодиране за изтриване). Специален математически пакет изчислява контролни блокове с определена честота, които ви позволяват да възстановите междинни данни в случай на загуба.

Механизмите за дедупликация и компресия стават задължителни. Ако в класическите системи за съхранение сме ограничени от броя на процесорите, инсталирани в контролерите, тогава в разпределените хоризонтално мащабируеми системи за съхранение всеки възел съдържа всичко необходимо: дискове, памет, процесори и свързване. Тези ресурси са достатъчни, за да може дедупликацията и компресията да имат минимално въздействие върху производителността.

И относно методите за оптимизация на хардуера. Тук беше възможно да се намали натоварването на централните процесори с помощта на допълнителни специални микросхеми (или специални блокове в самия процесор), които играят ролята TOE (TCP/IP Offload Engine) или поемане на математически задачи за EC, дедупликация и компресия.

Индустриални тенденции в системите за масово съхранение

Новите подходи за съхранение на данни са въплътени в дезагрегирана (разпределена) архитектура. В централизираните системи за съхранение има сървърна фабрика, свързана чрез Fibre Channel към SAN с много масиви. Недостатъците на този подход са трудностите с мащабирането и осигуряването на гарантирано ниво на услуга (по отношение на производителност или латентност). Хиперконвергентните системи използват едни и същи хостове както за съхранение, така и за обработка на информация. Това дава почти неограничен обхват за мащабиране, но води до високи разходи за поддържане на целостта на данните.

За разлика от двете по-горе, дезагрегираната архитектура предполага разделяне на системата на изчислителна фабрика и хоризонтална система за съхранение. Това осигурява предимствата на двете архитектури и позволява почти неограничено мащабиране само на елемента, чиято производителност не е достатъчна.

Индустриални тенденции в системите за масово съхранение

От интеграция към конвергенция

Класическа задача, чиято актуалност нараства само през последните 15 години, е необходимостта от едновременно осигуряване на блоково съхранение, достъп до файлове, достъп до обекти, работа на ферма за големи данни и т.н. Черешката на тортата може също да бъде, например, резервна система за магнитна лента.

На първия етап може да се обедини само управлението на тези услуги. Хетерогенните системи за съхранение на данни бяха затворени за някакъв специализиран софтуер, чрез който администраторът разпределяше ресурси от наличните пулове. Но тъй като тези пулове бяха различни по хардуер, мигрирането на товара между тях беше невъзможно. При по-високо ниво на интеграция консолидацията се извършва на ниво шлюз. Ако имаше споделен достъп до файл, той можеше да бъде предоставен чрез различни протоколи.

Най-модерният метод за конвергенция, с който разполагаме сега, включва създаването на универсална хибридна система. Точно както трябва да бъде нашият OceanStor 100D. Универсалният достъп използва едни и същи хардуерни ресурси, логически разделени на различни пулове, но позволяващи миграция на натоварването. Всичко това може да стане чрез единна конзола за управление. По този начин успяхме да реализираме концепцията „един център за данни – една система за съхранение“.

Индустриални тенденции в системите за масово съхранение

Разходите за съхраняване на информация сега определят много архитектурни решения. И въпреки че може безопасно да бъде поставен на преден план, днес обсъждаме "живо" съхранение с активен достъп, така че трябва да се вземе предвид и производителността. Друго важно свойство на разпределените системи от следващо поколение е обединяването. В крайна сметка никой не иска да има няколко различни системи, управлявани от различни конзоли. Всички тези качества са въплътени в новата серия продукти на Huawei. OceanStor Pacific.

Масово съхранение от следващо поколение

OceanStor Pacific отговаря на шест деветки (99,9999%) изисквания за надеждност и може да се използва за създаване на център за данни от клас HyperMetro. При разстояние между два центъра за данни до 100 км, системите демонстрират допълнително забавяне от 2 ms, което прави възможно изграждането на всякакви устойчиви на бедствия решения, базирани на тях, включително такива с кворум сървъри.

Индустриални тенденции в системите за масово съхранение

Продуктите от новата серия демонстрират гъвкавост по отношение на протоколите. Вече OceanStor 100D поддържа блокиран достъп, достъп до обекти и достъп до Hadoop. Достъпът до файлове ще бъде въведен в близко бъдеще. Няма нужда да съхранявате множество копия на данните, ако те могат да бъдат издадени чрез различни протоколи.

Индустриални тенденции в системите за масово съхранение

Изглежда, какво общо има концепцията за "мрежа без загуби" със съхранението? Факт е, че разпределените системи за съхранение са изградени на базата на бърза мрежа, която поддържа подходящите алгоритми и механизма RoCE. Системата за изкуствен интелект, поддържана от нашите комутатори, помага за допълнително увеличаване на скоростта на мрежата и намаляване на забавянето. AI Fabric. Увеличаването на производителността на системите за съхранение при активиране на AI Fabric може да достигне 20%.

Индустриални тенденции в системите за масово съхранение

Какво представлява новият възел за разпределено съхранение на OceanStor Pacific? Решението с форм-фактор 5U включва 120 диска и може да замени три класически възела, повече от удвоявайки пространството в стелажа. Поради отказа да се съхраняват копия, ефективността на устройствата се увеличава значително (до + 92%).

Свикнали сме с факта, че софтуерно дефинираното хранилище е специален софтуер, инсталиран на класически сървър. Но сега, за да се постигнат оптимални параметри, това архитектурно решение изисква и специални възли. Състои се от два сървъра, базирани на ARM процесори, които управляват масив от три-инчови устройства.

Индустриални тенденции в системите за масово съхранение

Тези сървъри не са много подходящи за хиперконвергентни решения. Първо, има малко приложения за ARM и второ, трудно е да се поддържа баланс на натоварването. Предлагаме да преминете към отделно съхранение: изчислителен клъстер, представен от класически или стелажни сървъри, работи отделно, но е свързан към възли за съхранение на OceanStor Pacific, които също изпълняват своите преки задачи. И се оправдава.

Например, нека вземем класическо хиперконвергирано решение за съхранение на големи данни, което заема 15 сървърни стелажа. Ако разпределите натоварването между отделните изчислителни сървъри и възли за съхранение на OceanStor Pacific, като ги разделите един от друг, броят на необходимите стелажи ще бъде намален наполовина! Това намалява разходите за експлоатация на центъра за данни и понижава общите разходи за притежание. В свят, в който обемът на съхранената информация нараства с 30% годишно, подобни ползи не са разпръснати.

***

За повече информация относно решенията на Huawei и техните сценарии за приложение, моля, посетете нашия уебсайт или като се свържете директно с представителите на фирмата.

Източник: www.habr.com

Добавяне на нов коментар