Astăzi vom vorbi despre cum să stocăm cel mai bine datele într-o lume în care rețelele de generația a cincea, scanerele genomului și mașinile cu conducere autonomă produc mai multe date într-o zi decât întreaga umanitate generată înainte de revoluția industrială.
Lumea noastră generează din ce în ce mai multe informații. O parte din ea este trecătoare și se pierde la fel de repede pe măsură ce este adunată. Celălalt ar trebui să fie depozitat mai mult timp, iar celălalt este complet conceput „de secole” – cel puțin așa vedem noi din prezent. Fluxurile de informații se instalează în centrele de date cu o astfel de viteză încât orice nouă abordare, orice tehnologie concepută pentru a satisface această „cerere” nesfârșită devine rapid învechită.
40 de ani de dezvoltare a stocării distribuite
Primele stocări de rețea sub forma cunoscută nouă au apărut în anii 1980. Mulți dintre voi ați întâlnit NFS (Network File System), AFS (Andrew File System) sau Coda. Un deceniu mai târziu, moda și tehnologia s-au schimbat, iar sistemele de fișiere distribuite au făcut loc sistemelor de stocare în cluster bazate pe GPFS (General Parallel File System), CFS (Clustered File Systems) și StorNext. Ca bază, au fost utilizate stocări de bloc de arhitectură clasică, pe deasupra cărora a fost creat un singur sistem de fișiere folosind stratul software. Acestea și soluții similare sunt încă folosite, își ocupă nișa și sunt destul de solicitate.
La începutul mileniului, paradigma de stocare distribuită s-a schimbat oarecum, iar sistemele cu arhitectura SN (Shared-Nothing) au preluat conducerea. A existat o tranziție de la stocarea cluster la stocarea pe noduri separate, care, de regulă, erau servere clasice cu software care oferă stocare fiabilă; astfel de principii sunt construite, de exemplu, HDFS (Hadoop Distributed File System) și GFS (Global File System).
Mai aproape de 2010, conceptele care stau la baza sistemelor de stocare distribuite au început să se reflecte tot mai mult în produse comerciale cu drepturi depline, cum ar fi VMware vSAN, Dell EMC Isilon și noastre.
Operatorii telecom
Poate unul dintre cei mai vechi consumatori de sisteme de stocare distribuită sunt operatorii de telecomunicații. Diagrama arată ce grupuri de aplicații produc cea mai mare parte a datelor. OSS (Operations Support Systems), MSS (Management Support Services) și BSS (Business Support Systems) sunt trei straturi software complementare necesare pentru furnizarea de servicii către abonați, raportarea financiară către furnizor și suport operațional pentru inginerii operatorului.
Adesea, datele acestor straturi sunt puternic amestecate între ele, iar pentru a evita acumularea de copii inutile se folosesc depozite distribuite care acumulează întreaga cantitate de informații provenind dintr-o rețea de lucru. Depozitele sunt combinate într-o piscină comună, la care accesează toate serviciile.
Calculele noastre arată că trecerea de la sistemele de stocare clasice la cele bloc vă permite să economisiți până la 70% din buget doar renunțând la sistemele de stocare hi-end dedicate și utilizând servere de arhitectură clasică convențională (de obicei x86), lucrând împreună cu software specializat. Operatorii de telefonie mobilă achiziționează astfel de soluții în volume semnificative de destul de mult timp. În special, operatorii ruși folosesc astfel de produse de la Huawei de mai bine de șase ani.
Da, o serie de sarcini nu pot fi efectuate folosind sisteme distribuite. De exemplu, cu cerințe de performanță crescute sau compatibilitate cu protocoale mai vechi. Dar cel puțin 70% din datele pe care operatorul le prelucrează pot fi plasate într-un pool distribuit.
Bancar
În orice bancă, există multe sisteme IT diverse, de la procesare la un sistem bancar automatizat. Această infrastructură funcționează, de asemenea, cu o cantitate imensă de informații, în timp ce majoritatea sarcinilor nu necesită performanță și fiabilitate sporită a sistemelor de stocare, cum ar fi dezvoltarea, testarea, automatizarea proceselor de birou etc. Aici este posibilă utilizarea sistemelor clasice de stocare. , dar in fiecare an este din ce in ce mai putin profitabil. În plus, în acest caz, nu există flexibilitate în cheltuirea resurselor de stocare, a căror performanță este calculată din sarcina de vârf.
Atunci când se utilizează sisteme de stocare distribuite, nodurile lor, care de fapt sunt servere obișnuite, pot fi convertite în orice moment, de exemplu, într-o fermă de servere și utilizate ca platformă de calcul.
Lacuri de date
Diagrama de mai sus prezintă o listă de consumatori tipici de servicii.
Funcționarea sistemelor clasice de stocare pentru rezolvarea unor astfel de probleme este ineficientă, deoarece sunt necesare atât accesul de înaltă performanță la bazele de date bloc, cât și accesul regulat la bibliotecile de documente scanate stocate ca obiecte. Aici, de exemplu, un sistem de comenzi printr-un portal web poate fi legat. Pentru a implementa toate acestea pe o platformă clasică de stocare, veți avea nevoie de un set mare de echipamente pentru diferite sarcini. Un sistem de stocare universal orizontal poate acoperi cu ușurință toate sarcinile enumerate anterior: trebuie doar să creați mai multe piscine în el cu caracteristici de stocare diferite.
Generatori de informații noi
Cantitatea de informații stocate în lume crește cu aproximativ 30% pe an. Aceasta este o veste bună pentru furnizorii de stocare, dar care este și va fi principala sursă a acestor date?
În urmă cu zece ani, rețelele sociale au devenit astfel de generatoare, ceea ce a necesitat crearea unui număr mare de algoritmi noi, soluții hardware etc. Acum există trei factori principali de creștere a stocării. Primul este cloud computing. În prezent, aproximativ 70% dintre companii folosesc serviciile cloud într-un fel sau altul. Acestea pot fi sisteme de e-mail, copii de rezervă și alte entități virtualizate.
Rețelele de generația a cincea devin al doilea motor. Acestea sunt viteze noi și volume noi de transfer de date. Conform previziunilor noastre, adoptarea pe scară largă a 5G va duce la o scădere a cererii de carduri de memorie flash. Indiferent de câtă memorie există în telefon, aceasta se termină, iar dacă gadgetul are un canal de 100 de megabiți, nu este nevoie să stocați fotografiile local.
Al treilea grup de motive pentru care cererea de sisteme de stocare este în creștere includ dezvoltarea rapidă a inteligenței artificiale, trecerea la analiza big data și tendința către automatizarea universală a tot ceea ce este posibil.
O caracteristică a „traficului nou” este ea
Un ocean de date nestructurate
Care sunt problemele pe care le presupune apariția „noilor date”? Prima dintre ele, desigur, este cantitatea de informații în sine și perioada estimată de stocare a acesteia. Doar o mașină modernă autonomă fără șofer generează până la 60 TB de date în fiecare zi de la toți senzorii și mecanismele sale. Pentru a dezvolta noi algoritmi de mișcare, aceste informații trebuie procesate în aceeași zi, altfel vor începe să se acumuleze. În același timp, ar trebui să fie păstrat pentru o perioadă foarte lungă de timp - decenii. Numai atunci se vor putea trage concluzii pe baza unor eșantioane analitice mari în viitor.
Un dispozitiv pentru descifrarea secvențelor genetice produce aproximativ 6 terabytes pe zi. Și datele colectate cu ajutorul lor nu implică deloc ștergerea, adică, ipotetic, ar trebui să fie stocate pentru totdeauna.
În cele din urmă, toate aceleași rețele din a cincea generație. Pe lângă informațiile transmise în sine, o astfel de rețea este ea însăși un imens generator de date: jurnalele de activitate, înregistrările apelurilor, rezultatele intermediare ale interacțiunilor mașină la mașină etc.
Toate acestea necesită dezvoltarea de noi abordări și algoritmi pentru stocarea și procesarea informațiilor. Și astfel de abordări apar.
Tehnologiile noii ere
Se pot distinge trei grupuri de soluții concepute pentru a face față noilor cerințe pentru sistemele de stocare a informațiilor: introducerea inteligenței artificiale, evoluția tehnică a mediilor de stocare și inovațiile în domeniul arhitecturii sistemelor. Să începem cu AI.
În noile soluții Huawei, inteligența artificială este deja folosită la nivelul stocării în sine, care este echipată cu un procesor AI care permite sistemului să-și analizeze independent starea și să prezică defecțiuni. Dacă sistemul de stocare este conectat la un serviciu cloud care are capacități de calcul semnificative, inteligența artificială poate procesa mai multe informații și poate îmbunătăți acuratețea ipotezelor sale.
Pe lângă defecțiuni, o astfel de IA este capabilă să prezică sarcina maximă viitoare și timpul rămas până la epuizarea capacității. Acest lucru vă permite să optimizați performanța și să scalați sistemul înainte de a avea loc orice evenimente nedorite.
Acum despre evoluția suporturilor de date. Primele unități flash au fost realizate folosind tehnologia SLC (Single-Level Cell). Dispozitivele bazate pe el erau rapide, fiabile, stabile, dar aveau o capacitate mică și erau foarte scumpe. Creșterea volumului și scăderea prețului s-a realizat prin anumite concesii tehnice, datorită cărora s-au redus viteza, fiabilitatea și durata de viață a unităților. Cu toate acestea, tendința nu a afectat sistemele de depozitare în sine, care, datorită diverselor trucuri arhitecturale, în general, au devenit atât mai productive, cât și mai fiabile.
Dar de ce ai nevoie de sisteme de stocare de clasă All-Flash? Nu a fost suficient doar să înlocuim vechile HDD-uri într-un sistem care rulează deja cu noi SSD-uri cu același factor de formă? Acest lucru a fost necesar pentru a utiliza eficient toate resursele noilor SSD-uri, ceea ce era pur și simplu imposibil în sistemele mai vechi.
Huawei, de exemplu, a dezvoltat o serie de tehnologii pentru a rezolva această problemă, dintre care una este
Identificarea inteligentă a făcut posibilă descompunerea datelor în mai multe fluxuri și să facă față unui număr de fenomene nedorite, cum ar fi
Eșecul, supraaglomerarea, colectarea gunoiului - acești factori, de asemenea, nu mai afectează performanța sistemului de stocare datorită rafinamentului special al controlerelor.
Și magazinele de date bloc se pregătesc să se întâlnească
Următoarea fază a dezvoltării tehnologiei pe care o vedem acum este utilizarea NVMe-oF (NVMe over Fabrics). În ceea ce privește tehnologiile bloc Huawei, acestea acceptă deja FC-NVMe (NVMe over Fibre Channel), iar NVMe over RoCE (RDMA over Converged Ethernet) este pe drum. Modelele de testare sunt destul de functionale, raman cateva luni pana la prezentarea lor oficiala. Rețineți că toate acestea vor apărea și în sistemele distribuite, unde „Ethernet fără pierderi” va fi la mare căutare.
O modalitate suplimentară de optimizare a activității stocărilor distribuite a fost respingerea completă a oglindirii datelor. Soluțiile Huawei nu mai folosesc n copii, ca în RAID-ul obișnuit, și trec complet la mecanism
Mecanismele de deduplicare și compresie devin obligatorii. Dacă în sistemele de stocare clasice suntem limitați de numărul de procesoare instalate în controlere, atunci în sistemele de stocare distribuite scalabile orizontal, fiecare nod conține tot ce aveți nevoie: discuri, memorie, procesoare și interconectare. Aceste resurse sunt suficiente pentru ca deduplicarea și compresia să aibă un impact minim asupra performanței.
Și despre metodele de optimizare hardware. Aici, a fost posibilă reducerea sarcinii procesoarelor centrale cu ajutorul unor microcircuite adiționale dedicate (sau blocuri dedicate în procesorul însuși), care joacă rolul
Noile abordări ale stocării datelor sunt încorporate într-o arhitectură dezagregată (distribuită). În sistemele de stocare centralizate, există o fabrică de servere conectată prin Fibre Channel la
Spre deosebire de ambele de mai sus, arhitectura dezagregată implică partiţionarea sistemului într-o fabrică de calcul şi un sistem de stocare orizontal. Aceasta oferă avantajele ambelor arhitecturi și permite scalarea aproape nelimitată doar a elementului a cărui performanță nu este suficientă.
De la integrare la convergență
O sarcină clasică, a cărei relevanță a crescut doar în ultimii 15 ani, este necesitatea de a oferi simultan stocare în bloc, acces la fișiere, acces la obiecte, exploatarea unei ferme de date mari etc. Cireasa de pe tort poate de asemenea, să fie, de exemplu, un sistem de rezervă pe bandă magnetică.
În prima etapă, doar managementul acestor servicii a putut fi unificat. Sistemele eterogene de stocare a datelor au fost închise unor softuri specializate, prin care administratorul distribuia resurse din pool-urile disponibile. Dar, deoarece aceste pool-uri erau diferite în hardware, migrarea încărcăturii dintre ele a fost imposibilă. La un nivel superior de integrare, consolidarea a avut loc la nivel de gateway. Dacă a existat un acces la fișier partajat, acesta ar putea fi dat prin diferite protocoale.
Cea mai avansată metodă de convergență disponibilă acum implică crearea unui sistem hibrid universal. Exact așa cum ar trebui să fie ale noastre
Costul stocării informațiilor determină acum multe decizii arhitecturale. Și deși poate fi pus în siguranță pe primul plan, discutăm astăzi despre stocarea „live” cu acces activ, așa că trebuie luată în considerare și performanța. O altă proprietate importantă a sistemelor distribuite de generație următoare este unificarea. La urma urmei, nimeni nu vrea să aibă mai multe sisteme disparate gestionate de pe console diferite. Toate aceste calități sunt întruchipate în noua serie de produse Huawei.
Stocare în masă de următoarea generație
OceanStor Pacific îndeplinește cerințele de fiabilitate șase nouă (99,9999%) și poate fi folosit pentru a crea un centru de date de clasă HyperMetro. Cu o distanță între două centre de date de până la 100 km, sistemele demonstrează o întârziere suplimentară de 2 ms, ceea ce face posibilă construirea oricăror soluții rezistente la dezastre pe baza acestora, inclusiv pe cele cu servere de cvorum.
Produsele noii serii demonstrează versatilitate în ceea ce privește protocoalele. Deja, OceanStor 100D acceptă acces la blocare, acces la obiecte și acces Hadoop. Accesul la fișiere va fi implementat în viitorul apropiat. Nu este nevoie să păstrați mai multe copii ale datelor dacă acestea pot fi emise prin diferite protocoale.
S-ar părea, ce legătură are conceptul de „rețea fără pierderi” cu stocarea? Faptul este că sistemele de stocare distribuite sunt construite pe baza unei rețele rapide care suportă algoritmii corespunzători și mecanismul RoCE. Sistemul de inteligență artificială susținut de comutatoarele noastre ajută la creșterea în continuare a vitezei rețelei și la reducerea latenței.
Ce este noul nod de stocare distribuit OceanStor Pacific? Soluția cu factor de formă 5U include 120 de unități și poate înlocui trei noduri clasice, dublând mai mult decât spațiul de rack. Din cauza refuzului de a stoca copii, eficiența unităților crește semnificativ (până la + 92%).
Suntem obișnuiți cu faptul că software-defined storage este un software special instalat pe un server clasic. Dar acum, pentru a atinge parametrii optimi, această soluție arhitecturală necesită și noduri speciale. Este format din două servere bazate pe procesoare ARM care gestionează o serie de unități de trei inchi.
Aceste servere nu sunt potrivite pentru soluții hiperconvergente. În primul rând, există puține aplicații pentru ARM și, în al doilea rând, este dificil să mențineți un echilibru de încărcare. Vă sugerăm să treceți la stocare separată: un cluster de calcul, reprezentat de servere clasice sau rack, funcționează separat, dar este conectat la nodurile de stocare OceanStor Pacific, care își îndeplinesc și sarcinile directe. Și se justifică de la sine.
De exemplu, să luăm o soluție clasică de stocare a datelor mari hiperconvergente care ocupă 15 rafturi de servere. Dacă distribuiți sarcina între serverele de calcul OceanStor Pacific și nodurile de stocare individuale, separându-le unul de celălalt, numărul de rafturi necesare va fi redus la jumătate! Acest lucru reduce costul de operare a centrului de date și scade costul total de proprietate. Într-o lume în care volumul informațiilor stocate crește cu 30% pe an, astfel de beneficii nu sunt împrăștiate.
***
Pentru mai multe informații despre soluțiile Huawei și scenariile lor de aplicare, vă rugăm să vizitați
Sursa: www.habr.com