Tendințele industriei în stocarea în masă

Astăzi vom vorbi despre cum să stocăm cel mai bine datele într-o lume în care rețelele de generația a cincea, scanerele genomului și mașinile cu conducere autonomă produc mai multe date într-o zi decât întreaga umanitate generată înainte de revoluția industrială.

Tendințele industriei în stocarea în masă

Lumea noastră generează din ce în ce mai multe informații. O parte din ea este trecătoare și se pierde la fel de repede pe măsură ce este adunată. Celălalt ar trebui să fie depozitat mai mult timp, iar celălalt este complet conceput „de secole” – cel puțin așa vedem noi din prezent. Fluxurile de informații se instalează în centrele de date cu o astfel de viteză încât orice nouă abordare, orice tehnologie concepută pentru a satisface această „cerere” nesfârșită devine rapid învechită.

Tendințele industriei în stocarea în masă

40 de ani de dezvoltare a stocării distribuite

Primele stocări de rețea sub forma cunoscută nouă au apărut în anii 1980. Mulți dintre voi ați întâlnit NFS (Network File System), AFS (Andrew File System) sau Coda. Un deceniu mai târziu, moda și tehnologia s-au schimbat, iar sistemele de fișiere distribuite au făcut loc sistemelor de stocare în cluster bazate pe GPFS (General Parallel File System), CFS (Clustered File Systems) și StorNext. Ca bază, au fost utilizate stocări de bloc de arhitectură clasică, pe deasupra cărora a fost creat un singur sistem de fișiere folosind stratul software. Acestea și soluții similare sunt încă folosite, își ocupă nișa și sunt destul de solicitate.

La începutul mileniului, paradigma de stocare distribuită s-a schimbat oarecum, iar sistemele cu arhitectura SN (Shared-Nothing) au preluat conducerea. A existat o tranziție de la stocarea cluster la stocarea pe noduri separate, care, de regulă, erau servere clasice cu software care oferă stocare fiabilă; astfel de principii sunt construite, de exemplu, HDFS (Hadoop Distributed File System) și GFS (Global File System).

Mai aproape de 2010, conceptele care stau la baza sistemelor de stocare distribuite au început să se reflecte tot mai mult în produse comerciale cu drepturi depline, cum ar fi VMware vSAN, Dell EMC Isilon și noastre. Huawei OceanStor. În spatele platformelor menționate nu se mai află o comunitate de entuziaști, ci vânzători specifici care sunt responsabili de funcționalitatea, suportul, întreținerea de service a produsului și garantează dezvoltarea ulterioară a acestuia. Astfel de soluții sunt cele mai căutate în mai multe domenii.

Tendințele industriei în stocarea în masă

Operatorii telecom

Poate unul dintre cei mai vechi consumatori de sisteme de stocare distribuită sunt operatorii de telecomunicații. Diagrama arată ce grupuri de aplicații produc cea mai mare parte a datelor. OSS (Operations Support Systems), MSS (Management Support Services) și BSS (Business Support Systems) sunt trei straturi software complementare necesare pentru furnizarea de servicii către abonați, raportarea financiară către furnizor și suport operațional pentru inginerii operatorului.

Adesea, datele acestor straturi sunt puternic amestecate între ele, iar pentru a evita acumularea de copii inutile se folosesc depozite distribuite care acumulează întreaga cantitate de informații provenind dintr-o rețea de lucru. Depozitele sunt combinate într-o piscină comună, la care accesează toate serviciile.

Calculele noastre arată că trecerea de la sistemele de stocare clasice la cele bloc vă permite să economisiți până la 70% din buget doar renunțând la sistemele de stocare hi-end dedicate și utilizând servere de arhitectură clasică convențională (de obicei x86), lucrând împreună cu software specializat. Operatorii de telefonie mobilă achiziționează astfel de soluții în volume semnificative de destul de mult timp. În special, operatorii ruși folosesc astfel de produse de la Huawei de mai bine de șase ani.

Da, o serie de sarcini nu pot fi efectuate folosind sisteme distribuite. De exemplu, cu cerințe de performanță crescute sau compatibilitate cu protocoale mai vechi. Dar cel puțin 70% din datele pe care operatorul le prelucrează pot fi plasate într-un pool distribuit.

Tendințele industriei în stocarea în masă

Bancar

În orice bancă, există multe sisteme IT diverse, de la procesare la un sistem bancar automatizat. Această infrastructură funcționează, de asemenea, cu o cantitate imensă de informații, în timp ce majoritatea sarcinilor nu necesită performanță și fiabilitate sporită a sistemelor de stocare, cum ar fi dezvoltarea, testarea, automatizarea proceselor de birou etc. Aici este posibilă utilizarea sistemelor clasice de stocare. , dar in fiecare an este din ce in ce mai putin profitabil. În plus, în acest caz, nu există flexibilitate în cheltuirea resurselor de stocare, a căror performanță este calculată din sarcina de vârf.

Atunci când se utilizează sisteme de stocare distribuite, nodurile lor, care de fapt sunt servere obișnuite, pot fi convertite în orice moment, de exemplu, într-o fermă de servere și utilizate ca platformă de calcul.

Tendințele industriei în stocarea în masă

Lacuri de date

Diagrama de mai sus prezintă o listă de consumatori tipici de servicii. lac de date. Acestea pot fi servicii de e-guvernare (de exemplu, „Gosuslugi”), întreprinderi care au trecut prin digitalizare, structuri financiare etc. Toate acestea trebuie să lucreze cu volume mari de informații eterogene.

Funcționarea sistemelor clasice de stocare pentru rezolvarea unor astfel de probleme este ineficientă, deoarece sunt necesare atât accesul de înaltă performanță la bazele de date bloc, cât și accesul regulat la bibliotecile de documente scanate stocate ca obiecte. Aici, de exemplu, un sistem de comenzi printr-un portal web poate fi legat. Pentru a implementa toate acestea pe o platformă clasică de stocare, veți avea nevoie de un set mare de echipamente pentru diferite sarcini. Un sistem de stocare universal orizontal poate acoperi cu ușurință toate sarcinile enumerate anterior: trebuie doar să creați mai multe piscine în el cu caracteristici de stocare diferite.

Tendințele industriei în stocarea în masă

Generatori de informații noi

Cantitatea de informații stocate în lume crește cu aproximativ 30% pe an. Aceasta este o veste bună pentru furnizorii de stocare, dar care este și va fi principala sursă a acestor date?

În urmă cu zece ani, rețelele sociale au devenit astfel de generatoare, ceea ce a necesitat crearea unui număr mare de algoritmi noi, soluții hardware etc. Acum există trei factori principali de creștere a stocării. Primul este cloud computing. În prezent, aproximativ 70% dintre companii folosesc serviciile cloud într-un fel sau altul. Acestea pot fi sisteme de e-mail, copii de rezervă și alte entități virtualizate.
Rețelele de generația a cincea devin al doilea motor. Acestea sunt viteze noi și volume noi de transfer de date. Conform previziunilor noastre, adoptarea pe scară largă a 5G va duce la o scădere a cererii de carduri de memorie flash. Indiferent de câtă memorie există în telefon, aceasta se termină, iar dacă gadgetul are un canal de 100 de megabiți, nu este nevoie să stocați fotografiile local.

Al treilea grup de motive pentru care cererea de sisteme de stocare este în creștere includ dezvoltarea rapidă a inteligenței artificiale, trecerea la analiza big data și tendința către automatizarea universală a tot ceea ce este posibil.

O caracteristică a „traficului nou” este ea nestructurat. Trebuie să stocăm aceste date fără a defini formatul în vreun fel. Este necesar doar pentru citirea ulterioară. De exemplu, un sistem de notare bancară pentru a determina mărimea împrumutului disponibil va analiza fotografiile pe care le-ați postat pe rețelele de socializare, determinând cât de des mergeți la mare și la restaurante și, în același timp, va studia extrase din documentele dumneavoastră medicale aflate la dispoziție. Aceste date, pe de o parte, sunt cuprinzătoare și, pe de altă parte, le lipsește omogenitatea.

Tendințele industriei în stocarea în masă

Un ocean de date nestructurate

Care sunt problemele pe care le presupune apariția „noilor date”? Prima dintre ele, desigur, este cantitatea de informații în sine și perioada estimată de stocare a acesteia. Doar o mașină modernă autonomă fără șofer generează până la 60 TB de date în fiecare zi de la toți senzorii și mecanismele sale. Pentru a dezvolta noi algoritmi de mișcare, aceste informații trebuie procesate în aceeași zi, altfel vor începe să se acumuleze. În același timp, ar trebui să fie păstrat pentru o perioadă foarte lungă de timp - decenii. Numai atunci se vor putea trage concluzii pe baza unor eșantioane analitice mari în viitor.

Un dispozitiv pentru descifrarea secvențelor genetice produce aproximativ 6 terabytes pe zi. Și datele colectate cu ajutorul lor nu implică deloc ștergerea, adică, ipotetic, ar trebui să fie stocate pentru totdeauna.

În cele din urmă, toate aceleași rețele din a cincea generație. Pe lângă informațiile transmise în sine, o astfel de rețea este ea însăși un imens generator de date: jurnalele de activitate, înregistrările apelurilor, rezultatele intermediare ale interacțiunilor mașină la mașină etc.

Toate acestea necesită dezvoltarea de noi abordări și algoritmi pentru stocarea și procesarea informațiilor. Și astfel de abordări apar.

Tendințele industriei în stocarea în masă

Tehnologiile noii ere

Se pot distinge trei grupuri de soluții concepute pentru a face față noilor cerințe pentru sistemele de stocare a informațiilor: introducerea inteligenței artificiale, evoluția tehnică a mediilor de stocare și inovațiile în domeniul arhitecturii sistemelor. Să începem cu AI.

Tendințele industriei în stocarea în masă

În noile soluții Huawei, inteligența artificială este deja folosită la nivelul stocării în sine, care este echipată cu un procesor AI care permite sistemului să-și analizeze independent starea și să prezică defecțiuni. Dacă sistemul de stocare este conectat la un serviciu cloud care are capacități de calcul semnificative, inteligența artificială poate procesa mai multe informații și poate îmbunătăți acuratețea ipotezelor sale.

Pe lângă defecțiuni, o astfel de IA este capabilă să prezică sarcina maximă viitoare și timpul rămas până la epuizarea capacității. Acest lucru vă permite să optimizați performanța și să scalați sistemul înainte de a avea loc orice evenimente nedorite.

Tendințele industriei în stocarea în masă

Acum despre evoluția suporturilor de date. Primele unități flash au fost realizate folosind tehnologia SLC (Single-Level Cell). Dispozitivele bazate pe el erau rapide, fiabile, stabile, dar aveau o capacitate mică și erau foarte scumpe. Creșterea volumului și scăderea prețului s-a realizat prin anumite concesii tehnice, datorită cărora s-au redus viteza, fiabilitatea și durata de viață a unităților. Cu toate acestea, tendința nu a afectat sistemele de depozitare în sine, care, datorită diverselor trucuri arhitecturale, în general, au devenit atât mai productive, cât și mai fiabile.

Dar de ce ai nevoie de sisteme de stocare de clasă All-Flash? Nu a fost suficient doar să înlocuim vechile HDD-uri într-un sistem care rulează deja cu noi SSD-uri cu același factor de formă? Acest lucru a fost necesar pentru a utiliza eficient toate resursele noilor SSD-uri, ceea ce era pur și simplu imposibil în sistemele mai vechi.

Huawei, de exemplu, a dezvoltat o serie de tehnologii pentru a rezolva această problemă, dintre care una este FlashLink, ceea ce a făcut posibilă optimizarea cât mai mult posibil a interacțiunilor disc-controler.

Identificarea inteligentă a făcut posibilă descompunerea datelor în mai multe fluxuri și să facă față unui număr de fenomene nedorite, cum ar fi WA (amplificarea scrierii). În același timp, noi algoritmi de recuperare, în special RAID 2.0+, a crescut viteza de reconstrucție, reducându-i timpul la valori complet nesemnificative.

Eșecul, supraaglomerarea, colectarea gunoiului - acești factori, de asemenea, nu mai afectează performanța sistemului de stocare datorită rafinamentului special al controlerelor.

Tendințele industriei în stocarea în masă

Și magazinele de date bloc se pregătesc să se întâlnească NVMe. Amintiți-vă că schema clasică de organizare a accesului la date a funcționat astfel: procesorul a accesat controlerul RAID prin magistrala PCI Express. Aceasta, la rândul său, a interacționat cu discuri mecanice prin SCSI sau SAS. Utilizarea NVMe pe backend a accelerat semnificativ întregul proces, dar a avut un dezavantaj: unitățile trebuiau conectate direct la procesor pentru a-i oferi acces direct la memorie.

Următoarea fază a dezvoltării tehnologiei pe care o vedem acum este utilizarea NVMe-oF (NVMe over Fabrics). În ceea ce privește tehnologiile bloc Huawei, acestea acceptă deja FC-NVMe (NVMe over Fibre Channel), iar NVMe over RoCE (RDMA over Converged Ethernet) este pe drum. Modelele de testare sunt destul de functionale, raman cateva luni pana la prezentarea lor oficiala. Rețineți că toate acestea vor apărea și în sistemele distribuite, unde „Ethernet fără pierderi” va fi la mare căutare.

Tendințele industriei în stocarea în masă

O modalitate suplimentară de optimizare a activității stocărilor distribuite a fost respingerea completă a oglindirii datelor. Soluțiile Huawei nu mai folosesc n copii, ca în RAID-ul obișnuit, și trec complet la mecanism EC (Ștergere codare). Un pachet matematic special calculează blocuri de control cu ​​o anumită frecvență, care vă permit să restaurați datele intermediare în caz de pierdere.

Mecanismele de deduplicare și compresie devin obligatorii. Dacă în sistemele de stocare clasice suntem limitați de numărul de procesoare instalate în controlere, atunci în sistemele de stocare distribuite scalabile orizontal, fiecare nod conține tot ce aveți nevoie: discuri, memorie, procesoare și interconectare. Aceste resurse sunt suficiente pentru ca deduplicarea și compresia să aibă un impact minim asupra performanței.

Și despre metodele de optimizare hardware. Aici, a fost posibilă reducerea sarcinii procesoarelor centrale cu ajutorul unor microcircuite adiționale dedicate (sau blocuri dedicate în procesorul însuși), care joacă rolul DEPENT (TCP/IP Offload Engine) sau preluarea sarcinilor matematice de EC, deduplicare și compresie.

Tendințele industriei în stocarea în masă

Noile abordări ale stocării datelor sunt încorporate într-o arhitectură dezagregată (distribuită). În sistemele de stocare centralizate, există o fabrică de servere conectată prin Fibre Channel la SAN cu o mulțime de matrice. Dezavantajele acestei abordări sunt dificultățile cu scalarea și furnizarea unui nivel garantat de serviciu (în termeni de performanță sau latență). Sistemele hiperconvergente folosesc aceleași gazde atât pentru stocarea, cât și pentru procesarea informațiilor. Acest lucru oferă un domeniu aproape nelimitat de scalare, dar implică costuri mari pentru menținerea integrității datelor.

Spre deosebire de ambele de mai sus, arhitectura dezagregată implică partiţionarea sistemului într-o fabrică de calcul şi un sistem de stocare orizontal. Aceasta oferă avantajele ambelor arhitecturi și permite scalarea aproape nelimitată doar a elementului a cărui performanță nu este suficientă.

Tendințele industriei în stocarea în masă

De la integrare la convergență

O sarcină clasică, a cărei relevanță a crescut doar în ultimii 15 ani, este necesitatea de a oferi simultan stocare în bloc, acces la fișiere, acces la obiecte, exploatarea unei ferme de date mari etc. Cireasa de pe tort poate de asemenea, să fie, de exemplu, un sistem de rezervă pe bandă magnetică.

În prima etapă, doar managementul acestor servicii a putut fi unificat. Sistemele eterogene de stocare a datelor au fost închise unor softuri specializate, prin care administratorul distribuia resurse din pool-urile disponibile. Dar, deoarece aceste pool-uri erau diferite în hardware, migrarea încărcăturii dintre ele a fost imposibilă. La un nivel superior de integrare, consolidarea a avut loc la nivel de gateway. Dacă a existat un acces la fișier partajat, acesta ar putea fi dat prin diferite protocoale.

Cea mai avansată metodă de convergență disponibilă acum implică crearea unui sistem hibrid universal. Exact așa cum ar trebui să fie ale noastre OceanStor 100D. Accesul universal utilizează aceleași resurse hardware, împărțite logic în grupuri diferite, dar permițând migrarea încărcării. Toate acestea se pot face printr-o singură consolă de management. În acest fel, am reușit să implementăm conceptul de „un centru de date – un sistem de stocare”.

Tendințele industriei în stocarea în masă

Costul stocării informațiilor determină acum multe decizii arhitecturale. Și deși poate fi pus în siguranță pe primul plan, discutăm astăzi despre stocarea „live” cu acces activ, așa că trebuie luată în considerare și performanța. O altă proprietate importantă a sistemelor distribuite de generație următoare este unificarea. La urma urmei, nimeni nu vrea să aibă mai multe sisteme disparate gestionate de pe console diferite. Toate aceste calități sunt întruchipate în noua serie de produse Huawei. OceanStor Pacific.

Stocare în masă de următoarea generație

OceanStor Pacific îndeplinește cerințele de fiabilitate șase nouă (99,9999%) și poate fi folosit pentru a crea un centru de date de clasă HyperMetro. Cu o distanță între două centre de date de până la 100 km, sistemele demonstrează o întârziere suplimentară de 2 ms, ceea ce face posibilă construirea oricăror soluții rezistente la dezastre pe baza acestora, inclusiv pe cele cu servere de cvorum.

Tendințele industriei în stocarea în masă

Produsele noii serii demonstrează versatilitate în ceea ce privește protocoalele. Deja, OceanStor 100D acceptă acces la blocare, acces la obiecte și acces Hadoop. Accesul la fișiere va fi implementat în viitorul apropiat. Nu este nevoie să păstrați mai multe copii ale datelor dacă acestea pot fi emise prin diferite protocoale.

Tendințele industriei în stocarea în masă

S-ar părea, ce legătură are conceptul de „rețea fără pierderi” cu stocarea? Faptul este că sistemele de stocare distribuite sunt construite pe baza unei rețele rapide care suportă algoritmii corespunzători și mecanismul RoCE. Sistemul de inteligență artificială susținut de comutatoarele noastre ajută la creșterea în continuare a vitezei rețelei și la reducerea latenței. AI Fabric. Câștigul de performanță al sistemelor de stocare atunci când AI Fabric este activat poate ajunge la 20%.

Tendințele industriei în stocarea în masă

Ce este noul nod de stocare distribuit OceanStor Pacific? Soluția cu factor de formă 5U include 120 de unități și poate înlocui trei noduri clasice, dublând mai mult decât spațiul de rack. Din cauza refuzului de a stoca copii, eficiența unităților crește semnificativ (până la + 92%).

Suntem obișnuiți cu faptul că software-defined storage este un software special instalat pe un server clasic. Dar acum, pentru a atinge parametrii optimi, această soluție arhitecturală necesită și noduri speciale. Este format din două servere bazate pe procesoare ARM care gestionează o serie de unități de trei inchi.

Tendințele industriei în stocarea în masă

Aceste servere nu sunt potrivite pentru soluții hiperconvergente. În primul rând, există puține aplicații pentru ARM și, în al doilea rând, este dificil să mențineți un echilibru de încărcare. Vă sugerăm să treceți la stocare separată: un cluster de calcul, reprezentat de servere clasice sau rack, funcționează separat, dar este conectat la nodurile de stocare OceanStor Pacific, care își îndeplinesc și sarcinile directe. Și se justifică de la sine.

De exemplu, să luăm o soluție clasică de stocare a datelor mari hiperconvergente care ocupă 15 rafturi de servere. Dacă distribuiți sarcina între serverele de calcul OceanStor Pacific și nodurile de stocare individuale, separându-le unul de celălalt, numărul de rafturi necesare va fi redus la jumătate! Acest lucru reduce costul de operare a centrului de date și scade costul total de proprietate. Într-o lume în care volumul informațiilor stocate crește cu 30% pe an, astfel de beneficii nu sunt împrăștiate.

***

Pentru mai multe informații despre soluțiile Huawei și scenariile lor de aplicare, vă rugăm să vizitați On-line sau contactând direct reprezentanții companiei.

Sursa: www.habr.com

Adauga un comentariu