Danas ćemo govoriti o tome kako najbolje pohraniti podatke u svijetu u kojem mreže pete generacije, skeneri genoma i samovozeći automobili proizvode više podataka u jednom danu nego što je cijelo čovječanstvo generiralo prije industrijske revolucije.
Naš svijet stvara sve više informacija. Neki od njih su prolazni i gube se onoliko brzo koliko se sakupe. Drugi treba duže čuvati, a drugi je potpuno osmišljen "vekovima" - barem ga tako vidimo iz sadašnjosti. Tokovi informacija se talože u podatkovnim centrima takvom brzinom da svaki novi pristup, svaka tehnologija dizajnirana da zadovolji ovu beskrajnu "potražnju" brzo postaje zastarjela.
40 godina razvoja distribuirane pohrane
Prve mrežne pohrane u nama poznatom obliku pojavile su se 1980-ih. Mnogi od vas su naišli na NFS (mrežni sistem datoteka), AFS (Andrew fajl sistem) ili Coda. Deceniju kasnije, moda i tehnologija su se promenile, a distribuirani sistemi datoteka su ustupili mesto grupisanim sistemima za skladištenje zasnovanim na GPFS (General Parallel File System), CFS (Clustered File Systems) i StorNext. Kao osnova korišćena su blok memorija klasične arhitekture, na čijem je vrhu kreiran jedan sistem datoteka pomoću softverskog sloja. Ova i slična rješenja se još uvijek koriste, zauzimaju svoju nišu i prilično su tražena.
Na prelazu milenijuma, paradigma distribuiranog skladištenja se donekle promenila i sistemi sa SN (Shared-Nothing) arhitekturom su preuzeli vodeću ulogu. Došlo je do prelaska sa klasterske memorije na skladištenje na odvojenim čvorovima, koji su po pravilu bili klasični serveri sa softverom koji obezbeđuje pouzdano skladištenje; takvi principi su izgrađeni, recimo, HDFS (Hadoop Distributed File System) i GFS (Global File System).
Bliže 2010., koncepti na kojima se zasnivaju distribuirani sistemi skladištenja sve više su počeli da se odražavaju u punopravnim komercijalnim proizvodima, kao što su VMware vSAN, Dell EMC Isilon i naš
Telekom operateri
Možda jedan od najstarijih potrošača distribuiranih sistema za skladištenje podataka su telekom operateri. Dijagram pokazuje koje grupe aplikacija proizvode najveći dio podataka. OSS (Operation Support Systems), MSS (Management Support Services) i BSS (Business Support Systems) su tri komplementarna softverska sloja potrebna za isporuku usluga pretplatnicima, finansijsko izvještavanje provajderu i operativnu podršku inženjerima operatera.
Često su podaci ovih slojeva jako pomiješani jedni s drugima, a kako bi se izbjeglo nakupljanje nepotrebnih kopija, koriste se distribuirana skladišta koja akumuliraju cjelokupnu količinu informacija koje dolaze iz radne mreže. Skladišta su objedinjena u zajednički bazen kojem pristupaju sve usluge.
Naši proračuni pokazuju da vam prelazak sa klasičnih na blokovne sisteme za skladištenje omogućava uštedu do 70% budžeta samo napuštanjem namenskih hi-end sistema za skladištenje i korišćenjem konvencionalnih servera klasične arhitekture (obično x86), radeći u sprezi sa specijalizovanim softverom. Mobilni operateri već duže vrijeme nabavljaju takva rješenja u značajnim količinama. Konkretno, ruski operateri koriste takve proizvode kompanije Huawei više od šest godina.
Da, određeni broj zadataka se ne može izvršiti korištenjem distribuiranih sistema. Na primjer, sa povećanim zahtjevima performansi ili kompatibilnošću sa starijim protokolima. Ali najmanje 70% podataka koje operater obrađuje može se smjestiti u distribuirani skup.
Bankarstvo
U svakoj banci postoji mnogo različitih IT sistema, od procesiranja do automatizovanog bankarskog sistema. Ova infrastruktura takođe radi sa ogromnom količinom informacija, dok većina zadataka ne zahteva povećanje performansi i pouzdanosti sistema za skladištenje podataka, kao što su razvoj, testiranje, automatizacija kancelarijskih procesa itd. Ovde je moguća upotreba klasičnih sistema za skladištenje podataka. , ali svake godine je sve manje isplativo. Osim toga, u ovom slučaju nema fleksibilnosti u trošenju resursa za skladištenje, čije se performanse izračunavaju iz vršnog opterećenja.
Kada se koriste distribuirani sistemi za skladištenje podataka, njihovi čvorovi, koji su u stvari obični serveri, mogu se u bilo kom trenutku pretvoriti, na primer, u farmu servera i koristiti kao računarska platforma.
Jezera podataka
Gornji dijagram prikazuje listu tipičnih korisnika usluga.
Rad klasičnih sistema skladištenja za rešavanje ovakvih problema je neefikasan, jer je potreban i pristup visokih performansi blok bazama podataka i redovan pristup bibliotekama skeniranih dokumenata pohranjenih kao objekti. Ovdje se, na primjer, može vezati sistem narudžbi preko web portala. Da biste sve ovo implementirali na klasičnoj platformi za skladištenje, trebat će vam veliki set opreme za različite zadatke. Jedan horizontalni univerzalni sistem za skladištenje može lako pokriti sve prethodno navedene zadatke: potrebno je samo da u njemu kreirate nekoliko bazena sa različitim karakteristikama skladištenja.
Generatori novih informacija
Količina pohranjenih informacija u svijetu raste za oko 30% godišnje. Ovo je dobra vijest za prodavce skladišta, ali šta je i šta će biti glavni izvor ovih podataka?
Prije deset godina društvene mreže su postale takvi generatori, što je zahtijevalo stvaranje velikog broja novih algoritama, hardverskih rješenja itd. Sada postoje tri glavna pokretača rasta skladišta. Prvi je računarstvo u oblaku. Trenutno, oko 70% kompanija na ovaj ili onaj način koristi usluge u oblaku. To mogu biti sistemi e-pošte, sigurnosne kopije i drugi virtuelizirani entiteti.
Mreže pete generacije postaju drugi pokretač. To su nove brzine i nove količine prijenosa podataka. Prema našim predviđanjima, široko usvajanje 5G će dovesti do pada potražnje za flash memorijskim karticama. Bez obzira koliko memorije ima u telefonu, ona se i dalje završava, a ako gadget ima 100-megabitni kanal, nema potrebe za pohranjivanjem fotografija lokalno.
U treću grupu razloga zašto potražnja za sistemima za skladištenje podataka raste su brzi razvoj veštačke inteligencije, prelazak na analitiku velikih podataka i trend ka univerzalnoj automatizaciji svega što je moguće.
Karakteristika "novog saobraćaja" je njegova
Okean nestrukturiranih podataka
Koji su problemi koje sa sobom nosi pojava „novih podataka“? Prvi među njima je, naravno, sama količina informacija i procijenjeni period njihovog čuvanja. Samo moderan autonomni automobil bez vozača generiše do 60 TB podataka svakog dana od svih svojih senzora i mehanizama. Da bi se razvili novi algoritmi kretanja, ove informacije moraju biti obrađene u toku istog dana, inače će se početi akumulirati. Istovremeno, trebalo bi da se čuva veoma dugo - decenijama. Tek tada će biti moguće donositi zaključke na osnovu velikih analitičkih uzoraka u budućnosti.
Jedan uređaj za dešifrovanje genetskih sekvenci proizvodi oko 6 terabajta dnevno. A podaci prikupljeni uz njegovu pomoć uopće ne podrazumijevaju brisanje, odnosno hipotetički ih treba čuvati zauvijek.
Konačno, sve iste mreže pete generacije. Pored samih informacija koje se prenose, takva mreža je sama po sebi ogroman generator podataka: evidencije aktivnosti, evidencije poziva, međurezultati interakcija između mašina itd.
Sve to zahtijeva razvoj novih pristupa i algoritama za pohranjivanje i obradu informacija. I takvi pristupi se pojavljuju.
Tehnologije nove ere
Mogu se izdvojiti tri grupe rješenja dizajniranih da se nose sa novim zahtjevima za sisteme za pohranu informacija: uvođenje umjetne inteligencije, tehnička evolucija medija za pohranu podataka i inovacije u oblasti arhitekture sistema. Počnimo sa AI.
U novim Huawei rješenjima umjetna inteligencija se već koristi na nivou samog skladišta, koje je opremljeno AI procesorom koji omogućava sistemu da samostalno analizira svoje stanje i predvidi kvarove. Ako je sistem za skladištenje povezan sa uslužnim oblakom koji ima značajne računarske mogućnosti, veštačka inteligencija može obraditi više informacija i poboljšati tačnost svojih hipoteza.
Pored kvarova, takav AI može predvidjeti buduće vršno opterećenje i vrijeme preostalo do iscrpljivanja kapaciteta. Ovo vam omogućava da optimizirate performanse i skalirate sistem prije nego što se pojave neželjeni događaji.
Sada o evoluciji nosača podataka. Prvi fleš diskovi napravljeni su pomoću SLC (Single-Level Cell) tehnologije. Uređaji zasnovani na njemu bili su brzi, pouzdani, stabilni, ali su imali mali kapacitet i bili su veoma skupi. Povećanje obima i smanjenje cijene postignuto je određenim tehničkim ustupcima, zbog čega je smanjena brzina, pouzdanost i vijek trajanja pogona. Ipak, trend nije utjecao na same sustave za pohranu, koji su zbog raznih arhitektonskih trikova, općenito, postali i produktivniji i pouzdaniji.
Ali zašto su vam bili potrebni sistemi za skladištenje All-Flash klase? Nije li bilo dovoljno samo zamijeniti stare HDD-ove u već pokrenutom sistemu novim SSD-ovima istog oblika? To je bilo potrebno kako bi se efikasno iskoristili svi resursi novih SSD-ova, što je bilo jednostavno nemoguće u starijim sistemima.
Huawei je, na primjer, razvio brojne tehnologije za rješavanje ovog problema, od kojih je jedna
Inteligentna identifikacija omogućila je razlaganje podataka u nekoliko tokova i suočavanje sa brojnim nepoželjnim pojavama, kao npr.
Kvar, prenatrpanost, sakupljanje smeća - ovi faktori takođe više ne utiču na performanse sistema za skladištenje zahvaljujući posebnoj prefinjenosti kontrolera.
I blok skladišta podataka se spremaju za susret
Sljedeća faza razvoja tehnologije koju sada vidimo je korištenje NVMe-oF (NVMe over Fabrics). Što se tiče Huawei blok tehnologija, one već podržavaju FC-NVMe (NVMe over Fibre Channel), a NVMe over RoCE (RDMA over Converged Ethernet) je na putu. Testni modeli su prilično funkcionalni, ostalo je nekoliko mjeseci do njihovog zvaničnog predstavljanja. Imajte na umu da će se sve ovo pojaviti i u distribuiranim sistemima, gdje će "Ethernet bez gubitaka" biti veoma tražen.
Dodatni način za optimizaciju rada distribuiranih skladišta je potpuno odbacivanje zrcaljenja podataka. Huawei rješenja više ne koriste n kopija, kao u uobičajenom RAID 1, i potpuno prelaze na mehanizam
Mehanizmi deduplikacije i kompresije postaju obavezni. Ako smo u klasičnim sistemima za skladištenje ograničeni brojem procesora instaliranih u kontrolerima, onda u distribuiranim horizontalno skalabilnim sistemima skladištenja svaki čvor sadrži sve što vam je potrebno: diskove, memoriju, procesore i interkonekt. Ovi resursi su dovoljni da deduplikacija i kompresija imaju minimalan uticaj na performanse.
I o metodama optimizacije hardvera. Ovdje je bilo moguće smanjiti opterećenje centralnih procesora uz pomoć dodatnih namjenskih mikro krugova (ili namjenskih blokova u samom procesoru), koji igraju ulogu
Novi pristupi skladištenju podataka oličeni su u disagregiranoj (distribuiranoj) arhitekturi. U centralizovanim sistemima za skladištenje, postoji fabrika servera povezana preko Fibre Channel-a na
Za razliku od oba gore navedena, dezagregirana arhitektura podrazumijeva particionisanje sistema na fabriku računara i horizontalni sistem skladištenja. Ovo pruža prednosti obje arhitekture i omogućava gotovo neograničeno skaliranje samo elementa čije performanse nisu dovoljne.
Od integracije do konvergencije
Klasičan zadatak, čija je relevantnost samo rasla u posljednjih 15 godina, je potreba da se istovremeno obezbijedi blok pohrana, pristup datotekama, pristup objektima, rad farme za velike podatke itd. Šlag na tortu može također biti, na primjer, rezervni sistem za magnetnu traku.
U prvoj fazi moglo bi se objediniti samo upravljanje ovim službama. Heterogeni sistemi za skladištenje podataka zatvoreni su za neki specijalizovani softver, preko kojeg je administrator distribuirao resurse iz dostupnih pulova. Ali pošto su ovi skupovi bili različiti u hardveru, migracija opterećenja između njih bila je nemoguća. Na višem nivou integracije, konsolidacija se odvijala na nivou gateway-a. Ako je postojao zajednički pristup fajlu, mogao bi se dati putem različitih protokola.
Najnaprednija metoda konvergencije koja nam je sada dostupna uključuje stvaranje univerzalnog hibridnog sistema. Baš onakva kakva bi naša trebala biti
Troškovi pohranjivanja informacija sada određuju mnoge arhitektonske odluke. I iako se može bezbedno staviti u prvi plan, danas razgovaramo o "živoj" memoriji sa aktivnim pristupom, tako da se performanse takođe moraju uzeti u obzir. Još jedno važno svojstvo distribuiranih sistema sljedeće generacije je unifikacija. Na kraju krajeva, niko ne želi da ima nekoliko različitih sistema kojima se upravlja sa različitih konzola. Sve ove kvalitete oličene su u novoj seriji Huawei proizvoda.
Masovna pohrana nove generacije
OceanStor Pacific ispunjava šest devet (99,9999%) zahtjeva za pouzdanost i može se koristiti za kreiranje podatkovnog centra klase HyperMetro. Uz udaljenost između dva data centra do 100 km, sistemi pokazuju dodatno kašnjenje od 2 ms, što omogućava izgradnju bilo kakvih rješenja otpornih na katastrofe na osnovu njih, uključujući i ona sa kvorum serverima.
Proizvodi nove serije pokazuju svestranost u pogledu protokola. OceanStor 100D već podržava blok pristup, pristup objektima i Hadoop pristup. Pristup fajlovima će biti implementiran u bliskoj budućnosti. Nema potrebe za čuvanjem više kopija podataka ako se mogu izdati putem različitih protokola.
Čini se, kakve veze koncept "mreže bez gubitaka" ima sa pohranom? Činjenica je da su distribuirani sustavi skladištenja izgrađeni na bazi brze mreže koja podržava odgovarajuće algoritme i RoCE mehanizam. Sistem umjetne inteligencije koji podržavaju naši prekidači pomaže u daljem povećanju brzine mreže i smanjenju kašnjenja.
Šta je novi OceanStor Pacific distribuirani čvor za skladištenje? 5U oblik faktor rješenje uključuje 120 drajvova i može zamijeniti tri klasična čvora, više nego udvostručujući prostor rek-a. Zbog odbijanja pohranjivanja kopija, efikasnost pogona značajno se povećava (do + 92%).
Navikli smo da je softverski definirana pohrana poseban softver instaliran na klasičnom serveru. Ali sada, kako bi se postigli optimalni parametri, ovo arhitektonsko rješenje zahtijeva i posebne čvorove. Sastoji se od dva servera zasnovana na ARM procesorima koji upravljaju nizom diskova od tri inča.
Ovi serveri nisu pogodni za hiperkonvergentna rješenja. Prvo, postoji malo aplikacija za ARM, a drugo, teško je održati balans opterećenja. Predlažemo prelazak na odvojeno skladištenje: računarski klaster, predstavljen klasičnim ili rack serverima, radi odvojeno, ali je povezan sa OceanStor Pacific skladišnim čvorovima, koji takođe obavljaju svoje direktne zadatke. I opravdava se.
Na primjer, uzmimo klasično hiperkonvergentno rješenje za skladištenje velikih podataka koje zauzima 15 serverskih rekova. Ako rasporedite opterećenje između pojedinačnih OceanStor Pacific računarskih servera i skladišnih čvorova, odvajajući ih jedan od drugog, broj potrebnih stalaka će se prepoloviti! Ovo smanjuje troškove rada data centra i smanjuje ukupne troškove vlasništva. U svijetu u kojem obim pohranjenih informacija raste za 30% godišnje, takve prednosti nisu raspršene.
***
Za više informacija o Huawei rješenjima i njihovim scenarijima primjene, posjetite našu
izvor: www.habr.com