Industrijski trendovi u masovnom skladištenju

Danas ćemo govoriti o tome kako najbolje pohraniti podatke u svijetu u kojem mreže pete generacije, skeneri genoma i samovozeći automobili proizvode više podataka u jednom danu nego što je cijelo čovječanstvo generiralo prije industrijske revolucije.

Industrijski trendovi u masovnom skladištenju

Naš svijet stvara sve više informacija. Neki od njih su prolazni i gube se onoliko brzo koliko se sakupe. Drugi treba duže čuvati, a drugi je potpuno osmišljen "vekovima" - barem ga tako vidimo iz sadašnjosti. Tokovi informacija se talože u podatkovnim centrima takvom brzinom da svaki novi pristup, svaka tehnologija dizajnirana da zadovolji ovu beskrajnu "potražnju" brzo postaje zastarjela.

Industrijski trendovi u masovnom skladištenju

40 godina razvoja distribuirane pohrane

Prve mrežne pohrane u nama poznatom obliku pojavile su se 1980-ih. Mnogi od vas su naišli na NFS (mrežni sistem datoteka), AFS (Andrew fajl sistem) ili Coda. Deceniju kasnije, moda i tehnologija su se promenile, a distribuirani sistemi datoteka su ustupili mesto grupisanim sistemima za skladištenje zasnovanim na GPFS (General Parallel File System), CFS (Clustered File Systems) i StorNext. Kao osnova korišćena su blok memorija klasične arhitekture, na čijem je vrhu kreiran jedan sistem datoteka pomoću softverskog sloja. Ova i slična rješenja se još uvijek koriste, zauzimaju svoju nišu i prilično su tražena.

Na prelazu milenijuma, paradigma distribuiranog skladištenja se donekle promenila i sistemi sa SN (Shared-Nothing) arhitekturom su preuzeli vodeću ulogu. Došlo je do prelaska sa klasterske memorije na skladištenje na odvojenim čvorovima, koji su po pravilu bili klasični serveri sa softverom koji obezbeđuje pouzdano skladištenje; takvi principi su izgrađeni, recimo, HDFS (Hadoop Distributed File System) i GFS (Global File System).

Bliže 2010., koncepti na kojima se zasnivaju distribuirani sistemi skladištenja sve više su počeli da se odražavaju u punopravnim komercijalnim proizvodima, kao što su VMware vSAN, Dell EMC Isilon i naš Huawei OceanStor. Iza navedenih platformi više ne stoji zajednica entuzijasta, već konkretnih dobavljača koji su odgovorni za funkcionalnost, podršku, servisno održavanje proizvoda i garantuju njegov daljnji razvoj. Ovakva rješenja su najtraženija u nekoliko područja.

Industrijski trendovi u masovnom skladištenju

Telekom operateri

Možda jedan od najstarijih potrošača distribuiranih sistema za skladištenje podataka su telekom operateri. Dijagram pokazuje koje grupe aplikacija proizvode najveći dio podataka. OSS (Operation Support Systems), MSS (Management Support Services) i BSS (Business Support Systems) su tri komplementarna softverska sloja potrebna za isporuku usluga pretplatnicima, finansijsko izvještavanje provajderu i operativnu podršku inženjerima operatera.

Često su podaci ovih slojeva jako pomiješani jedni s drugima, a kako bi se izbjeglo nakupljanje nepotrebnih kopija, koriste se distribuirana skladišta koja akumuliraju cjelokupnu količinu informacija koje dolaze iz radne mreže. Skladišta su objedinjena u zajednički bazen kojem pristupaju sve usluge.

Naši proračuni pokazuju da vam prelazak sa klasičnih na blokovne sisteme za skladištenje omogućava uštedu do 70% budžeta samo napuštanjem namenskih hi-end sistema za skladištenje i korišćenjem konvencionalnih servera klasične arhitekture (obično x86), radeći u sprezi sa specijalizovanim softverom. Mobilni operateri već duže vrijeme nabavljaju takva rješenja u značajnim količinama. Konkretno, ruski operateri koriste takve proizvode kompanije Huawei više od šest godina.

Da, određeni broj zadataka se ne može izvršiti korištenjem distribuiranih sistema. Na primjer, sa povećanim zahtjevima performansi ili kompatibilnošću sa starijim protokolima. Ali najmanje 70% podataka koje operater obrađuje može se smjestiti u distribuirani skup.

Industrijski trendovi u masovnom skladištenju

Bankarstvo

U svakoj banci postoji mnogo različitih IT sistema, od procesiranja do automatizovanog bankarskog sistema. Ova infrastruktura takođe radi sa ogromnom količinom informacija, dok većina zadataka ne zahteva povećanje performansi i pouzdanosti sistema za skladištenje podataka, kao što su razvoj, testiranje, automatizacija kancelarijskih procesa itd. Ovde je moguća upotreba klasičnih sistema za skladištenje podataka. , ali svake godine je sve manje isplativo. Osim toga, u ovom slučaju nema fleksibilnosti u trošenju resursa za skladištenje, čije se performanse izračunavaju iz vršnog opterećenja.

Kada se koriste distribuirani sistemi za skladištenje podataka, njihovi čvorovi, koji su u stvari obični serveri, mogu se u bilo kom trenutku pretvoriti, na primer, u farmu servera i koristiti kao računarska platforma.

Industrijski trendovi u masovnom skladištenju

Jezera podataka

Gornji dijagram prikazuje listu tipičnih korisnika usluga. jezero podataka. To mogu biti usluge e-uprave (npr. „Gosuslugi“), preduzeća koja su prošla digitalizaciju, finansijske strukture itd. Svi oni moraju da rade sa velikim količinama heterogenih informacija.

Rad klasičnih sistema skladištenja za rešavanje ovakvih problema je neefikasan, jer je potreban i pristup visokih performansi blok bazama podataka i redovan pristup bibliotekama skeniranih dokumenata pohranjenih kao objekti. Ovdje se, na primjer, može vezati sistem narudžbi preko web portala. Da biste sve ovo implementirali na klasičnoj platformi za skladištenje, trebat će vam veliki set opreme za različite zadatke. Jedan horizontalni univerzalni sistem za skladištenje može lako pokriti sve prethodno navedene zadatke: potrebno je samo da u njemu kreirate nekoliko bazena sa različitim karakteristikama skladištenja.

Industrijski trendovi u masovnom skladištenju

Generatori novih informacija

Količina pohranjenih informacija u svijetu raste za oko 30% godišnje. Ovo je dobra vijest za prodavce skladišta, ali šta je i šta će biti glavni izvor ovih podataka?

Prije deset godina društvene mreže su postale takvi generatori, što je zahtijevalo stvaranje velikog broja novih algoritama, hardverskih rješenja itd. Sada postoje tri glavna pokretača rasta skladišta. Prvi je računarstvo u oblaku. Trenutno, oko 70% kompanija na ovaj ili onaj način koristi usluge u oblaku. To mogu biti sistemi e-pošte, sigurnosne kopije i drugi virtuelizirani entiteti.
Mreže pete generacije postaju drugi pokretač. To su nove brzine i nove količine prijenosa podataka. Prema našim predviđanjima, široko usvajanje 5G će dovesti do pada potražnje za flash memorijskim karticama. Bez obzira koliko memorije ima u telefonu, ona se i dalje završava, a ako gadget ima 100-megabitni kanal, nema potrebe za pohranjivanjem fotografija lokalno.

U treću grupu razloga zašto potražnja za sistemima za skladištenje podataka raste su brzi razvoj veštačke inteligencije, prelazak na analitiku velikih podataka i trend ka univerzalnoj automatizaciji svega što je moguće.

Karakteristika "novog saobraćaja" je njegova nestrukturiran. Ove podatke moramo pohraniti bez da na bilo koji način definiramo njihov format. Potreban je samo za naknadno čitanje. Na primjer, sistem skoringa banke za određivanje raspoloživog iznosa kredita će pogledati fotografije koje ste postavili na društvene mreže, određujući koliko često idete na more i restorane, a istovremeno će proučavati izvode iz vaših medicinskih dokumenata koji su mu dostupni. Ovi podaci su, s jedne strane, sveobuhvatni, as druge nemaju homogenost.

Industrijski trendovi u masovnom skladištenju

Okean nestrukturiranih podataka

Koji su problemi koje sa sobom nosi pojava „novih podataka“? Prvi među njima je, naravno, sama količina informacija i procijenjeni period njihovog čuvanja. Samo moderan autonomni automobil bez vozača generiše do 60 TB podataka svakog dana od svih svojih senzora i mehanizama. Da bi se razvili novi algoritmi kretanja, ove informacije moraju biti obrađene u toku istog dana, inače će se početi akumulirati. Istovremeno, trebalo bi da se čuva veoma dugo - decenijama. Tek tada će biti moguće donositi zaključke na osnovu velikih analitičkih uzoraka u budućnosti.

Jedan uređaj za dešifrovanje genetskih sekvenci proizvodi oko 6 terabajta dnevno. A podaci prikupljeni uz njegovu pomoć uopće ne podrazumijevaju brisanje, odnosno hipotetički ih treba čuvati zauvijek.

Konačno, sve iste mreže pete generacije. Pored samih informacija koje se prenose, takva mreža je sama po sebi ogroman generator podataka: evidencije aktivnosti, evidencije poziva, međurezultati interakcija između mašina itd.

Sve to zahtijeva razvoj novih pristupa i algoritama za pohranjivanje i obradu informacija. I takvi pristupi se pojavljuju.

Industrijski trendovi u masovnom skladištenju

Tehnologije nove ere

Mogu se izdvojiti tri grupe rješenja dizajniranih da se nose sa novim zahtjevima za sisteme za pohranu informacija: uvođenje umjetne inteligencije, tehnička evolucija medija za pohranu podataka i inovacije u oblasti arhitekture sistema. Počnimo sa AI.

Industrijski trendovi u masovnom skladištenju

U novim Huawei rješenjima umjetna inteligencija se već koristi na nivou samog skladišta, koje je opremljeno AI procesorom koji omogućava sistemu da samostalno analizira svoje stanje i predvidi kvarove. Ako je sistem za skladištenje povezan sa uslužnim oblakom koji ima značajne računarske mogućnosti, veštačka inteligencija može obraditi više informacija i poboljšati tačnost svojih hipoteza.

Pored kvarova, takav AI može predvidjeti buduće vršno opterećenje i vrijeme preostalo do iscrpljivanja kapaciteta. Ovo vam omogućava da optimizirate performanse i skalirate sistem prije nego što se pojave neželjeni događaji.

Industrijski trendovi u masovnom skladištenju

Sada o evoluciji nosača podataka. Prvi fleš diskovi napravljeni su pomoću SLC (Single-Level Cell) tehnologije. Uređaji zasnovani na njemu bili su brzi, pouzdani, stabilni, ali su imali mali kapacitet i bili su veoma skupi. Povećanje obima i smanjenje cijene postignuto je određenim tehničkim ustupcima, zbog čega je smanjena brzina, pouzdanost i vijek trajanja pogona. Ipak, trend nije utjecao na same sustave za pohranu, koji su zbog raznih arhitektonskih trikova, općenito, postali i produktivniji i pouzdaniji.

Ali zašto su vam bili potrebni sistemi za skladištenje All-Flash klase? Nije li bilo dovoljno samo zamijeniti stare HDD-ove u već pokrenutom sistemu novim SSD-ovima istog oblika? To je bilo potrebno kako bi se efikasno iskoristili svi resursi novih SSD-ova, što je bilo jednostavno nemoguće u starijim sistemima.

Huawei je, na primjer, razvio brojne tehnologije za rješavanje ovog problema, od kojih je jedna FlashLink, što je omogućilo da se što više optimizuju interakcije diska i kontrolera.

Inteligentna identifikacija omogućila je razlaganje podataka u nekoliko tokova i suočavanje sa brojnim nepoželjnim pojavama, kao npr. WA (pojačanje pisanja). U isto vrijeme, posebno novi algoritmi za oporavak RAID 2.0+, povećao brzinu rekonstrukcije, smanjivši njeno vrijeme na potpuno beznačajne vrijednosti.

Kvar, prenatrpanost, sakupljanje smeća - ovi faktori takođe više ne utiču na performanse sistema za skladištenje zahvaljujući posebnoj prefinjenosti kontrolera.

Industrijski trendovi u masovnom skladištenju

I blok skladišta podataka se spremaju za susret NVMe. Podsjetimo da je klasična shema za organiziranje pristupa podacima funkcionirala ovako: procesor je pristupio RAID kontroleru preko PCI Express magistrale. To je zauzvrat komuniciralo sa mehaničkim diskovima preko SCSI ili SAS-a. Upotreba NVMe na backend-u značajno je ubrzala cijeli proces, ali je nosila jedan nedostatak: diskovi su morali biti direktno povezani s procesorom kako bi mu se omogućio direktan pristup memoriji.

Sljedeća faza razvoja tehnologije koju sada vidimo je korištenje NVMe-oF (NVMe over Fabrics). Što se tiče Huawei blok tehnologija, one već podržavaju FC-NVMe (NVMe over Fibre Channel), a NVMe over RoCE (RDMA over Converged Ethernet) je na putu. Testni modeli su prilično funkcionalni, ostalo je nekoliko mjeseci do njihovog zvaničnog predstavljanja. Imajte na umu da će se sve ovo pojaviti i u distribuiranim sistemima, gdje će "Ethernet bez gubitaka" biti veoma tražen.

Industrijski trendovi u masovnom skladištenju

Dodatni način za optimizaciju rada distribuiranih skladišta je potpuno odbacivanje zrcaljenja podataka. Huawei rješenja više ne koriste n kopija, kao u uobičajenom RAID 1, i potpuno prelaze na mehanizam EC (Erasure code). Poseban matematički paket izračunava kontrolne blokove s određenom frekvencijom, koji vam omogućavaju vraćanje međupodataka u slučaju gubitka.

Mehanizmi deduplikacije i kompresije postaju obavezni. Ako smo u klasičnim sistemima za skladištenje ograničeni brojem procesora instaliranih u kontrolerima, onda u distribuiranim horizontalno skalabilnim sistemima skladištenja svaki čvor sadrži sve što vam je potrebno: diskove, memoriju, procesore i interkonekt. Ovi resursi su dovoljni da deduplikacija i kompresija imaju minimalan uticaj na performanse.

I o metodama optimizacije hardvera. Ovdje je bilo moguće smanjiti opterećenje centralnih procesora uz pomoć dodatnih namjenskih mikro krugova (ili namjenskih blokova u samom procesoru), koji igraju ulogu TO (TCP/IP Offload Engine) ili preuzimanje matematičkih zadataka EC, deduplikacije i kompresije.

Industrijski trendovi u masovnom skladištenju

Novi pristupi skladištenju podataka oličeni su u disagregiranoj (distribuiranoj) arhitekturi. U centralizovanim sistemima za skladištenje, postoji fabrika servera povezana preko Fibre Channel-a na SAN sa puno nizova. Nedostaci ovog pristupa su poteškoće sa skaliranjem i pružanjem garantovanog nivoa usluge (u smislu performansi ili kašnjenja). Hiperkonvergirani sistemi koriste iste hostove i za skladištenje i za obradu informacija. Ovo daje gotovo neograničen prostor za skaliranje, ali podrazumijeva visoke troškove za održavanje integriteta podataka.

Za razliku od oba gore navedena, dezagregirana arhitektura podrazumijeva particionisanje sistema na fabriku računara i horizontalni sistem skladištenja. Ovo pruža prednosti obje arhitekture i omogućava gotovo neograničeno skaliranje samo elementa čije performanse nisu dovoljne.

Industrijski trendovi u masovnom skladištenju

Od integracije do konvergencije

Klasičan zadatak, čija je relevantnost samo rasla u posljednjih 15 godina, je potreba da se istovremeno obezbijedi blok pohrana, pristup datotekama, pristup objektima, rad farme za velike podatke itd. Šlag na tortu može također biti, na primjer, rezervni sistem za magnetnu traku.

U prvoj fazi moglo bi se objediniti samo upravljanje ovim službama. Heterogeni sistemi za skladištenje podataka zatvoreni su za neki specijalizovani softver, preko kojeg je administrator distribuirao resurse iz dostupnih pulova. Ali pošto su ovi skupovi bili različiti u hardveru, migracija opterećenja između njih bila je nemoguća. Na višem nivou integracije, konsolidacija se odvijala na nivou gateway-a. Ako je postojao zajednički pristup fajlu, mogao bi se dati putem različitih protokola.

Najnaprednija metoda konvergencije koja nam je sada dostupna uključuje stvaranje univerzalnog hibridnog sistema. Baš onakva kakva bi naša trebala biti OceanStor 100D. Univerzalni pristup koristi iste hardverske resurse, logično podijeljene u različite grupe, ali omogućava migraciju opterećenja. Sve se to može uraditi preko jedne upravljačke konzole. Na ovaj način smo uspjeli implementirati koncept „jedan centar podataka – jedan sistem za skladištenje podataka“.

Industrijski trendovi u masovnom skladištenju

Troškovi pohranjivanja informacija sada određuju mnoge arhitektonske odluke. I iako se može bezbedno staviti u prvi plan, danas razgovaramo o "živoj" memoriji sa aktivnim pristupom, tako da se performanse takođe moraju uzeti u obzir. Još jedno važno svojstvo distribuiranih sistema sljedeće generacije je unifikacija. Na kraju krajeva, niko ne želi da ima nekoliko različitih sistema kojima se upravlja sa različitih konzola. Sve ove kvalitete oličene su u novoj seriji Huawei proizvoda. OceanStor Pacific.

Masovna pohrana nove generacije

OceanStor Pacific ispunjava šest devet (99,9999%) zahtjeva za pouzdanost i može se koristiti za kreiranje podatkovnog centra klase HyperMetro. Uz udaljenost između dva data centra do 100 km, sistemi pokazuju dodatno kašnjenje od 2 ms, što omogućava izgradnju bilo kakvih rješenja otpornih na katastrofe na osnovu njih, uključujući i ona sa kvorum serverima.

Industrijski trendovi u masovnom skladištenju

Proizvodi nove serije pokazuju svestranost u pogledu protokola. OceanStor 100D već podržava blok pristup, pristup objektima i Hadoop pristup. Pristup fajlovima će biti implementiran u bliskoj budućnosti. Nema potrebe za čuvanjem više kopija podataka ako se mogu izdati putem različitih protokola.

Industrijski trendovi u masovnom skladištenju

Čini se, kakve veze koncept "mreže bez gubitaka" ima sa pohranom? Činjenica je da su distribuirani sustavi skladištenja izgrađeni na bazi brze mreže koja podržava odgovarajuće algoritme i RoCE mehanizam. Sistem umjetne inteligencije koji podržavaju naši prekidači pomaže u daljem povećanju brzine mreže i smanjenju kašnjenja. AI Fabric. Porast performansi sistema za skladištenje kada se aktivira AI Fabric može dostići 20%.

Industrijski trendovi u masovnom skladištenju

Šta je novi OceanStor Pacific distribuirani čvor za skladištenje? 5U oblik faktor rješenje uključuje 120 drajvova i može zamijeniti tri klasična čvora, više nego udvostručujući prostor rek-a. Zbog odbijanja pohranjivanja kopija, efikasnost pogona značajno se povećava (do + 92%).

Navikli smo da je softverski definirana pohrana poseban softver instaliran na klasičnom serveru. Ali sada, kako bi se postigli optimalni parametri, ovo arhitektonsko rješenje zahtijeva i posebne čvorove. Sastoji se od dva servera zasnovana na ARM procesorima koji upravljaju nizom diskova od tri inča.

Industrijski trendovi u masovnom skladištenju

Ovi serveri nisu pogodni za hiperkonvergentna rješenja. Prvo, postoji malo aplikacija za ARM, a drugo, teško je održati balans opterećenja. Predlažemo prelazak na odvojeno skladištenje: računarski klaster, predstavljen klasičnim ili rack serverima, radi odvojeno, ali je povezan sa OceanStor Pacific skladišnim čvorovima, koji takođe obavljaju svoje direktne zadatke. I opravdava se.

Na primjer, uzmimo klasično hiperkonvergentno rješenje za skladištenje velikih podataka koje zauzima 15 serverskih rekova. Ako rasporedite opterećenje između pojedinačnih OceanStor Pacific računarskih servera i skladišnih čvorova, odvajajući ih jedan od drugog, broj potrebnih stalaka će se prepoloviti! Ovo smanjuje troškove rada data centra i smanjuje ukupne troškove vlasništva. U svijetu u kojem obim pohranjenih informacija raste za 30% godišnje, takve prednosti nisu raspršene.

***

Za više informacija o Huawei rješenjima i njihovim scenarijima primjene, posjetite našu site ili direktno kontaktiranjem predstavnika kompanije.

izvor: www.habr.com

Dodajte komentar