Industrijski trendovi u sustavima masovne pohrane podataka

Danas ćemo razgovarati o tome kako najbolje pohraniti podatke u svijetu u kojem mreže pete generacije, skeneri genoma i samovozeći automobili proizvode više podataka dnevno nego što ih je cijelo čovječanstvo generiralo prije industrijske revolucije.

Industrijski trendovi u sustavima masovne pohrane podataka

Naš svijet stvara sve više informacija. Neki dio je prolazan i gubi se jednako brzo kao što se sakupi. Drugi bi trebao biti pohranjen dulje, a drugi je čak dizajniran "stoljećima" - barem to vidimo iz sadašnjosti. Tokovi informacija talože se u podatkovnim centrima takvom brzinom da svaki novi pristup, svaka tehnologija osmišljena da zadovolji ovu beskrajnu "zahtjev" brzo postaje zastarjela.

Industrijski trendovi u sustavima masovne pohrane podataka

40 godina razvoja distribuiranih sustava za pohranu podataka

Prva mrežna pohrana u obliku koji poznajemo pojavila se 1980-ih. Mnogi od vas naišli su na NFS (Network File System), AFS (Andrew File System) ili Coda. Desetljeće kasnije, moda i tehnologija su se promijenile, a distribuirani datotečni sustavi ustupili su mjesto klasteriranim sustavima za pohranu koji se temelje na GPFS (General Parallel File System), CFS (Clustered File Systems) i StorNext. Kao osnova korištena je blok pohrana klasične arhitekture, povrh koje je pomoću softverskog sloja kreiran jedinstveni datotečni sustav. Ova i slična rješenja još uvijek se koriste, zauzimaju svoju nišu i prilično su tražena.

Na prijelazu tisućljeća paradigma distribuirane pohrane ponešto se promijenila, a vodeće pozicije zauzimaju sustavi s SN (Shared-Nothing) arhitekturom. Došlo je do prijelaza s klasterske pohrane na pohranu na pojedinačnim čvorovima, koji su u pravilu bili klasični poslužitelji sa softverom koji je osiguravao pouzdanu pohranu; Na takvim principima izgrađeni su recimo HDFS (Hadoop Distributed File System) i GFS (Global File System).

Bliže 2010-ima, koncepti na kojima se temelje distribuirani sustavi za pohranu sve su se više počeli odražavati u punopravnim komercijalnim proizvodima, kao što su VMware vSAN, Dell EMC Isilon i naš Huawei OceanStor. Iza spomenutih platformi više ne stoji zajednica entuzijasta, već specifični vendori koji su odgovorni za funkcionalnost, podršku i servis proizvoda te jamče njegov daljnji razvoj. Takva su rješenja najtraženija u nekoliko područja.

Industrijski trendovi u sustavima masovne pohrane podataka

Telekom operateri

Možda jedan od najstarijih potrošača distribuiranih sustava za pohranu su telekom operateri. Dijagram pokazuje koje grupe aplikacija proizvode većinu podataka. OSS (Operations Support Systems), MSS (Management Support Services) i BSS (Business Support Systems) predstavljaju tri komplementarna softverska sloja potrebna za pružanje usluge pretplatnicima, financijsko izvješćivanje pružatelju i operativnu podršku operaterskim inženjerima.

Često su podaci ovih slojeva međusobno jako izmiješani, a kako bi se izbjeglo gomilanje nepotrebnih kopija koristi se distribuirana pohrana u kojoj se akumulira cjelokupna količina informacija koja dolazi iz operativne mreže. Skladišta su spojena u zajednički bazen kojemu pristupaju sve službe.

Naši izračuni pokazuju da vam prijelaz s klasičnih sustava za pohranu na blokovne sustave za pohranu omogućuje uštedu do 70% proračuna samo napuštanjem namjenskih hi-end sustava za pohranu i korištenjem konvencionalnih poslužitelja klasične arhitekture (obično x86), koji rade u kombinaciji sa specijaliziranim softver. Operateri mobilne telefonije odavno su počeli kupovati takva rješenja u velikim količinama. Konkretno, ruski operateri koriste takve Huawei proizvode više od šest godina.

Da, određeni broj zadataka ne može se izvršiti korištenjem distribuiranih sustava. Na primjer, s povećanim zahtjevima za performansama ili kompatibilnošću sa starijim protokolima. Ali najmanje 70% podataka koje operater obrađuje može se nalaziti u distribuiranom bazenu.

Industrijski trendovi u sustavima masovne pohrane podataka

Bankarski sektor

U svakoj banci postoji mnogo različitih IT sustava, počevši od obrade i završavajući s automatiziranim bankovnim sustavom. Ova infrastruktura također radi s ogromnom količinom informacija, dok većina zadataka ne zahtijeva povećanje performansi i pouzdanosti sustava za pohranu, primjerice razvoj, testiranje, automatizacija uredskih procesa itd. Ovdje je moguća uporaba klasičnih sustava za pohranu, ali je svake godine sve manje isplativ. Osim toga, u ovom slučaju nema fleksibilnosti u korištenju resursa sustava za pohranu, čija se izvedba izračunava na temelju vršnog opterećenja.

Pri korištenju distribuiranih sustava za pohranu, njihovi čvorovi, koji su zapravo obični poslužitelji, mogu se u bilo kojem trenutku pretvoriti, na primjer, u farmu poslužitelja i koristiti kao računalna platforma.

Industrijski trendovi u sustavima masovne pohrane podataka

Podatkovna jezera

Gornji dijagram prikazuje popis tipičnih potrošača usluge podatkovno jezero. To mogu biti usluge e-uprave (na primjer, "Usluge vlade"), digitalizirana poduzeća, financijske institucije itd. Sve one moraju raditi s velikim količinama heterogenih informacija.

Korištenje klasičnih sustava za pohranu za rješavanje takvih problema je neučinkovito, budući da zahtijeva i pristup visokih performansi blok bazama podataka i redoviti pristup bibliotekama skeniranih dokumenata pohranjenih kao objekti. Na primjer, ovdje se može povezati i sustav naručivanja putem web portala. Da biste sve to implementirali na klasičnu skladišnu platformu, trebat će vam veliki skup opreme za različite zadatke. Jedan vodoravni univerzalni sustav za pohranu može dobro pokriti sve prethodno navedene zadatke: samo trebate stvoriti nekoliko bazena s različitim karakteristikama pohrane u njemu.

Industrijski trendovi u sustavima masovne pohrane podataka

Generatori novih informacija

Količina pohranjenih informacija u svijetu raste za oko 30% godišnje. Ovo je dobra vijest za prodavače pohrane, ali što jest i bit će glavni izvor ovih podataka?

Prije deset godina društvene mreže postale su takvi generatori, što je zahtijevalo stvaranje velikog broja novih algoritama, hardverskih rješenja itd. Sada postoje tri glavna pokretača rasta volumena pohrane. Prvi je računalstvo u oblaku. Trenutno otprilike 70% tvrtki koristi usluge u oblaku na ovaj ili onaj način. To mogu biti sustavi elektroničke pošte, sigurnosne kopije i drugi virtualizirani entiteti.
Drugi pokretač su mreže pete generacije. To su nove brzine i nove količine prijenosa podataka. Prema našim predviđanjima, široka primjena 5G dovest će do pada potražnje za flash memorijskim karticama. Bez obzira na to koliko memorije ima u telefonu, i dalje ponestaje, a ako gadget ima kanal od 100 megabita, nema potrebe za lokalno pohranjivanje fotografija.

Treća skupina razloga zbog kojih raste potražnja za sustavima za pohranu podataka uključuje brzi razvoj umjetne inteligencije, prelazak na big data analitiku i trend univerzalne automatizacije svega mogućeg.

Značajka “novog prometa” je njegova nedostatak strukture. Moramo pohraniti te podatke bez definiranja njihovog formata na bilo koji način. Potreban je samo za naknadno čitanje. Primjerice, za određivanje raspoloživog iznosa kredita, bankovni bodovni sustav gledat će fotografije koje objavljujete na društvenim mrežama, utvrđivati ​​odlazite li često na more i u restorane, a istovremeno će proučavati dostupne izvatke iz vaše medicinske dokumentacije na to. Ti su podaci, s jedne strane, sveobuhvatni, ali s druge strane nemaju homogenost.

Industrijski trendovi u sustavima masovne pohrane podataka

Ocean nestrukturiranih podataka

Kakve probleme nosi pojava “novih podataka”? Prvi među njima je, naravno, sama količina informacija i procijenjeno vrijeme njihove pohrane. Moderni autonomni automobil bez vozača sam generira do 60 terabajta podataka svaki dan iz svih svojih senzora i mehanizama. Da bi se razvili novi algoritmi kretanja, te se informacije moraju obraditi unutar istog dana, inače će se početi gomilati. Istodobno, mora se čuvati vrlo dugo - desetljećima. Tek tada će u budućnosti biti moguće donositi zaključke na temelju velikih analitičkih uzoraka.

Jedan uređaj za dešifriranje genetskih sekvenci proizvede oko 6 TB dnevno. A podaci prikupljeni uz njegovu pomoć uopće ne podrazumijevaju brisanje, odnosno, hipotetski, trebali bi biti pohranjeni zauvijek.

Konačno, iste mreže pete generacije. Osim stvarno prenesenih informacija, takva mreža sama po sebi je ogroman generator podataka: zapisi aktivnosti, zapisi poziva, međurezultati međustrojnih interakcija itd.

Sve to zahtijeva razvoj novih pristupa i algoritama za pohranu i obradu informacija. A takvi pristupi se pojavljuju.

Industrijski trendovi u sustavima masovne pohrane podataka

Tehnologije novog doba

Postoje tri skupine rješenja dizajniranih da se nose s novim zahtjevima za sustave za pohranu informacija: uvođenje umjetne inteligencije, tehnička evolucija medija za pohranu i inovacije u području arhitekture sustava. Počnimo s umjetnom inteligencijom.

Industrijski trendovi u sustavima masovne pohrane podataka

U novim Huawei rješenjima koristi se umjetna inteligencija na razini same pohrane koja je opremljena AI procesorom koji omogućuje sustavu da samostalno analizira svoje stanje i predviđa kvarove. Ako je sustav za pohranu spojen na servisni oblak koji ima značajne računalne mogućnosti, umjetna inteligencija će moći obraditi više informacija i povećati točnost svojih hipoteza.

Osim kvarova, takva umjetna inteligencija može predvidjeti buduće vršno opterećenje i preostalo vrijeme do iscrpljivanja kapaciteta. To vam omogućuje da optimizirate performanse i skalirate sustav prije nego što dođe do bilo kakvih neželjenih događaja.

Industrijski trendovi u sustavima masovne pohrane podataka

Sada o evoluciji medija za pohranu. Prvi flash pogoni izrađeni su korištenjem SLC (Single-Level Cell) tehnologije. Uređaji temeljeni na njemu bili su brzi, pouzdani, stabilni, ali su imali mali kapacitet i bili su vrlo skupi. Rast količine i smanjenje cijena postignuti su određenim tehničkim ustupcima, zbog čega su smanjeni brzina, pouzdanost i vijek trajanja pogona. Ipak, trend nije utjecao na same sustave za pohranu, koji su, zahvaljujući raznim arhitektonskim trikovima, općenito postali i produktivniji i pouzdaniji.

Ali zašto su vam bili potrebni All-Flash sustavi za pohranu? Nije li bilo dovoljno jednostavno zamijeniti stare HDD-ove u već operativnom sustavu novim SSD-ovima istog oblika? To je bilo potrebno kako bi se učinkovito iskoristili svi resursi novih solid-state diskova, što je jednostavno bilo nemoguće u starijim sustavima.

Huawei je, primjerice, razvio niz tehnologija za rješavanje ovog problema, a jedna od njih je FlashLink, što je omogućilo optimizaciju interakcije "disk-kontroler" što je više moguće.

Inteligentna identifikacija omogućila je razlaganje podataka u nekoliko tokova i suočavanje s brojnim nepoželjnim pojavama, kao npr. WA (napiši pojačanje). U isto vrijeme, posebice novi algoritmi oporavka RAID 2.0+, povećao je brzinu obnove, smanjujući njezino vrijeme na potpuno beznačajne količine.

Kvar, pretrpanost, sakupljanje smeća - ovi čimbenici više ne utječu na performanse skladišnog sustava zahvaljujući posebnim modifikacijama kontrolera.

Industrijski trendovi u sustavima masovne pohrane podataka

I blok skladišta podataka također se pripremaju za susret NVMe. Podsjetimo, klasična shema organizacije pristupa podacima funkcionirala je ovako: procesor je pristupao RAID kontroleru preko PCI Express sabirnice. To je pak komuniciralo s mehaničkim diskovima putem SCSI-ja ili SAS-a. Korištenje NVMe-a na pozadini značajno je ubrzalo cijeli proces, ali je imalo jedan nedostatak: diskovi su morali biti izravno povezani s procesorom kako bi mu se omogućio izravan pristup memoriji.

Sljedeća faza razvoja tehnologije koju sada vidimo je korištenje NVMe-oF (NVMe over Fabrics). Što se tiče Huawei block tehnologija, one već podržavaju FC-NVMe (NVMe over Fibre Channel), a NVMe over RoCE (RDMA over Converged Ethernet) je na putu. Testni modeli su prilično funkcionalni, do službenog predstavljanja ostalo je još nekoliko mjeseci. Imajte na umu da će se sve ovo pojaviti u distribuiranim sustavima, gdje će "Ethernet bez gubitaka" biti u velikoj potražnji.

Industrijski trendovi u sustavima masovne pohrane podataka

Dodatni način optimizacije rada distribuirane pohrane bilo je potpuno odustajanje od zrcaljenja podataka. Huawei rješenja više ne koriste n kopija, kao u uobičajenom RAID 1, i potpuno prelaze na EC (Kodiranje brisanja). Poseban matematički paket izračunava kontrolne blokove u određenoj periodici, koji vam omogućuju vraćanje posrednih podataka u slučaju gubitka.

Deduplikacija i mehanizmi kompresije postaju obvezni. Ako smo u klasičnim sustavima za pohranu ograničeni brojem procesora ugrađenih u kontrolere, onda u distribuiranim horizontalno skalabilnim sustavima za pohranu svaki čvor sadrži sve potrebno: diskove, memoriju, procesore i interkonekciju. Ti su resursi dovoljni da osiguraju da deduplikacija i kompresija imaju minimalan utjecaj na izvedbu.

I o metodama optimizacije hardvera. Ovdje je bilo moguće smanjiti opterećenje središnjih procesora uz pomoć dodatnih namjenskih čipova (ili namjenskih blokova u samom procesoru), koji igraju ulogu NOŽNI PRST (TCP/IP Offload Engine) ili preuzimanje matematičkih zadataka EC-a, deduplikacije i kompresije.

Industrijski trendovi u sustavima masovne pohrane podataka

Novi pristupi pohranjivanju podataka utjelovljeni su u disagregiranoj (distribuiranoj) arhitekturi. Centralizirani sustavi za pohranu imaju tvornicu poslužitelja povezanu putem Fibre Channel-a SAN s puno nizova. Nedostaci ovog pristupa su poteškoće u skaliranju i osiguravanju zajamčene razine usluge (u smislu performansi ili latencije). Hiperkonvergirani sustavi koriste iste hostove za pohranu i obradu informacija. To daje gotovo neograničen prostor za skaliranje, ali podrazumijeva visoke troškove za održavanje integriteta podataka.

Za razliku od oba gore navedena, raščlanjena arhitektura podrazumijeva dijeleći sustav na računalno tkivo i horizontalni sustav za pohranu. Ovo pruža prednosti obje arhitekture i omogućuje gotovo neograničeno skaliranje samo elementa koji nema performanse.

Industrijski trendovi u sustavima masovne pohrane podataka

Od integracije do konvergencije

Klasičan zadatak, čija je relevantnost samo rasla u posljednjih 15 godina, je potreba da se istovremeno osigura blok pohrana, pristup datotekama, pristup objektima, rad farme velikih podataka, itd. Šlag na torti mogao bi također biti, na primjer, rezervni sustav na magnetskoj vrpci.

U prvoj fazi moglo bi se objediniti samo upravljanje tim službama. Heterogeni sustavi za pohranu podataka bili su povezani s nekim specijaliziranim softverom, preko kojeg je administrator raspoređivao resurse iz dostupnih bazena. Ali budući da su ti bazeni imali drugačiji hardver, migracija opterećenja između njih bila je nemoguća. Na višoj razini integracije, agregacija se dogodila na razini pristupnika. Da je dijeljenje datoteka bilo dostupno, moglo bi se posluživati ​​kroz različite protokole.

Najnaprednija metoda konvergencije koja nam je trenutno dostupna uključuje stvaranje univerzalnog hibridnog sustava. Upravo ono što bi naše trebalo postati OceanStor 100D. Univerzalni pristup koristi iste hardverske resurse, logički podijeljene u različite skupove, ali dopuštajući migraciju opterećenja. Sve se to može učiniti putem jedinstvene upravljačke konzole. Na taj smo način uspjeli implementirati koncept “jedan podatkovni centar – jedan sustav za pohranu.”

Industrijski trendovi u sustavima masovne pohrane podataka

Cijena pohranjivanja informacija sada određuje mnoge arhitektonske odluke. I iako se sa sigurnošću može staviti u prvi plan, danas raspravljamo o "živoj" pohrani s aktivnim pristupom, tako da se performanse također moraju uzeti u obzir. Drugo važno svojstvo distribuiranih sustava sljedeće generacije je unifikacija. Uostalom, nitko ne želi imati nekoliko različitih sustava kojima se upravlja s različitih konzola. Sve ove kvalitete utjelovljene su u novoj seriji Huawei proizvoda OceanStor Pacific.

Sustav masovne pohrane nove generacije

OceanStor Pacific ispunjava zahtjeve pouzdanosti šest devet (99,9999%) i može se koristiti za stvaranje podatkovnih centara klase HyperMetro. Uz udaljenost između dva podatkovna centra do 100 km, sustavi pokazuju dodatnu latenciju od 2 ms, što omogućuje izgradnju bilo kojeg rješenja otpornog na katastrofe, uključujući i ona s poslužiteljima kvoruma.

Industrijski trendovi u sustavima masovne pohrane podataka

Nova serija proizvoda pokazuje svestranost protokola. OceanStor 100D već podržava pristup blokovima, pristup objektima i Hadoop pristup. Pristup datotekama također će biti implementiran u bliskoj budućnosti. Nema potrebe za pohranjivanjem višestrukih kopija podataka ako se oni mogu izdati kroz različite protokole.

Industrijski trendovi u sustavima masovne pohrane podataka

Čini se, kakve veze koncept "mreže bez gubitaka" ima sa sustavima za pohranu? Činjenica je da se distribuirani sustavi za pohranu podataka grade na bazi brze mreže koja podržava odgovarajuće algoritme i RoCE mehanizam. Sustav umjetne inteligencije koji podržavaju naši prekidači pomaže u daljnjem povećanju brzine mreže i smanjenju kašnjenja. AI tkanina. Dobitak u performansama pohrane kada se aktivira AI Fabric može doseći 20%.

Industrijski trendovi u sustavima masovne pohrane podataka

Što je novi čvor za distribuiranu pohranu OceanStor Pacific? Rješenje faktora forme 5U uključuje 120 pogona i može zamijeniti tri klasična čvora, što omogućuje više nego dvostruku uštedu u rack prostoru. Nespremanjem kopija značajno se povećava učinkovitost pogona (do +92%).

Navikli smo da je softverski definirana pohrana poseban softver instaliran na klasičnom poslužitelju. Ali sada, za postizanje optimalnih parametara, ovo arhitektonsko rješenje također zahtijeva posebne čvorove. Sastoji se od dva poslužitelja temeljena na ARM procesorima koji upravljaju nizom pogona od tri inča.

Industrijski trendovi u sustavima masovne pohrane podataka

Ovi poslužitelji nisu prikladni za hiperkonvergentna rješenja. Prvo, postoji dosta aplikacija za ARM, a drugo, teško je održavati ravnotežu opterećenja. Predlažemo prelazak na odvojenu pohranu: računalni klaster, predstavljen klasičnim ili rack poslužiteljima, radi odvojeno, ali je povezan s čvorovima za pohranu OceanStor Pacific, koji također obavljaju svoje izravne zadatke. I opravdava sebe.

Na primjer, uzmimo klasično rješenje za pohranu velikih podataka s hiperkonvergiranim sustavom koji zauzima 15 poslužiteljskih polica. Ako rasporedite opterećenje između zasebnih računalnih poslužitelja i čvorova za pohranu OceanStor Pacific, odvajajući ih jedne od drugih, broj potrebnih regala će se prepoloviti! To smanjuje operativne troškove podatkovnog centra i smanjuje ukupne troškove vlasništva. U svijetu u kojem količina pohranjenih informacija raste za 30% godišnje, takve se prednosti ne bacaju na kraj.

***

Više informacija o Huawei rješenjima i scenarijima njihove primjene možete dobiti na našem Online ili izravno kontaktirajući predstavnike tvrtke.

Izvor: www.habr.com

Dodajte komentar