Kako odabrati pohranu bez pucanja sebi u nogu

Uvod

Vrijeme je za kupnju prostora za pohranu. Koju uzeti, koga poslušati? Dobavljač A govori o dobavljaču B, a tu je i integrator C, koji govori suprotno i savjetuje dobavljača D. U takvoj situaciji će se čak i iskusnom arhitektu pohrane zavrtjeti u glavi, pogotovo sa svim novim dobavljačima i SDS-om i hiperkonvergencijom koji su moderni danas.

Dakle, kako to sve shvatiti i ne ispasti budala? mi (AntonVirtualni Anton Žbankov i corp Evgeniy Elizarov) pokušajmo o tome razgovarati na čistom ruskom.
Članak ima mnogo sličnosti i zapravo je proširenje "Dizajn virtualiziranog podatkovnog centra” u smislu odabira sustava za pohranu i pregleda tehnologija pohrane. Ukratko ćemo se osvrnuti na opću teoriju, ali preporučamo da pročitate i ovaj članak.

Što za

Često možete vidjeti situaciju u kojoj nova osoba dođe na forum ili specijalizirani chat, kao što je Storage Discussions, i postavi pitanje: “ovdje mi nude dvije opcije za pohranu - ABC SuperStorage S600 i XYZ HyperOcean 666v4, što preporučujete ?"

I počinje zbrka oko toga tko ima koje značajke implementacije strašnih i neshvatljivih značajki, koje su za nepripremljenu osobu potpuno kineske.

Dakle, ključno i prvo pitanje koje si morate postaviti puno prije usporedbe specifikacija u komercijalnim prijedlozima je ZAŠTO? Zašto je potreban ovaj sustav skladištenja?

Kako odabrati pohranu bez pucanja sebi u nogu

Odgovor će biti neočekivan, i vrlo u stilu Tonyja Robbinsa - pohraniti podatke. Hvala kapetane! Pa ipak, ponekad se toliko duboko upustimo u uspoređivanje detalja da zaboravimo zašto sve to uopće radimo.

Dakle, zadatak sustava za pohranjivanje podataka je pohraniti i omogućiti pristup PODATKIMA sa zadanom izvedbom. Počet ćemo s podacima.

Podaci

Tip podataka

Koju vrstu podataka planiramo pohraniti? Vrlo važno pitanje koje može eliminirati mnoge sustave za pohranu iz čak i razmatranja. Na primjer, planirate pohraniti video zapise i fotografije. Možete odmah prekrižiti sustave dizajnirane za nasumični pristup u malim blokovima ili sustave s vlasničkim značajkama u kompresiji/deduplikaciji. To su možda jednostavno izvrsni sustavi, ne želimo reći ništa loše. Ali u ovom slučaju, njihove snage će ili postati slabe (video i fotografije nisu komprimirani) ili jednostavno značajno povećati cijenu sustava.

Suprotno tome, ako je namjeravana upotreba zauzet transakcijski DBMS, tada će izvrsni multimedijski streaming sustavi sposobni isporučivati ​​gigabajte u sekundi biti loš izbor.

Količina podataka

Koliko podataka planiramo pohraniti? Kvantiteta uvijek prerasta u kvalitetu, to nikako ne treba zaboraviti, pogotovo u našem vremenu eksponencijalnog rasta količine podataka. Sustavi petabajtne klase više nisu neuobičajeni, ali što je veći kapacitet petabajta, što sustav postaje specifičniji, to će uobičajena funkcionalnost malih i srednjih sustava s izravnim pristupom biti manje dostupna. To je trivijalno jer same tablice statistike pristupa blokovima postaju veće od raspoložive količine RAM-a na kontrolerima. Da ne spominjem kompresiju/sloj. Recimo da želimo prebaciti algoritam kompresije na moćniji i komprimirati 20 petabajta podataka. Koliko će trajati: šest mjeseci, godinu dana?

S druge strane, zašto se mučiti ako trebate pohraniti i obraditi 500 GB podataka? Samo 500. SSD-ovi za kućanstvo (s niskim DWPD-om) ove veličine ne koštaju ništa. Zašto graditi tvornicu Fibre Channel i kupovati vrhunske vanjske sustave za pohranu koji koštaju ekvivalentno mostu od lijevanog željeza?

Koliki je postotak od ukupnog broja vrućih podataka? Koliko je neravnomjerno opterećenje u smislu količine podataka? Ovdje tehnologija višeslojne pohrane ili Flash Cache mogu biti od velike pomoći ako je količina vrućih podataka mala u usporedbi s ukupnom količinom. Ili obrnuto, s jednolikim opterećenjem po cijelom volumenu, što se često nalazi u streaming sustavima (video nadzor, neki analitički sustavi), takve tehnologije neće pružiti ništa i samo će povećati cijenu/složenost sustava.

IP

Druga strana podataka je informacijski sustav koji koristi podatke. IS ima skup zahtjeva koji nasljeđuju podatke. Za više informacija o IS-u pogledajte “Dizajn virtualiziranog podatkovnog centra”.

Zahtjevi otpornosti/dostupnosti

Zahtjevi za toleranciju grešaka/dostupnost podataka naslijeđeni su od IS-a koji ih koristi i izraženi su u tri broja - RPO, OTR, Dostupnost.

dostupnost — udio za određeno vremensko razdoblje tijekom kojeg su podaci dostupni za rad s njima. Obično se izražava brojem 9. Na primjer, dvije devetke godišnje znače da je dostupnost 99%, ili je inače dopušteno 95 sati nedostupnosti godišnje. Tri devetke - 9,5 sati godišnje.

RPO/RTO nisu ukupni pokazatelji, već za svaki incident (nesreću), za razliku od raspoloživosti.

RPO — količina podataka izgubljenih tijekom nezgode (u satima). Na primjer, ako se sigurnosne kopije događaju jednom dnevno, tada je RPO = 24 sata. Oni. U slučaju havarije i potpunog gubitka sustava za pohranu podaci mogu biti izgubljeni do 24 sata (od trenutka izrade sigurnosne kopije). Na temelju RPO navedenog za IS, na primjer, pišu se rezervni propisi. Također, na temelju RPO-a možete shvatiti koliko je sinkrone/asinkrone replikacije podataka potrebno.

OTR — vrijeme za ponovno uspostavljanje usluge (pristup podacima) nakon katastrofe. Na temelju zadane RTO vrijednosti možemo razumjeti je li potreban metro klaster ili je dovoljna jednosmjerna replikacija. Trebate li hi-end klasu sustava za pohranu s više kontrolera?

Kako odabrati pohranu bez pucanja sebi u nogu

Zahtjevi izvedbe

Iako je ovo vrlo očito pitanje, tu nastaje većina poteškoća. Ovisno o tome imate li već neku vrstu infrastrukture ili ne, izradit će se načini prikupljanja potrebnih statistika.

Već imate sustav za pohranu i tražite zamjenu ili želite kupiti još jedan za proširenje. Ovdje je sve jednostavno. Razumijete koje usluge već imate i koje planirate implementirati u bliskoj budućnosti. Na temelju trenutnih usluga, imate priliku prikupiti statistiku učinka. Odlučite se o trenutnom broju IOPS-a i trenutnoj latenciji - koji su to pokazatelji i jesu li dovoljni za vaše zadatke? To se može učiniti i na samom sustavu za pohranu podataka i na hostovima koji su na njega povezani.

Štoviše, morate gledati ne samo na trenutno opterećenje, već na određeno razdoblje (po mogućnosti mjesec dana). Pogledajte koji su maksimalni vršci tijekom dana, kakvo opterećenje stvara sigurnosna kopija itd. Ako vam vaš sustav za pohranu ili njegov softver ne pruža potpun skup ovih podataka, možete koristiti besplatni RRDtool, koji može raditi s većinom najpopularnijih sustava za pohranu i preklopnika i može vam pružiti detaljnu statistiku performansi. Također je vrijedno pogledati opterećenje na hostovima koji rade s ovim sustavom za pohranu, za određene virtualne strojeve ili što se točno izvodi na ovom hostu.

Kako odabrati pohranu bez pucanja sebi u nogu

Vrijedno je posebno napomenuti da ako se kašnjenja na volumenu i pohrani podataka koji se nalaze na tom volumenu prilično razlikuju, obratite pozornost na svoju SAN mrežu, postoji velika vjerojatnost da s njom postoje problemi i prije kupnje novog sustava, vrijedi istražiti ovo pitanje jer postoji vrlo velika vjerojatnost povećanja performansi trenutnog sustava.

Gradite infrastrukturu od nule ili kupujete sustav za neku novu uslugu čijeg opterećenja niste svjesni. Postoji nekoliko opcija: komunicirajte s kolegama na specijaliziranim resursima kako biste pokušali saznati i predvidjeti opterećenje, obratite se integratoru koji ima iskustva u implementaciji sličnih usluga i koji vam može izračunati opterećenje. I treća opcija (obično najteža, posebno ako se radi o domaćim ili rijetkim aplikacijama) je pokušati saznati zahtjeve za performansama od programera sustava.

I, imajte na umu, najispravnija opcija sa stajališta praktične primjene je pilot na trenutnoj opremi ili opremi koju dobavljač/integrator daje na testiranje.

Posebni zahtjevi

Posebni zahtjevi su sve što ne spada pod zahtjeve za performanse, toleranciju na greške i funkcionalnost za izravnu obradu i pružanje podataka.

Jedan od najjednostavnijih posebnih zahtjeva za sustav za pohranu podataka može se nazvati "otuđivi medij za pohranu". I odmah postaje jasno da ovaj sustav za pohranjivanje podataka mora uključivati ​​biblioteku trake ili jednostavno jedinicu trake na koju se sprema sigurnosna kopija. Nakon čega posebno obučena osoba potpisuje traku i ponosno je nosi u poseban sef.
Drugi primjer posebnog zahtjeva je zaštićeni dizajn otporan na udarce.

gdje

Druga glavna komponenta u odabiru određenog sustava za pohranu je informacija o tome GDJE će se taj sustav za pohranu nalaziti. Počevši od geografije ili klimatskih uvjeta, pa sve do osoblja.

Kupac

Za koga je predviđen ovaj skladišni sustav? Pitanje ima sljedeće razloge:

Državni kupac/komercijalni.
Komercijalni kupac nema ograničenja, niti je dužan održavati natječaje, osim u skladu s vlastitim internim aktima.

Državni kupac je druga stvar. 44 Savezni zakon i druge radosti s natječajima i tehničkim specifikacijama koje se mogu osporiti.

Kupac je pod sankcijama
Pa, pitanje je ovdje vrlo jednostavno - izbor je ograničen samo ponudama dostupnim određenom kupcu.

Interni propisi / dobavljači / modeli dopušteni za kupnju
Pitanje je također vrlo jednostavno, ali morate ga zapamtiti.

Gdje fizički

U ovom dijelu razmatramo sva pitanja s geografijom, komunikacijskim kanalima i mikroklimom u smještajnim prostorijama.

Персонал

Tko će raditi s ovim sustavom za pohranu? Ovo nije manje važno od onoga što može sam sustav za pohranu.
Koliko god obećavajući, cool i divan bio sustav za pohranu od dobavljača A, vjerojatno nema smisla instalirati ga ako osoblje zna raditi samo s dobavljačem B, a nema planova za daljnje kupnje i stalnu suradnju s A.

I naravno, druga strana pitanja je koliko je obučeno osoblje dostupno na određenoj geografskoj lokaciji izravno u poduzeću i potencijalno na tržištu rada. Za regije, odabir sustava za pohranu s jednostavnim sučeljima ili mogućnošću daljinskog centraliziranja upravljanja može imati puno smisla. Inače bi u nekom trenutku moglo postati nesnosno bolno. Internet je prepun priča o tome kako je novi zaposlenik koji je stigao, dojučerašnji student, napravio takvu stvar da je cijeli ured uništen.

Kako odabrati pohranu bez pucanja sebi u nogu

Okoliš

I naravno, važno pitanje je u kakvom će okruženju ovaj sustav za pohranu raditi.

  • Što je s napajanjem/hlađenjem?
  • Kakva veza
  • Gdje će se instalirati?
  • itd.

Često se ta pitanja uzimaju zdravo za gotovo i ne razmatraju se posebno, ali ponekad su ona ta koja mogu sve preokrenuti.

Da

Dobavljač

Od danas (sredina 2019.) rusko tržište pohrane može se podijeliti u 5 kategorija:

  1. Najviša divizija su dobro etablirane tvrtke sa širokim rasponom polica za diskove od najjednostavnijih do hi-end (HPE, DellEMC, Hitachi, NetApp, IBM / Lenovo)
  2. Druga divizija - tvrtke s ograničenom linijom, nišni igrači, ozbiljni dobavljači SDS-a ili pridošlice u usponu (Fujitsu, Datacore, Infinidat, Huawei, Pure, itd.)
  3. Treća divizija - nišna rješenja u nižem rangu, jeftini SDS, napredni proizvodi temeljeni na cephu i drugi otvoreni projekti (Infortrend, Starwind, itd.)
  4. SOHO segment - mali i ultra-mali sustavi za pohranu na razini kuće/malog ureda (Synology, QNAP, itd.)
  5. Sustavi za pohranu zamijenjeni uvozom - ovo uključuje i hardver prve divizije s preoznačenim oznakama i rijetke predstavnike druge (RAIDIX, dat ćemo im drugu unaprijed), ali uglavnom je to treća divizija (Aerodisk, Baum, Depo, itd.)

Podjela je dosta proizvoljna i uopće ne znači da je treći ili SOHO segment loš i da se ne može koristiti. U specifičnim projektima s jasno definiranim skupom podataka i profilom opterećenja mogu funkcionirati vrlo dobro, daleko nadmašujući prvu diviziju u omjeru cijene i kvalitete. Važno je najprije odlučiti o svojim ciljevima, izgledima za rast i potrebnoj funkcionalnosti - tada će vam Synology vjerno služiti, a vaša će kosa postati mekana i svilenkasta.

Jedan od važnih čimbenika pri odabiru dobavljača je trenutno okruženje. Koliko sustava za pohranu već imate i s kojim sustavima za pohranu vaši inženjeri mogu raditi. Trebate li još jednog dobavljača, još jednu kontaktnu točku, hoćete li postupno migrirati cijeli teret s dobavljača A na dobavljača B?

Ne treba proizvoditi entitete izvan onoga što je potrebno.

iSCSI/FC/Datoteka

Ne postoji konsenzus među inženjerima o pitanju pristupnih protokola, a rasprava više nalikuje teološkim nego inženjerskim raspravama. Ali općenito se mogu primijetiti sljedeće točke:

FCoE više mrtav nego živ.

FC protiv iSCSI. Jedna od ključnih prednosti FC-a u 2019. u odnosu na IP pohranu, namjensku tvornicu za pristup podacima, nadoknađuje namjenska IP mreža. FC nema globalnih prednosti u odnosu na IP mreže, a IP se može koristiti za izgradnju sustava za pohranu bilo koje razine opterećenja, sve do sustava za teške DBMS za jezgru bankarskog sustava velike banke. S druge strane, FC-u se već nekoliko godina proriče smrt, ali je stalno nešto sprječava. Danas, primjerice, neki igrači na tržištu pohrane podataka aktivno razvijaju standard NVMEoF. Hoće li dijeliti sudbinu FCoE - vrijeme će pokazati.

Pristup datoteci također nije nešto nedostojno pažnje. NFS/CIFS radi dobro u produktivnim okruženjima i, ako je ispravno dizajniran, nema više pritužbi nego blok protokola.

Hibridni / All Flash Array

Klasični sustavi za pohranu dolaze u 2 vrste:

  1. AFA (All Flash Array) - sustavi optimizirani za korištenje SSD-a.
  2. Hibridni - omogućuje korištenje HDD-a i SSD-a ili njihove kombinacije.

Njihova glavna razlika su podržane tehnologije učinkovitosti pohrane i maksimalna razina performansi (visoki IOPS i niska latencija). Oba sustava (u većini svojih modela, ne računajući low-end segment) mogu raditi i kao blok i kao datotečni uređaji. Podržana funkcionalnost ovisi o razini sustava, a kod mlađih modela najčešće je svedena na minimalnu razinu. Na to vrijedi obratiti pozornost kada proučavate karakteristike određenog modela, a ne samo mogućnosti cijele linije u cjelini. Također, naravno, o razini sustava ovise i njegove tehničke karakteristike, kao što su procesor, količina memorije, cache memorija, broj i vrste portova itd. Sa stajališta upravljanja, AFA se razlikuju od hibridnih (disk) sustava samo u implementaciji mehanizama za rad sa SSD diskovima, a čak i ako koristite SSD u hibridnom sustavu, to uopće ne znači da ćete moći postići razinu performansi na razini AFA sustava. Također, u većini slučajeva, inline učinkoviti mehanizmi za pohranu su onemogućeni na hibridnim sustavima, a njihovo uključivanje dovodi do gubitka performansi.

Posebni sustavi skladištenja

Osim sustava za pohranu opće namjene, usmjerenih prvenstveno na operativnu obradu podataka, postoje posebni sustavi za pohranu s ključnim principima koji su bitno drugačiji od uobičajenih (niska latencija, visoki IOPS):

Mediji.

Ovi su sustavi dizajnirani za pohranu i obradu velikih medijskih datoteka. Odg. kašnjenje postaje praktički nevažno, a mogućnost slanja i primanja podataka u širokom pojasu u mnogo paralelnih tokova dolazi do izražaja.

Dedupliciranje sustava za pohranu za sigurnosne kopije.

Budući da se sigurnosne kopije razlikuju po međusobnoj sličnosti, što je rijetkost u normalnim uvjetima (prosječna sigurnosna kopija razlikuje se od jučerašnje kopije za 1-2%), ova klasa sustava iznimno učinkovito pakira podatke koji su na njima snimljeni unutar prilično malog prostora. broj fizičkih medija. Na primjer, u nekim slučajevima omjeri kompresije podataka mogu doseći 200 prema 1.

Sustavi za pohranu objekata.

Ovi sustavi za pohranu nemaju uobičajene volumene s blokiranim pristupom i dijeljenje datoteka, a najviše od svega nalikuju ogromnoj bazi podataka. Pristup objektu pohranjenom u takvom sustavu ostvaruje se jedinstvenim identifikatorom ili metapodacima (na primjer, svi objekti JPEG formata s datumom stvaranja između XX-XX-XXXX i GG-GG-GGGG).

Sustav usklađenosti.

Danas nisu tako česti u Rusiji, ali vrijedni su spomena. Svrha takvih sustava za pohranu je zajamčena pohrana podataka u skladu sa sigurnosnim politikama ili regulatornim zahtjevima. Neki sustavi (primjerice EMC Centera) imaju implementiranu funkciju zabrane brisanja podataka - čim se ključ okrene i sustav uđe u ovaj mod, niti administrator niti bilo tko drugi ne može fizički obrisati podatke koji su već snimljeni.

Vlasničke tehnologije

Flash predmemorija

Flash Cache zajednički je naziv za sve vlasničke tehnologije za korištenje flash memorije kao predmemorije druge razine. Kada se koristi flash predmemorija, sustav za pohranu obično se izračunava tako da pruža ravnomjerno opterećenje s magnetskih diskova, dok vrhunac opslužuje predmemorija.

U ovom slučaju, potrebno je razumjeti profil opterećenja i stupanj lokalizacije pristupa blokovima skladišnih volumena. Flash cache je tehnologija za radna opterećenja s visoko lokaliziranim upitima i praktički je neprimjenjiva za jednolično učitane volumene (kao što su analitički sustavi).

Na tržištu su dostupne dvije implementacije flash predmemorije:

  • Samo za čitanje. U ovom se slučaju samo očitani podaci pohranjuju u predmemoriju, a pisanje ide izravno na diskove. Neki proizvođači, kao što je NetApp, vjeruju da je pisanje u njihove sustave za pohranu već optimalno, a predmemorija uopće neće pomoći.
  • Čitanje/Pisanje. Ne samo čitanje, već i pisanje se pohranjuje u predmemoriju, što vam omogućuje spremanje toka u međuspremnik i smanjenje utjecaja RAID kazne, te kao rezultat toga povećava ukupnu izvedbu za sustave za pohranu s manje optimalnim mehanizmom pisanja.

Slojevitost

Višerazinska pohrana (umorna) je tehnologija za kombiniranje razina s različitim razinama performansi, kao što su SSD i HDD, u jedan skup diskova. U slučaju izražene neujednačenosti pristupa blokovima podataka, sustav će moći automatski balansirati blokove podataka, premještajući učitane na razinu visokih performansi, a hladne, naprotiv, na sporiju.

Hibridni sustavi niže i srednje klase koriste pohranu na više razina s podacima koji se kreću između razina prema rasporedu. U isto vrijeme, veličina bloka za pohranu na više razina za najbolje modele je 256 MB. Ove nam značajke ne dopuštaju da tehnologiju slojevitog skladištenja smatramo tehnologijom za povećanje produktivnosti, kao što mnogi ljudi pogrešno vjeruju. Višerazinska pohrana u sustavima niske i srednje klase tehnologija je optimizacije troškova pohrane za sustave s izraženom neravnomjernošću opterećenja.

Snimak

Koliko god pričali o pouzdanosti sustava za pohranu podataka, postoji mnogo mogućnosti za gubitak podataka koji ne ovise o hardverskim problemima. To mogu biti virusi, hakeri ili bilo koje drugo nenamjerno brisanje/oštećenje podataka. Iz tog je razloga sigurnosna kopija podataka o proizvodnji sastavni dio posla inženjera.

Snimka je snimka volumena u nekom trenutku u vremenu. Kada radite s većinom sustava, poput virtualizacije, baza podataka itd. moramo napraviti takav snapshot iz kojeg ćemo kopirati podatke u sigurnosnu kopiju, dok će naš IS moći sigurno nastaviti raditi s tim volumenom. Ali vrijedi zapamtiti da nisu sve snimke jednako korisne. Različiti dobavljači imaju različite pristupe stvaranju snimki vezanih uz njihovu arhitekturu.

CoW (Copy-On-Write). Kada pokušate upisati podatkovni blok, njegov izvorni sadržaj se kopira u posebno područje, nakon čega se upisivanje nastavlja normalno. To sprječava oštećenje podataka unutar snimke. Naravno, sve ove "parazitske" manipulacije podacima uzrokuju dodatno opterećenje sustava za pohranu i iz tog razloga dobavljači sa sličnim implementacijama ne preporučuju korištenje više od desetak snimaka, te ih uopće ne koriste na visoko opterećenim volumenima.

RoW (Redirect-on-Write). U ovom slučaju, izvorni volumen prirodno se zamrzava, a kada pokušava napisati blok podataka, sustav za pohranu zapisuje podatke u posebno područje u slobodnom prostoru, mijenjajući lokaciju ovog bloka u tablici metapodataka. To vam omogućuje smanjenje broja operacija ponovnog pisanja, što u konačnici eliminira pad performansi i uklanja ograničenja na snimke i njihov broj.

Snimke također postoje dvije vrste u odnosu na aplikacije:

Dosljednost primjene. U trenutku stvaranja snimke, sustav za pohranu povlači agenta u operativnom sustavu potrošača, koji prisilno ispire predmemorije diska iz memorije na disk i prisiljava aplikaciju da to učini. U tom slučaju, prilikom vraćanja iz snimke, podaci će biti dosljedni.

Dosljedan pad. U ovom se slučaju ništa slično ne događa i snimka se stvara kakva jest. U slučaju oporavka od takvog snapshota, slika je identična onome što bi se dogodilo kada bi se struja iznenada isključila i moguć je gubitak nekih podataka, zapeli su u predmemorijama i nikada ne bi došli do diska. Takve snimke lakše je implementirati i ne uzrokuju degradaciju performansi u aplikacijama, ali su manje pouzdane.

Zašto su potrebne snimke na sustavima za pohranu?

  • Sigurnosno kopiranje bez agenta izravno iz sustava za pohranu
  • Stvorite testna okruženja na temelju stvarnih podataka
  • U slučaju sustava za pohranu datoteka, može se koristiti za stvaranje VDI okruženja korištenjem snimaka sustava za pohranu umjesto hipervizora
  • Osigurajte niske RPO-ove stvaranjem zakazanih snimaka na učestalosti znatno višoj od učestalosti sigurnosnog kopiranja

Kloniranje

Kloniranje volumena - radi na sličnom principu kao i snimke, ali se ne koristi samo za čitanje podataka, već i za potpuni rad s njima. U mogućnosti smo dobiti točnu kopiju našeg sveska, sa svim podacima na njoj, bez izrade fizičke kopije, čime ćemo uštedjeti prostor. Obično se kloniranje volumena koristi u Test&Dev ili ako želite provjeriti funkcionalnost nekih ažuriranja na vašem IS-u. Kloniranje će vam omogućiti da to učinite što je brže moguće i ekonomičnije u smislu diskovnih resursa, jer Bit će upisani samo promijenjeni blokovi podataka.

Replikacija / vođenje dnevnika

Replikacija je mehanizam za stvaranje kopije podataka na drugom fizičkom sustavu za pohranu. Tipično, svaki dobavljač ima vlastitu tehnologiju koja radi samo unutar njegove vlastite linije. Ali postoje i rješenja trećih strana, uključujući ona koja rade na razini hipervizora, kao što je VMware vSphere Replication.

Funkcionalnost vlasničkih tehnologija i jednostavnost korištenja istih obično su znatno superiorniji od univerzalnih, ali se pokazuju neprimjenjivima kada je, primjerice, potrebno napraviti repliku s NetAppa na HP MSA.

Replikacija se dijeli na dvije podvrste:

Sinkroni. U slučaju sinkrone replikacije, operacija pisanja se odmah šalje drugom sustavu za pohranu i izvršenje se ne potvrđuje dok to ne potvrdi daljinski sustav za pohranu. Zbog toga se kašnjenje pristupa povećava, ali imamo točnu zrcalnu kopiju podataka. Oni. RPO = 0 u slučaju gubitka glavnog skladišnog sustava.

asinkroni. Operacije pisanja izvode se samo na glavnom sustavu pohrane i odmah se potvrđuju, dok se istovremeno akumuliraju u međuspremniku za paketni prijenos na udaljeni sustav pohrane. Ova vrsta replikacije relevantna je za manje vrijedne podatke ili za kanale niske propusnosti ili velike latencije (tipično za udaljenosti preko 100 km). Prema tome, RPO = frekvencija slanja paketa.

Često, uz replikaciju, postoji mehanizam sječa diskovne operacije. U tom se slučaju dodjeljuje poseban prostor za sječu i pohranjuju se operacije snimanja određene dubine u vremenu ili ograničene volumenom trupca. Za određene vlasničke tehnologije, kao što je EMC RecoverPoint, postoji integracija sa sistemskim softverom koji vam omogućuje povezivanje određenih knjižnih oznaka s određenim zapisom u dnevniku. Zahvaljujući tome, moguće je vratiti stanje volumena (ili stvoriti klon) ne samo na 23. travnja, 11 sati 59 sekundi i 13 milisekundi, već na trenutak prije “ISPUSTI SVE TABLICE; POČINITI."

Metro klaster

Metro klaster je tehnologija koja vam omogućuje stvaranje dvosmjerne sinkrone replikacije između dva sustava za pohranu na takav način da izvana ovaj par izgleda kao jedan sustav za pohranu. Koristi se za stvaranje klastera s geografski odvojenim krakovima na metro udaljenostima (manje od 100 km).

Na temelju primjera korištenja u virtualizacijskom okruženju, metrocluster omogućuje stvaranje skladišta podataka s virtualnim strojevima, dostupnim za snimanje iz dva podatkovna centra odjednom. U ovom slučaju, stvara se klaster na razini hipervizora, koji se sastoji od hostova u različitim fizičkim podatkovnim centrima, povezanih s ovom pohranom podataka. Što vam omogućuje sljedeće:

  • Potpuna automatizacija procesa oporavka nakon smrti jednog od podatkovnih centara. Bez ikakvih dodatnih sredstava, sve virtualne mašine koje rade u preminulom podatkovnom centru automatski će se ponovno pokrenuti u preostalom. RTO = vrijeme čekanja klastera visoke dostupnosti (15 sekundi za VMware) + vrijeme za učitavanje operativnog sustava i pokretanje usluga.
  • Izbjegavanje katastrofe ili, na ruskom, izbjegavanje katastrofa. Ako su planirani radovi na opskrbi električnom energijom u podatkovnom centru 1, tada imamo mogućnost migrirati cijelo važno opterećenje u podatkovni centar 2 non-stop unaprijed, prije početka radova.

Virtualizacija

Virtualizacija pohrane je tehnički korištenje volumena iz drugog sustava pohrane kao diskova. Virtualizator pohrane može jednostavno prenijeti tuđi volumen korisniku kao vlastiti, istovremeno ga zrcaleći na drugi sustav za pohranu ili čak stvoriti RAID iz vanjskih volumena.
Klasični predstavnici u klasi virtualizacije pohrane su EMC VPLEX i IBM SVC. I naravno, sustavi za pohranu podataka s funkcionalnošću virtualizacije - NetApp, Hitachi, IBM / Lenovo Storwize.

Zašto bi to moglo biti potrebno?

  • Redundancija na razini sustava za pohranu podataka. Između volumena se stvara ogledalo, a jedna polovica može biti na HP 3Par, a druga na NetApp. I virtualizator je iz EMC-a.
  • Premještajte podatke s minimalnim zastojem između sustava za pohranu različitih proizvođača. Pretpostavimo da podatke treba migrirati sa starog 3Par-a, koji će biti otpisan, na novi Dell. U ovom slučaju, potrošači su isključeni iz 3Par, količine se prenose pod VPLEX i ponovno se prikazuju potrošačima. Budući da se nije ništa promijenilo na glasnoći, rad se nastavlja. Proces zrcaljenja glasnoće na novi Dell počinje u pozadini, a po završetku zrcalo se pokvari i 3Par je onemogućen.
  • Organizacija metroklastera.

Kompresija/deduplikacija

Kompresija i deduplikacija su tehnologije koje vam omogućuju uštedu prostora na disku u vašem sustavu za pohranu. Vrijedno je odmah napomenuti da u načelu nisu svi podaci podložni kompresiji i/ili deduplikaciji, dok su neke vrste podataka bolje komprimirane i deduplicirane, a neke - obrnuto.

Postoje 2 vrste kompresije i deduplikacije:

U redu — kompresija i deduplikacija blokova podataka događa se prije zapisivanja ovih podataka na disk. Dakle, sustav samo izračunava hash bloka i uspoređuje ga u tablici s postojećim. Prvo, brže je nego samo pisanje na disk, a drugo, ne trošimo dodatni prostor na disku.

pošta - kada se ove operacije izvode na već snimljenim podacima koji se nalaze na diskovima. Sukladno tome, podaci se prvo zapisuju na disk, a tek onda se izračunava hash te se brišu nepotrebni blokovi i oslobađaju resursi diska.

Vrijedno je reći da većina dobavljača koristi obje vrste, što im omogućuje optimizaciju ovih procesa i time povećanje njihove učinkovitosti. Većina dobavljača pohrane ima pomoćne programe koji vam omogućuju analizu skupova podataka. Ovi pomoćni programi rade prema istoj logici koja je implementirana u sustav za pohranu, tako da će procijenjena razina učinkovitosti biti ista. Također, imajte na umu da mnogi dobavljači imaju programe jamstva performansi koji obećavaju barem jednako dobre performanse za određene (ili sve) vrste podataka. I ne biste trebali zanemariti ovaj program, jer izračunavanjem sustava za svoje zadatke, uzimajući u obzir koeficijent učinkovitosti određenog sustava, možete uštedjeti na volumenu. Također vrijedi uzeti u obzir da su ovi programi dizajnirani za AFA sustave, ali zahvaljujući kupnji manjeg volumena SSD-ova od HDD-ova u klasičnim sustavima, to će smanjiti njihovu cijenu, a ako ne i jednaku cijeni diskovnog sustava, onda sasvim mu se približiti.

Model

I tu dolazimo do pravog pitanja.

"Nude mi dvije mogućnosti pohrane - ABC SuperStorage S600 i XYZ HyperOcean 666v4, što preporučujete?"

Pretvara se u “Ovdje mi nude dvije mogućnosti pohrane - ABC SuperStorage S600 i XYZ HyperOcean 666v4, što preporučate?

Ciljano opterećenje su mješoviti VMware virtualni strojevi s proizvodnim/testnim/razvojnim petljama. Test = produktivan. 150 TB svaki s vršnom izvedbom od 80 IOPS 000kb blok 8% slučajni pristup 50/80 čitanje-pisanje. 20 TB za razvoj, 300 50 IOPS je dovoljno, 000 random, 80 write.

Produktivnost vjerojatno u metroklasteru RPO = 15 minuta RTO = 1 sat, razvoj u asinkronoj replikaciji RPO = 3 sata, test na jednom mjestu.

Bit će 50TB DBMS, logging bi im dobro došao.

Imamo Dell poslužitelje posvuda, stare Hitachi sustave za pohranu, jedva se nose, planiramo povećati opterećenje za 50% u smislu volumena i performansi.”

Kako kažu, ispravno formulirano pitanje sadrži 80% odgovora.

dodatne informacije

Što biste trebali dodatno pročitati prema mišljenju autora

knjige

  • Olifer i Olifer “Računalne mreže”. Knjiga će pomoći da se sistematizira i možda bolje razumije kako funkcionira medij za prijenos podataka za IP / Ethernet sustave za pohranu podataka
  • “EMC pohrana informacija i upravljanje.” Izvrsna knjiga o osnovama sustava za pohranu, zašto, kako i zašto.

Forumi i chatovi

Opće preporuke

Cijene

Sada, što se tiče cijena - općenito, ako postoje cijene za sustave za pohranu, to su obično kataloške cijene, od kojih svaki kupac dobiva pojedinačni popust. Veličina popusta sastoji se od velikog broja parametara, tako da je jednostavno nemoguće predvidjeti koju će konačnu cijenu vaša tvrtka dobiti bez pitanja distributera. Ali u isto vrijeme, nedavno su se u redovnim prodavaonicama računala počeli pojavljivati ​​jeftini modeli, kao što su npr. nix.ru ili xcom-shop.ru. Ovdje možete odmah kupiti sustav koji vas zanima po fiksnoj cijeni kao i sve računalne komponente.

No želio bih odmah napomenuti da izravna usporedba prema TB/$ nije točna. Ako pristupimo s ove točke gledišta, tada će najjeftinije rješenje biti jednostavan JBOD + poslužitelj, koji neće pružiti niti fleksibilnost niti pouzdanost koju pruža potpuni sustav za pohranu podataka s dva kontrolera. To uopće ne znači da je JBOD odvratan i gadan prljavi trik, samo trebate ponovno vrlo jasno razumjeti kako i u koje svrhe ćete koristiti ovo rješenje. Često možete čuti da se u JBOD-u nema što slomiti, postoji samo jedna stražnja ploča. Međutim, stražnje ploče također ponekad zakažu. Sve prije ili kasnije pukne.

Ukupno

Potrebno je međusobno uspoređivati ​​sustave ne samo po cijeni, ili ne samo po performansama, već i po ukupnosti svih pokazatelja.

Kupujte HDD samo ako ste sigurni da vam HDD treba. Za mala opterećenja i nekompresibilne vrste podataka, inače, vrijedi obratiti se na jamstvene programe za učinkovitost pohrane na SSD-u, koje sada ima većina dobavljača (i stvarno rade, čak i u Rusiji), ali sve ovisi o aplikacijama i podacima koji će se nalaziti na ovom sustavu skladištenja.

Ne idite za jeftinim. Ponekad oni kriju mnogo neugodnih trenutaka, od kojih je jedan Evgeniy Elizarov opisao u svojim člancima o Infortrend. I da vam se na kraju ta jeftinoća može obiti o glavu. Ne zaboravite - "škrtac plaća dvaput."

Izvor: www.habr.com

Dodajte komentar