Nova metrika pohrane objekata

Nova metrika pohrane objekataLeteća tvrđava od Nele-Diela

S3 naredba za pohranu objekata Mail.ru Cloud Storage preveo članak o tome koji su kriteriji važni pri odabiru skladišta objekata. Slijedi tekst iz ugla autora.

Kada je u pitanju skladištenje objekata, ljudi obično razmišljaju samo o jednoj stvari: cijeni po TB/GB. Naravno, ova metrika je važna, ali čini pristup jednostranim i izjednačava skladištenje objekata sa alatom za skladištenje arhive. Osim toga, ovaj pristup smanjuje važnost skladištenja objekata za korporativni tehnološki stog.

Prilikom odabira skladišta predmeta, obratite pažnju na pet karakteristika:

  • performanse;
  • skalabilnost;
  • S3 kompatibilan;
  • odgovor na kvarove;
  • integritet.

Ovih pet karakteristika su nova metrika za skladištenje objekata, zajedno sa troškovima. Pogledajmo ih sve.

Produktivnost

Tradicionalnim skladištima objekata nedostaju performanse. Pružaoci usluga su to stalno žrtvovali u potrazi za niskim cijenama. Međutim, sa modernim skladištenjem predmeta stvari stoje drugačije.

Različiti sistemi za skladištenje pristupaju ili čak premašuju brzinu Hadoop-a. Moderni zahtjevi za brzine čitanja i pisanja: od 10 GB/s za hard diskove, do 35 GB/s za NVMe. 

Ova propusnost je dovoljna za Spark, Presto, Tensorflow, Teradata, Vertica, Splunk i druge moderne računarske okvire u analitičkom stogu. Činjenica da se MPP baze podataka konfigurišu za skladištenje objekata sugeriše da se sve više koristi kao primarno skladište.

Ako vaš sistem za pohranu ne pruža potrebnu brzinu, ne možete koristiti podatke i iz njih izvući vrijednost. Čak i ako preuzmete podatke iz skladišta objekata u strukturu obrade u memoriji, i dalje će vam trebati propusni opseg za prijenos podataka u i iz memorije. Naslijeđene prodavnice objekata nemaju dovoljno toga.

Ovo je ključna stvar: nova metrika performansi je propusnost, a ne kašnjenje. Potreban je za podatke u velikom obimu i norma je u modernoj infrastrukturi podataka.

Iako su referentne vrijednosti dobar način za određivanje performansi, one se ne mogu precizno izmjeriti prije pokretanja aplikacije u okruženju. Tek nakon toga možete reći gdje je tačno usko grlo: u softveru, diskovima, mreži ili na računarskom nivou.

Skalabilnost

Skalabilnost se odnosi na broj petabajta koji se uklapaju u jedan imenski prostor. Ono što proizvođači tvrde da je laka skalabilnost, ono što ne kažu je da kako se skaliraju, masivni monolitni sistemi postaju krhki, složeni, nestabilni i skupi.

Nova metrika za skalabilnost je broj imenskih prostora ili klijenata koje možete opsluživati. Metrika je uzeta direktno od hiperskalera, gdje su blokovi za skladištenje mali, ali su u razmjerima na milijarde jedinica. Općenito, ovo je metrika oblaka.

Kada su građevinski blokovi mali, lakše ih je optimizirati za sigurnost, kontrolu pristupa, upravljanje politikama, upravljanje životnim ciklusom i ažuriranja koja ne ometaju. I na kraju osigurati produktivnost. Veličina građevnog bloka je funkcija upravljivosti područja kvara, na koji se način grade visoko otporni sistemi.

Višestanarstvo ima mnoge karakteristike. Iako dimenzija govori o tome kako organizacije pružaju pristup podacima i aplikacijama, ona se također odnosi na same aplikacije i logiku koja stoji iza njihovog izolovanja jedne od drugih.

Karakteristike modernog pristupa multi-klijentu:

  • Za kratko vrijeme broj klijenata može porasti od nekoliko stotina do nekoliko miliona.
  • Klijenti su potpuno izolovani jedni od drugih. To im omogućava da pokreću različite verzije istog softvera i pohranjuju objekte s različitim konfiguracijama, dozvolama, funkcijama, nivoima sigurnosti i održavanja. Ovo je neophodno prilikom skaliranja na nove servere, ažuriranja i geografske lokacije.
  • Skladištenje je elastično skalabilno, resursi se obezbjeđuju na zahtjev.
  • Svakom operacijom upravlja API i automatizirana je bez ljudske intervencije.
  • Softver može biti smješten u kontejnerima i koristiti standardne sisteme orkestracije kao što je Kubernetes.

S3 kompatibilan

Amazon S3 API je de facto standard za skladištenje objekata. Svaki dobavljač softvera za skladištenje objekata tvrdi da je kompatibilan s njim. Kompatibilnost sa S3 je binarna: ili je u potpunosti implementiran ili nije.

U praksi, postoje stotine ili hiljade scenarija na rubu gdje nešto krene po zlu kada se koristi skladištenje objekata. Posebno od dobavljača vlasničkog softvera i usluga. Njegovi glavni slučajevi upotrebe su direktno arhiviranje ili sigurnosna kopija, tako da postoji nekoliko razloga za pozivanje API-ja, slučajevi upotrebe su homogeni.

Softver otvorenog koda ima značajne prednosti. Pokriva većinu rubnih scenarija, s obzirom na veličinu i raznolikost aplikacija, operativnih sistema i hardverskih arhitektura.

Sve je to važno za programere aplikacija, pa je vrijedno testirati aplikaciju s dobavljačima prostora za pohranu. Otvoreni kod čini proces lakšim – lakše je razumjeti koja je platforma prava za vašu aplikaciju. Provajder se može koristiti kao jedinstvena tačka ulaska u skladište, što znači da će zadovoljiti vaše potrebe. 

Open source znači: aplikacije nisu vezane za dobavljača i transparentnije su. Ovo osigurava dug životni ciklus aplikacije.

I još nekoliko napomena o otvorenom kodu i S3. 

Ako koristite aplikaciju za velike podatke, S3 SELECT poboljšava performanse i efikasnost za red veličine. To čini korištenjem SQL-a za preuzimanje samo onih objekata koji su vam potrebni iz skladišta.

Ključna stvar je podrška za bucket notifikacije. Bucket notifikacije olakšavaju računanje bez servera, važnu komponentu svake mikroservisne arhitekture koja se isporučuje kao usluga. S obzirom na to da je skladištenje objekata efektivno skladištenje u oblaku, ova mogućnost postaje kritična kada skladište objekata koriste aplikacije zasnovane na oblaku.

Konačno, implementacija S3 mora podržavati API-je za šifriranje Amazon S3 na strani servera: SSE-C, SSE-S3, SSE-KMS. Još bolje, S3 podržava zaštitu od neovlaštenog pristupa koja je zaista sigurna. 

Odgovor na neuspjehe

metrika koja se vjerovatno često zanemaruje je kako sistem rješava kvarove. Greške se dešavaju iz raznih razloga, a pohrana objekata mora ih sve nositi.

Na primjer, postoji jedna tačka kvara, metrika toga je nula.

Nažalost, mnogi sistemi za skladištenje objekata koriste posebne čvorove koji moraju biti omogućeni da bi klaster ispravno funkcionirao. To uključuje čvorove imena ili servere metapodataka - ovo stvara jednu tačku kvara.

Čak i tamo gdje postoji više tačaka kvara, sposobnost da se izdrži katastrofalni neuspjeh je najvažnija. Diskovi otkazuju, serveri otkazuju. Ključno je kreirati softver dizajniran za rješavanje kvara kao normalnog stanja. Ako disk ili čvor pokvari, takav softver će nastaviti raditi bez promjena.

Ugrađena zaštita od brisanja podataka i degradacije podataka osigurava da možete izgubiti onoliko diskova ili čvorova koliko imate paritetnih blokova — obično polovinu diskova. Tek tada softver neće moći vratiti podatke.

Kvar se rijetko testira pod opterećenjem, ali takvo testiranje je obavezno. Simulacija kvara opterećenja će pokazati ukupne troškove nastale nakon kvara.

Dosljednost

Rezultat konzistentnosti od 100% naziva se i stroga konzistentnost. Konzistentnost je ključna komponenta svakog sistema skladištenja, ali jaka doslednost je retka. Na primjer, Amazon S3 ListObject nije striktno dosljedan, dosljedan je samo na kraju.

Šta se podrazumeva pod strogom doslednošću? Za sve operacije koje slijede nakon potvrđene PUT operacije, mora se dogoditi sljedeće:

  • Ažurirana vrijednost je vidljiva prilikom čitanja s bilo kojeg čvora.
  • Ažuriranje je zaštićeno od redundantnosti kvara čvora.

To znači da ako povučete utikač usred snimanja, ništa neće biti izgubljeno. Sistem nikada ne vraća oštećene ili zastarjele podatke. Ovo je visoka traka koja je važna u mnogim scenarijima, od transakcijskih aplikacija do sigurnosnog kopiranja i oporavka.

zaključak

Ovo su nove metrike za pohranu objekata koje odražavaju obrasce korištenja u današnjim organizacijama, gdje su performanse, konzistentnost, skalabilnost, domeni grešaka i kompatibilnost sa S3 osnovni elementi za aplikacije u oblaku i analitiku velikih podataka. Preporučujem korištenje ove liste kao dodatak cijeni kada gradite moderne stekove podataka. 

O pohrani objekata Mail.ru Cloud Solutions: S3 arhitektura. 3 godine evolucije Mail.ru Cloud Storage.

Šta još pročitati:

  1. Primjer aplikacije vođene događajima zasnovane na webhookovima u S3 objektnoj pohrani Mail.ru Cloud Solutions.
  2. Više od Ceph-a: MCS cloud block memorija 
  3. Rad sa Mail.ru Cloud Solutions S3 skladištenjem objekata kao sistemom datoteka.
  4. Naš Telegram kanal s vijestima o ažuriranjima za S3 pohranu i druge proizvode

izvor: www.habr.com

Dodajte komentar