Nové metriky ukladania objektov

Nové metriky ukladania objektovLietajúca pevnosť od Nele-Diel

Príkaz na ukladanie objektov S3 Cloudové úložisko Mail.ru preložil článok o tom, aké kritériá sú dôležité pri výbere úložiska objektov. Nasleduje text z pohľadu autora.

Pokiaľ ide o ukladanie objektov, ľudia zvyčajne myslia len na jednu vec: cenu za TB/GB. Samozrejme, táto metrika je dôležitá, ale robí prístup jednostranným a prirovnáva ukladanie objektov k nástroju na ukladanie archívov. Navyše tento prístup znižuje dôležitosť ukladania objektov pre zásobník podnikových technológií.

Pri výbere úložiska objektov by ste mali venovať pozornosť piatim charakteristikám:

  • výkonnosti;
  • škálovateľnosť;
  • S3 kompatibilný;
  • reakcia na poruchy;
  • bezúhonnosť.

Týchto päť charakteristík predstavuje spolu s cenou nové metriky pre ukladanie objektov. Pozrime sa na ne všetky.

produktivita

Tradičným objektom chýba výkon. Poskytovatelia služieb to neustále obetovali v honbe za nízkymi cenami. S moderným skladovaním predmetov sú však veci iné.

Rôzne úložné systémy sa približujú alebo dokonca prekračujú rýchlosť Hadoopu. Moderné požiadavky na rýchlosť čítania a zápisu: od 10 GB/s pre pevné disky až do 35 GB/s pre NVMe. 

Táto priepustnosť je dostatočná pre Spark, Presto, Tensorflow, Teradata, Vertica, Splunk a ďalšie moderné výpočtové rámce v analytickom zásobníku. Skutočnosť, že databázy MPP sú konfigurované na ukladanie objektov, naznačuje, že sa čoraz častejšie používajú ako primárne úložisko.

Ak váš úložný systém neposkytuje rýchlosť, ktorú potrebujete, nemôžete použiť údaje a extrahovať z nich hodnotu. Aj keď načítate údaje z úložiska objektov do štruktúry spracovania v pamäti, stále budete potrebovať šírku pásma na prenos údajov do pamäte az pamäte. Staršie obchody s objektmi ho nemajú dostatok.

Toto je kľúčový bod: novou metrikou výkonu je priepustnosť, nie latencia. Vyžaduje sa pre dáta vo veľkom rozsahu a je štandardom v modernej dátovej infraštruktúre.

Zatiaľ čo benchmarky sú dobrým spôsobom na určenie výkonu, nemožno ho presne zmerať pred spustením aplikácie v prostredí. Až po ňom môžete povedať, kde presne je úzke miesto: v softvéri, diskoch, sieti alebo na výpočtovej úrovni.

Škálovateľnosť

Škálovateľnosť sa vzťahuje na počet petabajtov, ktoré sa zmestia do jedného menného priestoru. Čo dodávatelia tvrdia, je ľahká škálovateľnosť, ale nehovoria, že masívne monolitické systémy sa pri škálovaní stávajú krehkými, zložitými, nestabilnými a drahými.

Novou metrikou pre škálovateľnosť je počet menných priestorov alebo klientov, ktorým môžete slúžiť. Metrika je prevzatá priamo z hyperškálovačov, kde sú stavebné bloky úložiska malé, ale škálovateľné na miliardy jednotiek. Vo všeobecnosti ide o cloudovú metriku.

Keď sú stavebné bloky malé, je jednoduchšie ich optimalizovať z hľadiska bezpečnosti, riadenia prístupu, správy politík, správy životného cyklu a nerušivých aktualizácií. A v konečnom dôsledku zabezpečiť produktivitu. Veľkosť stavebného bloku je funkciou ovládateľnosti oblasti zlyhania, čo je spôsob, akým sa stavajú vysoko odolné systémy.

Viacnásobný nájom má mnoho charakteristík. Hoci dimenzia hovorí o tom, ako organizácie poskytujú prístup k údajom a aplikáciám, týka sa aj samotných aplikácií a logiky ich vzájomnej izolácie.

Charakteristika moderného prístupu k multiklientom:

  • V krátkom čase môže počet klientov narásť z niekoľkých stoviek na niekoľko miliónov.
  • Klienti sú od seba úplne izolovaní. To im umožňuje spúšťať rôzne verzie toho istého softvéru a ukladať objekty s rôznymi konfiguráciami, povoleniami, funkciami, úrovňami zabezpečenia a údržby. Je to potrebné pri škálovaní na nové servery, aktualizácie a geografické oblasti.
  • Úložisko je elasticky škálovateľné, zdroje sa poskytujú na požiadanie.
  • Každá operácia je riadená API a je automatizovaná bez ľudského zásahu.
  • Softvér môže byť hosťovaný v kontajneroch a používať štandardné orchestračné systémy, ako je Kubernetes.

S3 kompatibilný

Amazon S3 API je de facto štandardom pre ukladanie objektov. Každý dodávateľ softvéru na ukladanie objektov tvrdí, že je s ním kompatibilný. Kompatibilita s S3 je binárna: buď je plne implementovaná, alebo nie je.

V praxi existujú stovky alebo tisíce okrajových scenárov, kde sa pri používaní ukladania objektov niečo pokazí. Najmä od poskytovateľov proprietárneho softvéru a služieb. Jeho hlavnými prípadmi použitia sú priama archivácia alebo zálohovanie, takže dôvodov na volanie API je málo, prípady použitia sú homogénne.

Open source softvér má významné výhody. Pokrýva väčšinu okrajových scenárov vzhľadom na veľkosť a rozmanitosť aplikácií, operačných systémov a hardvérových architektúr.

Toto všetko je dôležité pre vývojárov aplikácií, preto sa oplatí otestovať aplikáciu u poskytovateľov úložiska. Open source zjednodušuje proces – ľahšie pochopíte, ktorá platforma je pre vašu aplikáciu vhodná. Poskytovateľ môže byť použitý ako jediný vstupný bod do úložiska, čo znamená, že bude vyhovovať vašim potrebám. 

Open source znamená: aplikácie nie sú viazané na dodávateľa a sú transparentnejšie. To zaisťuje dlhú životnosť aplikácie.

A ešte pár poznámok o open source a S3. 

Ak máte spustenú aplikáciu pre veľké dáta, S3 SELECT rádovo zvyšuje výkon a efektivitu. Robí to tak, že pomocou SQL načítava z úložiska iba tie objekty, ktoré potrebujete.

Kľúčovým bodom je podpora bucket notifikácií. Oznámenia o segmente uľahčujú prácu bez servera, čo je dôležitá súčasť akejkoľvek architektúry mikroslužieb, ktorá sa dodáva ako služba. Vzhľadom na to, že ukladanie objektov je efektívne cloudové úložisko, táto schopnosť sa stáva kritickou, keď úložisko objektov používajú cloudové aplikácie.

Nakoniec, implementácia S3 musí podporovať šifrovacie API na strane servera Amazon S3: SSE-C, SSE-S3, SSE-KMS. Ešte lepšie je, že S3 podporuje ochranu proti neoprávnenej manipulácii, ktorá je skutočne bezpečná. 

Reakcia na zlyhania

Metrikou, ktorá je pravdepodobne často prehliadaná, je spôsob, akým systém rieši zlyhania. Zlyhania sa vyskytujú z rôznych dôvodov a ukladanie objektov ich musí zvládnuť všetky.

Napríklad existuje jediný bod zlyhania, ktorého metrika je nula.

Bohužiaľ, veľa systémov na ukladanie objektov používa špeciálne uzly, ktoré musia byť povolené, aby klaster správne fungoval. Patria sem uzly názvov alebo servery metadát – to vytvára jediný bod zlyhania.

Aj keď existuje viacero bodov zlyhania, schopnosť vydržať katastrofické zlyhanie je prvoradá. Zlyhajú disky, zlyhajú servery. Kľúčom je vytvoriť softvér navrhnutý tak, aby zvládal zlyhanie ako normálny stav. Ak disk alebo uzol zlyhá, takýto softvér bude naďalej fungovať bez zmien.

Zabudovaná ochrana proti vymazaniu údajov a degradácii údajov zaisťuje, že môžete stratiť toľko diskov alebo uzlov, koľko máte paritných blokov – zvyčajne polovicu diskov. Až potom softvér nebude môcť vrátiť údaje.

Porucha sa zriedka testuje pri zaťažení, ale takéto testovanie je povinné. Simulácia výpadku záťaže ukáže celkové náklady vzniknuté po výpadku.

Dôslednosť

Skóre konzistencie 100 % sa tiež nazýva prísna konzistencia. Konzistentnosť je kľúčovou súčasťou každého úložného systému, ale silná konzistencia je zriedkavá. Napríklad Amazon S3 ListObject nie je striktne konzistentný, konzistentný je až na konci.

Čo znamená prísna dôslednosť? Pre všetky operácie po potvrdenej operácii PUT musí nastať nasledovné:

  • Aktualizovaná hodnota je viditeľná pri čítaní z ľubovoľného uzla.
  • Aktualizácia je chránená proti redundancii zlyhania uzla.

To znamená, že ak vytiahnete zástrčku uprostred nahrávky, nič sa nestratí. Systém nikdy nevracia poškodené alebo neaktuálne údaje. Toto je vysoká latka, na ktorej záleží v mnohých scenároch, od transakčných aplikácií až po zálohovanie a obnovu.

Záver

Ide o nové metriky ukladania objektov, ktoré odrážajú vzorce používania v dnešných organizáciách, kde sú výkon, konzistencia, škálovateľnosť, chybové domény a kompatibilita S3 základnými kameňmi pre cloudové aplikácie a analýzu veľkých dát. Pri budovaní moderných dátových zásobníkov odporúčam okrem ceny použiť aj tento zoznam. 

O ukladaní objektov Cloud Solutions Mail.ru: Architektúra S3. 3 roky vývoja cloudového úložiska Mail.ru.

Čo ešte čítať:

  1. Príklad aplikácie riadenej udalosťami založenej na webhookoch v úložisku objektov S3 Mail.ru Cloud Solutions.
  2. Viac ako Ceph: cloudové blokové úložisko MCS 
  3. Práca s ukladaním objektov Mail.ru Cloud Solutions S3 ako súborovým systémom.
  4. Náš kanál Telegram s novinkami o aktualizáciách úložiska S3 a ďalších produktov

Zdroj: hab.com

Pridať komentár