Nieuwe objectopslagstatistieken

Nieuwe objectopslagstatistiekenVliegend fort van Nele-Diel

S3 objectopslagopdracht Mail.ru-cloudopslag een artikel vertaald over welke criteria belangrijk zijn bij het kiezen van een objectopslag. Hieronder volgt de tekst vanuit het perspectief van de auteur.

Als het om objectopslag gaat, denken mensen doorgaans maar aan één ding: de prijs per TB/GB. Natuurlijk is deze maatstaf belangrijk, maar het maakt de aanpak eenzijdig en stelt objectopslag gelijk aan een hulpmiddel voor archiefopslag. Bovendien vermindert deze aanpak het belang van objectopslag voor de enterprise-technologiestack.

Bij het kiezen van objectopslag moet u op vijf kenmerken letten:

  • prestaties;
  • schaalbaarheid;
  • S3-compatibel;
  • reactie op mislukkingen;
  • integriteit.

Deze vijf kenmerken zijn, samen met de kosten, nieuwe maatstaven voor objectopslag. Laten we ze allemaal bekijken.

Производительность

Traditionele objectwinkels presteren niet goed. Dienstverleners offerden het voortdurend op in het nastreven van lage prijzen. Bij moderne objectopslag liggen de zaken echter anders.

Diverse opslagsystemen benaderen of overschrijden zelfs de snelheid van Hadoop. Moderne eisen voor lees- en schrijfsnelheid: van 10 GB/s voor harde schijven tot 35 GB/s voor NVMe. 

Deze doorvoer is voldoende voor Spark, Presto, Tensorflow, Teradata, Vertica, Splunk en andere moderne computerframeworks in de analytics-stack. Het feit dat MPP-databases worden geconfigureerd voor objectopslag suggereert dat deze steeds vaker als primaire opslag wordt gebruikt.

Als uw opslagsysteem niet de vereiste snelheid levert, kunt u de gegevens niet gebruiken en er waarden uit halen. Zelfs als u gegevens uit objectopslag ophaalt naar een verwerkingsstructuur in het geheugen, heeft u nog steeds bandbreedte nodig om gegevens van en naar het geheugen over te dragen. Voor verouderde objectopslagplaatsen is dit niet voldoende.

Dit is het belangrijkste punt: de nieuwe prestatiemetriek is doorvoer, niet latentie. Het is vereist voor data op grote schaal en is de norm in de moderne data-infrastructuur.

Hoewel benchmarks een goede manier zijn om de prestaties te bepalen, kunnen deze niet nauwkeurig worden gemeten voordat de applicatie in de omgeving wordt uitgevoerd. Pas daarna kun je zeggen waar precies het knelpunt zit: in software, schijven, netwerk of op computerniveau.

Schaalbaarheid

Schaalbaarheid verwijst naar het aantal petabytes dat in één naamruimte past. Wat leveranciers beweren is gemakkelijke schaalbaarheid, maar wat ze niet zeggen is dat enorme monolithische systemen naarmate ze groter worden kwetsbaar, complex, onstabiel en duur worden.

Een nieuwe maatstaf voor schaalbaarheid is het aantal naamruimten of clients dat u kunt bedienen. De metriek is rechtstreeks afkomstig van hyperscalers, waarbij de bouwstenen voor opslag klein zijn, maar kunnen worden geschaald naar miljarden eenheden. Over het algemeen is dit een cloudstatistiek.

Wanneer de bouwstenen klein zijn, zijn ze gemakkelijker te optimaliseren voor beveiliging, toegangscontrole, beleidsbeheer, levenscyclusbeheer en niet-verstorende updates. En uiteindelijk de productiviteit garanderen. De grootte van de bouwsteen is een functie van de beheersbaarheid van het faalgebied, de manier waarop uiterst veerkrachtige systemen worden gebouwd.

Multitenancy heeft veel kenmerken. Hoewel de dimensie betrekking heeft op de manier waarop organisaties toegang bieden tot gegevens en applicaties, verwijst deze ook naar de applicaties zelf en de logica achter het isoleren ervan van elkaar.

Kenmerken van een moderne aanpak van multi-client:

  • In korte tijd kan het aantal klanten groeien van enkele honderden naar enkele miljoenen.
  • Cliënten zijn volledig van elkaar geïsoleerd. Hierdoor kunnen ze verschillende versies van dezelfde software uitvoeren en objecten opslaan met verschillende configuraties, machtigingen, functies, beveiliging en onderhoudsniveaus. Dit is nodig bij het schalen naar nieuwe servers, updates en geografische gebieden.
  • De opslag is elastisch schaalbaar, bronnen worden op aanvraag geleverd.
  • Elke bewerking wordt bestuurd door een API en wordt geautomatiseerd zonder menselijke tussenkomst.
  • Software kan worden gehost in containers en kan gebruik maken van standaardorkestratiesystemen zoals Kubernetes.

S3-compatibel

Amazon S3 API is de de facto standaard voor objectopslag. Elke leverancier van objectopslagsoftware beweert ermee compatibel te zijn. Compatibiliteit met S3 is binair: het is volledig geïmplementeerd, of niet.

In de praktijk zijn er honderden of duizenden edge-scenario’s waarin er iets misgaat bij het gebruik van objectopslag. Vooral van aanbieders van propriëtaire software en diensten. De belangrijkste gebruiksscenario's zijn directe archivering of back-up, dus er zijn weinig redenen om de API aan te roepen; de gebruiksscenario's zijn homogeen.

Open source-software heeft aanzienlijke voordelen. Het bestrijkt de meeste edge-scenario's, gezien de omvang en verscheidenheid van applicaties, besturingssystemen en hardware-architecturen.

Dit alles is belangrijk voor applicatieontwikkelaars, dus het is de moeite waard om de applicatie te testen bij opslagproviders. Open source maakt het proces eenvoudiger: het is gemakkelijker om te begrijpen welk platform geschikt is voor uw toepassing. De aanbieder kan worden gebruikt als enig toegangspunt tot de opslag en voldoet dus aan uw behoeften. 

Open source betekent: applicaties zijn niet gebonden aan een leverancier en zijn transparanter. Dit garandeert een lange levensduur van de applicatie.

En nog een paar opmerkingen over open source en S3. 

Als u een big data-applicatie gebruikt, verbetert S3 SELECT de prestaties en efficiëntie met een orde van grootte. Dit gebeurt door SQL te gebruiken om alleen de objecten op te halen die u nodig heeft uit de winkel.

Het belangrijkste punt is ondersteuning voor bucketmeldingen. Bucketmeldingen vergemakkelijken serverloos computergebruik, een belangrijk onderdeel van elke microservice-architectuur die als service wordt geleverd. Aangezien objectopslag in feite cloudopslag is, wordt deze mogelijkheid van cruciaal belang wanneer objectopslag wordt gebruikt door cloudgebaseerde applicaties.

Ten slotte moet de S3-implementatie de Amazon S3-versleutelings-API's aan de serverzijde ondersteunen: SSE-C, SSE-S3, SSE-KMS. Nog beter: S3 ondersteunt sabotagebeveiliging die echt veilig is. 

Reactie op mislukkingen

Een maatstaf die waarschijnlijk vaak over het hoofd wordt gezien, is de manier waarop het systeem met fouten omgaat. Fouten kunnen verschillende oorzaken hebben, en objectopslag moet deze allemaal afhandelen.

Er is bijvoorbeeld één enkel punt van falen, de maatstaf hiervan is nul.

Helaas gebruiken veel objectopslagsystemen speciale knooppunten die moeten worden ingeschakeld om het cluster goed te laten functioneren. Deze omvatten naamknooppunten of metadataservers - dit creëert een single point of fail.

Zelfs als er meerdere faalpunten zijn, is het vermogen om catastrofale mislukkingen te weerstaan ​​van het allergrootste belang. Schijven falen, servers falen. De sleutel is het creëren van software die is ontworpen om falen als een normale situatie te behandelen. Als een schijf of knooppunt uitvalt, blijft dergelijke software zonder wijzigingen werken.

Ingebouwde bescherming tegen gegevenswissing en gegevensdegradatie zorgt ervoor dat u net zoveel schijven of knooppunten kunt verliezen als u pariteitsblokken heeft – meestal de helft van de schijven. Alleen dan kan de software geen gegevens retourneren.

De storing wordt zelden onder belasting getest, maar dergelijke tests zijn verplicht. Door een simulatie van een storing onder belasting worden de cumulatieve kosten weergegeven die na een storing zijn ontstaan.

Samenhang

Een consistentiescore van 100% wordt ook wel strikte consistentie genoemd. Consistentie is een belangrijk onderdeel van elk opslagsysteem, maar sterke consistentie is zeldzaam. Amazon S3 ListObject is bijvoorbeeld niet strikt consistent, het is alleen consistent aan het einde.

Wat wordt bedoeld met strikte consistentie? Voor alle handelingen die volgen op een bevestigde PUT-handeling moet het volgende gebeuren:

  • De bijgewerkte waarde is zichtbaar bij het lezen van elk knooppunt.
  • De update is beveiligd tegen redundantie van knooppuntfouten.

Dit betekent dat als u tijdens een opname de stekker uit het stopcontact trekt, er niets verloren gaat. Het systeem retourneert nooit beschadigde of verouderde gegevens. Dit is een hoge lat die in veel scenario's van belang is, van transactionele toepassingen tot back-up en herstel.

Conclusie

Dit zijn nieuwe objectopslagstatistieken die gebruikspatronen weerspiegelen in hedendaagse organisaties, waar prestaties, consistentie, schaalbaarheid, foutdomeinen en S3-compatibiliteit de bouwstenen zijn voor cloudapplicaties en big data-analyses. Ik raad aan om deze lijst naast de prijs te gebruiken bij het bouwen van moderne datastacks. 

Over objectopslag van Mail.ru Cloud Solutions: S3-architectuur. 3 jaar evolutie van Mail.ru Cloud Storage.

Wat nog meer te lezen:

  1. Een voorbeeld van een event-driven applicatie gebaseerd op webhooks in S3-objectopslag Mail.ru Cloud Solutions.
  2. Meer dan Ceph: MCS-cloudblokopslag 
  3. Werken met Mail.ru Cloud Solutions S3 objectopslag als bestandssysteem.
  4. Ons Telegram-kanaal met nieuws over updates voor S3-opslag en andere producten

Bron: www.habr.com

Voeg een reactie