De belangrijkste oorzaak van ongevallen in datacenters is de pakking tussen de computer en de stoel

Het onderwerp zware ongelukken in moderne datacenters roept vragen op die in het eerste artikel niet zijn beantwoord - we hebben besloten het te ontwikkelen.

De belangrijkste oorzaak van ongevallen in datacenters is de pakking tussen de computer en de stoel

Volgens statistieken van het Uptime Institute houdt het merendeel van de incidenten in datacenters verband met storingen in het stroomvoorzieningssysteem; zij zijn verantwoordelijk voor 39% van de incidenten. Ze worden gevolgd door de menselijke factor, die verantwoordelijk is voor nog eens 24% van de ongevallen. De derde belangrijkste reden (15%) was het falen van het airconditioningsysteem, en op de vierde plaats (12%) waren natuurrampen. Het totale aandeel van andere problemen bedraagt ​​slechts 10%. Zonder de gegevens van een gerespecteerde organisatie in twijfel te trekken, zullen we iets gebruikelijks bij verschillende ongevallen onder de aandacht brengen en proberen te begrijpen of deze voorkomen hadden kunnen worden. Spoiler: het is in de meeste gevallen mogelijk.

De wetenschap van contacten

Simpel gezegd zijn er slechts twee problemen met de stroomvoorziening: óf er is geen contact waar het zou moeten zijn, óf er is contact waar er geen contact zou moeten zijn. Je kunt lang praten over de betrouwbaarheid van moderne ononderbroken stroomvoorzieningssystemen, maar ze redden je niet altijd. Neem het spraakmakende geval van het datacenter van British Airways, dat eigendom is van moederbedrijf International Airlines Group. Er zijn twee van dergelijke accommodaties in de buurt van de luchthaven Heathrow: Boadicea House en Comet House. Bij de eerste hiervan vond op 27 mei 2017 een accidentele stroomstoring plaats, wat leidde tot overbelasting en uitval van het UPS-systeem. Als gevolg hiervan raakte een deel van de IT-apparatuur fysiek beschadigd en duurde het drie dagen om de laatste ramp op te lossen.

De luchtvaartmaatschappij moest meer dan duizend vluchten annuleren of herplannen, ongeveer 75 duizend passagiers konden niet op tijd vliegen - $ 128 miljoen werd uitgegeven aan het betalen van compensatie, nog afgezien van de kosten die nodig zijn om de functionaliteit van datacenters te herstellen. De geschiedenis van de redenen voor de black-out is onduidelijk. Als je de resultaten van het interne onderzoek, aangekondigd door Willie Walsh, CEO van de International Airlines Group, mag geloven, was dit te wijten aan een fout van ingenieurs. Het ononderbroken stroomvoorzieningssysteem moest echter zo'n uitschakeling weerstaan ​​- daarom werd het geïnstalleerd. Het datacenter werd beheerd door specialisten van het outsourcingbedrijf CBRE Managed Services, dus British Airways probeerde het bedrag van de schade via een Londense rechtbank te verhalen.

De belangrijkste oorzaak van ongevallen in datacenters is de pakking tussen de computer en de stoel

Stroomuitval doet zich in vergelijkbare scenario's voor: eerst is er sprake van een black-out door een fout van de elektriciteitsleverancier, soms door slecht weer of interne problemen (waaronder menselijke fouten), en dan kan het ononderbroken stroomvoorzieningssysteem de belasting niet aan of kan er kortsluiting optreden. -Termijnonderbreking van de sinusgolf veroorzaakt uitval van veel diensten, waardoor herstel veel tijd en geld kost. Is het mogelijk om dergelijke ongelukken te voorkomen? Ongetwijfeld. Als je het systeem correct ontwerpt, zijn zelfs de makers van grote datacenters niet immuun voor fouten.

Menselijke factor

Wanneer de directe oorzaak van een incident het onjuiste handelen van het datacenterpersoneel is, hebben de problemen meestal (maar niet altijd) invloed op het softwaregedeelte van de IT-infrastructuur. Dergelijke ongelukken komen zelfs in grote bedrijven voor. In februari 2017 werd door een verkeerd aangeworven teamlid van de technische operatiegroep van een van de datacenters een deel van de Amazon Web Services-servers uitgeschakeld. Er is een fout opgetreden bij het debuggen van het factureringsproces voor klanten van Amazon Simple Storage Service (S3) in de cloudopslag. Een medewerker probeerde een aantal virtuele servers te verwijderen die door het facturatiesysteem werden gebruikt, maar stuitte op een groter cluster.

De belangrijkste oorzaak van ongevallen in datacenters is de pakking tussen de computer en de stoel

Als gevolg van een technische fout zijn servers met belangrijke Amazon-softwaremodules voor cloudopslag verwijderd. Het eerste getroffen was het indexeringssubsysteem, dat informatie bevat over de metagegevens en locatie van alle S3-objecten in de Amerikaanse regio US-OOST-1. Het incident had ook gevolgen voor het subsysteem dat wordt gebruikt om gegevens te hosten en de beschikbare ruimte voor opslag te beheren. Na het verwijderen van de virtuele machines moesten deze twee subsystemen volledig opnieuw worden opgestart, en toen stonden de technici van Amazon voor een verrassing: de openbare cloudopslag kon lange tijd niet voldoen aan de verzoeken van klanten.

De impact was wijdverbreid, aangezien veel grote bronnen Amazon S3 gebruiken. De storingen troffen Trello, Coursera, IFTTT en, het meest onaangenaam, de diensten van grote Amazon-partners uit de S&P 500-lijst. De schade is in dergelijke gevallen moeilijk te berekenen, maar bedroeg in de buurt van honderden miljoenen Amerikaanse dollars. Zoals u kunt zien, is één verkeerd commando voldoende om de service van het grootste cloudplatform uit te schakelen. Dit is geen op zichzelf staand geval; op 16 mei 2019 werd tijdens onderhoudswerkzaamheden de Yandex.Cloud-service verwijderd virtuele machines van gebruikers in de ru-central1-c-zone die minstens één keer de status OPGESCHORT hadden. Hier zijn klantgegevens al beschadigd, waarvan een deel onherstelbaar verloren is gegaan. Natuurlijk zijn mensen onvolmaakt, maar moderne informatiebeveiligingssystemen zijn al lang in staat de acties van bevoorrechte gebruikers te monitoren voordat ze de door hen ingevoerde opdrachten uitvoeren. Als dergelijke oplossingen in Yandex of Amazon worden geïmplementeerd, kunnen dergelijke incidenten worden vermeden.

De belangrijkste oorzaak van ongevallen in datacenters is de pakking tussen de computer en de stoel

Bevroren koeling

In januari 2017 vond een zwaar ongeval plaats in het Dmitrov-datacenter van het bedrijf Megafon. Vervolgens daalde de temperatuur in de regio Moskou tot −35 °C, wat leidde tot het uitvallen van het koelsysteem van de faciliteit. De persdienst van de exploitant sprak niet specifiek over de redenen voor het incident - Russische bedrijven zijn uiterst terughoudend om te praten over ongelukken in de faciliteiten die zij bezitten; in termen van publiciteit lopen we ver achter op het Westen. Er circuleerde een versie op sociale netwerken over het bevriezen van koelvloeistof in langs de straat aangelegde leidingen en het lekken van ethyleenglycol. Volgens haar kon de operatiedienst vanwege lange vakanties niet snel 30 ton koelvloeistof verkrijgen en stapte ze uit met geïmproviseerde middelen, waarbij ze geïmproviseerde vrije koeling organiseerde in strijd met de regels voor de bediening van het systeem. De strenge kou verergerde het probleem: in januari werd Rusland plotseling getroffen door de winter, hoewel niemand dat had verwacht. Als gevolg hiervan moest het personeel de stroom naar een deel van de serverracks uitschakelen, waardoor sommige operatordiensten twee dagen niet beschikbaar waren.

De belangrijkste oorzaak van ongevallen in datacenters is de pakking tussen de computer en de stoel

Waarschijnlijk kunnen we hier praten over een weersafwijking, maar dergelijke vorst is niet ongebruikelijk voor de hoofdstedelijke regio. In de winter kunnen de temperaturen in de regio Moskou naar lagere niveaus dalen, dus worden datacenters gebouwd met de verwachting van een stabiele werking bij -42°C. Meestal falen koelsystemen bij koud weer vanwege een onvoldoende hoge concentratie glycolen en overtollig water in de koelvloeistofoplossing. Er zijn ook problemen met de installatie van leidingen of met misrekeningen bij het ontwerpen en testen van het systeem, voornamelijk in verband met de wens om geld te besparen. Hierdoor ontstaat er uit het niets een ernstig ongeval dat voorkomen had kunnen worden.

Natuurrampen

Meestal verstoren onweersbuien en/of orkanen de technische infrastructuur van een datacenter, wat leidt tot serviceonderbrekingen en/of fysieke schade aan apparatuur. Incidenten veroorzaakt door slecht weer komen vrij vaak voor. In 2012 raasde orkaan Sandy met hevige regenval over de westkust van de Verenigde Staten. Het Peer 1-datacenter is gevestigd in een hoogbouwgebouw in Lower Manhattan externe voeding verloren, nadat het zoute zeewater de kelders overspoelde. De noodgeneratoren van de faciliteit bevonden zich op de 18e verdieping en hun brandstofvoorraad was beperkt - regels die in New York werden ingevoerd na de terroristische aanslagen van 9 september verbieden de opslag van grote hoeveelheden brandstof op de bovenste verdiepingen.

De brandstofpomp viel ook uit, dus het personeel was een aantal dagen bezig met het handmatig naar de generatoren slepen van diesel. De heldenmoed van het team heeft het datacenter van een ernstig ongeval gered, maar was dat echt nodig? We leven op een planeet met een stikstof-zuurstofatmosfeer en veel water. Onweersbuien en orkanen komen hier vaak voor (vooral in kustgebieden). Ontwerpers doen er waarschijnlijk goed aan om de risico's in overweging te nemen en een geschikt ononderbroken stroomvoorzieningssysteem te bouwen. Of kies in ieder geval een geschiktere locatie voor het datacenter dan een hoogbouw op een eiland.

Al de rest

Uptime Institute identificeert een verscheidenheid aan incidenten in deze categorie, waarvan het moeilijk is om er een typisch voorbeeld uit te kiezen. Diefstal van koperkabels, auto's die tegen datacentra, elektriciteitskabelsteunen en transformatorstations botsen, branden, graafmachinebestuurders die de optiek beschadigen, knaagdieren (ratten, konijnen en zelfs wombats, die eigenlijk buideldieren zijn), maar ook degenen die graag oefenen met schieten op draden - het menu is uitgebreid. Stroomstoringen kunnen er zelfs voor zorgen stelen elektriciteit illegale marihuanaplantage. In de meeste gevallen worden specifieke mensen de boosdoeners van het incident, dat wil zeggen dat we opnieuw te maken hebben met de menselijke factor, wanneer het probleem een ​​voor- en achternaam heeft. Zelfs als het ongeval op het eerste gezicht te maken heeft met een technisch defect of natuurrampen, kan het voorkomen worden, op voorwaarde dat de faciliteit goed ontworpen en correct geëxploiteerd wordt. De enige uitzonderingen zijn gevallen van kritieke schade aan de datacenterinfrastructuur of vernietiging van gebouwen en constructies als gevolg van een natuurramp. Dit zijn echte overmachtsomstandigheden en alle andere problemen worden veroorzaakt door de pakking tussen de computer en de stoel - misschien wel het meest onbetrouwbare onderdeel van elk complex systeem.

Bron: www.habr.com

Voeg een reactie